Jak sztuczna inteligencja uczy się rozpoznawać toksyczne treści online?

Platformy społecznościowe duże i małe walczą o ochronę swoich społeczności przed mową nienawiści, treściami ekstremistycznymi, nękaniem i dezinformacją. Ostatnio skrajnie prawicowi agitatorzy otwarcie pisali o planach szturmu na Kapitol Stanów Zjednoczonych, zanim zrobili to 6 stycznia. Jednym z rozwiązań może być sztuczna inteligencja: opracowanie algorytmów do wykrywania i ostrzegania nas o toksycznych i prowokujących komentarzach oraz oznaczania ich do usunięcia. Ale takie systemy stoją przed dużymi wyzwaniami.

W ostatnich latach rozpowszechnienie w Internecie trolli lub obraźliwego języka gwałtownie wzrosło, a problem jest obecnie powszechny. W niektórych przypadkach toksyczne komentarze online doprowadziły nawet do przemocy w prawdziwym życiu, od religijnego nacjonalizmu w Birmie po neonazistowską propagandę w amerykańskich mediach społecznościowych. Platformy mediów społecznościowych, opierając się na tysiącach recenzentów, walczą o powstrzymanie stale rosnącej ilości szkodliwych zawartość. W 2019 roku zgłoszono, że moderatorzy Facebooka są narażeni na PTSD [zespół stresu pourazowego] w wyniku wielokrotnego narażenia na takie niepokojące treści. Outsourcing tej pracy do uczenia maszynowego może pomóc w zarządzaniu rosnącą ilością szkodliwych treści, jednocześnie ograniczając kontakt z nimi ludzi. Rzeczywiście, wielu gigantów technologicznych od lat używa algorytmów do moderowania treści.

Jednym z takich przykładów jest Jigsaw firmy Google – skupiający się na zwiększaniu bezpieczeństwa internetu. W 2017 r. zainicjowano Conversation AI, wspólny projekt badawczy mający na celu wykrywanie toksycznych komentarzy w Internecie. Jednak narzędzie stworzone w ramach tego projektu o nazwie Perspective spotkało się z poważną krytyką. Jedną z częstych skarg było to, że stworzył ogólny „wynik toksyczności”, który nie był wystarczająco elastyczny, aby sprostać różnym potrzebom różnych platform. Na przykład niektóre witryny sieci Web mogą wymagać wykrywania zagrożeń, ale nie przekleństw, podczas gdy inne mogą mieć przeciwne wymagania.

Inną kwestią było to, że algorytm nauczył się łączyć toksyczne komentarze z nietoksycznymi komentarzami, które zawierały słowa związane z płcią, orientacją seksualną, religią lub niepełnosprawnością. Na przykład jeden użytkownik zgłosił, że proste, neutralne zdania, takie jak „jestem gejem czarną kobietą” lub „jestem głuchą kobietą”, skutkowały wysokimi wynikami toksyczności, a „Jestem mężczyzną” – niskim.

W odpowiedzi na te obawy zespół Conversation AI zaprosił programistów do przeszkolenia własnych algorytmów wykrywania toksyczności i wzięcia ich do udziału w trzech konkursach (jeden w roku) organizowanych w Kaggle, filii Google znanej ze społeczności praktyków uczenia maszynowego. Aby pomóc w trenowaniu modeli AI, Conversation AI udostępniło dwa publiczne zestawy danych zawierające ponad milion toksycznych i nietoksycznych komentarzy z Wikipedii oraz usługę o nazwie Civil Comments. Komentarze zostały ocenione pod względem toksyczności przez annotatorów [osoba, która tworzy komentarze objaśniające] etykietą „bardzo toksyczny” wskazującą na „bardzo nienawistny, agresywny lub lekceważący komentarz, który najprawdopodobniej spowoduje, że opuścisz dyskusję lub zrezygnujesz z dzielenia się swoim punktem widzenia” oraz „toksyczny”, oznaczający „niegrzeczny, lekceważący lub nierozsądny komentarz, który może skłonić Cię do opuszczenia dyskusji lub rezygnacji z dzielenia się swoją perspektywą ”. Niektóre komentarze widziało ponad 10 annotatorów, ze względu na próbkowanie i strategie stosowane do wymuszania dokładności oceniających.

Celem pierwszego wyzwania Jigsaw było zbudowanie wieloznakowego modelu klasyfikacji toksycznych komentarzy z etykietami takimi jak „toksyczny”, „silnie toksyczny”, „groźba”, „zniewaga”, „obsceniczny” i „nienawiść do tożsamości”. Drugi i trzeci wyzwania koncentruje się na kilku konkretnych ograniczeń ich API: minimalizacji niezamierzonej stronniczości wobec predefiniowanych grup tożsamości i szkolenie modeli wielojęzycznych na danych tylko w języku angielskim.

Chociaż wyzwania doprowadziły do ​​sprytnych sposobów ulepszenia modeli toksycznego języka, zespół w Unitary, firmie zajmującej się moderacją treści AI, stwierdził, że żaden z wytrenowanych modeli nie został opublikowany publicznie.

Z tego powodu postanowiono zainspirować się najlepszymi rozwiązaniami firmy Kaggle i wyszkolić własne algorytmy z myślą o ich publicznym udostępnieniu. Aby to zrobić, oparto się na istniejących modelach „transformatorów” do przetwarzania języka naturalnego, takich jak Google BERT. Wiele takich modeli jest dostępnych w bibliotece transformatorów typu open source .

W ten sposób zespół stworzył Detoxify, otwartą, przyjazną dla użytkownika bibliotekę do wykrywania komentarzy, która umożliwia identyfikowanie nieodpowiedniego lub szkodliwego tekstu online. Jego zamierzone zastosowanie ma pomóc naukowcom i użytkownikom/stroną internetowym zidentyfikować potencjalne toksyczne komentarze. W ramach tej biblioteki wydano trzy różne modele odpowiadające każdemu z trzech wyzwań Jigsaw. Podczas gdy najlepsze rozwiązania Kaggle dla każdego wyzwania wykorzystują zestawy modeli, które uśredniają wyniki wielu wytrenowanych modeli, uzyskano podobną wydajność przy tylko jednym modelu na wyzwanie. Do każdego modelu można łatwo uzyskać dostęp poprzez jedną linijkę kodu, a wszystkie modele i kod są publicznie dostępne w serwisie GitHub. Można także zaznajomić się z wersją demonstracyjnej w Google Colab.

Chociaż modele te działają dobrze w wielu przypadkach, ważne jest również, aby zwrócić uwagę na ich ograniczenia. Po pierwsze, te modele będą dobrze działać na przykładach podobnych do danych, na których zostały przeszkolone. Ale prawdopodobnie zawiodą, jeśli napotkają nieznane przykłady toksycznego języka. Zachęca się programistów do dopracowania tych modeli na zestawach danych reprezentatywnych dla ich przypadków użycia.

Ponadto zauważono, że umieszczanie obelg lub wulgaryzmów w komentarzu tekstowym prawie zawsze skutkuje wysokim wynikiem toksyczności, niezależnie od intencji lub tonu autora. Na przykład zdanie „Jestem zmęczony pisaniem tego głupiego eseju” da wynik toksyczności na poziomie 99,7 procent, a usunięcie słowa „głupi” zmieni wynik na 0,05 procent.

Wreszcie, pomimo faktu, że jeden z opublikowanych modeli został specjalnie przeszkolony w zakresie ograniczania niezamierzonych uprzedzeń, wszystkie trzy modele nadal mogą wykazywać pewne uprzedzenia, które mogą budzić wątpliwości etyczne, gdy są używane do umiarkowanej treści.

Chociaż poczyniono znaczne postępy w automatycznym wykrywaniu toksycznymi treściami, wciąż pozostaje długa droga, zanim modele będą w stanie uchwycić rzeczywiste, zniuansowane znaczenie naszego języka – poza prostym zapamiętywaniem poszczególnych słów lub wyrażeń. Oczywiście inwestowanie w lepsze i bardziej reprezentatywne zbiory danych przyniosłoby stopniową poprawę, ale musimy pójść o krok dalej i zacząć interpretować dane w kontekście, co jest kluczowym elementem zrozumienia zachowań online. Pozornie łagodny post tekstowy w mediach społecznościowych, któremu towarzyszyłaby rasistowska symbolika na obrazie lub filmie, można by łatwo przeoczyć, gdybyśmy spojrzeli tylko na tekst. Brak kontekstu często może być przyczyną naszych ludzkich błędnych osądów. Jeśli sztuczna inteligencja ma mieć szansę na zastąpienie “wysiłku ręcznego” na dużą skalę, konieczne jest, aby modelom został przedstawiony pełny obraz.

Źródło: Laura Hanu, James Thewlis, Sasha Haco

Extremists made little secret of ambitions to ‘occupy’ Capitol in weeks before attack

Hate Speech on Social Media: Global Comparisons

How Social Media Spurred Myanmar’s Latest Violence

On Gab, an Extremist-Friendly Site, Pittsburgh Shooting Suspect Aired His Hatred in Full

The Facebook ad boycott marks the end of the road for brand ‘safety’

BODIES IN SEATS

Inside Facebook, Twitter and Google’s AI battle over your social lives

Alphabet’s hate-fighting AI doesn’t understand hate yet

Toxic Comment Classification Challenge

Jigsaw Unintended Bias in Toxicity Classification

Jigsaw Multilingual Toxic Comment Classification

Understanding searches better than ever before

Zdjęcie: Anna Drozdova Getty Images

Tematy:
Subscribe
Powiadom o
guest
0 komentarzy
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x