Un'immagine, un testo umoristico o sarcastico: il meme è pronto. Molti meme suscitano risate negli spettatori. Ma su Internet circolano anche meme che diffondono incitamento all'odio. I modelli di intelligenza artificiale possono aiutare a rilevare questi meme. Ma come funziona quando l'odio è nascosto tra testo e immagine?
Un meme è come un piccolo puzzle. Un'immagine, un testo, qualcosa nel mezzo, una battuta finale che deve essere decifrata. A volte è molto semplice: una brutta battuta che cattura l'attenzione, un chiaro riferimento a un momento quotidiano che tutti abbiamo vissuto. Ma a volte il puzzle è più difficile da risolvere perché la battuta finale è dietro l'angolo e per capirla è necessaria una conoscenza approfondita.
Questa è la particolarità dei meme: spesso il loro messaggio diventa chiaro solo se si pensa insieme al testo e all'immagine. Ed è proprio questo che lo rende uno strumento stilistico popolare per diffondere odio online. Ed è proprio questo che rende così difficile per l'intelligenza artificiale leggerli correttamente.
Ma andiamo con ordine.
Immaginiamo che un'intelligenza artificiale incontri un meme. Vogliamo che questa intelligenza artificiale risponda a una domanda molto semplice: questo è odio? Sì o no, allarme o via libera. Tuttavia, affinché il modello possa rispondere correttamente a questa domanda, deve sapere cosa è l'odio.
Ed ecco il primo problema.
Problema 1: l'odio è soggettivo
C'è questo meme in cui un uomo è seduto accanto a una donna in macchina. "Ciò che ogni uomo prova quando una donna guida", si legge sopra. La smorfia dell'uomo e la sua presa sul corrimano rivelano la sua tensione. Proprio come ogni uomo, quando una donna guida un'auto, questo è il messaggio.
Questo è odio?
Poi c'è questo meme: l'immagine mostra Cenerentola del cartone animato mentre pulisce il pavimento. Sopra c'è scritto: "Se guardi Cenerentola al contrario, è la storia di una donna che impara a stare al suo posto".
Questo è odio?
Meme successivo: Una donna è seduta rannicchiata in un angolo, un uomo è in piedi di fronte a lei, si può vedere il suo pugno chiuso. Il testo recita: "Le donne meritano uguali diritti, e rovesci".
Questo è odio?
L'odio ha diverse forme. Può essere esplicito e punibile, come nell'ultimo meme. Oppure può nascondersi nei cliché e negli stereotipi, come nei primi due meme. Più è sottile, più è difficile rispondere e più dipende da chi sta guardando. La decisione su quando un meme è odioso è soggettiva.
Questo è un problema di rilevamento automatico. Perché il modello di intelligenza artificiale non sa cosa sia l’odio. Una parolaccia, un insulto, un simbolo razzista non hanno alcun significato per la modella. Bisogna insegnargli l'odio e per questo ha bisogno di set di dati con cui esercitarsi. E le persone annotano questi set di dati, cioè prendono ogni singolo meme di pratica e ci appiccicano un'etichetta: questo è odio, questo non è odio. Non esistono sfumature di grigio, perché ogni sfumatura di grigio renderebbe l'annotazione più complessa e costosa.
E così tutti i set di dati utilizzati per addestrare il modello di intelligenza artificiale presentano debolezze legate agli esseri umani: immagini e post che non vengono riconosciuti come contenuti di odio. Termini che non sono stati contrassegnati come incitamento all'odio. Simboli o codici di odio che gli esseri umani non hanno riconosciuto come tali.
Problema 2: l'odio è raro
L'odio fa notizia, domina il dibattito, ma in realtà non è particolarmente comune: se si creasse un set di dati estraendo casualmente contenuti da Internet, l'incitamento all'odio ne rappresenterebbe circa l'uno percento. Ciò significa che se il modello fosse stato addestrato con questa selezione casuale di dati, non avrebbe appreso abbastanza discorsi d'odio da poterli classificare in modo affidabile in seguito. Per prendere buone decisioni è necessario mostrare buoni esempi.
Ecco perché gli annotatori lavorano con set di dati condensati, costituiti per il 20-30% da incitamento all'odio. Allo stesso tempo, però, i dati di training risultano distorti: nella loro compilazione si verificano delle lacune. Può capitare, ad esempio, che quando si fa una scelta si dimentichino intere aree tematiche oppure che non si tenga conto di nuovi argomenti e tendenze. In questo caso, il modello potrebbe facilmente individuare contenuti misogini perché ne ha già mostrati buoni esempi, ma potrebbe avere difficoltà con il razzismo anti-musulmano perché è già stato dimenticato nel set di dati. Oppure trova post misogini su Angela Merkel, ma non su Annalena Baerbock, perché è stato addestrato con parole chiave obsolete.
I modelli di intelligenza artificiale si trovano sempre ad affrontare questi problemi quando devono rilevare messaggi di odio online, che si tratti di un tweet o di una chat su Telegram. Ma con i meme si presenta ora un terzo problema, che pone alla ricerca la sfida più grande fino ad oggi:
Problema 3: l'odio è tra le righe
Ogni meme deve funzionare, anche nel cervello umano: Aha, quell'uomo sta facendo una smorfia, quindi gli uomini hanno paura di lasciare che siano le donne a prendere il volante. E poi, che dire di Cenerentola? Non è condannata all'inizio a pulire e cucinare? Quindi se guardiamo il film al contrario, la donna dovrebbe stare in cucina e allo straccio. E con "uguali diritti e sinistri" apparentemente intendono i pugni dell'uomo, e non uguali diritti per tutti.
Per comprendere il messaggio di questi meme abbiamo bisogno di conoscenze pregresse. Dobbiamo conoscere i cliché e aver visto i film. Dobbiamo leggere l'ironia e il cinismo. Per poter poi stabilire la connessione tra testo e immagine.
Affinché il nostro modello di intelligenza artificiale raggiunga questo obiettivo, ha bisogno di contesto. Invece di cercare singole parole chiave o emoji, è necessario analizzare il contesto di ogni parola e comprenderlo. Solo allora sarà in grado di riconoscere gli schemi in base ai quali vengono scritti i messaggi d'odio. Un buon esempio, seppur innocuo, è la parola inglese “apple”: il modello deve considerare il termine nel suo contesto per capire se si sta parlando del frutto o dell’azienda.
Allo stesso tempo, esplora l'immagine del meme pezzo per pezzo e fa una dichiarazione su ciò che può essere visto. L'intelligenza artificiale non riconoscerebbe un elefante dalla sua forma, ma dalla sua consistenza e dal colore della sua pelle. E le informazioni che raccoglie nel processo devono essere correlate al testo che sta catturando: quale parola potrebbe essere correlata a quale sezione dell'immagine?
Ad esempio, nel meme dell'auto, il modello potrebbe riconoscere che "donna" e "uomo" sono in piedi uno vicino all'altro, potrebbe anche capire che la parola "guida" gioca un ruolo e potrebbe anche identificare l'auto e i volti dell'uomo e della donna. L'ideale sarebbe riconoscere anche che l'uomo è teso: in questo caso, questo sarebbe un fattore chiave per poter classificare l'affermazione come innocua.
La stessa cosa accade con il meme che minaccia la violenza: qui la modella riconosce la parola “donne” e il pugno dell’uomo. Se controlla anche l'umore, potrebbe registrare la scarsa illuminazione e la postura della donna accovacciata nell'angolo.
Problema 4: Efficienza vs. Spiegabilità
Di recente si è sviluppata una nuova tendenza: un metodo chiamato “apprendimento a zero colpi” o “apprendimento a pochi colpi”. Potrebbe non solo velocizzare notevolmente il rilevamento automatico dei meme d'odio, ma anche migliorarne significativamente il tasso di successo. Come? Pre-addestrandolo con enormi quantità di dati di testo e, a seconda del modello, anche di dati di immagini. Riceve, per così dire, una formazione di base prima di quella specialistica. Conosciamo tutti un esempio di tale modello: ChatGPT. Modelli linguistici così ampi possono risolvere un compito immediatamente o con pochi tentativi. Perché hanno una conoscenza pregressa così ampia che solitamente riescono a classificare il testo (e le immagini) in modo molto affidabile.
Nei test iniziali con meme d'odio, questi modelli hanno ottenuto risultati sorprendentemente buoni. I ricercatori sperano quindi che in futuro si possa evitare il laborioso e costoso compito di compilare ed etichettare i set di dati sui discorsi d'odio. Ma i modelli commettono ancora troppi errori; hanno bisogno di lezioni private sul tema del “discorso d’odio”. Quindi si apportano delle modifiche al modello in modo che possa migliorare: contesto e suggerimenti sulle caratteristiche a cui prestare particolare attenzione. Per fare questo, ci si affida ancora una volta ai set di dati limitati, accettando i rischi che ciò comporta.
In linea di principio, più il modello funziona in modo indipendente, più è difficile per gli esseri umani capire perché classifica un meme come odioso o meno. Il rilevamento automatico dei meme d'odio è quindi un compromesso: o si addestra manualmente il modello su varie caratteristiche, ma in tal caso il modello sarà limitato a queste caratteristiche e non troverà nulla che non gli sia stato chiesto di cercare. Oppure ti affidi al modello e al suo approccio non trasparente, ma non riesci a spiegare questa decisione in seguito.
In ogni caso, la decisione finale se un meme diffonde o meno odio spetta comunque a un essere umano. L'intelligenza artificiale può accelerare questa decisione, ma i modelli non sono sufficientemente affidabili per eliminare o bloccare automaticamente. Questo ci riporta a un vecchio problema: l'odio è soggettivo. E un nuovo problema è già in agguato: perché alla fine sono le aziende a decidere quanto a fondo vogliono combattere l'odio sulle loro piattaforme. L'odio genera discussioni, le discussioni generano traffico e il traffico genera vendite. E questo ci porta al problema finale: l'odio è anche redditizio.