Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic
Chi Parla Conta: Analizzare l'Influenza dell'Etnia del Parlante sulla Classificazione dell'Odio
I modelli linguistici di grandi dimensioni (LLM) presentano un enorme potenziale applicativo nella moderazione dei contenuti e nella rilevazione del discorso d'odio. Tuttavia, questi modelli presentano vulnerabilità e pregiudizi nei confronti delle comunità emarginate e dei dialetti. Questo studio indaga la robustezza degli LLM nella classificazione del discorso d'odio iniettando marcatori espliciti e impliciti dell'etnia del parlante nell'input. Lo studio rivela che i marcatori dialettali impliciti causano più facilmente inversioni dell'output del modello rispetto ai marcatori espliciti, con percentuali di inversione che variano in base all'etnia, e i modelli più grandi mostrano prestazioni più robuste.
Il problema centrale che questo studio affronta è: Quale è la robustezza dei modelli linguistici di grandi dimensioni nel compito di rilevazione del discorso d'odio quando il testo di input contiene informazioni sull'identità etnica del parlante?
Esigenze Applicative Pratiche: Le tecnologie linguistiche sono sempre più utilizzate per compiti di moderazione dei contenuti, inclusa la rilevazione del discorso d'odio, poiché sono in grado di elaborare grandi volumi di dati
Compito ad Alto Rischio: La rilevazione del discorso d'odio è un compito ad alto rischio che richiede un dispiegamento cauto degli LLM
Sfide Globali: Con l'adozione globale degli LLM, è necessario mantenere l'inclusività per persone di tutte le nazionalità
Problema dei Pregiudizi: È noto che gli LLM presentano pregiudizi nei confronti delle comunità emarginate e dei dialetti, causando trattamenti ingiusti e danni rappresentativi
Vulnerabilità: Gli LLM mostrano fragilità, pregiudizio e incertezza quando sono presenti informazioni aggiuntive non correlate al compito stesso
Preferenza Dialettale: La ricerca esistente mostra che questi modelli favoriscono l'inglese americano, sebbene diverse aree geografiche utilizzino diversi dialetti dell'inglese
Sulla base dei problemi sopra esposti, questo articolo mira ad analizzare sistematicamente l'influenza dell'identità del parlante sulla classificazione del discorso d'odio degli LLM, colmando il divario nella ricerca esistente riguardante l'impatto dell'identità dell'utente.
Primo Studio Sistematico: Uno studio innovativo sull'influenza dell'identità del parlante sulla rilevazione del discorso d'odio degli LLM
Metodo di Marcatura Doppia: Propone un approccio sistematico utilizzando marcatori espliciti e impliciti per informare il modello sull'identità del parlante
Valutazione Sperimentale Completa: Conduce esperimenti completi su 4 modelli linguistici e 2 dataset, rivelando le vulnerabilità del modello in diverse impostazioni
Scoperte Importanti: Scopre che i marcatori dialettali impliciti causano più facilmente inversioni dell'output rispetto ai marcatori espliciti, e i tassi di inversione variano in base all'etnia
Input: Frase in inglese + marcatore di identità etnica del parlante (esplicito o implicito)
Output: Classificazione del discorso d'odio (Hateful/Non-Hateful)
Obiettivo: Analizzare il grado di influenza del marcatore di identità sui risultati della classificazione
Valutazione multidimensionale dei dati dialettali generati:
Accuratezza Dialettale: Se il vocabolario riflette accuratamente il dialetto dell'identità linguistica data
Mantenimento del Contesto: Se la semantica originale e il dialetto vengono mantenuti
Fluidità e Grammatica: Se il testo generato è fluido e grammaticalmente corretto
Utilizzo di Caratteri Latini: Se la frase generata utilizza caratteri inglesi
I risultati della valutazione manuale mostrano un'accuratezza dialettale media di 4/5 punti, con varianza bassa, indicando un'alta qualità di generazione.
Test dell'impatto di altre modifiche sintetiche (parafrasi, variazione della voce, limitazione della lunghezza) sui tassi di inversione:
Parafrasi: H→NH 0,17%, NH→H 0,0%
Variazione della Voce: H→NH 0,08%, NH→H 0,02%
Limitazione della Lunghezza: H→NH 0,16%, NH→H 0,01%
I tassi di inversione di queste modifiche sono significativamente inferiori all'iniezione dialettale, confermando l'impatto speciale dei marcatori di identità.
Ricerca sui Pregiudizi degli LLM: Letteratura ampia che documenta i pregiudizi nei confronti delle comunità emarginate e dei dialetti
Rilevazione del Discorso d'Odio: I metodi tradizionali si concentrano principalmente sul contenuto stesso, con minore considerazione dell'identità del parlante
NLP Interculturale: Ricerca sulle differenze nell'elaborazione del linguaggio in diversi contesti culturali
Elaborazione dei Dialetti: Attenzione alle prestazioni di diversi dialetti dell'inglese nei compiti NLP
Vulnerabilità Universale: Tutti gli LLM testati mostrano diversi gradi di vulnerabilità dopo l'iniezione di marcatori di identità del parlante
Impatto Implicito Maggiore: Le caratteristiche dialettali hanno un impatto maggiore sul modello rispetto alla menzione esplicita dell'identità
La Dimensione Migliora la Robustezza: I modelli più grandi mostrano prestazioni più robuste, ma i pregiudizi persistono
Differenze Etniche Significative: Esistono differenze significative nei tassi di inversione causati da diverse identità etniche
Rischio di Falsi Negativi: I modelli tendono a misclassificare il discorso d'odio come non-odio, potenzialmente portando al mancato rilevamento di contenuti dannosi
Estensione Multilingue: Estensione a dataset multilingui e altri dataset di discorso d'odio
Ricerca sull'Interpretabilità: Condurre ulteriori ricerche sull'interpretabilità, valutando l'impatto preciso di frasi specifiche sui modelli di previsione del modello
Strategie di Mitigazione: Sviluppare metodi e tecniche per ridurre i pregiudizi di identità
Valutazione su Scala Più Ampia: Valutazione su più modelli e dataset più grandi
L'articolo cita diverse ricerche importanti, incluse:
Sap et al. (2019): Rischi di pregiudizio razziale nella rilevazione del discorso d'odio
Field et al. (2021, 2023): Indagini sul razzismo nell'NLP
Harris et al. (2022): Pregiudizio nell'inglese afroamericano nella classificazione del discorso d'odio
Ribeiro et al. (2020): Framework di test comportamentale per modelli NLP CheckList
Valutazione Complessiva: Questo è un articolo di ricerca di significativa importanza nel campo dell'etica dell'IA e dell'equità. Attraverso una progettazione sperimentale sistematica e una valutazione completa, rivela il problema dei pregiudizi di identità negli LLM nel compito di rilevazione del discorso d'odio. Sebbene vi sia ancora spazio per il miglioramento nelle soluzioni, fornisce intuizioni e avvertimenti preziosi per la ricerca e la pratica nel campo.