2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic

Chi Parla Conta: Analizzare l'Influenza dell'Etnia del Parlante sulla Classificazione dell'Odio

Informazioni Fondamentali

  • ID Articolo: 2410.20490
  • Titolo: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
  • Autori: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 12 ottobre 2025 (arXiv v2)
  • Link dell'Articolo: https://arxiv.org/abs/2410.20490

Riassunto

I modelli linguistici di grandi dimensioni (LLM) presentano un enorme potenziale applicativo nella moderazione dei contenuti e nella rilevazione del discorso d'odio. Tuttavia, questi modelli presentano vulnerabilità e pregiudizi nei confronti delle comunità emarginate e dei dialetti. Questo studio indaga la robustezza degli LLM nella classificazione del discorso d'odio iniettando marcatori espliciti e impliciti dell'etnia del parlante nell'input. Lo studio rivela che i marcatori dialettali impliciti causano più facilmente inversioni dell'output del modello rispetto ai marcatori espliciti, con percentuali di inversione che variano in base all'etnia, e i modelli più grandi mostrano prestazioni più robuste.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale che questo studio affronta è: Quale è la robustezza dei modelli linguistici di grandi dimensioni nel compito di rilevazione del discorso d'odio quando il testo di input contiene informazioni sull'identità etnica del parlante?

Importanza

  1. Esigenze Applicative Pratiche: Le tecnologie linguistiche sono sempre più utilizzate per compiti di moderazione dei contenuti, inclusa la rilevazione del discorso d'odio, poiché sono in grado di elaborare grandi volumi di dati
  2. Compito ad Alto Rischio: La rilevazione del discorso d'odio è un compito ad alto rischio che richiede un dispiegamento cauto degli LLM
  3. Sfide Globali: Con l'adozione globale degli LLM, è necessario mantenere l'inclusività per persone di tutte le nazionalità

Limitazioni degli Approcci Esistenti

  1. Problema dei Pregiudizi: È noto che gli LLM presentano pregiudizi nei confronti delle comunità emarginate e dei dialetti, causando trattamenti ingiusti e danni rappresentativi
  2. Vulnerabilità: Gli LLM mostrano fragilità, pregiudizio e incertezza quando sono presenti informazioni aggiuntive non correlate al compito stesso
  3. Preferenza Dialettale: La ricerca esistente mostra che questi modelli favoriscono l'inglese americano, sebbene diverse aree geografiche utilizzino diversi dialetti dell'inglese

Motivazione della Ricerca

Sulla base dei problemi sopra esposti, questo articolo mira ad analizzare sistematicamente l'influenza dell'identità del parlante sulla classificazione del discorso d'odio degli LLM, colmando il divario nella ricerca esistente riguardante l'impatto dell'identità dell'utente.

Contributi Principali

  1. Primo Studio Sistematico: Uno studio innovativo sull'influenza dell'identità del parlante sulla rilevazione del discorso d'odio degli LLM
  2. Metodo di Marcatura Doppia: Propone un approccio sistematico utilizzando marcatori espliciti e impliciti per informare il modello sull'identità del parlante
  3. Valutazione Sperimentale Completa: Conduce esperimenti completi su 4 modelli linguistici e 2 dataset, rivelando le vulnerabilità del modello in diverse impostazioni
  4. Scoperte Importanti: Scopre che i marcatori dialettali impliciti causano più facilmente inversioni dell'output rispetto ai marcatori espliciti, e i tassi di inversione variano in base all'etnia

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Frase in inglese + marcatore di identità etnica del parlante (esplicito o implicito) Output: Classificazione del discorso d'odio (Hateful/Non-Hateful) Obiettivo: Analizzare il grado di influenza del marcatore di identità sui risultati della classificazione

Progettazione Sperimentale

1. Selezione dell'Identità Linguistica

Selezione di 5 nazionalità/gruppi con diversi dialetti dell'inglese:

  • Indian (Indiano)
  • Singaporean (Singaporiano)
  • British (Britannico)
  • Jamaican (Giamaicano)
  • African-American (Afroamericano)

2. Metodi di Iniezione dei Marcatori

Marcatore Esplicito (Explicit Marker): Menzione diretta dell'identità linguistica nel prompt

Esempio: The [ethnicity] person said, "[input]"

Marcatore Implicito (Implicit Marker): Indicazione implicita dell'identità del parlante attraverso l'iniezione di caratteristiche dialettali, incluse:

  • Vocabolario di gergo specifico (come "mah" a Singapore, "mate" in Britannico)
  • Temi e frasi culturali
  • Codice misto linguistico
  • Ortografia specifica della regione

3. Generazione di Dati Dialettali

Utilizzo di Llama-3-70B per l'apprendimento con pochi esempi per generare dati dialettali:

  • Impostazione della temperatura a 0 per garantire output deterministico
  • Inclusione di istruzioni per evitare i filtri di contenuto
  • Verifica manuale per garantire la qualità

Verifica della Qualità

Valutazione multidimensionale dei dati dialettali generati:

  1. Accuratezza Dialettale: Se il vocabolario riflette accuratamente il dialetto dell'identità linguistica data
  2. Mantenimento del Contesto: Se la semantica originale e il dialetto vengono mantenuti
  3. Fluidità e Grammatica: Se il testo generato è fluido e grammaticalmente corretto
  4. Utilizzo di Caratteri Latini: Se la frase generata utilizza caratteri inglesi

I risultati della valutazione manuale mostrano un'accuratezza dialettale media di 4/5 punti, con varianza bassa, indicando un'alta qualità di generazione.

Impostazione Sperimentale

Dataset

  1. MPBHSD: Da Twitter, 4Chan e Reddit, contenente 600 discorsi d'odio e 2400 discorsi non-odio
  2. HateXplain: Da Twitter e Gab, campionamento di 3000 frasi, incluse 2094 frasi di odio e 906 frasi non-odio

Modelli

  • LLM: Llama-3-8B, Llama-3-70B, GPT-4o
  • Modelli Tradizionali: Modello BERT messo a punto sul dataset HateXplain
  • Strategie di Prompt: Classificazione zero-shot e apprendimento in contesto (ICL)

Metriche di Valutazione

  • Metrica Principale: Percentuale di inversione dell'output del modello
  • Tipi di Inversione:
    • NH→H: Non-odio convertito in odio (tasso di falsi positivi)
    • H→NH: Odio convertito in non-odio (tasso di falsi negativi)

Risultati Sperimentali

Prestazioni di Base

In assenza di marcatori di identità, i modelli mostrano buone prestazioni:

  • Dataset MPBHSD: Accuratezza fino al 90%
  • Dataset HateXplain: Accuratezza raggiunta dell'80%

Scoperte Principali

1. Influenza del Tipo di Marcatore

  • I marcatori impliciti causano più facilmente inversioni dell'output del modello rispetto ai marcatori espliciti
  • Ad eccezione di Llama-3-8B, tutti i modelli mostrano tassi di inversione significativamente più alti con marcatori impliciti (p < 0,05)

2. Effetto della Dimensione del Modello

  • I modelli più grandi e aggiornati (come Llama-3-70B e GPT-4o) mostrano prestazioni più robuste
  • Percentuali di inversione più basse e prestazioni più stabili

3. Influenza della Tecnica di Prompt

  • L'apprendimento in contesto (ICL) produce generalmente tassi di inversione più bassi rispetto all'apprendimento zero-shot
  • Fornire esempi porta a output del modello più stabili e coerenti

4. Differenze Etniche

Esistono differenze significative nei tassi di inversione per diverse identità etniche:

  • Nei modelli più grandi, i dati dialettali britannici e afroamericani mostrano tassi di inversione H→NH più elevati
  • Il test di McNemar mostra che l'identità del parlante ha un impatto significativo sui risultati della classificazione in tutti i modelli (p < 0,05)

5. Influenza dell'Etichetta Originale

  • Le previsioni non-odio (NH) generalmente rimangono non-odio in diversi modelli e identità del parlante
  • Le previsioni di odio (H) sono più facilmente convertite in non-odio, aumentando il tasso di falsi negativi

6. Analisi del Gruppo Bersaglio

  • HateXplain-BERT mostra più inversioni su determinati dialetti per i bersagli di gruppi religiosi
  • GPT-4o mostra inversioni su tutti i dialetti per i bersagli legati all'orientamento sessuale

Caso Speciale: Llama-3-8B

Questo modello mostra tassi di inversione anormalmente elevati:

  • Variante ICL del dataset MPBHSD con circa il 40% di tasso di inversione
  • Spesso non riesce a rilevare indizi ironici espliciti e impliciti
  • Reagisce eccessivamente a cornici negative
  • Misclassifica più frequentemente su input più brevi

Esperimenti di Ablazione

Accuratezza dell'Identificazione dell'Identità Linguistica

Utilizzo di GPT-4o come valutatore per testare la capacità del modello di identificare i dialetti:

  • Afroamericano: 96,3%
  • Britannico: 99,8%
  • Indiano: 100%
  • Singaporiano: 99,8%
  • Giamaicano: 100%

L'elevata accuratezza di identificazione conferma l'efficacia delle caratteristiche dialettali.

Confronto delle Modifiche Sintetiche

Test dell'impatto di altre modifiche sintetiche (parafrasi, variazione della voce, limitazione della lunghezza) sui tassi di inversione:

  • Parafrasi: H→NH 0,17%, NH→H 0,0%
  • Variazione della Voce: H→NH 0,08%, NH→H 0,02%
  • Limitazione della Lunghezza: H→NH 0,16%, NH→H 0,01%

I tassi di inversione di queste modifiche sono significativamente inferiori all'iniezione dialettale, confermando l'impatto speciale dei marcatori di identità.

Lavori Correlati

Principali Direzioni di Ricerca

  1. Ricerca sui Pregiudizi degli LLM: Letteratura ampia che documenta i pregiudizi nei confronti delle comunità emarginate e dei dialetti
  2. Rilevazione del Discorso d'Odio: I metodi tradizionali si concentrano principalmente sul contenuto stesso, con minore considerazione dell'identità del parlante
  3. NLP Interculturale: Ricerca sulle differenze nell'elaborazione del linguaggio in diversi contesti culturali
  4. Elaborazione dei Dialetti: Attenzione alle prestazioni di diversi dialetti dell'inglese nei compiti NLP

Innovazione di questo Articolo

  • Primo studio sistematico sull'influenza dell'identità del parlante sulla classificazione del discorso d'odio
  • Propone un approccio doppio di marcatori espliciti e impliciti
  • Valutazione completa su più modelli e dataset

Conclusioni e Discussione

Conclusioni Principali

  1. Vulnerabilità Universale: Tutti gli LLM testati mostrano diversi gradi di vulnerabilità dopo l'iniezione di marcatori di identità del parlante
  2. Impatto Implicito Maggiore: Le caratteristiche dialettali hanno un impatto maggiore sul modello rispetto alla menzione esplicita dell'identità
  3. La Dimensione Migliora la Robustezza: I modelli più grandi mostrano prestazioni più robuste, ma i pregiudizi persistono
  4. Differenze Etniche Significative: Esistono differenze significative nei tassi di inversione causati da diverse identità etniche
  5. Rischio di Falsi Negativi: I modelli tendono a misclassificare il discorso d'odio come non-odio, potenzialmente portando al mancato rilevamento di contenuti dannosi

Limitazioni

  1. Limitazioni dei Dati Dialettali: Mancanza di dati annotati manualmente sul discorso d'odio in diversi dialetti
  2. Portata Limitata dei Modelli: A causa dei vincoli di risorse computazionali, non è stato possibile testare più modelli "sicuri" come Claude
  3. Limitazioni del Dataset: Limitato ai dataset di dialetti misti in inglese
  4. Pregiudizio dei Dati Sintetici: I dati dialettali generati potrebbero contenere pregiudizi sconosciuti dell'autore

Direzioni Future

  1. Estensione Multilingue: Estensione a dataset multilingui e altri dataset di discorso d'odio
  2. Ricerca sull'Interpretabilità: Condurre ulteriori ricerche sull'interpretabilità, valutando l'impatto preciso di frasi specifiche sui modelli di previsione del modello
  3. Strategie di Mitigazione: Sviluppare metodi e tecniche per ridurre i pregiudizi di identità
  4. Valutazione su Scala Più Ampia: Valutazione su più modelli e dataset più grandi

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta una questione importante nel campo dell'etica dell'IA e dell'equità
  2. Innovazione Metodologica: Propone un approccio sistematico di marcatori espliciti e impliciti
  3. Valutazione Completa: Valutazione completa su più modelli, dataset e identità etniche
  4. Risultati Affidabili: Risultati verificati attraverso test statistici per la significatività
  5. Valore Pratico: Fornisce avvertimenti importanti per il dispiegamento degli LLM in compiti ad alto rischio

Insufficienze

  1. Relazione Causale: Sebbene si osservino fenomeni di inversione, manca un'analisi approfondita dei meccanismi causali specifici
  2. Soluzioni di Mitigazione: Si evidenzia principalmente il problema, ma non vengono fornite soluzioni concrete
  3. Limitazioni della Valutazione: La valutazione manuale è relativamente piccola (50 campioni per dialetto)
  4. Rappresentatività Dialettale: I dialetti selezionati potrebbero non rappresentare completamente i micro-dialetti e le comunità di ogni regione

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva e metodologia per la ricerca sull'equità degli LLM
  2. Significato Pratico: Ha un significato guida importante per la progettazione e il dispiegamento di sistemi di moderazione dei contenuti
  3. Impatto Politico: Potrebbe influenzare la regolamentazione e la standardizzazione dei sistemi di IA
  4. Ricerca Successiva: Getta le basi per la ricerca successiva in aree correlate

Scenari Applicabili

  1. Sistemi di Moderazione dei Contenuti: Sistemi di rilevazione del discorso d'odio su piattaforme di social media
  2. Valutazione dell'Etica dell'IA: Valutazione dell'equità e dei pregiudizi degli LLM
  3. Sistemi di IA Multiculturale: Applicazioni di IA rivolte a utenti globali
  4. Conformità Normativa: Audit di equità e controlli di conformità dei sistemi di IA

Bibliografia

L'articolo cita diverse ricerche importanti, incluse:

  • Sap et al. (2019): Rischi di pregiudizio razziale nella rilevazione del discorso d'odio
  • Field et al. (2021, 2023): Indagini sul razzismo nell'NLP
  • Harris et al. (2022): Pregiudizio nell'inglese afroamericano nella classificazione del discorso d'odio
  • Ribeiro et al. (2020): Framework di test comportamentale per modelli NLP CheckList

Valutazione Complessiva: Questo è un articolo di ricerca di significativa importanza nel campo dell'etica dell'IA e dell'equità. Attraverso una progettazione sperimentale sistematica e una valutazione completa, rivela il problema dei pregiudizi di identità negli LLM nel compito di rilevazione del discorso d'odio. Sebbene vi sia ancora spazio per il miglioramento nelle soluzioni, fornisce intuizioni e avvertimenti preziosi per la ricerca e la pratica nel campo.