2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.

Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.

academic

Chi Parla Conta: Analizzare l'Influenza dell'Etnia del Parlante sulla Classificazione dell'Odio

Informazioni Fondamentali

ID Articolo: 2410.20490
Titolo: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Autori: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
Classificazione: cs.CL cs.AI
Data di Pubblicazione: 12 ottobre 2025 (arXiv v2)
Link dell'Articolo: https://arxiv.org/abs/2410.20490

Riassunto

I modelli linguistici di grandi dimensioni (LLM) presentano un enorme potenziale applicativo nella moderazione dei contenuti e nella rilevazione del discorso d'odio. Tuttavia, questi modelli presentano vulnerabilità e pregiudizi nei confronti delle comunità emarginate e dei dialetti. Questo studio indaga la robustezza degli LLM nella classificazione del discorso d'odio iniettando marcatori espliciti e impliciti dell'etnia del parlante nell'input. Lo studio rivela che i marcatori dialettali impliciti causano più facilmente inversioni dell'output del modello rispetto ai marcatori espliciti, con percentuali di inversione che variano in base all'etnia, e i modelli più grandi mostrano prestazioni più robuste.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale che questo studio affronta è: Quale è la robustezza dei modelli linguistici di grandi dimensioni nel compito di rilevazione del discorso d'odio quando il testo di input contiene informazioni sull'identità etnica del parlante?

Importanza

Esigenze Applicative Pratiche: Le tecnologie linguistiche sono sempre più utilizzate per compiti di moderazione dei contenuti, inclusa la rilevazione del discorso d'odio, poiché sono in grado di elaborare grandi volumi di dati
Compito ad Alto Rischio: La rilevazione del discorso d'odio è un compito ad alto rischio che richiede un dispiegamento cauto degli LLM
Sfide Globali: Con l'adozione globale degli LLM, è necessario mantenere l'inclusività per persone di tutte le nazionalità

Limitazioni degli Approcci Esistenti

Problema dei Pregiudizi: È noto che gli LLM presentano pregiudizi nei confronti delle comunità emarginate e dei dialetti, causando trattamenti ingiusti e danni rappresentativi
Vulnerabilità: Gli LLM mostrano fragilità, pregiudizio e incertezza quando sono presenti informazioni aggiuntive non correlate al compito stesso
Preferenza Dialettale: La ricerca esistente mostra che questi modelli favoriscono l'inglese americano, sebbene diverse aree geografiche utilizzino diversi dialetti dell'inglese

Motivazione della Ricerca

Sulla base dei problemi sopra esposti, questo articolo mira ad analizzare sistematicamente l'influenza dell'identità del parlante sulla classificazione del discorso d'odio degli LLM, colmando il divario nella ricerca esistente riguardante l'impatto dell'identità dell'utente.

Contributi Principali

Primo Studio Sistematico: Uno studio innovativo sull'influenza dell'identità del parlante sulla rilevazione del discorso d'odio degli LLM
Metodo di Marcatura Doppia: Propone un approccio sistematico utilizzando marcatori espliciti e impliciti per informare il modello sull'identità del parlante
Valutazione Sperimentale Completa: Conduce esperimenti completi su 4 modelli linguistici e 2 dataset, rivelando le vulnerabilità del modello in diverse impostazioni
Scoperte Importanti: Scopre che i marcatori dialettali impliciti causano più facilmente inversioni dell'output rispetto ai marcatori espliciti, e i tassi di inversione variano in base all'etnia

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Frase in inglese + marcatore di identità etnica del parlante (esplicito o implicito) Output: Classificazione del discorso d'odio (Hateful/Non-Hateful) Obiettivo: Analizzare il grado di influenza del marcatore di identità sui risultati della classificazione

Progettazione Sperimentale

1. Selezione dell'Identità Linguistica

Selezione di 5 nazionalità/gruppi con diversi dialetti dell'inglese:

Indian (Indiano)
Singaporean (Singaporiano)
British (Britannico)
Jamaican (Giamaicano)
African-American (Afroamericano)

2. Metodi di Iniezione dei Marcatori

Marcatore Esplicito (Explicit Marker): Menzione diretta dell'identità linguistica nel prompt

Esempio: The [ethnicity] person said, "[input]"

Marcatore Implicito (Implicit Marker): Indicazione implicita dell'identità del parlante attraverso l'iniezione di caratteristiche dialettali, incluse:

Vocabolario di gergo specifico (come "mah" a Singapore, "mate" in Britannico)
Temi e frasi culturali
Codice misto linguistico
Ortografia specifica della regione

3. Generazione di Dati Dialettali

Utilizzo di Llama-3-70B per l'apprendimento con pochi esempi per generare dati dialettali:

Impostazione della temperatura a 0 per garantire output deterministico
Inclusione di istruzioni per evitare i filtri di contenuto
Verifica manuale per garantire la qualità

Verifica della Qualità

Valutazione multidimensionale dei dati dialettali generati:

Accuratezza Dialettale: Se il vocabolario riflette accuratamente il dialetto dell'identità linguistica data
Mantenimento del Contesto: Se la semantica originale e il dialetto vengono mantenuti
Fluidità e Grammatica: Se il testo generato è fluido e grammaticalmente corretto
Utilizzo di Caratteri Latini: Se la frase generata utilizza caratteri inglesi

I risultati della valutazione manuale mostrano un'accuratezza dialettale media di 4/5 punti, con varianza bassa, indicando un'alta qualità di generazione.

Impostazione Sperimentale

Dataset

MPBHSD: Da Twitter, 4Chan e Reddit, contenente 600 discorsi d'odio e 2400 discorsi non-odio
HateXplain: Da Twitter e Gab, campionamento di 3000 frasi, incluse 2094 frasi di odio e 906 frasi non-odio

Modelli

LLM: Llama-3-8B, Llama-3-70B, GPT-4o
Modelli Tradizionali: Modello BERT messo a punto sul dataset HateXplain
Strategie di Prompt: Classificazione zero-shot e apprendimento in contesto (ICL)

Metriche di Valutazione

Metrica Principale: Percentuale di inversione dell'output del modello
Tipi di Inversione:
- NH→H: Non-odio convertito in odio (tasso di falsi positivi)
- H→NH: Odio convertito in non-odio (tasso di falsi negativi)

Risultati Sperimentali

Prestazioni di Base

In assenza di marcatori di identità, i modelli mostrano buone prestazioni:

Dataset MPBHSD: Accuratezza fino al 90%
Dataset HateXplain: Accuratezza raggiunta dell'80%

Scoperte Principali

1. Influenza del Tipo di Marcatore

I marcatori impliciti causano più facilmente inversioni dell'output del modello rispetto ai marcatori espliciti
Ad eccezione di Llama-3-8B, tutti i modelli mostrano tassi di inversione significativamente più alti con marcatori impliciti (p < 0,05)

2. Effetto della Dimensione del Modello

I modelli più grandi e aggiornati (come Llama-3-70B e GPT-4o) mostrano prestazioni più robuste
Percentuali di inversione più basse e prestazioni più stabili

3. Influenza della Tecnica di Prompt

L'apprendimento in contesto (ICL) produce generalmente tassi di inversione più bassi rispetto all'apprendimento zero-shot
Fornire esempi porta a output del modello più stabili e coerenti

4. Differenze Etniche

Esistono differenze significative nei tassi di inversione per diverse identità etniche:

Nei modelli più grandi, i dati dialettali britannici e afroamericani mostrano tassi di inversione H→NH più elevati
Il test di McNemar mostra che l'identità del parlante ha un impatto significativo sui risultati della classificazione in tutti i modelli (p < 0,05)

5. Influenza dell'Etichetta Originale

Le previsioni non-odio (NH) generalmente rimangono non-odio in diversi modelli e identità del parlante
Le previsioni di odio (H) sono più facilmente convertite in non-odio, aumentando il tasso di falsi negativi

6. Analisi del Gruppo Bersaglio

HateXplain-BERT mostra più inversioni su determinati dialetti per i bersagli di gruppi religiosi
GPT-4o mostra inversioni su tutti i dialetti per i bersagli legati all'orientamento sessuale

Caso Speciale: Llama-3-8B

Questo modello mostra tassi di inversione anormalmente elevati:

Variante ICL del dataset MPBHSD con circa il 40% di tasso di inversione
Spesso non riesce a rilevare indizi ironici espliciti e impliciti
Reagisce eccessivamente a cornici negative
Misclassifica più frequentemente su input più brevi

Esperimenti di Ablazione

Accuratezza dell'Identificazione dell'Identità Linguistica

Utilizzo di GPT-4o come valutatore per testare la capacità del modello di identificare i dialetti:

Afroamericano: 96,3%
Britannico: 99,8%
Indiano: 100%
Singaporiano: 99,8%
Giamaicano: 100%

L'elevata accuratezza di identificazione conferma l'efficacia delle caratteristiche dialettali.

Confronto delle Modifiche Sintetiche

Test dell'impatto di altre modifiche sintetiche (parafrasi, variazione della voce, limitazione della lunghezza) sui tassi di inversione:

Parafrasi: H→NH 0,17%, NH→H 0,0%
Variazione della Voce: H→NH 0,08%, NH→H 0,02%
Limitazione della Lunghezza: H→NH 0,16%, NH→H 0,01%

I tassi di inversione di queste modifiche sono significativamente inferiori all'iniezione dialettale, confermando l'impatto speciale dei marcatori di identità.

Lavori Correlati

Principali Direzioni di Ricerca

Ricerca sui Pregiudizi degli LLM: Letteratura ampia che documenta i pregiudizi nei confronti delle comunità emarginate e dei dialetti
Rilevazione del Discorso d'Odio: I metodi tradizionali si concentrano principalmente sul contenuto stesso, con minore considerazione dell'identità del parlante
NLP Interculturale: Ricerca sulle differenze nell'elaborazione del linguaggio in diversi contesti culturali
Elaborazione dei Dialetti: Attenzione alle prestazioni di diversi dialetti dell'inglese nei compiti NLP

Innovazione di questo Articolo

Primo studio sistematico sull'influenza dell'identità del parlante sulla classificazione del discorso d'odio
Propone un approccio doppio di marcatori espliciti e impliciti
Valutazione completa su più modelli e dataset

Conclusioni e Discussione

Conclusioni Principali

Vulnerabilità Universale: Tutti gli LLM testati mostrano diversi gradi di vulnerabilità dopo l'iniezione di marcatori di identità del parlante
Impatto Implicito Maggiore: Le caratteristiche dialettali hanno un impatto maggiore sul modello rispetto alla menzione esplicita dell'identità
La Dimensione Migliora la Robustezza: I modelli più grandi mostrano prestazioni più robuste, ma i pregiudizi persistono
Differenze Etniche Significative: Esistono differenze significative nei tassi di inversione causati da diverse identità etniche
Rischio di Falsi Negativi: I modelli tendono a misclassificare il discorso d'odio come non-odio, potenzialmente portando al mancato rilevamento di contenuti dannosi

Limitazioni

Limitazioni dei Dati Dialettali: Mancanza di dati annotati manualmente sul discorso d'odio in diversi dialetti
Portata Limitata dei Modelli: A causa dei vincoli di risorse computazionali, non è stato possibile testare più modelli "sicuri" come Claude
Limitazioni del Dataset: Limitato ai dataset di dialetti misti in inglese
Pregiudizio dei Dati Sintetici: I dati dialettali generati potrebbero contenere pregiudizi sconosciuti dell'autore

Direzioni Future

Estensione Multilingue: Estensione a dataset multilingui e altri dataset di discorso d'odio
Ricerca sull'Interpretabilità: Condurre ulteriori ricerche sull'interpretabilità, valutando l'impatto preciso di frasi specifiche sui modelli di previsione del modello
Strategie di Mitigazione: Sviluppare metodi e tecniche per ridurre i pregiudizi di identità
Valutazione su Scala Più Ampia: Valutazione su più modelli e dataset più grandi

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta una questione importante nel campo dell'etica dell'IA e dell'equità
Innovazione Metodologica: Propone un approccio sistematico di marcatori espliciti e impliciti
Valutazione Completa: Valutazione completa su più modelli, dataset e identità etniche
Risultati Affidabili: Risultati verificati attraverso test statistici per la significatività
Valore Pratico: Fornisce avvertimenti importanti per il dispiegamento degli LLM in compiti ad alto rischio

Insufficienze

Relazione Causale: Sebbene si osservino fenomeni di inversione, manca un'analisi approfondita dei meccanismi causali specifici
Soluzioni di Mitigazione: Si evidenzia principalmente il problema, ma non vengono fornite soluzioni concrete
Limitazioni della Valutazione: La valutazione manuale è relativamente piccola (50 campioni per dialetto)
Rappresentatività Dialettale: I dialetti selezionati potrebbero non rappresentare completamente i micro-dialetti e le comunità di ogni regione

Impatto

Contributo Accademico: Fornisce una nuova prospettiva e metodologia per la ricerca sull'equità degli LLM
Significato Pratico: Ha un significato guida importante per la progettazione e il dispiegamento di sistemi di moderazione dei contenuti
Impatto Politico: Potrebbe influenzare la regolamentazione e la standardizzazione dei sistemi di IA
Ricerca Successiva: Getta le basi per la ricerca successiva in aree correlate

Scenari Applicabili

Sistemi di Moderazione dei Contenuti: Sistemi di rilevazione del discorso d'odio su piattaforme di social media
Valutazione dell'Etica dell'IA: Valutazione dell'equità e dei pregiudizi degli LLM
Sistemi di IA Multiculturale: Applicazioni di IA rivolte a utenti globali
Conformità Normativa: Audit di equità e controlli di conformità dei sistemi di IA

Bibliografia

L'articolo cita diverse ricerche importanti, incluse:

Sap et al. (2019): Rischi di pregiudizio razziale nella rilevazione del discorso d'odio
Field et al. (2021, 2023): Indagini sul razzismo nell'NLP
Harris et al. (2022): Pregiudizio nell'inglese afroamericano nella classificazione del discorso d'odio
Ribeiro et al. (2020): Framework di test comportamentale per modelli NLP CheckList

Valutazione Complessiva: Questo è un articolo di ricerca di significativa importanza nel campo dell'etica dell'IA e dell'equità. Attraverso una progettazione sperimentale sistematica e una valutazione completa, rivela il problema dei pregiudizi di identità negli LLM nel compito di rilevazione del discorso d'odio. Sebbene vi sia ancora spazio per il miglioramento nelle soluzioni, fornisce intuizioni e avvertimenti preziosi per la ricerca e la pratica nel campo.