2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.

Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.

academic

Wer spricht, ist wichtig: Analyse des Einflusses der Ethnizität des Sprechers auf die Hassrede-Klassifizierung

Grundlegende Informationen

Paper-ID: 2410.20490
Titel: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Autoren: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2410.20490

Zusammenfassung

Große Sprachmodelle (LLMs) haben enormes Anwendungspotenzial in der Inhaltsmoderation und Hassrede-Erkennung. Diese Modelle weisen jedoch Anfälligkeiten und Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten auf. Diese Forschung untersucht die Robustheit von LLMs bei der Hassrede-Klassifizierung durch Injektion expliziter und impliziter Marker der Sprecher-Ethnizität in die Eingabe. Die Studie zeigt, dass implizite Dialekt-Marker häufiger zu Modellausgabe-Umkehrungen führen als explizite Marker, die Umkehrungsquote je nach Ethnizität variiert und größere Modelle robuster abschneiden.

Forschungshintergrund und Motivation

Kernfrage

Die Kernfrage dieser Forschung lautet: Wie robust sind große Sprachmodelle bei der Hassrede-Erkennungsaufgabe, wenn die Eingabetext Informationen zur ethnischen Identität des Sprechers enthält?

Bedeutung

Praktische Anforderungen: Sprachentechnologien werden zunehmend für Inhaltsmoderationsaufgaben eingesetzt, einschließlich Hassrede-Erkennung, da sie große Datenmengen verarbeiten können
Hochrisiko-Aufgabe: Hassrede-Erkennung ist eine Hochrisiko-Aufgabe, die eine sorgfältige Bereitstellung von LLMs erfordert
Globale Herausforderung: Mit der weltweiten Einführung von LLMs ist Inklusivität für Menschen aller Nationalitäten erforderlich

Einschränkungen bestehender Methoden

Vorurteilsprobleme: LLMs sind bekannt dafür, Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten zu haben, was zu unfairer Behandlung und Darstellungsschaden führt
Anfälligkeit: LLMs sind anfällig, voreingenommen und unsicher, wenn zusätzliche Informationen vorhanden sind, die für die Aufgabe selbst irrelevant sind
Dialekt-Vorliebe: Bestehende Forschung zeigt, dass diese Modelle amerikanisches Englisch bevorzugen, obwohl verschiedene geografische Regionen unterschiedliche englische Dialekte verwenden

Forschungsmotivation

Basierend auf den oben genannten Problemen zielt dieses Papier darauf ab, systematisch den Einfluss der Sprecher-Identität auf die Hassrede-Klassifizierung durch LLMs zu analysieren und eine Lücke in der bestehenden Forschung zum Einfluss der Benutzer-Identität zu schließen.

Kernbeiträge

Erste systematische Studie: Neuartige Untersuchung des Einflusses der Sprecher-Identität auf die Hassrede-Erkennung durch LLMs
Duale Marker-Methode: Systematischer Ansatz mit expliziten und impliziten Markern zur Mitteilung der Sprecher-Identität an das Modell
Umfassende experimentelle Bewertung: Umfassende Experimente auf 4 Sprachmodellen und 2 Datensätzen, die die Anfälligkeit von Modellen in verschiedenen Einstellungen offenbaren
Wichtige Erkenntnisse: Implizite Dialekt-Marker führen häufiger zu Ausgabe-Umkehrungen als explizite Marker, und die Umkehrungsrate variiert je nach Ethnizität

Methodische Details

Aufgabendefinition

Eingabe: Englischer Satz + Marker der Sprecher-Ethnizität (explizit oder implizit) Ausgabe: Hassrede-Klassifizierung (Hateful/Non-Hateful) Ziel: Analyse des Einflusses von Identitäts-Markern auf die Klassifizierungsergebnisse

Experimentelles Design

1. Auswahl der Sprachidentität

Auswahl von 5 Nationalitäten/Gruppen mit unterschiedlichen englischen Dialekten:

Indian (Indisch)
Singaporean (Singapurisch)
British (Britisch)
Jamaican (Jamaikanisch)
African-American (Afroamerikanisch)

2. Marker-Injektionsmethoden

Explizite Marker (Explicit Marker): Direkte Erwähnung der Sprachidentität in der Eingabeaufforderung

Beispiel: The [ethnicity] person said, "[input]"

Implizite Marker (Implicit Marker): Implizite Angabe der Sprecher-Identität durch Injektion von Dialekt-Merkmalen, einschließlich:

Spezifische Umgangssprache und Vokabeln (z.B. singapurisches "mah", britisches "mate")
Kulturelle Themen und Phrasen
Code-Mixing-Sprache
Regionale Schreibweisen

3. Dialekt-Datengenerierung

Verwendung von Llama-3-70B für Few-Shot-Learning zur Generierung von Dialekt-Daten:

Temperatureinstellung auf 0 für deterministische Ausgabe
Anweisungen zur Vermeidung von Inhaltsfiltern
Manuelle Validierung zur Qualitätssicherung

Qualitätsvalidierung

Multidimensionale Bewertung der generierten Dialekt-Daten:

Dialekt-Genauigkeit: Ob das Vokabular den Dialekt der gegebenen Sprachidentität genau widerspiegelt
Kontexterhaltung: Ob die ursprüngliche Semantik und der Dialekt erhalten bleiben
Flüssigkeit und Grammatik: Ob der generierte Text flüssig und grammatikalisch korrekt ist
Lateinische Schrift: Ob der generierte Satz englische Schriftzeichen verwendet

Die manuelle Bewertung zeigt durchschnittliche Dialekt-Genauigkeit von 4/5 Punkten mit niedriger Varianz, was auf hohe Generierungsqualität hindeutet.

Experimentelle Einrichtung

Datensätze

MPBHSD: Aus Twitter, 4Chan und Reddit, enthält 600 Hassreden und 2400 Nicht-Hassreden
HateXplain: Aus Twitter und Gab, Stichprobe von 3000 Sätzen, einschließlich 2094 Hassreden und 906 Nicht-Hassreden

Modelle

LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
Traditionelle Modelle: BERT-Modell, das auf dem HateXplain-Datensatz feinabgestimmt wurde
Eingabeaufforderungs-Strategien: Zero-Shot-Klassifizierung und In-Context-Learning (ICL)

Bewertungsmetriken

Primäre Metrik: Prozentsatz der Modellausgabe-Umkehrungen
Umkehrungstypen:
- NH→H: Nicht-Hassrede wird zu Hassrede (falsch-positive Rate)
- H→NH: Hassrede wird zu Nicht-Hassrede (falsch-negative Rate)

Experimentelle Ergebnisse

Grundlegende Leistung

Ohne Identitäts-Marker zeigen Modelle gute Leistung:

MPBHSD-Datensatz: Genauigkeit bis zu 90%
HateXplain-Datensatz: Genauigkeit von 80%

Haupterkenntnisse

1. Einfluss des Marker-Typs

Implizite Marker führen häufiger zu Modellausgabe-Umkehrungen als explizite Marker
Bei allen Modellen außer Llama-3-8B ist die Umkehrungsrate bei impliziten Markern signifikant höher (p < 0,05)

2. Modellgrößen-Effekt

Größere und neuere Modelle (wie Llama-3-70B und GPT-4o) zeigen robustere Leistung
Niedrigere Umkehrungsquoten und stabilere Leistung

3. Einfluss von Eingabeaufforderungs-Techniken

In-Context-Learning (ICL) führt typischerweise zu niedrigeren Umkehrungsraten als Zero-Shot-Learning
Die Bereitstellung von Beispielen führt zu stabilerer und konsistenterer Modellausgabe

4. Ethnische Unterschiede

Signifikante Unterschiede in den Umkehrungsraten zwischen verschiedenen ethnischen Identitäten:

Bei größeren Modellen zeigen britische und afroamerikanische Dialekt-Daten höhere H→NH-Umkehrungsraten
McNemar-Test zeigt signifikanten Einfluss der Sprecher-Identität auf Klassifizierungsergebnisse bei allen Modellen (p < 0,05)

5. Einfluss des ursprünglichen Labels

Nicht-Hassrede (NH)-Vorhersagen bleiben typischerweise über verschiedene Modelle und Sprecher-Identitäten hinweg nicht-Hassrede
Hassrede (H)-Vorhersagen werden häufiger zu Nicht-Hassrede konvertiert, was die falsch-negative Rate erhöht

6. Analyse der Zielgruppen

HateXplain-BERT zeigt bei religiösen Zielgruppen bei einigen Dialekten mehr Umkehrungen
GPT-4o zeigt bei geschlechtlicher Orientierung bezogenen Zielen über alle Dialekte hinweg Umkehrungen

Spezialfall: Llama-3-8B

Dieses Modell zeigt ungewöhnlich hohe Umkehrungsraten:

MPBHSD-Datensatz ICL-Variante etwa 40% Umkehrungsrate
Häufig unfähig, Ironie und explizite sowie implizite Hinweise zu erkennen
Überreaktion auf negative Rahmung
Häufigere Fehlklassifizierung bei kürzeren Eingaben

Ablationsstudien

Genauigkeit der Sprachidentitäts-Erkennung

Verwendung von GPT-4o-Evaluator zum Testen der Fähigkeit des Modells, Dialekte zu erkennen:

Afroamerikanisch: 96,3%
Britisch: 99,8%
Indisch: 100%
Singapurisch: 99,8%
Jamaikanisch: 100%

Hohe Erkennungsgenauigkeit bestätigt die Wirksamkeit der Dialekt-Merkmale.

Vergleich synthetischer Modifikationen

Test anderer synthetischer Modifikationen (Umformulierung, Stimmungsänderung, Längenbeschränkung) auf ihre Auswirkung auf Umkehrungsraten:

Umformulierung: H→NH 0,17%, NH→H 0,0%
Stimmungsänderung: H→NH 0,08%, NH→H 0,02%
Längenbeschränkung: H→NH 0,16%, NH→H 0,01%

Diese Modifikationen zeigen deutlich niedrigere Umkehrungsraten als Dialekt-Injektion, was den besonderen Einfluss von Identitäts-Markern bestätigt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Weit verbreitete Anfälligkeit: Alle getesteten LLMs zeigen unterschiedliche Grade von Anfälligkeit nach Injektion von Sprecher-Identitäts-Markern
Größerer impliziter Einfluss: Dialekt-Merkmale haben einen größeren Einfluss auf Modelle als explizite Identitätserwähnungen
Größe verbessert Robustheit: Größere Modelle zeigen robustere Leistung, weisen aber immer noch Vorurteile auf
Signifikante ethnische Unterschiede: Unterschiedliche ethnische Identitäten führen zu signifikanten Unterschieden in den Umkehrungsraten
Risiko falsch-negativer Ergebnisse: Modelle neigen dazu, Hassreden als Nicht-Hassreden fehlzuklassifizieren, was möglicherweise zu unerkannten schädlichen Inhalten führt

Einschränkungen

Dialekt-Datenbeschränkung: Mangel an manuell annotierten Hassreden-Daten in verschiedenen Dialekten
Begrenzte Modellreichweite: Aufgrund von Rechenressourcen-Beschränkungen konnten nicht mehr "sichere" Modelle wie Claude getestet werden
Datensatz-Einschränkungen: Beschränkung auf englische gemischte Dialekt-Datensätze
Vorurteile in synthetischen Daten: Generierte Dialekt-Daten können unbekannte Autorvorurteile enthalten

Zukünftige Richtungen

Mehrsprachige Erweiterung: Erweiterung auf mehrsprachige Datensätze und andere Hassreden-Datensätze
Interpretabilitätsforschung: Weitere Interpretabilitätsstudien zur Bewertung des genauen Einflusses spezifischer Phrasen auf Modellvorhersagemuster
Minderungsstrategien: Entwicklung von Methoden und Techniken zur Verringerung von Identitätsvorurteilen
Größere Bewertung: Bewertung über mehr Modelle und größere Datensätze

Tiefgreifende Bewertung

Stärken

Problemwichtigkeit: Untersuchung eines wichtigen Problems im Bereich KI-Ethik und Fairness
Methodische Innovation: Systematischer Ansatz mit expliziten und impliziten Markern
Umfassende Experimente: Umfassende Bewertung über mehrere Modelle, Datensätze und ethnische Identitäten
Vertrauenswürdige Ergebnisse: Validierung der Ergebnisse durch statistische Tests
Praktischer Wert: Wichtige Warnung für die Bereitstellung von LLMs in Hochrisiko-Aufgaben

Mängel

Kausalität: Obwohl Umkehrungsphänomene beobachtet werden, fehlt eine tiefgreifende Analyse spezifischer Ursachenmechanismen
Lösungsansätze: Hauptsächlich Problemidentifikation, aber keine konkreten Lösungsvorschläge
Bewertungsbeschränkungen: Manuelle Bewertungsstichprobe ist relativ klein (50 Stichproben pro Dialekt)
Dialekt-Repräsentativität: Ausgewählte Dialekte können Mikrodialekte und Gemeinschaften in verschiedenen Regionen möglicherweise nicht vollständig repräsentieren

Auswirkungen

Akademischer Beitrag: Neue Perspektive und Methode für LLM-Fairness-Forschung
Praktische Bedeutung: Wichtige Orientierung für die Gestaltung und Bereitstellung von Inhaltsmoderierungssystemen
Politische Auswirkungen: Kann die Regulierung und Standardisierung von KI-Systemen beeinflussen
Nachfolgeforschung: Grundlage für Nachfolgeforschung in verwandten Bereichen

Anwendungsszenarien

Inhaltsmoderierungssysteme: Hassrede-Erkennungssysteme von Social-Media-Plattformen
KI-Ethik-Bewertung: Fairness- und Vorurteilsbewertung von LLMs
Multikulturelle KI-Systeme: KI-Anwendungen für globale Benutzer
Regulatorische Compliance: Fairness-Audits und Compliance-Überprüfungen von KI-Systemen

Literaturverzeichnis

Das Papier zitiert mehrere wichtige Forschungsarbeiten, einschließlich:

Sap et al. (2019): Risiken von Rassenvorurteilen bei der Hassrede-Erkennung
Field et al. (2021, 2023): Untersuchung von Rassismus in NLP
Harris et al. (2022): Vorurteile bei afroamerikanischem Englisch in der Hassrede-Klassifizierung
Ribeiro et al. (2020): Verhaltenstestrahmen für NLP-Modelle CheckList

Gesamtbewertung: Dies ist ein Forschungspapier von großer Bedeutung im Bereich KI-Ethik und Fairness. Durch systematisches experimentelles Design und umfassende Bewertung werden die Probleme von Identitätsvorurteilen bei LLMs in der Hassrede-Erkennungsaufgabe offenbart. Obwohl die Lösungsansätze noch verstärkt werden müssen, bietet die Arbeit wertvolle Erkenntnisse und Warnungen für Forschung und Praxis in diesem Bereich.