2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic

Wer spricht, ist wichtig: Analyse des Einflusses der Ethnizität des Sprechers auf die Hassrede-Klassifizierung

Grundlegende Informationen

  • Paper-ID: 2410.20490
  • Titel: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
  • Autoren: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2410.20490

Zusammenfassung

Große Sprachmodelle (LLMs) haben enormes Anwendungspotenzial in der Inhaltsmoderation und Hassrede-Erkennung. Diese Modelle weisen jedoch Anfälligkeiten und Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten auf. Diese Forschung untersucht die Robustheit von LLMs bei der Hassrede-Klassifizierung durch Injektion expliziter und impliziter Marker der Sprecher-Ethnizität in die Eingabe. Die Studie zeigt, dass implizite Dialekt-Marker häufiger zu Modellausgabe-Umkehrungen führen als explizite Marker, die Umkehrungsquote je nach Ethnizität variiert und größere Modelle robuster abschneiden.

Forschungshintergrund und Motivation

Kernfrage

Die Kernfrage dieser Forschung lautet: Wie robust sind große Sprachmodelle bei der Hassrede-Erkennungsaufgabe, wenn die Eingabetext Informationen zur ethnischen Identität des Sprechers enthält?

Bedeutung

  1. Praktische Anforderungen: Sprachentechnologien werden zunehmend für Inhaltsmoderationsaufgaben eingesetzt, einschließlich Hassrede-Erkennung, da sie große Datenmengen verarbeiten können
  2. Hochrisiko-Aufgabe: Hassrede-Erkennung ist eine Hochrisiko-Aufgabe, die eine sorgfältige Bereitstellung von LLMs erfordert
  3. Globale Herausforderung: Mit der weltweiten Einführung von LLMs ist Inklusivität für Menschen aller Nationalitäten erforderlich

Einschränkungen bestehender Methoden

  1. Vorurteilsprobleme: LLMs sind bekannt dafür, Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten zu haben, was zu unfairer Behandlung und Darstellungsschaden führt
  2. Anfälligkeit: LLMs sind anfällig, voreingenommen und unsicher, wenn zusätzliche Informationen vorhanden sind, die für die Aufgabe selbst irrelevant sind
  3. Dialekt-Vorliebe: Bestehende Forschung zeigt, dass diese Modelle amerikanisches Englisch bevorzugen, obwohl verschiedene geografische Regionen unterschiedliche englische Dialekte verwenden

Forschungsmotivation

Basierend auf den oben genannten Problemen zielt dieses Papier darauf ab, systematisch den Einfluss der Sprecher-Identität auf die Hassrede-Klassifizierung durch LLMs zu analysieren und eine Lücke in der bestehenden Forschung zum Einfluss der Benutzer-Identität zu schließen.

Kernbeiträge

  1. Erste systematische Studie: Neuartige Untersuchung des Einflusses der Sprecher-Identität auf die Hassrede-Erkennung durch LLMs
  2. Duale Marker-Methode: Systematischer Ansatz mit expliziten und impliziten Markern zur Mitteilung der Sprecher-Identität an das Modell
  3. Umfassende experimentelle Bewertung: Umfassende Experimente auf 4 Sprachmodellen und 2 Datensätzen, die die Anfälligkeit von Modellen in verschiedenen Einstellungen offenbaren
  4. Wichtige Erkenntnisse: Implizite Dialekt-Marker führen häufiger zu Ausgabe-Umkehrungen als explizite Marker, und die Umkehrungsrate variiert je nach Ethnizität

Methodische Details

Aufgabendefinition

Eingabe: Englischer Satz + Marker der Sprecher-Ethnizität (explizit oder implizit) Ausgabe: Hassrede-Klassifizierung (Hateful/Non-Hateful) Ziel: Analyse des Einflusses von Identitäts-Markern auf die Klassifizierungsergebnisse

Experimentelles Design

1. Auswahl der Sprachidentität

Auswahl von 5 Nationalitäten/Gruppen mit unterschiedlichen englischen Dialekten:

  • Indian (Indisch)
  • Singaporean (Singapurisch)
  • British (Britisch)
  • Jamaican (Jamaikanisch)
  • African-American (Afroamerikanisch)

2. Marker-Injektionsmethoden

Explizite Marker (Explicit Marker): Direkte Erwähnung der Sprachidentität in der Eingabeaufforderung

Beispiel: The [ethnicity] person said, "[input]"

Implizite Marker (Implicit Marker): Implizite Angabe der Sprecher-Identität durch Injektion von Dialekt-Merkmalen, einschließlich:

  • Spezifische Umgangssprache und Vokabeln (z.B. singapurisches "mah", britisches "mate")
  • Kulturelle Themen und Phrasen
  • Code-Mixing-Sprache
  • Regionale Schreibweisen

3. Dialekt-Datengenerierung

Verwendung von Llama-3-70B für Few-Shot-Learning zur Generierung von Dialekt-Daten:

  • Temperatureinstellung auf 0 für deterministische Ausgabe
  • Anweisungen zur Vermeidung von Inhaltsfiltern
  • Manuelle Validierung zur Qualitätssicherung

Qualitätsvalidierung

Multidimensionale Bewertung der generierten Dialekt-Daten:

  1. Dialekt-Genauigkeit: Ob das Vokabular den Dialekt der gegebenen Sprachidentität genau widerspiegelt
  2. Kontexterhaltung: Ob die ursprüngliche Semantik und der Dialekt erhalten bleiben
  3. Flüssigkeit und Grammatik: Ob der generierte Text flüssig und grammatikalisch korrekt ist
  4. Lateinische Schrift: Ob der generierte Satz englische Schriftzeichen verwendet

Die manuelle Bewertung zeigt durchschnittliche Dialekt-Genauigkeit von 4/5 Punkten mit niedriger Varianz, was auf hohe Generierungsqualität hindeutet.

Experimentelle Einrichtung

Datensätze

  1. MPBHSD: Aus Twitter, 4Chan und Reddit, enthält 600 Hassreden und 2400 Nicht-Hassreden
  2. HateXplain: Aus Twitter und Gab, Stichprobe von 3000 Sätzen, einschließlich 2094 Hassreden und 906 Nicht-Hassreden

Modelle

  • LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
  • Traditionelle Modelle: BERT-Modell, das auf dem HateXplain-Datensatz feinabgestimmt wurde
  • Eingabeaufforderungs-Strategien: Zero-Shot-Klassifizierung und In-Context-Learning (ICL)

Bewertungsmetriken

  • Primäre Metrik: Prozentsatz der Modellausgabe-Umkehrungen
  • Umkehrungstypen:
    • NH→H: Nicht-Hassrede wird zu Hassrede (falsch-positive Rate)
    • H→NH: Hassrede wird zu Nicht-Hassrede (falsch-negative Rate)

Experimentelle Ergebnisse

Grundlegende Leistung

Ohne Identitäts-Marker zeigen Modelle gute Leistung:

  • MPBHSD-Datensatz: Genauigkeit bis zu 90%
  • HateXplain-Datensatz: Genauigkeit von 80%

Haupterkenntnisse

1. Einfluss des Marker-Typs

  • Implizite Marker führen häufiger zu Modellausgabe-Umkehrungen als explizite Marker
  • Bei allen Modellen außer Llama-3-8B ist die Umkehrungsrate bei impliziten Markern signifikant höher (p < 0,05)

2. Modellgrößen-Effekt

  • Größere und neuere Modelle (wie Llama-3-70B und GPT-4o) zeigen robustere Leistung
  • Niedrigere Umkehrungsquoten und stabilere Leistung

3. Einfluss von Eingabeaufforderungs-Techniken

  • In-Context-Learning (ICL) führt typischerweise zu niedrigeren Umkehrungsraten als Zero-Shot-Learning
  • Die Bereitstellung von Beispielen führt zu stabilerer und konsistenterer Modellausgabe

4. Ethnische Unterschiede

Signifikante Unterschiede in den Umkehrungsraten zwischen verschiedenen ethnischen Identitäten:

  • Bei größeren Modellen zeigen britische und afroamerikanische Dialekt-Daten höhere H→NH-Umkehrungsraten
  • McNemar-Test zeigt signifikanten Einfluss der Sprecher-Identität auf Klassifizierungsergebnisse bei allen Modellen (p < 0,05)

5. Einfluss des ursprünglichen Labels

  • Nicht-Hassrede (NH)-Vorhersagen bleiben typischerweise über verschiedene Modelle und Sprecher-Identitäten hinweg nicht-Hassrede
  • Hassrede (H)-Vorhersagen werden häufiger zu Nicht-Hassrede konvertiert, was die falsch-negative Rate erhöht

6. Analyse der Zielgruppen

  • HateXplain-BERT zeigt bei religiösen Zielgruppen bei einigen Dialekten mehr Umkehrungen
  • GPT-4o zeigt bei geschlechtlicher Orientierung bezogenen Zielen über alle Dialekte hinweg Umkehrungen

Spezialfall: Llama-3-8B

Dieses Modell zeigt ungewöhnlich hohe Umkehrungsraten:

  • MPBHSD-Datensatz ICL-Variante etwa 40% Umkehrungsrate
  • Häufig unfähig, Ironie und explizite sowie implizite Hinweise zu erkennen
  • Überreaktion auf negative Rahmung
  • Häufigere Fehlklassifizierung bei kürzeren Eingaben

Ablationsstudien

Genauigkeit der Sprachidentitäts-Erkennung

Verwendung von GPT-4o-Evaluator zum Testen der Fähigkeit des Modells, Dialekte zu erkennen:

  • Afroamerikanisch: 96,3%
  • Britisch: 99,8%
  • Indisch: 100%
  • Singapurisch: 99,8%
  • Jamaikanisch: 100%

Hohe Erkennungsgenauigkeit bestätigt die Wirksamkeit der Dialekt-Merkmale.

Vergleich synthetischer Modifikationen

Test anderer synthetischer Modifikationen (Umformulierung, Stimmungsänderung, Längenbeschränkung) auf ihre Auswirkung auf Umkehrungsraten:

  • Umformulierung: H→NH 0,17%, NH→H 0,0%
  • Stimmungsänderung: H→NH 0,08%, NH→H 0,02%
  • Längenbeschränkung: H→NH 0,16%, NH→H 0,01%

Diese Modifikationen zeigen deutlich niedrigere Umkehrungsraten als Dialekt-Injektion, was den besonderen Einfluss von Identitäts-Markern bestätigt.

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. LLM-Vorurteilsforschung: Umfangreiche Literatur dokumentiert Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten
  2. Hassrede-Erkennung: Traditionelle Methoden konzentrieren sich hauptsächlich auf den Inhalt selbst, berücksichtigen weniger die Sprecher-Identität
  3. Kulturübergreifende NLP: Untersuchung von Unterschieden in der Sprachverarbeitung bei verschiedenen kulturellen Hintergründen
  4. Dialekt-Verarbeitung: Fokus auf die Leistung verschiedener englischer Dialekte in NLP-Aufgaben

Innovation dieses Papers

  • Erste systematische Untersuchung des Einflusses der Sprecher-Identität auf die Hassrede-Klassifizierung
  • Duale Methode mit expliziten und impliziten Markern
  • Umfassende Bewertung über mehrere Modelle und Datensätze

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Weit verbreitete Anfälligkeit: Alle getesteten LLMs zeigen unterschiedliche Grade von Anfälligkeit nach Injektion von Sprecher-Identitäts-Markern
  2. Größerer impliziter Einfluss: Dialekt-Merkmale haben einen größeren Einfluss auf Modelle als explizite Identitätserwähnungen
  3. Größe verbessert Robustheit: Größere Modelle zeigen robustere Leistung, weisen aber immer noch Vorurteile auf
  4. Signifikante ethnische Unterschiede: Unterschiedliche ethnische Identitäten führen zu signifikanten Unterschieden in den Umkehrungsraten
  5. Risiko falsch-negativer Ergebnisse: Modelle neigen dazu, Hassreden als Nicht-Hassreden fehlzuklassifizieren, was möglicherweise zu unerkannten schädlichen Inhalten führt

Einschränkungen

  1. Dialekt-Datenbeschränkung: Mangel an manuell annotierten Hassreden-Daten in verschiedenen Dialekten
  2. Begrenzte Modellreichweite: Aufgrund von Rechenressourcen-Beschränkungen konnten nicht mehr "sichere" Modelle wie Claude getestet werden
  3. Datensatz-Einschränkungen: Beschränkung auf englische gemischte Dialekt-Datensätze
  4. Vorurteile in synthetischen Daten: Generierte Dialekt-Daten können unbekannte Autorvorurteile enthalten

Zukünftige Richtungen

  1. Mehrsprachige Erweiterung: Erweiterung auf mehrsprachige Datensätze und andere Hassreden-Datensätze
  2. Interpretabilitätsforschung: Weitere Interpretabilitätsstudien zur Bewertung des genauen Einflusses spezifischer Phrasen auf Modellvorhersagemuster
  3. Minderungsstrategien: Entwicklung von Methoden und Techniken zur Verringerung von Identitätsvorurteilen
  4. Größere Bewertung: Bewertung über mehr Modelle und größere Datensätze

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Untersuchung eines wichtigen Problems im Bereich KI-Ethik und Fairness
  2. Methodische Innovation: Systematischer Ansatz mit expliziten und impliziten Markern
  3. Umfassende Experimente: Umfassende Bewertung über mehrere Modelle, Datensätze und ethnische Identitäten
  4. Vertrauenswürdige Ergebnisse: Validierung der Ergebnisse durch statistische Tests
  5. Praktischer Wert: Wichtige Warnung für die Bereitstellung von LLMs in Hochrisiko-Aufgaben

Mängel

  1. Kausalität: Obwohl Umkehrungsphänomene beobachtet werden, fehlt eine tiefgreifende Analyse spezifischer Ursachenmechanismen
  2. Lösungsansätze: Hauptsächlich Problemidentifikation, aber keine konkreten Lösungsvorschläge
  3. Bewertungsbeschränkungen: Manuelle Bewertungsstichprobe ist relativ klein (50 Stichproben pro Dialekt)
  4. Dialekt-Repräsentativität: Ausgewählte Dialekte können Mikrodialekte und Gemeinschaften in verschiedenen Regionen möglicherweise nicht vollständig repräsentieren

Auswirkungen

  1. Akademischer Beitrag: Neue Perspektive und Methode für LLM-Fairness-Forschung
  2. Praktische Bedeutung: Wichtige Orientierung für die Gestaltung und Bereitstellung von Inhaltsmoderierungssystemen
  3. Politische Auswirkungen: Kann die Regulierung und Standardisierung von KI-Systemen beeinflussen
  4. Nachfolgeforschung: Grundlage für Nachfolgeforschung in verwandten Bereichen

Anwendungsszenarien

  1. Inhaltsmoderierungssysteme: Hassrede-Erkennungssysteme von Social-Media-Plattformen
  2. KI-Ethik-Bewertung: Fairness- und Vorurteilsbewertung von LLMs
  3. Multikulturelle KI-Systeme: KI-Anwendungen für globale Benutzer
  4. Regulatorische Compliance: Fairness-Audits und Compliance-Überprüfungen von KI-Systemen

Literaturverzeichnis

Das Papier zitiert mehrere wichtige Forschungsarbeiten, einschließlich:

  • Sap et al. (2019): Risiken von Rassenvorurteilen bei der Hassrede-Erkennung
  • Field et al. (2021, 2023): Untersuchung von Rassismus in NLP
  • Harris et al. (2022): Vorurteile bei afroamerikanischem Englisch in der Hassrede-Klassifizierung
  • Ribeiro et al. (2020): Verhaltenstestrahmen für NLP-Modelle CheckList

Gesamtbewertung: Dies ist ein Forschungspapier von großer Bedeutung im Bereich KI-Ethik und Fairness. Durch systematisches experimentelles Design und umfassende Bewertung werden die Probleme von Identitätsvorurteilen bei LLMs in der Hassrede-Erkennungsaufgabe offenbart. Obwohl die Lösungsansätze noch verstärkt werden müssen, bietet die Arbeit wertvolle Erkenntnisse und Warnungen für Forschung und Praxis in diesem Bereich.