Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic
Wer spricht, ist wichtig: Analyse des Einflusses der Ethnizität des Sprechers auf die Hassrede-Klassifizierung
Große Sprachmodelle (LLMs) haben enormes Anwendungspotenzial in der Inhaltsmoderation und Hassrede-Erkennung. Diese Modelle weisen jedoch Anfälligkeiten und Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten auf. Diese Forschung untersucht die Robustheit von LLMs bei der Hassrede-Klassifizierung durch Injektion expliziter und impliziter Marker der Sprecher-Ethnizität in die Eingabe. Die Studie zeigt, dass implizite Dialekt-Marker häufiger zu Modellausgabe-Umkehrungen führen als explizite Marker, die Umkehrungsquote je nach Ethnizität variiert und größere Modelle robuster abschneiden.
Die Kernfrage dieser Forschung lautet: Wie robust sind große Sprachmodelle bei der Hassrede-Erkennungsaufgabe, wenn die Eingabetext Informationen zur ethnischen Identität des Sprechers enthält?
Praktische Anforderungen: Sprachentechnologien werden zunehmend für Inhaltsmoderationsaufgaben eingesetzt, einschließlich Hassrede-Erkennung, da sie große Datenmengen verarbeiten können
Hochrisiko-Aufgabe: Hassrede-Erkennung ist eine Hochrisiko-Aufgabe, die eine sorgfältige Bereitstellung von LLMs erfordert
Globale Herausforderung: Mit der weltweiten Einführung von LLMs ist Inklusivität für Menschen aller Nationalitäten erforderlich
Vorurteilsprobleme: LLMs sind bekannt dafür, Vorurteile gegenüber marginalisierten Gemeinschaften und Dialekten zu haben, was zu unfairer Behandlung und Darstellungsschaden führt
Anfälligkeit: LLMs sind anfällig, voreingenommen und unsicher, wenn zusätzliche Informationen vorhanden sind, die für die Aufgabe selbst irrelevant sind
Dialekt-Vorliebe: Bestehende Forschung zeigt, dass diese Modelle amerikanisches Englisch bevorzugen, obwohl verschiedene geografische Regionen unterschiedliche englische Dialekte verwenden
Basierend auf den oben genannten Problemen zielt dieses Papier darauf ab, systematisch den Einfluss der Sprecher-Identität auf die Hassrede-Klassifizierung durch LLMs zu analysieren und eine Lücke in der bestehenden Forschung zum Einfluss der Benutzer-Identität zu schließen.
Erste systematische Studie: Neuartige Untersuchung des Einflusses der Sprecher-Identität auf die Hassrede-Erkennung durch LLMs
Duale Marker-Methode: Systematischer Ansatz mit expliziten und impliziten Markern zur Mitteilung der Sprecher-Identität an das Modell
Umfassende experimentelle Bewertung: Umfassende Experimente auf 4 Sprachmodellen und 2 Datensätzen, die die Anfälligkeit von Modellen in verschiedenen Einstellungen offenbaren
Wichtige Erkenntnisse: Implizite Dialekt-Marker führen häufiger zu Ausgabe-Umkehrungen als explizite Marker, und die Umkehrungsrate variiert je nach Ethnizität
Eingabe: Englischer Satz + Marker der Sprecher-Ethnizität (explizit oder implizit)
Ausgabe: Hassrede-Klassifizierung (Hateful/Non-Hateful)
Ziel: Analyse des Einflusses von Identitäts-Markern auf die Klassifizierungsergebnisse
Weit verbreitete Anfälligkeit: Alle getesteten LLMs zeigen unterschiedliche Grade von Anfälligkeit nach Injektion von Sprecher-Identitäts-Markern
Größerer impliziter Einfluss: Dialekt-Merkmale haben einen größeren Einfluss auf Modelle als explizite Identitätserwähnungen
Größe verbessert Robustheit: Größere Modelle zeigen robustere Leistung, weisen aber immer noch Vorurteile auf
Signifikante ethnische Unterschiede: Unterschiedliche ethnische Identitäten führen zu signifikanten Unterschieden in den Umkehrungsraten
Risiko falsch-negativer Ergebnisse: Modelle neigen dazu, Hassreden als Nicht-Hassreden fehlzuklassifizieren, was möglicherweise zu unerkannten schädlichen Inhalten führt
Kausalität: Obwohl Umkehrungsphänomene beobachtet werden, fehlt eine tiefgreifende Analyse spezifischer Ursachenmechanismen
Lösungsansätze: Hauptsächlich Problemidentifikation, aber keine konkreten Lösungsvorschläge
Bewertungsbeschränkungen: Manuelle Bewertungsstichprobe ist relativ klein (50 Stichproben pro Dialekt)
Dialekt-Repräsentativität: Ausgewählte Dialekte können Mikrodialekte und Gemeinschaften in verschiedenen Regionen möglicherweise nicht vollständig repräsentieren
Das Papier zitiert mehrere wichtige Forschungsarbeiten, einschließlich:
Sap et al. (2019): Risiken von Rassenvorurteilen bei der Hassrede-Erkennung
Field et al. (2021, 2023): Untersuchung von Rassismus in NLP
Harris et al. (2022): Vorurteile bei afroamerikanischem Englisch in der Hassrede-Klassifizierung
Ribeiro et al. (2020): Verhaltenstestrahmen für NLP-Modelle CheckList
Gesamtbewertung: Dies ist ein Forschungspapier von großer Bedeutung im Bereich KI-Ethik und Fairness. Durch systematisches experimentelles Design und umfassende Bewertung werden die Probleme von Identitätsvorurteilen bei LLMs in der Hassrede-Erkennungsaufgabe offenbart. Obwohl die Lösungsansätze noch verstärkt werden müssen, bietet die Arbeit wertvolle Erkenntnisse und Warnungen für Forschung und Praxis in diesem Bereich.