2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.

Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.

academic

कौन बोलता है यह महत्वपूर्ण है: घृणा वर्गीकरण पर वक्ता की जातीयता के प्रभाव का विश्लेषण

मूल जानकारी

पेपर ID: 2410.20490
शीर्षक: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
लेखक: Ananya Malik (Northeastern University), Kartik Sharma (Georgia Institute of Technology), Shaily Bhatt (Carnegie Mellon University), Lynnette Hui Xian Ng (Carnegie Mellon University)
वर्गीकरण: cs.CL cs.AI
प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2410.20490

सारांश

बड़े भाषा मॉडल (LLMs) सामग्री संचालन और घृणा भाषण पहचान में विशाल अनुप्रयोग क्षमता रखते हैं। हालांकि, ये मॉडल हाशिए पर रहने वाले समुदायों और बोलियों के प्रति कमजोरियों और पूर्वाग्रहों का प्रदर्शन करते हैं। यह अनुसंधान इनपुट में वक्ता की जातीयता के स्पष्ट और निहित मार्करों को इंजेक्ट करके, घृणा भाषण वर्गीकरण में LLMs की मजबूती की जांच करता है। अनुसंधान से पता चलता है कि निहित बोली मार्कर स्पष्ट मार्करों की तुलना में मॉडल आउटपुट फ्लिप करने के लिए अधिक प्रवण हैं, फ्लिप प्रतिशत जातीयता के अनुसार भिन्न होता है, और बड़े मॉडल अधिक मजबूत प्रदर्शन करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान जो मूल समस्या को संबोधित करता है: जब इनपुट पाठ में वक्ता की जातीय पहचान की जानकारी शामिल होती है, तो घृणा भाषण पहचान कार्य में बड़े भाषा मॉडल की मजबूती कैसी होती है?

महत्व

व्यावहारिक अनुप्रयोग की आवश्यकता: भाषा प्रौद्योगिकी को तेजी से सामग्री संचालन कार्यों के लिए उपयोग किया जा रहा है, जिसमें घृणा भाषण पहचान भी शामिल है, क्योंकि ये बड़ी मात्रा में डेटा को संभाल सकते हैं
उच्च जोखिम वाला कार्य: घृणा भाषण पहचान एक उच्च जोखिम वाला कार्य है जिसके लिए LLMs के सावधानीपूर्वक तैनाती की आवश्यकता है
वैश्विक चुनौती: LLMs के विश्वव्यापी अपनाने के साथ, सभी राष्ट्रीयताओं के लोगों के प्रति समावेशी रहने की आवश्यकता है

मौजूदा विधियों की सीमाएं

पूर्वाग्रह समस्या: LLMs को हाशिए पर रहने वाले समुदायों और बोलियों के प्रति पूर्वाग्रह के लिए जाना जाता है, जिससे अन्यायपूर्ण व्यवहार और प्रतिनिधित्व संबंधी नुकसान होता है
कमजोरी: LLMs कार्य से असंबंधित अतिरिक्त जानकारी की उपस्थिति में कमजोर, पक्षपाती और अनिश्चित प्रदर्शन करते हैं
बोली वरीयता: मौजूदा अनुसंधान से पता चलता है कि ये मॉडल अमेरिकी अंग्रेजी की ओर पक्षपाती हैं, हालांकि विभिन्न भौगोलिक स्थानों में अंग्रेजी की विभिन्न बोलियां उपयोग की जाती हैं

अनुसंधान प्रेरणा

उपरोक्त समस्याओं के आधार पर, यह पेपर वक्ता की पहचान के LLMs घृणा भाषण वर्गीकरण पर प्रभाव का व्यवस्थित रूप से विश्लेषण करने का लक्ष्य रखता है, उपयोगकर्ता पहचान के प्रभाव के संबंध में मौजूदा अनुसंधान में अंतराल को भरता है।

मूल योगदान

पहला व्यवस्थित अनुसंधान: वक्ता की पहचान के LLMs घृणा भाषण पहचान पर प्रभाव का नया अनुसंधान
दोहरी मार्किंग विधि: मॉडल को वक्ता की पहचान के बारे में सूचित करने के लिए स्पष्ट और निहित मार्करों का उपयोग करने की एक व्यवस्थित विधि प्रस्तावित करता है
व्यापक प्रायोगिक मूल्यांकन: 4 भाषा मॉडल और 2 डेटासेट पर व्यापक प्रयोग किए गए, जो विभिन्न सेटिंग्स में मॉडल की कमजोरियों को प्रकट करते हैं
महत्वपूर्ण निष्कर्ष: निहित बोली मार्कर स्पष्ट मार्करों की तुलना में आउटपुट फ्लिप करने के लिए अधिक प्रवण हैं, और फ्लिप दर जातीयता के अनुसार भिन्न होती है

विधि विवरण

कार्य परिभाषा

इनपुट: अंग्रेजी वाक्य + वक्ता की जातीय पहचान मार्कर (स्पष्ट या निहित) आउटपुट: घृणा भाषण वर्गीकरण (Hateful/Non-Hateful) उद्देश्य: पहचान मार्कर के वर्गीकरण परिणाम पर प्रभाव की डिग्री का विश्लेषण करना

प्रायोगिक डिजाइन

1. भाषा पहचान चयन

विभिन्न अंग्रेजी बोलियों वाली 5 राष्ट्रीयताओं/समूहों का चयन:

भारतीय (Indian)
सिंगापुरी (Singaporean)
ब्रिटिश (British)
जमैकन (Jamaican)
अफ्रीकी-अमेरिकी (African-American)

2. मार्कर इंजेक्शन विधि

स्पष्ट मार्कर (Explicit Marker): प्रॉम्प्ट में सीधे भाषा पहचान का उल्लेख

उदाहरण: The [ethnicity] person said, "[input]"

निहित मार्कर (Implicit Marker): बोली की विशेषताओं को इंजेक्ट करके वक्ता की पहचान को निहित रूप से संकेत करना, जिसमें शामिल हैं:

विशिष्ट स्थानीय शब्दावली (जैसे सिंगापुर का "mah", ब्रिटिश का "mate")
सांस्कृतिक विषय और मुहावरे
कोड मिश्रण भाषा
क्षेत्रीय विशिष्ट वर्तनी

3. बोली डेटा जनरेशन

कुछ-शॉट लर्निंग के लिए Llama-3-70B का उपयोग करके बोली डेटा उत्पन्न करना:

निर्धारक आउटपुट सुनिश्चित करने के लिए तापमान 0 पर सेट करना
सामग्री फ़िल्टरिंग से बचने के निर्देश शामिल करना
गुणवत्ता सुनिश्चित करने के लिए मानव सत्यापन करना

गुणवत्ता सत्यापन

उत्पन्न बोली डेटा का बहु-आयामी मूल्यांकन:

बोली सटीकता: क्या शब्दावली दी गई भाषा पहचान की बोली को सटीक रूप से प्रतिबिंबित करती है
संदर्भ संरक्षण: क्या मूल शब्दार्थ और बोली संरक्षित हैं
प्रवाहिता और व्याकरण: क्या उत्पन्न पाठ प्रवाहपूर्ण और व्याकरणिक रूप से सही है
लैटिन लिपि का उपयोग: क्या उत्पन्न वाक्य अंग्रेजी लिपि का उपयोग करते हैं

मानव मूल्यांकन परिणाम औसत बोली सटीकता 4/5 अंक दिखाते हैं, कम विचरण के साथ, जो उच्च उत्पादन गुणवत्ता को दर्शाता है।

प्रायोगिक सेटअप

डेटासेट

MPBHSD: Twitter, 4Chan और Reddit से, 600 घृणा भाषण और 2400 गैर-घृणा भाषण शामिल हैं
HateXplain: Twitter और Gab से, 3000 वाक्यों का नमूना, जिसमें 2094 घृणा भाषण और 906 गैर-घृणा भाषण शामिल हैं

मॉडल

LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
पारंपरिक मॉडल: HateXplain डेटासेट पर सूक्ष्म-ट्यून किया गया BERT मॉडल
प्रॉम्प्ट रणनीति: शून्य-शॉट वर्गीकरण और संदर्भ में सीखना (ICL)

मूल्यांकन मेट्रिक्स

प्राथमिक मेट्रिक: मॉडल आउटपुट फ्लिप प्रतिशत
फ्लिप प्रकार:
- NH→H: गैर-घृणा को घृणा में परिवर्तित (झूठी सकारात्मक दर)
- H→NH: घृणा को गैर-घृणा में परिवर्तित (झूठी नकारात्मक दर)

प्रायोगिक परिणाम

आधारभूत प्रदर्शन

बिना पहचान मार्कर के, मॉडल अच्छा प्रदर्शन करते हैं:

MPBHSD डेटासेट: 90% तक की सटीकता
HateXplain डेटासेट: 80% की सटीकता

मुख्य निष्कर्ष

1. मार्कर प्रकार का प्रभाव

निहित मार्कर स्पष्ट मार्करों की तुलना में मॉडल आउटपुट फ्लिप करने के लिए अधिक प्रवण हैं
Llama-3-8B को छोड़कर, सभी मॉडल निहित मार्कर के तहत काफी अधिक फ्लिप दर दिखाते हैं (p < 0.05)

2. मॉडल आकार प्रभाव

बड़े और अधिक अद्यतन मॉडल (जैसे Llama-3-70B और GPT-4o) अधिक मजबूत प्रदर्शन करते हैं
फ्लिप प्रतिशत कम है, प्रदर्शन अधिक स्थिर है

3. प्रॉम्प्ट तकनीक प्रभाव

संदर्भ में सीखना (ICL) आमतौर पर शून्य-शॉट सीखने की तुलना में कम फ्लिप दर देता है
उदाहरण प्रदान करने से अधिक स्थिर और सुसंगत मॉडल आउटपुट मिलता है

4. जातीयता अंतर

विभिन्न जातीय पहचानों के फ्लिप दर में महत्वपूर्ण अंतर हैं:

बड़े मॉडल में, ब्रिटिश और अफ्रीकी-अमेरिकी बोली डेटा उच्च H→NH फ्लिप दर दिखाते हैं
McNemar परीक्षा सभी मॉडल में वक्ता की पहचान के वर्गीकरण परिणाम पर महत्वपूर्ण प्रभाव दिखाता है (p < 0.05)

5. मूल लेबल प्रभाव

गैर-घृणा (NH) भविष्यवाणी आमतौर पर विभिन्न मॉडल और वक्ता पहचान में गैर-घृणा बनी रहती है
घृणा (H) भविष्यवाणी गैर-घृणा में परिवर्तित होने के लिए अधिक प्रवण है, झूठी नकारात्मक दर बढ़ाता है

6. लक्ष्य समूह विश्लेषण

HateXplain-BERT धार्मिक समूह लक्ष्य पर कुछ बोलियों में अधिक फ्लिप दिखाता है
GPT-4o यौन अभिविन्यास संबंधित लक्ष्य पर सभी बोलियों में फ्लिप दिखाता है

विशेष मामला: Llama-3-8B

यह मॉडल असामान्य रूप से उच्च फ्लिप दर दिखाता है:

MPBHSD डेटासेट ICL वेरिएंट में लगभग 40% फ्लिप दर
अक्सर व्यंग्य के स्पष्ट और निहित संकेतों को पहचानने में विफल रहता है
नकारात्मक फ्रेमिंग पर अत्यधिक प्रतिक्रिया करता है
छोटे इनपुट पर अधिक बार गलत वर्गीकरण करता है

विलोपन प्रयोग

भाषा पहचान पहचान सटीकता

GPT-4o मूल्यांकनकर्ता का उपयोग करके बोली को पहचानने की मॉडल क्षमता का परीक्षण:

अफ्रीकी-अमेरिकी: 96.3%
ब्रिटिश: 99.8%
भारतीय: 100%
सिंगापुरी: 99.8%
जमैकन: 100%

उच्च पहचान सटीकता बोली विशेषताओं की प्रभावशीलता को प्रमाणित करती है।

सिंथेटिक संशोधन तुलना

अन्य सिंथेटिक संशोधनों (पुनर्लेखन, वाक्य संरचना परिवर्तन, लंबाई सीमा) के फ्लिप दर पर प्रभाव का परीक्षण:

पुनर्लेखन: H→NH 0.17%, NH→H 0.0%
वाक्य संरचना परिवर्तन: H→NH 0.08%, NH→H 0.02%
लंबाई सीमा: H→NH 0.16%, NH→H 0.01%

ये संशोधन बोली इंजेक्शन की तुलना में बहुत कम फ्लिप दर दिखाते हैं, जो पहचान मार्कर के विशेष प्रभाव को प्रमाणित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

कमजोरी सर्वव्यापी है: सभी परीक्षित LLMs वक्ता की पहचान मार्कर इंजेक्ट करने के बाद विभिन्न डिग्री की कमजोरी दिखाते हैं
निहित प्रभाव अधिक बड़ा है: बोली विशेषताएं स्पष्ट पहचान उल्लेख की तुलना में मॉडल पर अधिक प्रभाव डालती हैं
आकार मजबूती बढ़ाता है: बड़े मॉडल अधिक मजबूत प्रदर्शन करते हैं, लेकिन पूर्वाग्रह अभी भी मौजूद हैं
जातीयता अंतर महत्वपूर्ण है: विभिन्न जातीय पहचान फ्लिप दर में महत्वपूर्ण अंतर का कारण बनती हैं
झूठी नकारात्मक जोखिम: मॉडल घृणा भाषण को गैर-घृणा के रूप में गलत वर्गीकृत करने के लिए प्रवण हैं, जिससे हानिकारक सामग्री का पता नहीं चल सकता है

सीमाएं

बोली डेटा सीमा: विभिन्न बोलियों में घृणा भाषण के मानव-लेबल किए गए डेटा की कमी
मॉडल रेंज सीमित: कम्प्यूटेशनल संसाधन सीमाओं के कारण, Claude जैसे अधिक "सुरक्षित" मॉडल का परीक्षण नहीं किया जा सका
डेटासेट सीमाएं: केवल अंग्रेजी मिश्रित बोली डेटासेट तक सीमित
सिंथेटिक डेटा पूर्वाग्रह: उत्पन्न बोली डेटा में अज्ञात लेखक पूर्वाग्रह हो सकते हैं

भविष्य की दिशाएं

बहुभाषी विस्तार: बहुभाषी डेटासेट और अन्य घृणा भाषण डेटासेट में विस्तार
व्याख्यात्मकता अनुसंधान: अधिक व्याख्यात्मकता अनुसंधान, विशिष्ट वाक्यांशों के मॉडल भविष्यवाणी पैटर्न पर सटीक प्रभाव का मूल्यांकन
शमन रणनीति: पहचान पूर्वाग्रह को कम करने के तरीके और तकनीकें विकसित करना
बड़े पैमाने पर मूल्यांकन: अधिक मॉडल और बड़े डेटासेट पर मूल्यांकन

गहन मूल्यांकन

शक्तियां

समस्या महत्व: AI नैतिकता और न्यायसंगतता के क्षेत्र में महत्वपूर्ण समस्या का अनुसंधान
विधि नवीनता: स्पष्ट और निहित मार्करों की व्यवस्थित विधि प्रस्तावित करता है
व्यापक प्रयोग: कई मॉडल, डेटासेट और जातीय पहचान में व्यापक मूल्यांकन
विश्वसनीय परिणाम: सांख्यिकीय परीक्षण के माध्यम से परिणामों की महत्ता सत्यापित
व्यावहारिक मूल्य: उच्च जोखिम वाले कार्यों में LLMs की तैनाती के लिए महत्वपूर्ण चेतावनी

कमियां

कारणात्मक संबंध: हालांकि फ्लिप घटना देखी गई है, लेकिन विशिष्ट कारण तंत्र की गहन विश्लेषण की कमी है
शमन समाधान: मुख्य रूप से समस्या को इंगित करता है, लेकिन विशिष्ट समाधान प्रदान नहीं करता है
मूल्यांकन सीमाएं: मानव मूल्यांकन नमूना अपेक्षाकृत छोटा है (प्रत्येक बोली के लिए 50 नमूने)
बोली प्रतिनिधित्व: चयनित बोलियां विभिन्न क्षेत्रों की सूक्ष्म बोलियों और समुदायों का पूरी तरह से प्रतिनिधित्व नहीं कर सकती हैं

प्रभाव

शैक्षणिक योगदान: LLM न्यायसंगतता अनुसंधान के लिए नया दृष्टिकोण और विधि प्रदान करता है
व्यावहारिक महत्व: सामग्री संचालन प्रणालियों के डिजाइन और तैनाती के लिए महत्वपूर्ण मार्गदर्शन
नीति प्रभाव: AI प्रणालियों के विनियमन और मानक निर्धारण को प्रभावित कर सकता है
बाद के अनुसंधान: संबंधित क्षेत्रों में बाद के अनुसंधान के लिए आधार स्थापित करता है

लागू परिदृश्य

सामग्री संचालन प्रणाली: सोशल मीडिया प्लेटफॉर्म की घृणा भाषण पहचान प्रणाली
AI नैतिकता मूल्यांकन: LLM न्यायसंगतता और पूर्वाग्रह मूल्यांकन
बहु-सांस्कृतिक AI प्रणाली: वैश्विक उपयोगकर्ताओं के लिए AI अनुप्रयोग
नियामक अनुपालन: AI प्रणालियों की न्यायसंगतता ऑडिट और अनुपालन जांच

संदर्भ

पेपर कई महत्वपूर्ण अनुसंधानों का हवाला देता है, जिसमें शामिल हैं:

Sap et al. (2019): घृणा भाषण पहचान में जातीय पूर्वाग्रह जोखिम
Field et al. (2021, 2023): NLP में नस्लवाद की जांच
Harris et al. (2022): घृणा भाषण वर्गीकरण में अफ्रीकी-अमेरिकी अंग्रेजी पूर्वाग्रह
Ribeiro et al. (2020): NLP मॉडल के व्यवहार परीक्षण ढांचे CheckList

समग्र मूल्यांकन: यह AI नैतिकता और न्यायसंगतता के क्षेत्र में महत्वपूर्ण महत्व का एक अनुसंधान पेपर है। व्यवस्थित प्रायोगिक डिजाइन और व्यापक मूल्यांकन के माध्यम से, यह घृणा भाषण पहचान कार्य में LLMs में मौजूद पहचान पूर्वाग्रह समस्या को प्रकट करता है। हालांकि समाधान के पहलू में अभी सुधार की गुंजाइश है, लेकिन यह क्षेत्र के अनुसंधान और अभ्यास के लिए मूल्यवान अंतर्दृष्टि और चेतावनी प्रदान करता है।