Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic
कौन बोलता है यह महत्वपूर्ण है: घृणा वर्गीकरण पर वक्ता की जातीयता के प्रभाव का विश्लेषण
बड़े भाषा मॉडल (LLMs) सामग्री संचालन और घृणा भाषण पहचान में विशाल अनुप्रयोग क्षमता रखते हैं। हालांकि, ये मॉडल हाशिए पर रहने वाले समुदायों और बोलियों के प्रति कमजोरियों और पूर्वाग्रहों का प्रदर्शन करते हैं। यह अनुसंधान इनपुट में वक्ता की जातीयता के स्पष्ट और निहित मार्करों को इंजेक्ट करके, घृणा भाषण वर्गीकरण में LLMs की मजबूती की जांच करता है। अनुसंधान से पता चलता है कि निहित बोली मार्कर स्पष्ट मार्करों की तुलना में मॉडल आउटपुट फ्लिप करने के लिए अधिक प्रवण हैं, फ्लिप प्रतिशत जातीयता के अनुसार भिन्न होता है, और बड़े मॉडल अधिक मजबूत प्रदर्शन करते हैं।
यह अनुसंधान जो मूल समस्या को संबोधित करता है: जब इनपुट पाठ में वक्ता की जातीय पहचान की जानकारी शामिल होती है, तो घृणा भाषण पहचान कार्य में बड़े भाषा मॉडल की मजबूती कैसी होती है?
व्यावहारिक अनुप्रयोग की आवश्यकता: भाषा प्रौद्योगिकी को तेजी से सामग्री संचालन कार्यों के लिए उपयोग किया जा रहा है, जिसमें घृणा भाषण पहचान भी शामिल है, क्योंकि ये बड़ी मात्रा में डेटा को संभाल सकते हैं
उच्च जोखिम वाला कार्य: घृणा भाषण पहचान एक उच्च जोखिम वाला कार्य है जिसके लिए LLMs के सावधानीपूर्वक तैनाती की आवश्यकता है
वैश्विक चुनौती: LLMs के विश्वव्यापी अपनाने के साथ, सभी राष्ट्रीयताओं के लोगों के प्रति समावेशी रहने की आवश्यकता है
पूर्वाग्रह समस्या: LLMs को हाशिए पर रहने वाले समुदायों और बोलियों के प्रति पूर्वाग्रह के लिए जाना जाता है, जिससे अन्यायपूर्ण व्यवहार और प्रतिनिधित्व संबंधी नुकसान होता है
कमजोरी: LLMs कार्य से असंबंधित अतिरिक्त जानकारी की उपस्थिति में कमजोर, पक्षपाती और अनिश्चित प्रदर्शन करते हैं
बोली वरीयता: मौजूदा अनुसंधान से पता चलता है कि ये मॉडल अमेरिकी अंग्रेजी की ओर पक्षपाती हैं, हालांकि विभिन्न भौगोलिक स्थानों में अंग्रेजी की विभिन्न बोलियां उपयोग की जाती हैं
उपरोक्त समस्याओं के आधार पर, यह पेपर वक्ता की पहचान के LLMs घृणा भाषण वर्गीकरण पर प्रभाव का व्यवस्थित रूप से विश्लेषण करने का लक्ष्य रखता है, उपयोगकर्ता पहचान के प्रभाव के संबंध में मौजूदा अनुसंधान में अंतराल को भरता है।
पहला व्यवस्थित अनुसंधान: वक्ता की पहचान के LLMs घृणा भाषण पहचान पर प्रभाव का नया अनुसंधान
दोहरी मार्किंग विधि: मॉडल को वक्ता की पहचान के बारे में सूचित करने के लिए स्पष्ट और निहित मार्करों का उपयोग करने की एक व्यवस्थित विधि प्रस्तावित करता है
व्यापक प्रायोगिक मूल्यांकन: 4 भाषा मॉडल और 2 डेटासेट पर व्यापक प्रयोग किए गए, जो विभिन्न सेटिंग्स में मॉडल की कमजोरियों को प्रकट करते हैं
महत्वपूर्ण निष्कर्ष: निहित बोली मार्कर स्पष्ट मार्करों की तुलना में आउटपुट फ्लिप करने के लिए अधिक प्रवण हैं, और फ्लिप दर जातीयता के अनुसार भिन्न होती है
इनपुट: अंग्रेजी वाक्य + वक्ता की जातीय पहचान मार्कर (स्पष्ट या निहित)
आउटपुट: घृणा भाषण वर्गीकरण (Hateful/Non-Hateful)
उद्देश्य: पहचान मार्कर के वर्गीकरण परिणाम पर प्रभाव की डिग्री का विश्लेषण करना
पेपर कई महत्वपूर्ण अनुसंधानों का हवाला देता है, जिसमें शामिल हैं:
Sap et al. (2019): घृणा भाषण पहचान में जातीय पूर्वाग्रह जोखिम
Field et al. (2021, 2023): NLP में नस्लवाद की जांच
Harris et al. (2022): घृणा भाषण वर्गीकरण में अफ्रीकी-अमेरिकी अंग्रेजी पूर्वाग्रह
Ribeiro et al. (2020): NLP मॉडल के व्यवहार परीक्षण ढांचे CheckList
समग्र मूल्यांकन: यह AI नैतिकता और न्यायसंगतता के क्षेत्र में महत्वपूर्ण महत्व का एक अनुसंधान पेपर है। व्यवस्थित प्रायोगिक डिजाइन और व्यापक मूल्यांकन के माध्यम से, यह घृणा भाषण पहचान कार्य में LLMs में मौजूद पहचान पूर्वाग्रह समस्या को प्रकट करता है। हालांकि समाधान के पहलू में अभी सुधार की गुंजाइश है, लेकिन यह क्षेत्र के अनुसंधान और अभ्यास के लिए मूल्यवान अंतर्दृष्टि और चेतावनी प्रदान करता है।