Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic
من يتحدث مهم: تحليل تأثير عرقية المتحدث على تصنيف خطاب الكراهية
تتمتع نماذج اللغة الكبيرة (LLMs) بإمكانيات هائلة في الإشراف على المحتوى والكشف عن خطاب الكراهية. ومع ذلك، تعاني هذه النماذج من نقاط ضعف وانحيازات تجاه المجتمعات المهمشة واللهجات. يحقق هذا البحث في متانة نماذج اللغة الكبيرة في تصنيف خطاب الكراهية من خلال حقن علامات صريحة وضمنية لعرقية المتحدث في المدخلات. يكشف البحث أن العلامات اللهجية الضمنية تؤدي إلى قلب مخرجات النموذج بشكل أكثر سهولة من العلامات الصريحة، وتختلف نسبة القلب حسب العرق، وتظهر النماذج الأكبر متانة أفضل.
تركز هذه الدراسة على حل المشكلة الأساسية التالية: كيف تكون متانة نماذج اللغة الكبيرة في مهمة الكشف عن خطاب الكراهية عندما يتضمن نص الإدخال معلومات هوية عرقية المتحدث؟
الاحتياجات التطبيقية العملية: تُستخدم تقنيات اللغة بشكل متزايد في مهام الإشراف على المحتوى، بما في ذلك الكشف عن خطاب الكراهية، لأنها قادرة على معالجة كميات ضخمة من البيانات
مهام عالية المخاطر: الكشف عن خطاب الكراهية هو مهمة عالية المخاطر تتطلب نشراً حذراً لنماذج اللغة الكبيرة
التحديات العالمية: مع اعتماد نماذج اللغة الكبيرة على نطاق عالمي، يجب الحفاظ على الشمول لجميع الجنسيات
بناءً على المشاكل المذكورة أعلاه، تهدف هذه الورقة إلى تحليل منهجي لتأثير هوية المتحدث على تصنيف خطاب الكراهية في نماذج اللغة الكبيرة، وملء الفجوة في الأبحاث الموجودة فيما يتعلق بتأثير هوية المستخدم.
المدخل: جملة باللغة الإنجليزية + علامة هوية عرقية المتحدث (صريحة أو ضمنية)
المخرج: تصنيف خطاب الكراهية (كراهية/غير كراهية)
الهدف: تحليل درجة تأثير علامات الهوية على نتائج التصنيف
Sap et al. (2019): مخاطر الانحياز العرقي في الكشف عن خطاب الكراهية
Field et al. (2021, 2023): التحقيقات العنصرية في معالجة اللغات الطبيعية
Harris et al. (2022): الانحياز في تصنيف خطاب الكراهية للغة الإنجليزية الأمريكية من أصول أفريقية
Ribeiro et al. (2020): إطار اختبار السلوك لنماذج معالجة اللغات الطبيعية CheckList
التقييم الشامل: هذه ورقة بحثية ذات أهمية كبيرة في مجال أخلاقيات الذكاء الاصطناعي والعدالة. من خلال تصميم تجريبي منهجي وتقييم شامل، تكشف عن مشاكل الانحياز الهوياتي الموجودة في نماذج اللغة الكبيرة في مهام الكشف عن خطاب الكراهية. على الرغم من أن هناك حاجة إلى تعزيز في جانب الحلول، فإنها توفر رؤى وتحذيرات قيمة للبحث والممارسة في هذا المجال.