2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic

من يتحدث مهم: تحليل تأثير عرقية المتحدث على تصنيف خطاب الكراهية

المعلومات الأساسية

  • معرّف الورقة: 2410.20490
  • العنوان: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
  • المؤلفون: Ananya Malik (جامعة نورثيسترن)، Kartik Sharma (معهد جورجيا للتكنولوجيا)، Shaily Bhatt (جامعة كارنيجي ميلون)، Lynnette Hui Xian Ng (جامعة كارنيجي ميلون)
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 12 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2410.20490

الملخص

تتمتع نماذج اللغة الكبيرة (LLMs) بإمكانيات هائلة في الإشراف على المحتوى والكشف عن خطاب الكراهية. ومع ذلك، تعاني هذه النماذج من نقاط ضعف وانحيازات تجاه المجتمعات المهمشة واللهجات. يحقق هذا البحث في متانة نماذج اللغة الكبيرة في تصنيف خطاب الكراهية من خلال حقن علامات صريحة وضمنية لعرقية المتحدث في المدخلات. يكشف البحث أن العلامات اللهجية الضمنية تؤدي إلى قلب مخرجات النموذج بشكل أكثر سهولة من العلامات الصريحة، وتختلف نسبة القلب حسب العرق، وتظهر النماذج الأكبر متانة أفضل.

السياق البحثي والدافع

المشكلة الأساسية

تركز هذه الدراسة على حل المشكلة الأساسية التالية: كيف تكون متانة نماذج اللغة الكبيرة في مهمة الكشف عن خطاب الكراهية عندما يتضمن نص الإدخال معلومات هوية عرقية المتحدث؟

الأهمية

  1. الاحتياجات التطبيقية العملية: تُستخدم تقنيات اللغة بشكل متزايد في مهام الإشراف على المحتوى، بما في ذلك الكشف عن خطاب الكراهية، لأنها قادرة على معالجة كميات ضخمة من البيانات
  2. مهام عالية المخاطر: الكشف عن خطاب الكراهية هو مهمة عالية المخاطر تتطلب نشراً حذراً لنماذج اللغة الكبيرة
  3. التحديات العالمية: مع اعتماد نماذج اللغة الكبيرة على نطاق عالمي، يجب الحفاظ على الشمول لجميع الجنسيات

قيود الطرق الموجودة

  1. مشاكل الانحياز: من المعروف أن نماذج اللغة الكبيرة تحتوي على انحيازات تجاه المجتمعات المهمشة واللهجات، مما يؤدي إلى معاملة غير عادلة والإساءة التمثيلية
  2. نقاط الضعف: تظهر نماذج اللغة الكبيرة ضعفاً وانحيازاً وعدم يقين عند وجود معلومات إضافية غير ذات صلة بالمهمة نفسها
  3. تفضيل اللهجة: تظهر الأبحاث الموجودة أن هذه النماذج تفضل اللغة الإنجليزية الأمريكية، على الرغم من استخدام لهجات إنجليزية مختلفة في مواقع جغرافية مختلفة

دافع البحث

بناءً على المشاكل المذكورة أعلاه، تهدف هذه الورقة إلى تحليل منهجي لتأثير هوية المتحدث على تصنيف خطاب الكراهية في نماذج اللغة الكبيرة، وملء الفجوة في الأبحاث الموجودة فيما يتعلق بتأثير هوية المستخدم.

المساهمات الأساسية

  1. أول دراسة منهجية: دراسة جديدة لتأثير هوية المتحدث على الكشف عن خطاب الكراهية في نماذج اللغة الكبيرة
  2. منهج العلامات المزدوجة: اقتراح منهج منهجي باستخدام علامات صريحة وضمنية لإبلاغ النموذج بهوية المتحدث
  3. تقييم تجريبي شامل: إجراء تجارب شاملة على 4 نماذج لغة و2 مجموعة بيانات، مما يكشف عن نقاط ضعف النموذج في إعدادات مختلفة
  4. نتائج مهمة: اكتشاف أن العلامات اللهجية الضمنية تؤدي إلى قلب المخرجات بشكل أكثر سهولة من العلامات الصريحة، وتختلف معدلات القلب حسب العرق

شرح المنهجية

تعريف المهمة

المدخل: جملة باللغة الإنجليزية + علامة هوية عرقية المتحدث (صريحة أو ضمنية) المخرج: تصنيف خطاب الكراهية (كراهية/غير كراهية) الهدف: تحليل درجة تأثير علامات الهوية على نتائج التصنيف

تصميم التجربة

1. اختيار الهوية اللغوية

اختيار 5 جنسيات/مجموعات بلهجات إنجليزية مختلفة:

  • Indian (الهند)
  • Singaporean (سنغافورة)
  • British (بريطانيا)
  • Jamaican (جامايكا)
  • African-American (أمريكي من أصول أفريقية)

2. طرق حقن العلامات

العلامات الصريحة (Explicit Marker): الإشارة المباشرة إلى الهوية اللغوية في التعليمات

مثال: The [ethnicity] person said, "[input]"

العلامات الضمنية (Implicit Marker): الإشارة الضمنية إلى هوية المتحدث من خلال حقن خصائص اللهجة، بما في ذلك:

  • مفردات لغوية محددة (مثل "mah" في سنغافورة، "mate" في بريطانيا)
  • مواضيع وعبارات ثقافية
  • خلط الأكواد اللغوية
  • التهجئة الخاصة بالمنطقة

3. توليد بيانات اللهجة

استخدام Llama-3-70B للتعلم من عدد قليل من الأمثلة لتوليد بيانات اللهجة:

  • ضبط درجة الحرارة على 0 لضمان المخرجات الحتمية
  • تضمين تعليمات لتجنب تصفية المحتوى
  • إجراء التحقق اليدوي لضمان الجودة

التحقق من الجودة

تقييم بيانات اللهجة المولدة عبر أبعاد متعددة:

  1. دقة اللهجة: هل تعكس المفردات بدقة اللهجة الخاصة بهوية لغوية معينة
  2. الحفاظ على السياق: هل تم الحفاظ على الدلالة الأصلية واللهجة
  3. الطلاقة والقواعد النحوية: هل النص المولد سلس وصحيح نحوياً
  4. استخدام الأحرف اللاتينية: هل تستخدم الجمل المولدة الأحرف الإنجليزية

أظهرت نتائج التقييم اليدوي متوسط دقة لهجة بقيمة 4/5، مع تباين منخفض، مما يشير إلى جودة توليد عالية.

إعداد التجربة

مجموعات البيانات

  1. MPBHSD: من Twitter و4Chan و Reddit، تتضمن 600 جملة كراهية و2400 جملة غير كراهية
  2. HateXplain: من Twitter و Gab، عينة من 3000 جملة، تتضمن 2094 جملة كراهية و906 جملة غير كراهية

النماذج

  • نماذج اللغة الكبيرة: Llama-3-8B و Llama-3-70B و GPT-4o
  • النماذج التقليدية: نموذج BERT معايَر على مجموعة بيانات HateXplain
  • استراتيجيات التعليمات: التصنيف بدون عينات والتعلم في السياق (ICL)

مقاييس التقييم

  • المقياس الرئيسي: نسبة قلب مخرجات النموذج
  • أنواع القلب:
    • NH→H: تحويل غير كراهية إلى كراهية (معدل الإيجابيات الكاذبة)
    • H→NH: تحويل كراهية إلى غير كراهية (معدل السلبيات الكاذبة)

نتائج التجربة

الأداء الأساسي

في غياب علامات الهوية، تظهر النماذج أداءً جيداً:

  • مجموعة بيانات MPBHSD: دقة تصل إلى 90%
  • مجموعة بيانات HateXplain: دقة تصل إلى 80%

النتائج الرئيسية

1. تأثير نوع العلامة

  • العلامات الضمنية تؤدي إلى قلب مخرجات النموذج بشكل أكثر سهولة من العلامات الصريحة
  • بالنسبة لجميع النماذج باستثناء Llama-3-8B، تكون معدلات القلب تحت العلامات الضمنية أعلى بشكل ملحوظ (p < 0.05)

2. تأثير حجم النموذج

  • النماذج الأكبر والأحدث (مثل Llama-3-70B و GPT-4o) تظهر متانة أفضل
  • نسب القلب أقل، والأداء أكثر استقراراً

3. تأثير تقنيات التعليمات

  • التعلم في السياق (ICL) عادة ما ينتج معدلات قلب أقل من التصنيف بدون عينات
  • توفير أمثلة يمكن أن يؤدي إلى مخرجات نموذج أكثر استقراراً واتساقاً

4. الاختلافات العرقية

توجد اختلافات كبيرة في معدلات القلب عبر هويات عرقية مختلفة:

  • في النماذج الأكبر، تظهر بيانات اللهجة البريطانية والأمريكية من أصول أفريقية معدلات قلب H→NH أعلى
  • يظهر اختبار McNemar أن هوية المتحدث لها تأثير كبير على نتائج التصنيف في جميع النماذج (p < 0.05)

5. تأثير التسميات الأصلية

  • تنبؤات غير الكراهية (NH) عادة ما تبقى غير كراهية عبر هويات مختلفة للمتحدث
  • تنبؤات الكراهية (H) أكثر عرضة للتحويل إلى غير كراهية، مما يزيد من معدل السلبيات الكاذبة

6. تحليل المجموعات المستهدفة

  • يظهر HateXplain-BERT قلباً أكثر في بعض اللهجات على المجموعات المستهدفة الدينية
  • يظهر GPT-4o قلباً عبر جميع اللهجات على الأهداف المتعلقة بالتوجه الجنسي

حالة خاصة: Llama-3-8B

يظهر هذا النموذج معدلات قلب عالية بشكل غير عادي:

  • متغير ICL لمجموعة بيانات MPBHSD حوالي 40% معدل قلب
  • غالباً ما يفشل في اكتشاف الإشارات الصريحة والضمنية الساخرة
  • يفرط في رد الفعل على الإطارات السلبية
  • يحدث تصنيف خاطئ بشكل متكرر على المدخلات الأقصر

التجارب الاستكشافية

دقة تحديد الهوية اللغوية

استخدام مقيّم GPT-4o لاختبار قدرة النموذج على تحديد اللهجة:

  • أمريكي من أصول أفريقية: 96.3%
  • بريطاني: 99.8%
  • هندي: 100%
  • سنغافوري: 99.8%
  • جامايكي: 100%

تؤكد دقة التحديد العالية فعالية خصائص اللهجة.

مقارنة التعديلات الاصطناعية

اختبار تأثير التعديلات الاصطناعية الأخرى (إعادة الصياغة، تغيير الصوت، تحديد الطول) على معدلات القلب:

  • إعادة الصياغة: H→NH 0.17%، NH→H 0.0%
  • تغيير الصوت: H→NH 0.08%، NH→H 0.02%
  • تحديد الطول: H→NH 0.16%، NH→H 0.01%

معدلات القلب لهذه التعديلات أقل بكثير من حقن اللهجة، مما يؤكد التأثير الخاص لعلامات الهوية.

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. أبحاث انحياز نماذج اللغة الكبيرة: الأدبيات الواسعة التي توثق الانحيازات تجاه المجتمعات المهمشة واللهجات
  2. الكشف عن خطاب الكراهية: تركز الطرق التقليدية بشكل أساسي على المحتوى نفسه، مع اعتبار أقل لهوية المتحدث
  3. معالجة اللغات الطبيعية عبر الثقافات: البحث عن الاختلافات في معالجة اللغات في السياقات الثقافية المختلفة
  4. معالجة اللهجات: التركيز على أداء لهجات اللغة الإنجليزية المختلفة في مهام معالجة اللغات الطبيعية

الابتكار في هذه الورقة

  • أول دراسة منهجية لتأثير هوية المتحدث على تصنيف خطاب الكراهية
  • اقتراح منهج مزدوج للعلامات الصريحة والضمنية
  • تقييم شامل عبر نماذج ومجموعات بيانات متعددة

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. الضعف منتشر: تظهر جميع نماذج اللغة الكبيرة المختبرة درجات متفاوتة من الضعف بعد حقن علامات هوية المتحدث
  2. التأثير الضمني أكبر: خصائص اللهجة لها تأثير أكبر على النموذج من الإشارات الصريحة للهوية
  3. الحجم يحسن المتانة: تظهر النماذج الأكبر متانة أفضل، لكن الانحياز لا يزال موجوداً
  4. الاختلافات العرقية كبيرة: تؤدي هويات عرقية مختلفة إلى اختلافات كبيرة في معدلات القلب
  5. خطر السلبيات الكاذبة: يميل النموذج إلى تصنيف خطاب الكراهية بشكل خاطئ على أنه غير كراهية، مما قد يؤدي إلى عدم الكشف عن المحتوى الضار

القيود

  1. قيود بيانات اللهجة: نقص بيانات خطاب الكراهية المشروحة يدويًا بلهجات مختلفة
  2. نطاق النموذج محدود: عدم القدرة على اختبار المزيد من النماذج "الآمنة" مثل Claude بسبب قيود الموارد الحسابية
  3. قيود مجموعة البيانات: مقتصرة على مجموعات بيانات اللهجات المختلطة باللغة الإنجليزية
  4. انحياز البيانات الاصطناعية: قد تحتوي البيانات اللهجية المولدة على انحيازات مؤلف غير معروفة

الاتجاهات المستقبلية

  1. التوسع متعدد اللغات: التوسع إلى مجموعات بيانات متعددة اللغات ومجموعات بيانات خطاب كراهية أخرى
  2. أبحاث القابلية للتفسير: إجراء المزيد من أبحاث القابلية للتفسير لتقييم التأثير الدقيق للعبارات المحددة على أنماط تنبؤات النموذج
  3. استراتيجيات التخفيف: تطوير طرق وتقنيات لتقليل انحياز الهوية
  4. التقييم على نطاق أوسع: إجراء التقييم على المزيد من النماذج ومجموعات البيانات الأكبر

التقييم المتعمق

المميزات

  1. أهمية المشكلة: يدرس مشكلة مهمة في مجال أخلاقيات الذكاء الاصطناعي والعدالة
  2. ابتكار المنهجية: اقتراح منهج منهجي للعلامات الصريحة والضمنية
  3. التجارب الشاملة: تقييم شامل عبر نماذج ومجموعات بيانات وهويات عرقية متعددة
  4. النتائج الموثوقة: التحقق من أهمية النتائج من خلال الاختبارات الإحصائية
  5. القيمة العملية: توفير تحذيرات مهمة لنشر نماذج اللغة الكبيرة في المهام عالية المخاطر

أوجه القصور

  1. العلاقات السببية: على الرغم من ملاحظة ظاهرة القلب، يفتقر إلى تحليل متعمق لآليات الأسباب المحددة
  2. خطط التخفيف: يركز بشكل أساسي على الإشارة إلى المشكلة، دون توفير حلول محددة
  3. قيود التقييم: عينات التقييم اليدوي نسبياً صغيرة (50 عينة لكل لهجة)
  4. تمثيل اللهجة: قد لا تمثل اللهجات المختارة بشكل كامل اللهجات الدقيقة والمجتمعات المحلية في كل منطقة

التأثير

  1. المساهمة الأكاديمية: توفير منظور وطريقة جديدة لأبحاث عدالة نماذج اللغة الكبيرة
  2. الأهمية العملية: توفير إرشادات مهمة لتصميم ونشر أنظمة الإشراف على المحتوى
  3. التأثير السياسي: قد يؤثر على تنظيم وتوحيد أنظمة الذكاء الاصطناعي
  4. البحث اللاحق: وضع الأساس للأبحاث اللاحقة في المجالات ذات الصلة

السيناريوهات القابلة للتطبيق

  1. أنظمة الإشراف على المحتوى: أنظمة الكشف عن خطاب الكراهية في منصات وسائل التواصل الاجتماعي
  2. تقييم أخلاقيات الذكاء الاصطناعي: تقييم عدالة ومراجعة انحياز نماذج اللغة الكبيرة
  3. أنظمة الذكاء الاصطناعي متعددة الثقافات: تطبيقات الذكاء الاصطناعي الموجهة للمستخدمين العالميين
  4. الامتثال التنظيمي: تدقيق عدالة أنظمة الذكاء الاصطناعي والامتثال

المراجع

تستشهد الورقة بعدة أبحاث مهمة، بما في ذلك:

  • Sap et al. (2019): مخاطر الانحياز العرقي في الكشف عن خطاب الكراهية
  • Field et al. (2021, 2023): التحقيقات العنصرية في معالجة اللغات الطبيعية
  • Harris et al. (2022): الانحياز في تصنيف خطاب الكراهية للغة الإنجليزية الأمريكية من أصول أفريقية
  • Ribeiro et al. (2020): إطار اختبار السلوك لنماذج معالجة اللغات الطبيعية CheckList

التقييم الشامل: هذه ورقة بحثية ذات أهمية كبيرة في مجال أخلاقيات الذكاء الاصطناعي والعدالة. من خلال تصميم تجريبي منهجي وتقييم شامل، تكشف عن مشاكل الانحياز الهوياتي الموجودة في نماذج اللغة الكبيرة في مهام الكشف عن خطاب الكراهية. على الرغم من أن هناك حاجة إلى تعزيز في جانب الحلول، فإنها توفر رؤى وتحذيرات قيمة للبحث والممارسة في هذا المجال.