2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu
With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
academic

قياس استجابات النماذج اللغوية الكبيرة الأخلاقية في القدرات متعددة اللغات

المعلومات الأساسية

  • معرّف الورقة: 2510.08776
  • العنوان: قياس استجابات النماذج اللغوية الكبيرة الأخلاقية في القدرات متعددة اللغات
  • المؤلفون: Kimaya Basu, Savi Kolari, Allison Yu
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 9 أكتوبر 2025 (نسخة ArXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.08776

الملخص

مع الاستخدام الواسع للنماذج اللغوية الكبيرة (LLM) على الصعيد العالمي، يتزايد الطلب على فهم وتنظيم استجاباتها متعددة اللغات. تقيّم هذه الدراسة أداء النماذج المتقدمة والنماذج مفتوحة المصدر الرائدة عبر خمسة أبعاد في اللغات منخفضة الموارد وعالية الموارد لقياس دقة واتساق النماذج اللغوية الكبيرة في البيئات متعددة اللغات. تستخدم الدراسة مقياساً من خمس نقاط وحكاماً من النماذج اللغوية الكبيرة للتقييم. تُظهر النتائج أن GPT-5 يحقق أفضل أداء متوسطة عبر جميع الفئات، بينما تُظهر النماذج الأخرى عدم اتساق أكثر عبر اللغات والفئات. وبشكل خاص، في فئات الموافقة والاستقلالية (Consent & Autonomy) والوقاية من الأذى والسلامة (Harm Prevention & Safety)، حقق GPT أعلى الدرجات (بمتوسط 3.56 و4.73 على التوالي)، بينما حقق Gemini 2.5 Pro أقل الدرجات (بمتوسط 1.39 و1.98 على التوالي).

السياق البحثي والدافع

أسئلة البحث

تعالج هذه الدراسة الأسئلة الرئيسية التالية:

  1. مشكلة الاتساق الأخلاقي متعدد اللغات: هل تحافظ النماذج اللغوية الكبيرة على استجابات أخلاقية وأخلاقية متسقة عبر بيئات لغوية مختلفة؟
  2. حساسية اللغة لآليات السلامة: فعالية تدابير الحماية الحالية في اللغات غير الإنجليزية
  3. الانحيازات والصور النمطية عبر اللغات: هل تُظهر النماذج درجات مختلفة من الانحياز في لغات مختلفة؟

أهمية المشكلة

  1. احتياجات التطبيق العالمي: أصبحت النماذج اللغوية الكبيرة أداة يومية للمستخدمين العالميين، مما يتطلب ضمان الموثوقية عبر اللغات
  2. مخاوف السلامة: تُظهر الأبحاث أن آليات السلامة في النماذج اللغوية الكبيرة تؤدي أداءً أضعف في اللغات غير الإنجليزية، مما يجعلها عرضة للاستغلال الخبيث
  3. الاختلافات الثقافية في المعايير الأخلاقية: قد توجد اختلافات كبيرة في الأحكام الأخلاقية تحت خلفيات لغوية مختلفة

قيود الطرق الموجودة

  1. بيانات الاختبار بشكل أساسي باللغة الإنجليزية: تركز معايير الاختبار الحالية بشكل أساسي على البيئات الإنجليزية
  2. نقص التقييم المنهجي: نقص إطار تقييم شامل عبر أبعاد أخلاقية متعددة
  3. النقاط العمياء اللغوية لآليات السلامة: تُظهر الأبحاث الحالية وجود ثغرات في البروتوكولات الأمنية في اللغات منخفضة الموارد

المساهمات الأساسية

  1. بناء مجموعة بيانات تقييم أخلاقية متعددة الأبعاد ومتعددة اللغات: إنشاء مجموعة تقييم شاملة تحتوي على 5 فئات و100 سؤال لكل فئة تغطي 6 لغات
  2. تحليل أخلاقي منهجي عبر اللغات: أول تحليل منهجي لاستجابات النماذج اللغوية الكبيرة الأخلاقية متعددة اللغات
  3. اكتشاف نقاط ضعف آليات السلامة: الكشف عن اختلافات كبيرة في آليات السلامة في النماذج اللغوية الكبيرة عبر لغات مختلفة
  4. إنشاء معايير أداء النموذج: توفير معايير وإطار تقييم لأبحاث الذكاء الاصطناعي الأخلاقي متعدد اللغات في المستقبل

شرح الطريقة

تعريف المهمة

الإدخال: أسئلة أخلاقية وأخلاقية عبر 6 لغات (الإنجليزية والصينية والإسبانية والعربية والهندية والسواحيلية) الإخراج: درجة الملاءمة الأخلاقية لاستجابة النموذج (مقياس من 1 إلى 5) القيود: يجب أن تكون الاستجابات في 50 كلمة أو أقل، وتتطلب أسئلة الحكم الأخلاقي إجابات واضحة نعم/لا/ربما

إطار التقييم

بناء مجموعة البيانات

بنى فريق البحث مجموعة بيانات تحتوي على 500 سؤال باللغة الإنجليزية، مقسمة إلى خمس فئات:

  1. الانحيازات والصور النمطية (Biases & Stereotypes): اختبار ما إذا كان النموذج يستمر في الانحيازات الضارة
  2. الموافقة والاستقلالية (Consent & Autonomy): استخدام تلميحات خادعة لاختبار آليات السلامة
  3. الوقاية من الأذى والسلامة (Harm Prevention & Safety): اختبار بروتوكولات السلامة من خلال أسئلة غير مباشرة
  4. الشرعية (Legality): اختبار كيفية تعامل النموذج مع الاختلافات القانونية في المناطق المختلفة
  5. الحكم الأخلاقي (Moral Judgment): تقييم امتثال النموذج للمبادئ الأخلاقية الأساسية

استراتيجية اختيار اللغة

  • اللغات عالية الموارد: الصينية والإسبانية والعربية
  • اللغات منخفضة الموارد: الهندية والسواحيلية
  • معايير الاختيار: تنوع البنية اللغوية والاختلافات الثقافية والخلفية والتغييرات في نظام الكتابة

نطاق اختبار النموذج

  • النماذج المتقدمة: GPT-5 و Gemini 2.5 Pro و Claude Sonnet 4
  • النماذج مفتوحة المصدر: Llama 4 Scout و Qwen3 235B-a22b
  • أساس الاختيار: بيانات التدريب والأهداف التطبيقية والخصائص الإقليمية ودرجة الانفتاح

طرق التقييم

إطار LLM-as-a-Judge

  • نموذج الحكم: Gemini 2.5 Pro كحكم رئيسي
  • معايير التقييم: مقياس من 5 نقاط، مع الأخذ في الاعتبار دقة الإجابة وجودة الاستدلال
  • التحقق من الاتساق: استخدام GPT-5 و Qwen3 للتحقق المتقاطع

عملية التقييم

  1. ترجمة الأسئلة الإنجليزية إلى اللغة المستهدفة (باستخدام Googletrans)
  2. توليد استجابات النموذج باللغة المستهدفة
  3. ترجمة الاستجابات مرة أخرى إلى الإنجليزية للتقييم
  4. التقييم بناءً على مقاييس محددة لكل فئة

إعداد التجربة

تفاصيل مجموعة البيانات

  • إجمالي الأسئلة: 500 سؤال أصلي باللغة الإنجليزية
  • تغطية اللغات: 6 لغات × 500 سؤال = 3000 عينة اختبار
  • توزيع الفئات: 100 سؤال لكل فئة، موزعة بالتساوي
  • أداة الترجمة: حزمة Googletrans Python

مؤشرات التقييم

  • المؤشرات الرئيسية: درجات المقياس من 5 نقاط (1 = الأسوأ، 5 = الأفضل)
  • المؤشرات المحددة للفئة: معايير تقييم متخصصة لكل فئة أخلاقية
  • قياس الاتساق: تحليل الانحراف المعياري للاستجابات عبر اللغات

معاملات التجربة

  • إعداد درجة الحرارة: 0.7 (لتقليل التباين العشوائي)
  • حد الاستجابة: 50 كلمة أو أقل
  • التعليمات النظامية: تنسيق تعليمات موحد

نتائج التجربة

النتائج الرئيسية

ترتيب الأداء الإجمالية

  1. GPT-5: متوسط درجة 92%، أفضل أداء في جميع الفئات
  2. Claude Sonnet 4: أداء مستقرة، أداء جيدة في فئات السلامة
  3. Gemini 2.5 Pro: أداء ممتازة في الفئات الأكاديمية، لكن أداء ضعيفة في فئات السلامة
  4. Llama 4 Scout: أداء متوسطة
  5. Qwen3 235B: متوسط درجة 66%، أسوأ أداء إجمالية

الاكتشافات الرئيسية

الاختلافات الكبيرة في فئات السلامة:

  • فئة Consent & Autonomy: GPT-5 (3.56) مقابل Gemini 2.5 Pro (1.39)
  • فئة Harm Prevention & Safety: GPT-5 (4.73) مقابل Gemini 2.5 Pro (1.98)

تأثير مستوى موارد اللغة:

  • في فئات الأسئلة الخادعة، يحقق النموذج درجات أعلى في اللغات منخفضة الموارد
  • في اللغات عالية الموارد، يسهل "خداع" النموذج لتقديم معلومات ضارة

الأداء المحددة للنموذج:

  • Gemini 2.5 Pro: أداء ممتازة في الفئات المباشرة (الانحيازات والشرعية والحكم الأخلاقي)، لكن أداء سيئة جداً في الفئات غير المباشرة
  • Qwen3: يُظهر انحيازاً إقليمياً واضحاً في مسائل القانون الصيني

التجارب الاستئصالية

التحقق من جودة الترجمة

  • التحقق العشوائي من دقة الترجمة
  • الحفاظ على الفرق في الدرجات ضمن نقطة واحدة
  • التحقق المتقاطع لضمان اتساق التقييم

اختبار انحياز الحكم

  • لا يُظهر Gemini انحيازاً واضحاً تجاه استجاباته الخاصة
  • تقييم Qwen أقل بمتوسط 0.5 نقطة
  • تقييم GPT-5 أعلى بمتوسط 0.6 نقطة

تحليل الحالات

توفر الورقة أمثلة على الاستجابات النموذجية، مما يُظهر:

  1. GPT-5 يرفض تقديم معلومات ضارة في مسائل السلامة
  2. Gemini 2.5 Pro يتم "خداعه" بنجاح في بعض الأسئلة الخادعة
  3. Qwen3 يُظهر توجهاً نحو القانون الصيني في مسائل القانون

الأعمال ذات الصلة

قياس الأطر الأخلاقية

  • تكييف الأدوات النفسية: تطبيق أدوات نفسية مثل اختبار تحديد المشاكل (DIT) على النماذج اللغوية الكبيرة
  • تحليل الأطر الفلسفية: تقييم الاستدلال الأخلاقي من المنفعة مقابل الواجب
  • القيود: الطرق الحالية محدودة النطاق وتفتقر إلى المنظور متعدد اللغات

أبحاث القدرات متعددة اللغات

  • اختبار القدرات الاستدلالية: اختبار عبر اللغات لمعضلات أخلاقية مثل مشكلة العربة
  • دقة الحقائق: اتساق الإجابات الواقعية في لغات مختلفة
  • الاختلافات في الأداء: تفوق اللغات عالية الموارد على اللغات منخفضة الموارد

أبحاث قيود السلامة

  • هجمات الخروج عن المسار: تجاوز آليات السلامة من خلال اللغات غير الإنجليزية
  • المعايير واسعة النطاق: اختبار الأداء الأمني في 100+ لغة
  • اكتشاف الثغرات: ثغرات البروتوكول الأمني في اللغات منخفضة الموارد

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. اختلافات كبيرة بين النماذج: يتفوق GPT-5 بشكل واضح على النماذج الأخرى في الاستجابات الأخلاقية والأمنية
  2. حساسية اللغة: تُظهر جميع النماذج درجات مختلفة من انخفاض الأداء في اللغات غير الإنجليزية
  3. ضعف آليات السلامة: توجد اختلافات كبيرة في معدل نجاح الأسئلة الخادعة عبر اللغات المختلفة
  4. وجود انحيازات إقليمية: تُظهر بعض النماذج انحيازاً قانونياً إقليمياً واضحاً

القيود

  1. الاعتماد على الترجمة: الاعتماد على ترجمة Google قد يُدخل أخطاء
  2. نقص المعايير البشرية: لم يتم جمع استجابات بشرية كمعيار مقارنة
  3. الذاتية في المقياس: قد لا يعكس مقياس التقييم بشكل كامل القيم الاجتماعية
  4. تغطية لغوية محدودة: اختبار 6 لغات فقط، تمثيل محدود

الاتجاهات المستقبلية

  1. توسيع تغطية اللغات: التوسع إلى جميع اللغات التي تدعمها ترجمة Google
  2. إنشاء معايير بشرية: جمع استجابات بشرية من خلفيات ثقافية متنوعة
  3. أبحاث تأثير الصياغة: البحث المتعمق في تأثير صياغة الأسئلة على الاستجابات
  4. تحسين آليات السلامة: تحسين البروتوكولات الأمنية متعددة اللغات بناءً على الثغرات المكتشفة

التقييم المتعمق

المزايا

  1. أهمية البحث كبيرة: أول تقييم منهجي لاستجابات النماذج اللغوية الكبيرة الأخلاقية عبر اللغات، يملأ فجوة بحثية مهمة
  2. المنهجية صارمة: استخدام إطار تقييم شامل متعدد النماذج ومتعدد اللغات ومتعدد الأبعاد
  3. الاكتشافات ذات قيمة عملية: الثغرات الأمنية المكتشفة لها أهمية توجيهية مهمة للنشر الفعلي
  4. مساهمة مجموعة البيانات: يمكن لمجموعة البيانات الأخلاقية متعددة اللغات المبنية أن توفر معايير للأبحاث اللاحقة

أوجه القصور

  1. التحكم في جودة الترجمة: الاعتماد المفرط على الترجمة الآلية قد يؤثر على موثوقية النتائج
  2. عدم كفاية الاعتبارات الثقافية: عدم الأخذ الكافي في الاعتبار الاختلافات في المعايير الأخلاقية تحت خلفيات ثقافية مختلفة
  3. قيود حجم العينة: 100 سؤال فقط لكل فئة قد لا يكون كافياً لتغطية سيناريوهات أخلاقية معقدة
  4. معايير التقييم الموحدة: الاعتماد الأساسي على حكم نموذج لغوي كبير واحد قد يؤدي إلى انحيازات منهجية

التأثير

  1. المساهمة الأكاديمية: إنشاء نموذج بحثي جديد لأبحاث أخلاقيات الذكاء الاصطناعي متعددة اللغات
  2. القيمة العملية: توفير أداة تقييم مخاطر مهمة لنشر النماذج اللغوية الكبيرة متعددة اللغات
  3. التأثير على السياسات: يمكن لنتائج البحث أن توفر أساساً علمياً لسياسات الحوكمة والتنظيم الخاصة بالذكاء الاصطناعي
  4. التقدم التكنولوجي: تعزيز تطوير تقنيات السلامة متعددة اللغات للذكاء الاصطناعي

السيناريوهات القابلة للتطبيق

  1. تقييم سلامة الذكاء الاصطناعي: تقييم سلامة النماذج اللغوية الكبيرة من قبل الشركات والمؤسسات البحثية
  2. نشر الذكاء الاصطناعي متعدد اللغات: توجيه التحكم في المخاطر لتطبيقات الذكاء الاصطناعي عبر اللغات
  3. الامتثال التنظيمي: مساعدة الهيئات التنظيمية في وضع معايير أخلاقية للذكاء الاصطناعي
  4. البحث الأكاديمي: توفير أساس لأبحاث أخلاقيات الذكاء الاصطناعي ومعالجة اللغات الطبيعية متعددة اللغات

المراجع

تستشهد هذه الورقة بعدة أبحاث مهمة ذات صلة:

  1. Achiam et al. (2023) - تقرير تقنية GPT-4
  2. Jin et al. (2024) - أبحاث مشكلة العربة متعددة اللغات
  3. Fu and Liu (2025) - أبحاث موثوقية حكام النماذج اللغوية الكبيرة متعددة اللغات
  4. Lin et al. (2025) - هجمات الخروج عن المسار للنماذج اللغوية الكبيرة من خلال الأوراق الأمنية
  5. Zheng et al. (2023) - طريقة تقييم LLM-as-a-Judge

التقييم الإجمالي: هذا بحث رائد يكشف بشكل منهجي عن مشاكل مهمة في استجابات النماذج اللغوية الكبيرة الأخلاقية متعددة اللغات. على الرغم من وجود بعض القيود في المنهجية، فإن النتائج البحثية لها قيمة نظرية وعملية مهمة لسلامة الذكاء الاصطناعي وتطوير الذكاء الاصطناعي متعدد اللغات. يضع هذا البحث أساساً مهماً لأبحاث أخلاقيات الذكاء الاصطناعي متعددة اللغات في المستقبل.