2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.
Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic

تحديد الانحياز المستحث بالعلامات في التقييمات الذاتية والمتقاطعة لنماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2508.21164
  • العنوان: تحديد الانحياز المستحث بالعلامات في التقييمات الذاتية والمتقاطعة لنماذج اللغة الكبيرة
  • المؤلفون: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
  • التصنيف: cs.CL, cs.AI
  • تاريخ النشر: 9 أكتوبر 2025 (arXiv v3)
  • رابط الورقة: https://arxiv.org/abs/2508.21164v3

الملخص

تحقق هذه الدراسة في الانحيازات المنهجية في ثلاثة نماذج لغة كبيرة سائدة (ChatGPT و Gemini و Claude) في التقييمات الذاتية والمتقاطعة. صممت الدراسة تجربة خاضعة للرقابة حيث قيّم كل نموذج مقالات مدونة تم إنشاؤها بواسطة كل نموذج تحت أربع ظروف علامات (بدون علامات، علامات حقيقية، سيناريوهان علامات مزيفة). استخدم التقييم تصويت التفضيل الشامل وتقييمات الجودة الدقيقة عبر ثلاثة أبعاد (التماسك والإعلامية والإيجاز)، مع تطبيع جميع الدرجات كنسب مئوية للمقارنة المباشرة. كشفت الدراسة عن عدم تماثل كبير في أحكام النموذج: تعمل علامة "Claude" على رفع الدرجات بغض النظر عن المؤلف الفعلي، بينما تقلل علامة "Gemini" الدرجات بشكل منهجي. غالباً ما تعكس العلامات المزيفة ترتيب التفضيلات، مما ينتج عنه تغييرات تصل إلى 50 نقطة مئوية في نتائج التصويت و 12 نقطة مئوية في تقييمات الجودة.

السياق البحثي والدافع

المشاكل الأساسية

مع نشر نماذج اللغة الكبيرة بشكل متزايد كأدوات لتقييم جودة النصوص، لا تزال صحة أحكامها غير مستكشفة بشكل كافٍ. تعالج هذه الدراسة المشاكل التالية بشكل أساسي:

  1. مشكلة الانحياز في تقييم LLM: هل يمكن لنماذج اللغة الكبيرة تقييم المخرجات بنزاهة، أم أنها ستتأثر بهوية المؤلف المتصورة؟
  2. الانحياز المستحث بالعلامات: هل تؤثر أسماء النماذج على نتائج التقييم بغض النظر عن الجودة الفعلية؟
  3. انحياز التفضيل الذاتي: هل تميل النماذج إلى إعطاء درجات أعلى لمخرجاتها الخاصة؟

الأهمية

تتجلى أهمية هذه المشكلة في:

  • الانتشار المتزايد لنموذج "LLM-as-judge" في تقييم النصوص الآلي
  • احتمال أن يؤدي انحياز التقييم إلى تشويه نتائج المعايير
  • التأثير على عدالة مقارنة النماذج واختيارها
  • تشكيل تحدٍ لموثوقية وشفافية أنظمة الذكاء الاصطناعي

قيود البحث الحالي

يركز البحث الحالي بشكل أساسي على نوع واحد من الانحياز أو عدد محدود من النماذج، ويفتقر إلى:

  1. تحليل مقارنة خاضع للرقابة متعدد النماذج والشروط
  2. أدلة كمية تقارن تأثيرات العلامات عبر أبعاد التفضيل والجودة
  3. توصيات منهجية لتخفيف الانحياز

المساهمات الأساسية

  1. تحليل متعدد الشروط خاضع للرقابة: توفير إطار عمل تحليلي خاضع للرقابة ومتعدد الشروط لانحياز التقييم الذاتي والمتقاطع
  2. أدلة كمية على الانحياز: توفير أدلة كمية تقارن تأثيرات العلامات عبر أبعاد التفضيل والجودة
  3. توصيات تخفيف الانحياز: توفير توصيات لتخفيف الانحياز من خلال بروتوكولات التقييم العمياء أو متعددة النماذج
  4. منهجية التقييم المزدوج: استخدام طريقتين متكاملتين - تقييم التفضيل بالنسبة المئوية وتقييم الجودة القائم على النقاط
  5. اكتشاف عدم التماثل في العلامات: اكتشاف أن علامة "Claude" ترفع الدرجات بشكل متسق، بينما تقلل علامة "Gemini" الدرجات بشكل منهجي

شرح المنهجية

تصميم التجربة

تعتمد هذه الدراسة على تصميم خاضع للرقابة ثلاثي المراحل متعدد النماذج والشروط:

المرحلة 1: إنشاء المدونة

  • النماذج: ChatGPT-4o و Gemini 2.5 Flash و Claude Sonnet 4
  • المهمة: إنشاء مقالات مدونة بحوالي 200 كلمة باستخدام قالب موجه ثابت
  • قالب الموجه: "أنت كاتب مدونة محترف. اكتب منشور مدونة موجز (حوالي 200 كلمة) للعنوان '<أدخل عنوانك هنا>'. يجب أن يكون الأسلوب جذاباً ومناسباً للجمهور عبر الإنترنت. أرجع محتوى المدونة فقط، بدون نص إضافي."
  • البيانات: 10 عناوين موضوعات مختلفة، كل نموذج ينشئ مدونة واحدة لكل عنوان، بإجمالي 30 مدونة

المرحلة 2: إعداد شروط العلامات

أربع شروط علامات:

  1. بدون علامات: بدون نسب المؤلف
  2. علامات حقيقية: النسب الصحيح
  3. سيناريو العلامات المزيفة 1: ChatGPT موسوم كـ Gemini، Gemini موسوم كـ Claude، Claude موسوم كـ ChatGPT
  4. سيناريو العلامات المزيفة 2: ChatGPT موسوم كـ Claude، Gemini موسوم كـ ChatGPT، Claude موسوم كـ Gemini

المرحلة 3: نظام التقييم المزدوج

  1. تقييم التفضيل بالنسبة المئوية: قياس تكرار اختيار كل مخرجات كـ "الأفضل"
  2. تقييم الجودة القائم على النقاط: تقييم 0-10 عبر ثلاثة أبعاد (التماسك والإعلامية والإيجاز)، تحويل إلى نسب مئوية

مستويات التحليل

  • التحليل داخل الشروط: المقارنة داخل الشروط
  • التحليل عبر الشروط: تتبع التغييرات عبر الشروط
  • التحليل الخاص بالمقياس: فحص تأثير الانحياز على كل معيار

الإعداد التجريبي

خصائص مجموعة البيانات

  • الحجم: 30 مقالة مدونة (3 نماذج × 10 عناوين)
  • الموضوعات: تغطي موضوعات متنوعة بتعقيد متشابه
  • الطول: حوالي 200 كلمة، مناسبة للجمهور عبر الإنترنت

مقاييس التقييم

  1. تصويت التفضيل الشامل: تكرار "الخيار الأفضل" بصيغة نسبة مئوية
  2. تقييمات أبعاد الجودة:
    • التماسك (Coherence): البنية المنطقية والسلاسة للمقالة
    • الإعلامية (Informativeness): القيمة المعلوماتية وعمق المحتوى
    • الإيجاز (Conciseness): كفاءة التعبير والإيجاز

شروط المقارنة

  • شرط بدون علامات كخط أساس
  • شرط العلامات الحقيقية
  • سيناريوهان العلامات المزيفة

النتائج التجريبية

الاكتشافات الرئيسية

خط الأساس بدون علامات

  • أظهرت جميع النماذج الثلاثة تفضيلاً ذاتياً طفيفاً
  • تكرار اختيار ChatGPT لمخرجاته الخاصة: 50%
  • Gemini: 45.3%
  • Claude: 46.7%
  • تم التقليل من قيمة Gemini بشكل متسق في تقييمات النماذج المتقاطعة (7%-12%)

تضخيم الانحياز في شرط العلامات الحقيقية

  • تعزيز التفضيل الذاتي لـ Claude: ارتفعت درجات التقييم الذاتي من 46.7% إلى 60%
  • الانتقاص الذاتي الشديد لـ Gemini:
    • التقييم من Claude: 0%
    • التقييم من ChatGPT: 1.34%
    • التقييم الذاتي: 11.32%
  • التفضيل الذاتي المعتدل لـ ChatGPT: 44.66%، لكن معاقبة شديدة لـ Gemini

التأثير القوي للعلامات المزيفة

نتائج السيناريو 1:

  • ارتفع تفضيل Gemini للمحتوى الموسوم كـ Claude من 11.32% إلى 51.35%
  • وصل تفضيل Claude للمحتوى الموسوم كـ ChatGPT إلى 54.15%
  • زادت تقييمات الإعلامية بمقدار 8-10 نقاط مئوية تحت علامة "الذات" المزيفة

نتائج السيناريو 2:

  • أنتجت علامة "Claude" أعلى درجة فردية: أعطى Gemini ChatGPT-as-Claude 60.7%
  • خفضت علامة "Gemini" الدرجات مرة أخرى: انخفضت Claude-as-Gemini من 60% تحت العلامة الحقيقية إلى 18.48%

تأثيرات الانحياز الكمية

  • تغيير تصويت التفضيل: تذبذب يصل إلى 50 نقطة مئوية
  • تغيير تقييم الجودة: تغيير يصل إلى 12 نقطة مئوية
  • البعد الأكثر حساسية: تقييم الإعلامية هو الأكثر حساسية للعلامات
  • البعد الأكثر استقراراً: تقييم الإيجاز مستقر نسبياً

أنماط السلوك الخاصة بالنموذج

  1. Claude: أقوى تفضيل ذاتي تحت العلامات الحقيقية (+13 نقطة)، معاقبة شديدة عند الخطأ في الوسم كـ Gemini (-28 نقطة)
  2. Gemini: تقييم ذاتي صارم تحت العلامات الحقيقية، لكن إضافة كبيرة للمحتوى الموسوم كـ "Claude" (حتى +21 نقطة)
  3. ChatGPT: معاقبة متسقة للمحتوى الموسوم كـ Gemini عبر الشروط

الأعمال ذات الصلة

أبحاث انحياز التفضيل الذاتي

  • أثبت Panickssery وآخرون أن نماذج اللغة الكبيرة تفضل مخرجاتها الخاصة، مع قدرة قابلة للقياس على التعرف على الذات
  • درس Wataoka وآخرون انحياز التفضيل الذاتي في LLM-as-judge

انحياز التقييم المستحث بالعلامات

  • أثبت Wang وآخرون أن الانحيازات المنهجية القائمة على موضع الاستجابة يمكن أن تتلاعب بالترتيب
  • حقق Chen وآخرون فيما إذا كان التفضيل الذاتي يعكس التفوق الحقيقي أو انحياز الإشارة

أبحاث ديناميكيات التقييم

  • عدم الاتساق بين ديناميكيات التقييم الضمنية والصريحة
  • مشاكل الانحياز الهيكلي في أنظمة التعلم العميق

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. هوية العلامة تفوق جودة المحتوى: يمكن لهوية النموذج المتصورة أن تشوه الأحكام بشكل كبير، بغض النظر عن جودة المحتوى الفعلية
  2. تأثيرات العلامات غير المتماثلة: علامة "Claude" ترفع الدرجات بشكل متسق، بينما تقلل علامة "Gemini" الدرجات بشكل منهجي
  3. الاختلافات في مستويات التقييم: أحكام "الخيار الأفضل" على المستوى الأعلى أكثر عرضة للانحياز من التقييمات التفصيلية للجودة
  4. الاختلافات في حساسية الأبعاد: الإعلامية هي الأكثر عرضة لتأثير العلامات، والإيجاز مستقر نسبياً

القيود

  1. تقييد نطاق النموذج: دراسة ثلاثة نماذج فقط، لا تزال القابلية للتعميم قيد التحقق
  2. مجال المهمة الفردي: استخدام مهمة كتابة المدونة فقط
  3. أبعاد التقييم المحدودة: النظر في ثلاثة أبعاد جودة فقط
  4. مصادر الانحياز غير الواضحة: لم يتم استكشاف مصادر الانحياز من بيانات التدريب أو برامج المحاذاة بعمق

التوصيات العملية

  1. بروتوكولات التقييم العمياء: إخفاء هوية النموذج لمنع الربط بناءً على اسم النموذج
  2. الإجماع متعدد النماذج: استخدام أنظمة تقييم متعددة النماذج أو قائمة على الإجماع
  3. فصل أنواع التقييم: فصل أحكام التفضيل عن تقييمات الجودة التفصيلية
  4. تعديلات التقييم الواعية بالانحياز: تطوير آليات تعديل الدرجات الواعية بالانحياز

التقييم المتعمق

المميزات

  1. تصميم تجريبي صارم: يضمن التصميم الخاضع للرقابة متعدد الشروط والنماذج موثوقية النتائج
  2. ابتكار المنهجية: يوفر نظام التقييم المزدوج (التفضيل + الجودة) منظوراً شاملاً
  3. أهمية الاكتشافات: يكشف عن انحيازات منهجية في تقييم LLM، مع تأثير مهم على مجال تقييم الذكاء الاصطناعي
  4. تحليل كمي كافٍ: توفير أدلة رقمية تفصيلية وتحليل إحصائي
  5. قيمة عملية عالية: توفير توصيات محددة لتحسين تقييم LLM

أوجه القصور

  1. حجم العينة المحدود: حجم عينة 30 مقالة مدونة نسبياً صغير
  2. وحدة المهمة: مقتصر على كتابة المدونة، يفتقر إلى التحقق من تنوع المهام
  3. آليات الانحياز غير الواضحة: لم يتم استكشاف الأسباب الجذرية للانحيازات غير المتماثلة
  4. التأثيرات طويلة الأجل غير المعروفة: لم يتم النظر في أنماط الانحياز المتغيرة بمرور الوقت

تقييم التأثير

  1. المساهمة الأكاديمية: توفير أدلة تجريبية مهمة لأبحاث انحياز تقييم LLM
  2. القيمة العملية: التأثير المباشر على تصميم معايير LLM وبروتوكولات التقييم
  3. الأهمية السياسية: توفير أساس علمي لسياسات عدالة وشفافية أنظمة الذكاء الاصطناعي
  4. قابلية التكرار: وصف المنهجية واضح، مما يسهل التكرار والتوسع

السيناريوهات القابلة للتطبيق

  1. معايير LLM: تحسين عدالة أطر التقييم الحالية
  2. أنظمة التقييم الآلي: تصميم أدوات تقييم جودة النصوص الخالية من الانحياز
  3. أبحاث مقارنة النماذج: ضمان موضوعية مقارنات أداء النموذج
  4. أبحاث أخلاقيات الذكاء الاصطناعي: توفير طرق لكشف وتخفيف انحياز أنظمة الذكاء الاصطناعي

اتجاهات البحث المستقبلية

  1. توسيع نطاق النموذج: تضمين نماذج LLM أكثر لدراسة أنماط انحياز أوسع
  2. التحقق من المهام المتعددة: التحقق من قابلية تعميم تأثيرات العلامات عبر أنواع المهام المختلفة
  3. استكشاف مصادر الانحياز: البحث العميق في تأثير بيانات التدريب وبرامج المحاذاة على تكوين الانحياز
  4. تطوير استراتيجيات التخفيف: تصميم واختبار تقنيات تخفيف انحياز أكثر فعالية
  5. أبحاث الانحياز الديناميكي: دراسة كيفية تغير أنماط الانحياز بمرور الوقت وتحديثات النموذج

الملخص: تكشف هذه الدراسة من خلال تصميم تجريبي صارم عن انحيازات خطيرة مستحثة بالعلامات في تقييم LLM، وتوفر أدلة علمية مهمة لتحسين عدالة وموثوقية تقييم الذكاء الاصطناعي. لا تتمتع الاكتشافات بقيمة أكاديمية مهمة فحسب، بل توفر أيضاً إرشادات مباشرة لنشر واستخدام أنظمة الذكاء الاصطناعي العملية.