2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.

Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.

academic

نماذج اللغة الكبيرة تتسم بالثقة الزائدة وتضخم التحيز البشري

المعلومات الأساسية

معرّف الورقة: 2505.02151
العنوان: نماذج اللغة الكبيرة تتسم بالثقة الزائدة وتضخم التحيز البشري
المؤلفون: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
التصنيف: cs.SE (هندسة البرمجيات)، cs.CY (الحوسبة والمجتمع)
تاريخ النشر: مايو 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2505.02151v2

الملخص

تُحدث نماذج اللغة الكبيرة (LLMs) ثورة في جوانب متعددة من المجتمع، حيث تُستخدم بشكل متزايد لاستبدال التقييم البشري والمهام التي تتطلب التفكير. نظراً لأن نماذج اللغة الكبيرة تم تدريبها على محتوى كتبه البشر، فإنها تتعرض للتحيزات البشرية. تقيّم هذه الدراسة ما إذا كانت نماذج اللغة الكبيرة قد ورثت أحد أكثر التحيزات البشرية انتشاراً: الثقة الزائدة. قام الباحثون بإنشاء مسائل استدلالية بخوارزميات بإجابات صحيحة معروفة، وطلبوا من نماذج اللغة الكبيرة الإجابة عليها وتقييم درجة ثقتهم. أظهرت الدراسة أن جميع نماذج اللغة الكبيرة الخمسة المدروسة تُظهر ثقة زائدة: فهي تبالغ في تقدير احتمالية صحة إجاباتها بنسبة 20% إلى 60%. بينما تتشابه دقة الإنسان مع نماذج اللغة الكبيرة الأكثر تقدماً، إلا أن درجة الثقة الزائدة أقل بكثير. عندما تكون نماذج اللغة الكبيرة أقل تأكداً من الإجابة، يزداد التحيز بشكل حاد مقارنة بالإنسان. تُظهر الدراسة أيضاً أن مدخلات نماذج اللغة الكبيرة لها تأثير معقد على القرارات البشرية: فهي تحسّن الدقة، لكنها تزيد درجة الثقة الزائدة بأكثر من الضعف.

السياق البحثي والدافع

تعريف المشكلة

تركز هذه الدراسة على السؤال الأساسي: هل ترث نماذج اللغة الكبيرة وتضخم تحيز الثقة الزائدة البشري؟ تتمتع هذه المشكلة بأهمية كبيرة لأسباب عديدة:

حالات التطبيق الواسعة: تُستخدم نماذج اللغة الكبيرة بشكل متزايد في مهام حل المشاكل التي تتطلب تفكيراً دقيقاً وتقييماً
تحيز بيانات التدريب: يتم تدريب نماذج اللغة الكبيرة على محتوى كتبه البشر، مما يعرضها بشكل طبيعي للتحيزات البشرية
تأثير القرارات: ثبت أن الثقة الزائدة تؤثر على عدة مجالات من القرارات المهنية واليومية

أهمية البحث

الثقة الزائدة هي أحد أكثر التحيزات انتشاراً في الحكم البشري، وقد أنتجت تأثيرات سلبية في عدة مجالات:

المجالات المهنية: المديرون الذين يتمتعون بثقة زائدة أكثر عرضة لإجراء عمليات دمج واستحواذ غير مربحة
السلوك اليومي: يؤثر على عادات التمرين واختيارات النظام الغذائي والقرارات الاستثمارية المالية
القدرة على التعلم: قد يؤدي إلى استمرار التحيز بدلاً من التعلم من التغذية الراجعة

القيود في الأبحاث الموجودة

تعاني الأبحاث الحالية حول معايرة نماذج اللغة الكبيرة من المشاكل التالية:

تعتمد بشكل أساسي على مجموعات بيانات الأسئلة والأجوبة القياسية، التي من المحتمل أن تكون نماذج اللغة الكبيرة قد شاهدتها أثناء التدريب
نقص الدراسات حول درجة الثقة في المسائل التي تتطلب قدرات استدلالية
لم يتم استكشاف تأثير درجة ثقة نماذج اللغة الكبيرة على القرارات البشرية بشكل كافٍ

المساهمات الأساسية

التقييم المنهجي الأول: إجراء تقييم شامل لتحيز الثقة الزائدة في خمسة نماذج لغة كبيرة رئيسية
تصميم تجريبي مبتكر: بناء 10,000 مسألة استدلالية تم إنشاؤها بواسطة خوارزميات، مما يضمن الحد الأدنى من التلوث التدريبي
تحليل المقارنة بين الإنسان والآلة: توفير مقارنة مباشرة بين نماذج اللغة الكبيرة والبشر في نفس المهام
اكتشاف تدرج الثقة: الكشف عن "تأثير دانينج-كروجر" حيث يزداد التحيز بشكل حاد عندما تكون نماذج اللغة الكبيرة غير متأكدة
دراسة تأثير القرارات البشرية: قياس التأثير الثنائي لمدخلات نماذج اللغة الكبيرة على دقة الإنسان والتحيز
تحليل تأثيرات الرفاهية: بناء نموذج نظري لتحليل تأثيرات الرفاهية من التعرض لنماذج اللغة الكبيرة

شرح المنهجية

تعريف المهام

صمّم الباحثون ثلاث تجارب مترابطة:

تقييم الثقة الزائدة في نماذج اللغة الكبيرة: قياس الدقة ودرجة الثقة في مهام الاستدلال
اختبار المعايير البشرية: تقييم الأداء البشرية في نفس المهام
تجربة التعرض لنماذج اللغة الكبيرة: اختبار تأثير مدخلات نماذج اللغة الكبيرة على القرارات البشرية

طريقة توليد المسائل

استخراج الثلاثيات

استخراج ثلاثيات منظمة (الموضوع، المسند، الكائن) من ويكيداتا (Wikidata)، تغطي عشر فئات شهيرة.

قواعد الاستدلال المنطقي

تطبيق خمسة أنواع من الاستدلال:

الاستدلال بالنفي: استنتاج صحة نفي الحقيقة المعروفة
الاستدلال بالتماثل: تبديل الموضوع والكائن في العلاقات المتماثلة
الاستدلال العكسي: ربط الموضوع والكائن من خلال العلاقة العكسية
الاستدلال المتعدي: الاستدلال السلسلي لتوليد ثلاثيات جديدة
الاستدلال المركب: دمج قواعد استدلالية متعددة

التحقق من المسائل

استخدام محرك استدلال Prolog للاستدلال التلقائي، والتحقق اليدوي من مكونات المسند، مع الاحتفاظ بـ 476 مسند وثلاثياتهم المقابلة.

قياس درجة الثقة

استخدام كلمات موجهة مصممة خصيصاً للحصول على:

درجة ثقة صحة الإجابة
درجة ثقة صحة المعرفة الواقعية
درجة ثقة صحة عملية الاستدلال

تقييم التشابه

تطوير خوارزميات لحساب التشابه بين استجابات نماذج اللغة الكبيرة والإجابات القياسية:

التشابه الواقعي: بناءً على مطابقة الموضوع وتشابه الكائن
التشابه الاستدلالي: تقييم درجة مطابقة المسند والكائن

الإعدادات التجريبية

مجموعة البيانات

الحجم: 10,000 مسألة استدلالية متوازنة
التوزيع: 5 أنواع استدلال × 10 مجالات معرفة، 200 مسألة لكل مجموعة
المعايير البشرية: اختيار 2,000 مسألة لإجراء التجارب البشرية

اختيار النماذج

تم اختبار خمسة نماذج لغة كبيرة تمثيلية:

النماذج المغلقة المصدر: GPT-3.5، GPT-4o، GPT-o1
النماذج مفتوحة المصدر: Llama 3.1 8B، Llama 3.2 3B

مؤشرات التقييم

الدقة: نسبة الإجابات الصحيحة
درجة الثقة: الاحتمالية المُبلغ عنها ذاتياً للصحة
التحيز: الفرق بين درجة الثقة والدقة
تدرج الثقة: معدل التغير في الدقة بالنسبة لدرجة الثقة

تصميم التجارب البشرية

المنصة: منصة Prolific للتجارب عبر الإنترنت
آليات الحافز: اتباع آليات الحافز الحقيقي من Danz وآخرين (2022)
العينة: 588 شخصاً في التجارب الأساسية، 1,161 شخصاً في تجارب التعرض

نتائج التجارب

أداء الثقة الزائدة في نماذج اللغة الكبيرة

النتائج الرئيسية

أظهرت جميع نماذج اللغة الكبيرة الخمسة ثقة زائدة كبيرة:

GPT-3.5: دقة 35%، درجة ثقة 94%، تحيز 59%
GPT-4o: دقة 63%، درجة ثقة 94%، تحيز 30%
GPT-o1: دقة 73%، درجة ثقة 95%، تحيز 22%
Llama 3.1: دقة 63%، درجة ثقة 86%، تحيز 23%
Llama 3.2: دقة 61%، درجة ثقة 94%، تحيز 33%

تحليل تدرج الثقة

تُظهر النماذج الأكثر تقدماً تدرج ثقة أقوى:

GPT-4o و GPT-o1: انخفاض بنسبة 10% في درجة الثقة يقابل انخفاضاً بحوالي 25% في الدقة
Llama 3.1: انخفاض بنسبة 10% في درجة الثقة يقابل انخفاضاً بحوالي 13% في الدقة

نتائج المقارنة بين الإنسان والآلة

مقارنة الأداء

دقة الإنسان: 66% (مماثلة لـ GPT-4o و Llama 3.1)
درجة ثقة الإنسان: 70% (ثقة زائدة بنسبة 4% فقط)
الفرق الرئيسي: يقل التحيز لدى الإنسان عندما يكون غير متأكد، بينما يزداد لدى نماذج اللغة الكبيرة

تأثير دانينج-كروجر

تُظهر نماذج اللغة الكبيرة تأثير دانينج-كروجر أقوى من البشر:

عندما تكون متأكدة تماماً، تبلغ دقة نماذج اللغة الكبيرة 79-85% (لا تزال هناك ثقة زائدة بنسبة 15-21%)
يُظهر الإنسان عند عدم التأكد انخفاضاً طفيفاً (دقة 54% مقابل 50% المتوقعة)

تأثير التعرض لنماذج اللغة الكبيرة على البشر

تحسن الدقة

مجموعة إجابات نماذج اللغة الكبيرة: تحسن بمقدار 5.6 نقطة مئوية في الدقة
مجموعة إجابات نماذج اللغة الكبيرة + درجة الثقة: تحسن بمقدار 7.0 نقطة مئوية في الدقة

تضخيم التحيز

مجموعة إجابات نماذج اللغة الكبيرة: زيادة التحيز بمقدار 4.2 نقطة مئوية (مضاعفة)
مجموعة إجابات نماذج اللغة الكبيرة + درجة الثقة: زيادة التحيز بمقدار 7.6 نقطة مئوية (ثلاثة أضعاف تقريباً)

التأثيرات غير المتجانسة

يستفيد المشاركون ذوو درجة الثقة الأساسية المنخفضة بشكل أكبر:

تحسن في الدقة بمقدار 8.6-11.9 نقطة مئوية
لكن التحيز يزداد أيضاً بمقدار 7.0-14.1 نقطة مئوية

الأعمال ذات الصلة

أبحاث معايرة نماذج اللغة الكبيرة

تعتمد الدراسات الموجودة بشكل أساسي على ثلاث طرق لقياس درجة ثقة نماذج اللغة الكبيرة:

التقدير القائم على logit: يتطلب الوصول الداخلي إلى النموذج
استحثاث درجة الثقة المباشرة: من خلال طلب مباشر عبر كلمات موجهة
طريقة النموذج المساعد: من التنبؤ بنموذج واحد إلى التكامل متعدد المصادر

تكمن الابتكارية في هذه الدراسة في استخدام مسائل تم إنشاؤها بواسطة خوارزميات لضمان الحد الأدنى من التلوث التدريبي.

أبحاث الثقة الزائدة

تأثير الثقة الزائدة في عدة مجالات:

قرارات الشركات: تؤثر على اختيارات التمويل وقرارات الدمج والاستحواذ
السلوك الفردي: تؤثر على الخيارات الصحية وقرارات الاستثمار
عملية التعلم: قد تؤدي إلى استمرار التحيز بدلاً من التعلم التكيفي

التفاعل بين الإنسان والآلة

تستكشف الأبحاث الناشئة كيفية استجابة الأفراد لمدخلات الذكاء الاصطناعي (التي قد تكون متحيزة)، وتقدم هذه الدراسة مساهمة مهمة في هذا المجال.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

الثقة الزائدة الشاملة: تُظهر جميع نماذج اللغة الكبيرة المختبرة ثقة زائدة كبيرة، بدرجة تفوق بكثير الإنسان
تأثير دانينج-كروجر: يزداد التحيز في نماذج اللغة الكبيرة بشكل حاد عند عدم التأكد، مما يعكس نقصاً في الوعي بحدود المعرفة
التأثير الثنائي: بينما تحسّن مدخلات نماذج اللغة الكبيرة دقة الإنسان، إلا أنها تزيد بشكل كبير من الثقة الزائدة
تعقيد الرفاهية: في البيئات التي تتطلب قرارات استثمارية، قد يعوّض التحيز المتزايد مكاسب الدقة

الرؤى النظرية

آلية تأثير دانينج-كروجر

تكون نماذج اللغة الكبيرة "محاصرة" في نموذجها التنبؤي:

لا يمكنها إدراك المعرفة التي لا توجد في بيانات التدريب
تشكل تقديرات الدقة بناءً على بيانات التدريب
تفتقر إلى الحدس البشري حول حدود المعرفة

نموذج نظرية الرفاهية

بناء نموذج رفاهية يأخذ في الاعتبار الدقة والتحيز:

عندما يكون للاستثمار مرونة عالية بالنسبة لاحتمالية النجاح، يكون التأثير السلبي للثقة الزائدة أكبر
حتى مع تحسن الدقة، قد يقلل التعرض لنماذج اللغة الكبيرة الرفاهية الإجمالية

القيود

نطاق المهام: مقتصرة على مسائل الاستدلال ذات الاختيار الثنائي
إصدارات النماذج: قد تتغير النتائج مع تحديثات النماذج
الاختلافات الثقافية: تعتمد التجارب البشرية بشكل أساسي على مستخدمي اللغة الإنجليزية
التأثيرات الزمنية: لم يتم النظر في تأثيرات التعلم والتكيف على المدى الطويل

الآثار العملية

التوجيهات للمستخدمين

توفير معايير جديدة لتقييم قدرات الاستدلال في نماذج اللغة الكبيرة
التأكيد على الحاجة إلى الحفاظ على الشك المناسب تجاه اقتراحات نماذج اللغة الكبيرة

التوصيات للمطورين

تعطي الأهداف التدريبية الحالية الأولوية للطلاقة على حساب الدقة
الحاجة إلى تطوير آليات تصحيح عدم اليقين المدمجة
يُنصح بدمج آليات التحقق للتحقق من عملية الاستدلال

الإلهام للبحث

التأكيد على أهمية تقييم التحيزات السلوكية في نماذج اللغة الكبيرة
توفير نموذج لأبحاث التحيزات المعرفية الأخرى
تعزيز التعاون بين العلوم السلوكية وعلوم الحاسوب

التقييم المتعمق

المميزات

الابتكار المنهجي:
- تضمن المسائل المُنشأة بواسطة خوارزميات الحد الأدنى من التلوث التدريبي
- قياس درجة الثقة متعدد الأبعاد (الإجابة والحقيقة والاستدلال)
- تصميم تجريبي صارم للمقارنة بين الإنسان والآلة
كفاية التجارب:
- تجارب واسعة النطاق (10,000 مسألة نموذج لغة كبيرة، 5,000+ استجابة بشرية)
- فحوصات قوة لنماذج متعددة وإعدادات درجة حرارة مختلفة
- تجارب استبعاد تفصيلية والتحقق من إمكانية التكرار
المساهمة النظرية:
- الكشف الأول عن تأثير دانينج-كروجر في نماذج اللغة الكبيرة
- بناء إطار عمل لتحليل رفاهية التعرض لنماذج اللغة الكبيرة
- توفير منظور جديد لمعايرة درجة الثقة
القيمة العملية:
- توفير اعتبارات أمان مهمة لتطبيقات نماذج اللغة الكبيرة
- توجيه مباشر لتصميم أنظمة الذكاء الاصطناعي
- توفير أساس علمي لصياغة السياسات التنظيمية

أوجه القصور

قيود المهام:
- تقتصر على مسائل الاختيار الثنائي، قد لا تمثل بالكامل حالات التطبيق الفعلية
- أنواع الاستدلال نسبياً بسيطة، تفتقر إلى الاستدلال متعدد الخطوات الأكثر تعقيداً
طرق القياس:
- يعتمد قياس درجة الثقة على التقرير الذاتي، قد يكون هناك حساسية للكلمات الموجهة
- قد تدخل خوارزمية تقييم التشابه ذاتية
تمثيل العينة:
- تعتمد التجارب البشرية بشكل أساسي على مستخدمي المنصات عبر الإنترنت
- نقص التنوع عبر الخلفيات الثقافية والمجالات المهنية المختلفة
التأثيرات طويلة الأجل:
- لم يتم النظر في تأثيرات التعلم من التعرض المتكرر
- نقص التحقق من الصحة البيئية في بيئات القرار الفعلية

تقييم التأثير

التأثير الأكاديمي

المساهمة النظرية: فتح اتجاه جديد لأبحاث التحيزات السلوكية في نماذج اللغة الكبيرة
القيمة المنهجية: توفير نموذج تجريبي قابل للتكرار
الأهمية متعددة التخصصات: ربط الذكاء الاصطناعي والعلوم المعرفية والاقتصاد السلوكي

التأثير العملي

التطبيقات الصناعية: التأثير على تصميم منتجات نماذج اللغة الكبيرة واستراتيجيات النشر
القيمة التعليمية: زيادة الوعي العام بحدود أنظمة الذكاء الاصطناعي
صياغة السياسات: توفير أساس علمي لحوكمة الذكاء الاصطناعي

السيناريوهات المعمول بها

القرارات عالية المخاطر: التشخيص الطبي والاستثمار المالي وغيرها من السيناريوهات التي تتطلب تقييم الدقة
التطبيقات التعليمية: الحاجة إلى النظر في تأثير الثقة الزائدة على فعالية التعلم
التعاون بين الإنسان والآلة: تصميم آليات أفضل لنقل درجة الثقة
أمان الذكاء الاصطناعي: تطوير طرق أكثر موثوقية لقياس عدم اليقين

اتجاهات البحث المستقبلية

توسيع أنواع المهام: دراسة مهام استدلالية أكثر تعقيداً ومسائل مفتوحة
التحقق عبر الثقافات: التحقق من عمومية النتائج عبر خلفيات ثقافية مختلفة
آليات التدخل: تطوير طرق تدريب وكلمات موجهة لتقليل الثقة الزائدة
التأثيرات طويلة الأجل: دراسة التعلم والتكيف في التفاعلات المتكررة
التحيزات الأخرى: دراسة منهجية للتحيزات المعرفية الأخرى في نماذج اللغة الكبيرة

المراجع

تستشهد الورقة بمراجع غنية تغطي:

أبحاث الثقة الزائدة في الاقتصاد السلوكي (Kahneman, 2011; Moore and Healy, 2008)
معايرة نماذج اللغة الكبيرة وقياس عدم اليقين (Tian et al., 2023; Wei et al., 2024)
التفاعل بين الإنسان والآلة وتحيز الذكاء الاصطناعي (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
الأبحاث الكلاسيكية لتأثير دانينج-كروجر (Kruger and Dunning, 1999)

يوفر هذا البحث رؤى مهمة لفهم وتحسين موثوقية نماذج اللغة الكبيرة، مع آثار عميقة على أمان الذكاء الاصطناعي والتعاون بين الإنسان والآلة. من خلال الكشف عن مشكلة الثقة الزائدة في نماذج اللغة الكبيرة، يشير البحث إلى الاتجاه نحو تطوير أنظمة ذكاء اصطناعي أكثر جدارة بالثقة.