Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
- معرّف الورقة: 2505.02151
- العنوان: نماذج اللغة الكبيرة تتسم بالثقة الزائدة وتضخم التحيز البشري
- المؤلفون: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
- التصنيف: cs.SE (هندسة البرمجيات)، cs.CY (الحوسبة والمجتمع)
- تاريخ النشر: مايو 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2505.02151v2
تُحدث نماذج اللغة الكبيرة (LLMs) ثورة في جوانب متعددة من المجتمع، حيث تُستخدم بشكل متزايد لاستبدال التقييم البشري والمهام التي تتطلب التفكير. نظراً لأن نماذج اللغة الكبيرة تم تدريبها على محتوى كتبه البشر، فإنها تتعرض للتحيزات البشرية. تقيّم هذه الدراسة ما إذا كانت نماذج اللغة الكبيرة قد ورثت أحد أكثر التحيزات البشرية انتشاراً: الثقة الزائدة. قام الباحثون بإنشاء مسائل استدلالية بخوارزميات بإجابات صحيحة معروفة، وطلبوا من نماذج اللغة الكبيرة الإجابة عليها وتقييم درجة ثقتهم. أظهرت الدراسة أن جميع نماذج اللغة الكبيرة الخمسة المدروسة تُظهر ثقة زائدة: فهي تبالغ في تقدير احتمالية صحة إجاباتها بنسبة 20% إلى 60%. بينما تتشابه دقة الإنسان مع نماذج اللغة الكبيرة الأكثر تقدماً، إلا أن درجة الثقة الزائدة أقل بكثير. عندما تكون نماذج اللغة الكبيرة أقل تأكداً من الإجابة، يزداد التحيز بشكل حاد مقارنة بالإنسان. تُظهر الدراسة أيضاً أن مدخلات نماذج اللغة الكبيرة لها تأثير معقد على القرارات البشرية: فهي تحسّن الدقة، لكنها تزيد درجة الثقة الزائدة بأكثر من الضعف.
تركز هذه الدراسة على السؤال الأساسي: هل ترث نماذج اللغة الكبيرة وتضخم تحيز الثقة الزائدة البشري؟ تتمتع هذه المشكلة بأهمية كبيرة لأسباب عديدة:
- حالات التطبيق الواسعة: تُستخدم نماذج اللغة الكبيرة بشكل متزايد في مهام حل المشاكل التي تتطلب تفكيراً دقيقاً وتقييماً
- تحيز بيانات التدريب: يتم تدريب نماذج اللغة الكبيرة على محتوى كتبه البشر، مما يعرضها بشكل طبيعي للتحيزات البشرية
- تأثير القرارات: ثبت أن الثقة الزائدة تؤثر على عدة مجالات من القرارات المهنية واليومية
الثقة الزائدة هي أحد أكثر التحيزات انتشاراً في الحكم البشري، وقد أنتجت تأثيرات سلبية في عدة مجالات:
- المجالات المهنية: المديرون الذين يتمتعون بثقة زائدة أكثر عرضة لإجراء عمليات دمج واستحواذ غير مربحة
- السلوك اليومي: يؤثر على عادات التمرين واختيارات النظام الغذائي والقرارات الاستثمارية المالية
- القدرة على التعلم: قد يؤدي إلى استمرار التحيز بدلاً من التعلم من التغذية الراجعة
تعاني الأبحاث الحالية حول معايرة نماذج اللغة الكبيرة من المشاكل التالية:
- تعتمد بشكل أساسي على مجموعات بيانات الأسئلة والأجوبة القياسية، التي من المحتمل أن تكون نماذج اللغة الكبيرة قد شاهدتها أثناء التدريب
- نقص الدراسات حول درجة الثقة في المسائل التي تتطلب قدرات استدلالية
- لم يتم استكشاف تأثير درجة ثقة نماذج اللغة الكبيرة على القرارات البشرية بشكل كافٍ
- التقييم المنهجي الأول: إجراء تقييم شامل لتحيز الثقة الزائدة في خمسة نماذج لغة كبيرة رئيسية
- تصميم تجريبي مبتكر: بناء 10,000 مسألة استدلالية تم إنشاؤها بواسطة خوارزميات، مما يضمن الحد الأدنى من التلوث التدريبي
- تحليل المقارنة بين الإنسان والآلة: توفير مقارنة مباشرة بين نماذج اللغة الكبيرة والبشر في نفس المهام
- اكتشاف تدرج الثقة: الكشف عن "تأثير دانينج-كروجر" حيث يزداد التحيز بشكل حاد عندما تكون نماذج اللغة الكبيرة غير متأكدة
- دراسة تأثير القرارات البشرية: قياس التأثير الثنائي لمدخلات نماذج اللغة الكبيرة على دقة الإنسان والتحيز
- تحليل تأثيرات الرفاهية: بناء نموذج نظري لتحليل تأثيرات الرفاهية من التعرض لنماذج اللغة الكبيرة
صمّم الباحثون ثلاث تجارب مترابطة:
- تقييم الثقة الزائدة في نماذج اللغة الكبيرة: قياس الدقة ودرجة الثقة في مهام الاستدلال
- اختبار المعايير البشرية: تقييم الأداء البشرية في نفس المهام
- تجربة التعرض لنماذج اللغة الكبيرة: اختبار تأثير مدخلات نماذج اللغة الكبيرة على القرارات البشرية
استخراج ثلاثيات منظمة (الموضوع، المسند، الكائن) من ويكيداتا (Wikidata)، تغطي عشر فئات شهيرة.
تطبيق خمسة أنواع من الاستدلال:
- الاستدلال بالنفي: استنتاج صحة نفي الحقيقة المعروفة
- الاستدلال بالتماثل: تبديل الموضوع والكائن في العلاقات المتماثلة
- الاستدلال العكسي: ربط الموضوع والكائن من خلال العلاقة العكسية
- الاستدلال المتعدي: الاستدلال السلسلي لتوليد ثلاثيات جديدة
- الاستدلال المركب: دمج قواعد استدلالية متعددة
استخدام محرك استدلال Prolog للاستدلال التلقائي، والتحقق اليدوي من مكونات المسند، مع الاحتفاظ بـ 476 مسند وثلاثياتهم المقابلة.
استخدام كلمات موجهة مصممة خصيصاً للحصول على:
- درجة ثقة صحة الإجابة
- درجة ثقة صحة المعرفة الواقعية
- درجة ثقة صحة عملية الاستدلال
تطوير خوارزميات لحساب التشابه بين استجابات نماذج اللغة الكبيرة والإجابات القياسية:
- التشابه الواقعي: بناءً على مطابقة الموضوع وتشابه الكائن
- التشابه الاستدلالي: تقييم درجة مطابقة المسند والكائن
- الحجم: 10,000 مسألة استدلالية متوازنة
- التوزيع: 5 أنواع استدلال × 10 مجالات معرفة، 200 مسألة لكل مجموعة
- المعايير البشرية: اختيار 2,000 مسألة لإجراء التجارب البشرية
تم اختبار خمسة نماذج لغة كبيرة تمثيلية:
- النماذج المغلقة المصدر: GPT-3.5، GPT-4o، GPT-o1
- النماذج مفتوحة المصدر: Llama 3.1 8B، Llama 3.2 3B
- الدقة: نسبة الإجابات الصحيحة
- درجة الثقة: الاحتمالية المُبلغ عنها ذاتياً للصحة
- التحيز: الفرق بين درجة الثقة والدقة
- تدرج الثقة: معدل التغير في الدقة بالنسبة لدرجة الثقة
- المنصة: منصة Prolific للتجارب عبر الإنترنت
- آليات الحافز: اتباع آليات الحافز الحقيقي من Danz وآخرين (2022)
- العينة: 588 شخصاً في التجارب الأساسية، 1,161 شخصاً في تجارب التعرض
أظهرت جميع نماذج اللغة الكبيرة الخمسة ثقة زائدة كبيرة:
- GPT-3.5: دقة 35%، درجة ثقة 94%، تحيز 59%
- GPT-4o: دقة 63%، درجة ثقة 94%، تحيز 30%
- GPT-o1: دقة 73%، درجة ثقة 95%، تحيز 22%
- Llama 3.1: دقة 63%، درجة ثقة 86%، تحيز 23%
- Llama 3.2: دقة 61%، درجة ثقة 94%، تحيز 33%
تُظهر النماذج الأكثر تقدماً تدرج ثقة أقوى:
- GPT-4o و GPT-o1: انخفاض بنسبة 10% في درجة الثقة يقابل انخفاضاً بحوالي 25% في الدقة
- Llama 3.1: انخفاض بنسبة 10% في درجة الثقة يقابل انخفاضاً بحوالي 13% في الدقة
- دقة الإنسان: 66% (مماثلة لـ GPT-4o و Llama 3.1)
- درجة ثقة الإنسان: 70% (ثقة زائدة بنسبة 4% فقط)
- الفرق الرئيسي: يقل التحيز لدى الإنسان عندما يكون غير متأكد، بينما يزداد لدى نماذج اللغة الكبيرة
تُظهر نماذج اللغة الكبيرة تأثير دانينج-كروجر أقوى من البشر:
- عندما تكون متأكدة تماماً، تبلغ دقة نماذج اللغة الكبيرة 79-85% (لا تزال هناك ثقة زائدة بنسبة 15-21%)
- يُظهر الإنسان عند عدم التأكد انخفاضاً طفيفاً (دقة 54% مقابل 50% المتوقعة)
- مجموعة إجابات نماذج اللغة الكبيرة: تحسن بمقدار 5.6 نقطة مئوية في الدقة
- مجموعة إجابات نماذج اللغة الكبيرة + درجة الثقة: تحسن بمقدار 7.0 نقطة مئوية في الدقة
- مجموعة إجابات نماذج اللغة الكبيرة: زيادة التحيز بمقدار 4.2 نقطة مئوية (مضاعفة)
- مجموعة إجابات نماذج اللغة الكبيرة + درجة الثقة: زيادة التحيز بمقدار 7.6 نقطة مئوية (ثلاثة أضعاف تقريباً)
يستفيد المشاركون ذوو درجة الثقة الأساسية المنخفضة بشكل أكبر:
- تحسن في الدقة بمقدار 8.6-11.9 نقطة مئوية
- لكن التحيز يزداد أيضاً بمقدار 7.0-14.1 نقطة مئوية
تعتمد الدراسات الموجودة بشكل أساسي على ثلاث طرق لقياس درجة ثقة نماذج اللغة الكبيرة:
- التقدير القائم على logit: يتطلب الوصول الداخلي إلى النموذج
- استحثاث درجة الثقة المباشرة: من خلال طلب مباشر عبر كلمات موجهة
- طريقة النموذج المساعد: من التنبؤ بنموذج واحد إلى التكامل متعدد المصادر
تكمن الابتكارية في هذه الدراسة في استخدام مسائل تم إنشاؤها بواسطة خوارزميات لضمان الحد الأدنى من التلوث التدريبي.
تأثير الثقة الزائدة في عدة مجالات:
- قرارات الشركات: تؤثر على اختيارات التمويل وقرارات الدمج والاستحواذ
- السلوك الفردي: تؤثر على الخيارات الصحية وقرارات الاستثمار
- عملية التعلم: قد تؤدي إلى استمرار التحيز بدلاً من التعلم التكيفي
تستكشف الأبحاث الناشئة كيفية استجابة الأفراد لمدخلات الذكاء الاصطناعي (التي قد تكون متحيزة)، وتقدم هذه الدراسة مساهمة مهمة في هذا المجال.
- الثقة الزائدة الشاملة: تُظهر جميع نماذج اللغة الكبيرة المختبرة ثقة زائدة كبيرة، بدرجة تفوق بكثير الإنسان
- تأثير دانينج-كروجر: يزداد التحيز في نماذج اللغة الكبيرة بشكل حاد عند عدم التأكد، مما يعكس نقصاً في الوعي بحدود المعرفة
- التأثير الثنائي: بينما تحسّن مدخلات نماذج اللغة الكبيرة دقة الإنسان، إلا أنها تزيد بشكل كبير من الثقة الزائدة
- تعقيد الرفاهية: في البيئات التي تتطلب قرارات استثمارية، قد يعوّض التحيز المتزايد مكاسب الدقة
تكون نماذج اللغة الكبيرة "محاصرة" في نموذجها التنبؤي:
- لا يمكنها إدراك المعرفة التي لا توجد في بيانات التدريب
- تشكل تقديرات الدقة بناءً على بيانات التدريب
- تفتقر إلى الحدس البشري حول حدود المعرفة
بناء نموذج رفاهية يأخذ في الاعتبار الدقة والتحيز:
- عندما يكون للاستثمار مرونة عالية بالنسبة لاحتمالية النجاح، يكون التأثير السلبي للثقة الزائدة أكبر
- حتى مع تحسن الدقة، قد يقلل التعرض لنماذج اللغة الكبيرة الرفاهية الإجمالية
- نطاق المهام: مقتصرة على مسائل الاستدلال ذات الاختيار الثنائي
- إصدارات النماذج: قد تتغير النتائج مع تحديثات النماذج
- الاختلافات الثقافية: تعتمد التجارب البشرية بشكل أساسي على مستخدمي اللغة الإنجليزية
- التأثيرات الزمنية: لم يتم النظر في تأثيرات التعلم والتكيف على المدى الطويل
- توفير معايير جديدة لتقييم قدرات الاستدلال في نماذج اللغة الكبيرة
- التأكيد على الحاجة إلى الحفاظ على الشك المناسب تجاه اقتراحات نماذج اللغة الكبيرة
- تعطي الأهداف التدريبية الحالية الأولوية للطلاقة على حساب الدقة
- الحاجة إلى تطوير آليات تصحيح عدم اليقين المدمجة
- يُنصح بدمج آليات التحقق للتحقق من عملية الاستدلال
- التأكيد على أهمية تقييم التحيزات السلوكية في نماذج اللغة الكبيرة
- توفير نموذج لأبحاث التحيزات المعرفية الأخرى
- تعزيز التعاون بين العلوم السلوكية وعلوم الحاسوب
- الابتكار المنهجي:
- تضمن المسائل المُنشأة بواسطة خوارزميات الحد الأدنى من التلوث التدريبي
- قياس درجة الثقة متعدد الأبعاد (الإجابة والحقيقة والاستدلال)
- تصميم تجريبي صارم للمقارنة بين الإنسان والآلة
- كفاية التجارب:
- تجارب واسعة النطاق (10,000 مسألة نموذج لغة كبيرة، 5,000+ استجابة بشرية)
- فحوصات قوة لنماذج متعددة وإعدادات درجة حرارة مختلفة
- تجارب استبعاد تفصيلية والتحقق من إمكانية التكرار
- المساهمة النظرية:
- الكشف الأول عن تأثير دانينج-كروجر في نماذج اللغة الكبيرة
- بناء إطار عمل لتحليل رفاهية التعرض لنماذج اللغة الكبيرة
- توفير منظور جديد لمعايرة درجة الثقة
- القيمة العملية:
- توفير اعتبارات أمان مهمة لتطبيقات نماذج اللغة الكبيرة
- توجيه مباشر لتصميم أنظمة الذكاء الاصطناعي
- توفير أساس علمي لصياغة السياسات التنظيمية
- قيود المهام:
- تقتصر على مسائل الاختيار الثنائي، قد لا تمثل بالكامل حالات التطبيق الفعلية
- أنواع الاستدلال نسبياً بسيطة، تفتقر إلى الاستدلال متعدد الخطوات الأكثر تعقيداً
- طرق القياس:
- يعتمد قياس درجة الثقة على التقرير الذاتي، قد يكون هناك حساسية للكلمات الموجهة
- قد تدخل خوارزمية تقييم التشابه ذاتية
- تمثيل العينة:
- تعتمد التجارب البشرية بشكل أساسي على مستخدمي المنصات عبر الإنترنت
- نقص التنوع عبر الخلفيات الثقافية والمجالات المهنية المختلفة
- التأثيرات طويلة الأجل:
- لم يتم النظر في تأثيرات التعلم من التعرض المتكرر
- نقص التحقق من الصحة البيئية في بيئات القرار الفعلية
- المساهمة النظرية: فتح اتجاه جديد لأبحاث التحيزات السلوكية في نماذج اللغة الكبيرة
- القيمة المنهجية: توفير نموذج تجريبي قابل للتكرار
- الأهمية متعددة التخصصات: ربط الذكاء الاصطناعي والعلوم المعرفية والاقتصاد السلوكي
- التطبيقات الصناعية: التأثير على تصميم منتجات نماذج اللغة الكبيرة واستراتيجيات النشر
- القيمة التعليمية: زيادة الوعي العام بحدود أنظمة الذكاء الاصطناعي
- صياغة السياسات: توفير أساس علمي لحوكمة الذكاء الاصطناعي
- القرارات عالية المخاطر: التشخيص الطبي والاستثمار المالي وغيرها من السيناريوهات التي تتطلب تقييم الدقة
- التطبيقات التعليمية: الحاجة إلى النظر في تأثير الثقة الزائدة على فعالية التعلم
- التعاون بين الإنسان والآلة: تصميم آليات أفضل لنقل درجة الثقة
- أمان الذكاء الاصطناعي: تطوير طرق أكثر موثوقية لقياس عدم اليقين
- توسيع أنواع المهام: دراسة مهام استدلالية أكثر تعقيداً ومسائل مفتوحة
- التحقق عبر الثقافات: التحقق من عمومية النتائج عبر خلفيات ثقافية مختلفة
- آليات التدخل: تطوير طرق تدريب وكلمات موجهة لتقليل الثقة الزائدة
- التأثيرات طويلة الأجل: دراسة التعلم والتكيف في التفاعلات المتكررة
- التحيزات الأخرى: دراسة منهجية للتحيزات المعرفية الأخرى في نماذج اللغة الكبيرة
تستشهد الورقة بمراجع غنية تغطي:
- أبحاث الثقة الزائدة في الاقتصاد السلوكي (Kahneman, 2011; Moore and Healy, 2008)
- معايرة نماذج اللغة الكبيرة وقياس عدم اليقين (Tian et al., 2023; Wei et al., 2024)
- التفاعل بين الإنسان والآلة وتحيز الذكاء الاصطناعي (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
- الأبحاث الكلاسيكية لتأثير دانينج-كروجر (Kruger and Dunning, 1999)
يوفر هذا البحث رؤى مهمة لفهم وتحسين موثوقية نماذج اللغة الكبيرة، مع آثار عميقة على أمان الذكاء الاصطناعي والتعاون بين الإنسان والآلة. من خلال الكشف عن مشكلة الثقة الزائدة في نماذج اللغة الكبيرة، يشير البحث إلى الاتجاه نحو تطوير أنظمة ذكاء اصطناعي أكثر جدارة بالثقة.