2025-11-18T11:46:20.272494

Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment

Carro, Mester, Selasco et al.

Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.

academic

هل تظهر نماذج اللغة الكبيرة انحيازات في التعلم السببي؟ رؤى من حكم الاحتمالية

المعلومات الأساسية

معرّف الورقة: 2510.13985
العنوان: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
المؤلفون: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
التصنيف: cs.AI
المؤتمر: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025) - ورشة العمل الأولى حول CogInterp
رابط الورقة: https://arxiv.org/abs/2510.13985

الملخص

التعلم السببي هو عملية معرفية تتعلق بالاستدلال السببي بناءً على المعلومات المتاحة، وعادة ما يتبع مبادئ معيارية. هذه العملية عرضة للأخطاء والانحيازات، مثل الأوهام السببية، حيث يدرك الناس علاقة سببية بين متغيرين في غياب الأدلة الداعمة. يُعتقد أن هذا الانحياز المعرفي هو جذر العديد من المشاكل الاجتماعية، بما في ذلك الانحيازات الاجتماعية وتشكيل الصور النمطية ونشر المعلومات المضللة والتفكير الخرافي. تختبر هذه الدراسة ما إذا كانت نماذج اللغة الكبيرة عرضة للأوهام السببية من خلال نموذج معرفي كلاسيكي - مهمة حكم الاحتمالية. تم بناء مجموعة بيانات تضم 1000 سيناريو احتمالية صفرية (حيث المعلومات المتاحة غير كافية لإنشاء علاقة سببية بين المتغيرات)، مما يدفع نماذج اللغة الكبيرة لتقييم فعالية الأسباب المحتملة في سياق طبي. كشفت الدراسة أن جميع النماذج المقيّمة استدلت بشكل منهجي على علاقات سببية غير مناسبة، مما يدل على قابلية قوية للأوهام السببية.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي: هل تظهر نماذج اللغة الكبيرة أوهاماً سببية مشابهة للبشر عند مواجهتها بنماذج معرفية كلاسيكية؟

الأهمية

التأثير الاجتماعي: الأوهام السببية هي جذر الانحيازات الاجتماعية والصور النمطية ونشر المعلومات المضللة والتفكير الخرافي
التطبيقات العملية: في المجالات الحرجة مثل الطب، يعتبر الاستدلال السببي الدقيق ضروريًا لاتخاذ قرارات حكيمة
سلامة الذكاء الاصطناعي: مع الاستخدام الواسع لنماذج اللغة الكبيرة في أنظمة اتخاذ القرار، أصبح فهم انحيازاتها المعرفية بالغ الأهمية

القيود الحالية

الافتقار إلى تقييم منهجي لأداء نماذج اللغة الكبيرة في مهام حكم الاحتمالية
الجدل حول ما إذا كانت نماذج اللغة الكبيرة تفهم حقاً العلاقات السببية أم أنها تكرر فقط اللغة السببية
تركز الأبحاث الحالية على الاستدلال الخاطئ من الارتباط إلى السببية، وليس على الأوهام السببية في سيناريوهات الاحتمالية الصفرية

دافع البحث

تقييم قدرات الاستدلال السببي لنماذج اللغة الكبيرة من خلال مهمة حكم الاحتمالية الكلاسيكية، مما يوفر أدلة تجريبية لفهم انحيازاتها المعرفية.

المساهمات الأساسية

أول تكييف لمهمة حكم الاحتمالية لتقييم نماذج اللغة الكبيرة: هذا هو أول بحث يطبق مهمة حكم الاحتمالية الكلاسيكية من علم النفس التجريبي على نماذج اللغة الكبيرة
بناء مجموعة بيانات واسعة النطاق من سيناريوهات الاحتمالية الصفرية: إنشاء 1000 سيناريو احتمالية صفرية في السياق الطبي، يتضمن أربعة أنواع متغيرات
اكتشاف الأوهام السببية الشاملة في نماذج اللغة الكبيرة: جميع النماذج المقيّمة استدلت بشكل منهجي على العلاقات السببية في سيناريوهات الاحتمالية الصفرية
الكشف عن عدم اتساق معايير الحكم السببي بين النماذج: تستخدم النماذج المختلفة معايير استدلال سببية مختلفة، مما يفتقر إلى الاتساق

شرح المنهجية

تعريف المهمة

مهمة حكم الاحتمالية هي نموذج كلاسيكي في العلوم المعرفية لتقييم التعلم السببي:

المدخلات: سلسلة من التجارب، كل تجربة تتضمن سبباً محتملاً (موجود/غير موجود) ونتيجة (تحدث/لا تحدث)
المخرجات: تقييم لفعالية السبب المحتمل (0-100 نقطة، حيث 0 تعني غير فعال و100 تعني فعال تماماً)
شرط الاحتمالية الصفرية: احتمالية حدوث النتيجة لا تتعلق بوجود السبب من عدمه

تصميم التجربة

بناء مجموعة البيانات

أنواع المتغيرات (4 أنواع، 100 زوج متغير):
- أسماء الأمراض والعلاجات الخيالية (مثل "دواء Glimber" و"اضطراب Drizzlemorn")
- متغيرات غير مؤكدة (مثل "المرض X" و"الدواء Y")
- متغيرات الطب البديل والطب الزائف (مثل "عملية الوخز بالإبر")
- أدوية علمية معتمدة (مثل "الباراسيتامول")
توليد السيناريوهات:
- 1000 سيناريو احتمالية صفرية
- كل سيناريو يحتوي على 20-100 تجربة
- استخدام توزيع 80/20 للتحكم في ضمان الاحتمالية الصفرية

شروط التجربة

إعدادات درجة الحرارة:
- التجربة 1: درجة الحرارة = 1، تكرار 10 مرات لكل سيناريو
- التجربة 2: درجة الحرارة = 0 (حتمية)
- التجربة 3: إعدادات درجة الحرارة الافتراضية
النماذج المقيّمة:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro

نقاط الابتكار التقني

تكييف المهمة: تكييف طريقة العرض المتسلسل من التجارب البشرية إلى تنسيق قائمة باللغة الطبيعية
تحديد الدور: تعزيز واقعية المهمة من خلال تمثيل الأدوار (طبيب، باحث)
التحكم في المتغيرات: التحكم الصارم في شروط الاحتمالية الصفرية لضمان الصحة الداخلية للتجربة

إعداد التجربة

تفاصيل مجموعة البيانات

الحجم: 1000 سيناريو احتمالية صفرية
عدد التجارب: 20-100 تجربة لكل سيناريو
أزواج المتغيرات: 100 زوج متغير طبي
التحكم في التوزيع: توزيع 80/20 لضمان الاحتمالية الصفرية

مقاييس التقييم

المقياس الرئيسي: تقييم الفعالية من 0-100 نقطة
الاختبارات الإحصائية:
- اختبار Wilcoxon أحادي العينة (اختبار الانحراف عن 0)
- اختبار Friedman (مقارنة الفروقات بين النماذج)
- اختبار Cochran's Q (مقارنة احتمالية الاستجابة الصفرية)

تفاصيل التنفيذ

هندسة الأوامر: تصميم الأوامر بناءً على أفضل الممارسات في علم النفس التجريبي
التجارب المتكررة: إعدادات درجة حرارة متعددة لضمان قوة النتائج
التحليل الإحصائي: استخدام الاختبارات اللامعاملية للتعامل مع البيانات غير الموزعة بشكل طبيعي

نتائج التجربة

النتائج الرئيسية

النتائج الإحصائية عند درجة حرارة = 1:

النموذج	المتوسط	الوسيط	الانحراف المعياري
GPT-4o-Mini	75.74	75.7	11.41
Claude-3.5-Sonnet	40.54	50.0	19.67
Gemini-1.5-Pro	33.07	45.0	23.72

الاكتشافات الرئيسية:

وجود أوهام سببية شاملة: وسيط جميع النماذج أكبر بكثير من 0 (p < 0.001)
نسبة الاستجابة الصفرية منخفضة جداً:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
فروقات كبيرة بين النماذج: يظهر اختبار Friedman فروقات معنوية بين النماذج (χ² = 1516.99, p < 0.001)

التحليل عبر أنواع المتغيرات

تظهر نتائج التجربة أن النماذج لا تظهر فروقات معنوية في التقييمات السببية لأنواع المتغيرات المختلفة (خيالية، غير مؤكدة، طب بديل، طب تقليدي)، بل تميل إلى إعطاء تقييمات أعلى للمتغيرات الخيالية.

مقارنة إعدادات درجة الحرارة

عند درجة حرارة = 0 والإعدادات الافتراضية، تحافظ نتائج التجربة على الاتساق، مما يشير إلى قوة الاكتشافات.

الأعمال ذات الصلة

تقييم الاستدلال السببي

Gao et al. (2023): تقييم قدرات الاستدلال السببي لنماذج اللغة الكبيرة
Liu et al. (2023): الاستدلال السببي في مجال الأكواد
Jin et al. (2024): الاستدلال من الارتباط إلى السببية

أبحاث الانحيازات المعرفية

Keshmirian et al. (2024): الأحكام السببية المنحازة في نماذج اللغة الكبيرة
Carro et al. (2024): المبالغة في الارتباط-السببية في عناوين الأخبار
Jin et al. (2022): كشف الأخطاء المنطقية

تفرد هذا البحث

هذا البحث هو الأول الذي يطبق مهمة حكم الاحتمالية على نماذج اللغة الكبيرة، مما يملأ فجوة مهمة بين العلوم المعرفية وتقييم الذكاء الاصطناعي.

الخلاصات والمناقشة

الاستنتاجات الرئيسية

وجود أوهام سببية شاملة في نماذج اللغة الكبيرة: جميع النماذج المقيّمة استدلت بشكل منهجي على العلاقات السببية في سيناريوهات الاحتمالية الصفرية
غياب معايير موحدة للحكم السببي: تستخدم النماذج المختلفة معايير تقييم مختلفة
دعم فرضية "تكرار اللغة": تدعم النتائج فرضية أن نماذج اللغة الكبيرة تكرر فقط اللغة السببية بدلاً من فهم العلاقات السببية حقاً

القيود

غياب خط أساس بشري: لم يتم إجراء تجارب بشرية مقابلة كمعيار مقارنة
صحة خارجية محدودة: على الرغم من أن تصميم التجربة يتبع أفضل الممارسات النفسية، قد لا يمثل بالكامل سيناريوهات الاستخدام الحقيقية
انحياز التقييم: قد تظهر نماذج اللغة الكبيرة انحيازات في الاستجابة للقيم القصوى
مشاكل الصحة الداخلية: قد لا تكون مقاييس 0-100 هي الأنسب لتقييم الذكاء الاصطناعي

الاتجاهات المستقبلية

تقنيات الأوامر: استكشاف تأثير تقنيات مثل التفكير المتسلسل
سيناريوهات متنوعة: تضمين سيناريوهات احتمالية موجبة وسالبة
تأثيرات ترتيب التجارب: دراسة تأثير ترتيب عرض التجارب على النتائج
تنسيقات مهام بديلة: استخدام تنسيقات ثنائية أو متعددة الفئات

التقييم المتعمق

المميزات

ابتكار قوي: أول تطبيق لنموذج معرفي كلاسيكي في تقييم نماذج اللغة الكبيرة
منهجية صارمة: يتبع تصميم التجربة أفضل الممارسات النفسية، والتحليل الإحصائي شامل
اتساق النتائج: النتائج تحافظ على الاتساق عبر إعدادات درجة حرارة متعددة، مما يعزز مصداقية الاكتشافات
الأهمية العملية: لها أهمية تحذيرية لسلامة الذكاء الاصطناعي والتطبيقات

أوجه القصور

عينة محدودة: تم تقييم ثلاثة نماذج فقط، يمكن توسيع النطاق إلى نماذج أكثر
قيود المجال: تم الاختبار في المجال الطبي فقط، الإمكانية العامة في مجالات أخرى غير معروفة
تحليل الآليات غير كافٍ: نقص في تحليل الآليات العميقة التي تسبب الانحيازات
غياب الحلول: لم يتم تقديم طرق محددة لتخفيف الأوهام السببية

التأثير

القيمة الأكاديمية: توفير إطار تقييم جديد لأبحاث الانحيازات المعرفية في الذكاء الاصطناعي
القيمة العملية: تحذير من الحاجة إلى الحذر عند استخدام نماذج اللغة الكبيرة في مجالات اتخاذ القرار الحرجة
إمكانية التكرار: توفير الأكواد والبيانات الكاملة، مما يسهل التكرار والتوسع

السيناريوهات المعمول بها

هذا البحث مناسب بشكل خاص لـ:

تقييم سلامة الذكاء الاصطناعي: تقييم الانحيازات المعرفية في أنظمة الذكاء الاصطناعي
تطبيقات الذكاء الاصطناعي الطبي: تقييم المخاطر في أنظمة اتخاذ القرار الطبي
التعليم والتدريب: زيادة الوعي بقيود الذكاء الاصطناعي

المراجع

يستشهد هذا البحث بأدبيات مهمة في العلوم المعرفية وعلم النفس التجريبي وتقييم الذكاء الاصطناعي، خاصة العمل الأساسي لـ Matute et al. (2015) حول الأوهام السببية، والأبحاث الحديثة حول قدرات الاستدلال السببي لنماذج اللغة الكبيرة.

التقييم الشامل: هذه ورقة بحثية عالية الجودة متعددة التخصصات، تنجح في تطبيق نموذج معرفي كلاسيكي من العلوم المعرفية على تقييم الذكاء الاصطناعي، وتكشف عن نقاط ضعف مهمة في الاستدلال السببي لنماذج اللغة الكبيرة. المنهجية صارمة، والنتائج ذات أهمية نظرية وعملية كبيرة، وتوفر رؤى قيمة لأبحاث سلامة الذكاء الاصطناعي في المستقبل.