Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
- معرّف الورقة: 2510.13985
- العنوان: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- المؤلفون: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- التصنيف: cs.AI
- المؤتمر: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025) - ورشة العمل الأولى حول CogInterp
- رابط الورقة: https://arxiv.org/abs/2510.13985
التعلم السببي هو عملية معرفية تتعلق بالاستدلال السببي بناءً على المعلومات المتاحة، وعادة ما يتبع مبادئ معيارية. هذه العملية عرضة للأخطاء والانحيازات، مثل الأوهام السببية، حيث يدرك الناس علاقة سببية بين متغيرين في غياب الأدلة الداعمة. يُعتقد أن هذا الانحياز المعرفي هو جذر العديد من المشاكل الاجتماعية، بما في ذلك الانحيازات الاجتماعية وتشكيل الصور النمطية ونشر المعلومات المضللة والتفكير الخرافي. تختبر هذه الدراسة ما إذا كانت نماذج اللغة الكبيرة عرضة للأوهام السببية من خلال نموذج معرفي كلاسيكي - مهمة حكم الاحتمالية. تم بناء مجموعة بيانات تضم 1000 سيناريو احتمالية صفرية (حيث المعلومات المتاحة غير كافية لإنشاء علاقة سببية بين المتغيرات)، مما يدفع نماذج اللغة الكبيرة لتقييم فعالية الأسباب المحتملة في سياق طبي. كشفت الدراسة أن جميع النماذج المقيّمة استدلت بشكل منهجي على علاقات سببية غير مناسبة، مما يدل على قابلية قوية للأوهام السببية.
المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي: هل تظهر نماذج اللغة الكبيرة أوهاماً سببية مشابهة للبشر عند مواجهتها بنماذج معرفية كلاسيكية؟
- التأثير الاجتماعي: الأوهام السببية هي جذر الانحيازات الاجتماعية والصور النمطية ونشر المعلومات المضللة والتفكير الخرافي
- التطبيقات العملية: في المجالات الحرجة مثل الطب، يعتبر الاستدلال السببي الدقيق ضروريًا لاتخاذ قرارات حكيمة
- سلامة الذكاء الاصطناعي: مع الاستخدام الواسع لنماذج اللغة الكبيرة في أنظمة اتخاذ القرار، أصبح فهم انحيازاتها المعرفية بالغ الأهمية
- الافتقار إلى تقييم منهجي لأداء نماذج اللغة الكبيرة في مهام حكم الاحتمالية
- الجدل حول ما إذا كانت نماذج اللغة الكبيرة تفهم حقاً العلاقات السببية أم أنها تكرر فقط اللغة السببية
- تركز الأبحاث الحالية على الاستدلال الخاطئ من الارتباط إلى السببية، وليس على الأوهام السببية في سيناريوهات الاحتمالية الصفرية
تقييم قدرات الاستدلال السببي لنماذج اللغة الكبيرة من خلال مهمة حكم الاحتمالية الكلاسيكية، مما يوفر أدلة تجريبية لفهم انحيازاتها المعرفية.
- أول تكييف لمهمة حكم الاحتمالية لتقييم نماذج اللغة الكبيرة: هذا هو أول بحث يطبق مهمة حكم الاحتمالية الكلاسيكية من علم النفس التجريبي على نماذج اللغة الكبيرة
- بناء مجموعة بيانات واسعة النطاق من سيناريوهات الاحتمالية الصفرية: إنشاء 1000 سيناريو احتمالية صفرية في السياق الطبي، يتضمن أربعة أنواع متغيرات
- اكتشاف الأوهام السببية الشاملة في نماذج اللغة الكبيرة: جميع النماذج المقيّمة استدلت بشكل منهجي على العلاقات السببية في سيناريوهات الاحتمالية الصفرية
- الكشف عن عدم اتساق معايير الحكم السببي بين النماذج: تستخدم النماذج المختلفة معايير استدلال سببية مختلفة، مما يفتقر إلى الاتساق
مهمة حكم الاحتمالية هي نموذج كلاسيكي في العلوم المعرفية لتقييم التعلم السببي:
- المدخلات: سلسلة من التجارب، كل تجربة تتضمن سبباً محتملاً (موجود/غير موجود) ونتيجة (تحدث/لا تحدث)
- المخرجات: تقييم لفعالية السبب المحتمل (0-100 نقطة، حيث 0 تعني غير فعال و100 تعني فعال تماماً)
- شرط الاحتمالية الصفرية: احتمالية حدوث النتيجة لا تتعلق بوجود السبب من عدمه
- أنواع المتغيرات (4 أنواع، 100 زوج متغير):
- أسماء الأمراض والعلاجات الخيالية (مثل "دواء Glimber" و"اضطراب Drizzlemorn")
- متغيرات غير مؤكدة (مثل "المرض X" و"الدواء Y")
- متغيرات الطب البديل والطب الزائف (مثل "عملية الوخز بالإبر")
- أدوية علمية معتمدة (مثل "الباراسيتامول")
- توليد السيناريوهات:
- 1000 سيناريو احتمالية صفرية
- كل سيناريو يحتوي على 20-100 تجربة
- استخدام توزيع 80/20 للتحكم في ضمان الاحتمالية الصفرية
- إعدادات درجة الحرارة:
- التجربة 1: درجة الحرارة = 1، تكرار 10 مرات لكل سيناريو
- التجربة 2: درجة الحرارة = 0 (حتمية)
- التجربة 3: إعدادات درجة الحرارة الافتراضية
- النماذج المقيّمة:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- تكييف المهمة: تكييف طريقة العرض المتسلسل من التجارب البشرية إلى تنسيق قائمة باللغة الطبيعية
- تحديد الدور: تعزيز واقعية المهمة من خلال تمثيل الأدوار (طبيب، باحث)
- التحكم في المتغيرات: التحكم الصارم في شروط الاحتمالية الصفرية لضمان الصحة الداخلية للتجربة
- الحجم: 1000 سيناريو احتمالية صفرية
- عدد التجارب: 20-100 تجربة لكل سيناريو
- أزواج المتغيرات: 100 زوج متغير طبي
- التحكم في التوزيع: توزيع 80/20 لضمان الاحتمالية الصفرية
- المقياس الرئيسي: تقييم الفعالية من 0-100 نقطة
- الاختبارات الإحصائية:
- اختبار Wilcoxon أحادي العينة (اختبار الانحراف عن 0)
- اختبار Friedman (مقارنة الفروقات بين النماذج)
- اختبار Cochran's Q (مقارنة احتمالية الاستجابة الصفرية)
- هندسة الأوامر: تصميم الأوامر بناءً على أفضل الممارسات في علم النفس التجريبي
- التجارب المتكررة: إعدادات درجة حرارة متعددة لضمان قوة النتائج
- التحليل الإحصائي: استخدام الاختبارات اللامعاملية للتعامل مع البيانات غير الموزعة بشكل طبيعي
| النموذج | المتوسط | الوسيط | الانحراف المعياري |
|---|
| GPT-4o-Mini | 75.74 | 75.7 | 11.41 |
| Claude-3.5-Sonnet | 40.54 | 50.0 | 19.67 |
| Gemini-1.5-Pro | 33.07 | 45.0 | 23.72 |
- وجود أوهام سببية شاملة: وسيط جميع النماذج أكبر بكثير من 0 (p < 0.001)
- نسبة الاستجابة الصفرية منخفضة جداً:
- GPT-4o-Mini: 0%
- Claude-3.5-Sonnet: 4.6%
- Gemini-1.5-Pro: 20.5%
- فروقات كبيرة بين النماذج: يظهر اختبار Friedman فروقات معنوية بين النماذج (χ² = 1516.99, p < 0.001)
تظهر نتائج التجربة أن النماذج لا تظهر فروقات معنوية في التقييمات السببية لأنواع المتغيرات المختلفة (خيالية، غير مؤكدة، طب بديل، طب تقليدي)، بل تميل إلى إعطاء تقييمات أعلى للمتغيرات الخيالية.
عند درجة حرارة = 0 والإعدادات الافتراضية، تحافظ نتائج التجربة على الاتساق، مما يشير إلى قوة الاكتشافات.
- Gao et al. (2023): تقييم قدرات الاستدلال السببي لنماذج اللغة الكبيرة
- Liu et al. (2023): الاستدلال السببي في مجال الأكواد
- Jin et al. (2024): الاستدلال من الارتباط إلى السببية
- Keshmirian et al. (2024): الأحكام السببية المنحازة في نماذج اللغة الكبيرة
- Carro et al. (2024): المبالغة في الارتباط-السببية في عناوين الأخبار
- Jin et al. (2022): كشف الأخطاء المنطقية
هذا البحث هو الأول الذي يطبق مهمة حكم الاحتمالية على نماذج اللغة الكبيرة، مما يملأ فجوة مهمة بين العلوم المعرفية وتقييم الذكاء الاصطناعي.
- وجود أوهام سببية شاملة في نماذج اللغة الكبيرة: جميع النماذج المقيّمة استدلت بشكل منهجي على العلاقات السببية في سيناريوهات الاحتمالية الصفرية
- غياب معايير موحدة للحكم السببي: تستخدم النماذج المختلفة معايير تقييم مختلفة
- دعم فرضية "تكرار اللغة": تدعم النتائج فرضية أن نماذج اللغة الكبيرة تكرر فقط اللغة السببية بدلاً من فهم العلاقات السببية حقاً
- غياب خط أساس بشري: لم يتم إجراء تجارب بشرية مقابلة كمعيار مقارنة
- صحة خارجية محدودة: على الرغم من أن تصميم التجربة يتبع أفضل الممارسات النفسية، قد لا يمثل بالكامل سيناريوهات الاستخدام الحقيقية
- انحياز التقييم: قد تظهر نماذج اللغة الكبيرة انحيازات في الاستجابة للقيم القصوى
- مشاكل الصحة الداخلية: قد لا تكون مقاييس 0-100 هي الأنسب لتقييم الذكاء الاصطناعي
- تقنيات الأوامر: استكشاف تأثير تقنيات مثل التفكير المتسلسل
- سيناريوهات متنوعة: تضمين سيناريوهات احتمالية موجبة وسالبة
- تأثيرات ترتيب التجارب: دراسة تأثير ترتيب عرض التجارب على النتائج
- تنسيقات مهام بديلة: استخدام تنسيقات ثنائية أو متعددة الفئات
- ابتكار قوي: أول تطبيق لنموذج معرفي كلاسيكي في تقييم نماذج اللغة الكبيرة
- منهجية صارمة: يتبع تصميم التجربة أفضل الممارسات النفسية، والتحليل الإحصائي شامل
- اتساق النتائج: النتائج تحافظ على الاتساق عبر إعدادات درجة حرارة متعددة، مما يعزز مصداقية الاكتشافات
- الأهمية العملية: لها أهمية تحذيرية لسلامة الذكاء الاصطناعي والتطبيقات
- عينة محدودة: تم تقييم ثلاثة نماذج فقط، يمكن توسيع النطاق إلى نماذج أكثر
- قيود المجال: تم الاختبار في المجال الطبي فقط، الإمكانية العامة في مجالات أخرى غير معروفة
- تحليل الآليات غير كافٍ: نقص في تحليل الآليات العميقة التي تسبب الانحيازات
- غياب الحلول: لم يتم تقديم طرق محددة لتخفيف الأوهام السببية
- القيمة الأكاديمية: توفير إطار تقييم جديد لأبحاث الانحيازات المعرفية في الذكاء الاصطناعي
- القيمة العملية: تحذير من الحاجة إلى الحذر عند استخدام نماذج اللغة الكبيرة في مجالات اتخاذ القرار الحرجة
- إمكانية التكرار: توفير الأكواد والبيانات الكاملة، مما يسهل التكرار والتوسع
هذا البحث مناسب بشكل خاص لـ:
- تقييم سلامة الذكاء الاصطناعي: تقييم الانحيازات المعرفية في أنظمة الذكاء الاصطناعي
- تطبيقات الذكاء الاصطناعي الطبي: تقييم المخاطر في أنظمة اتخاذ القرار الطبي
- التعليم والتدريب: زيادة الوعي بقيود الذكاء الاصطناعي
يستشهد هذا البحث بأدبيات مهمة في العلوم المعرفية وعلم النفس التجريبي وتقييم الذكاء الاصطناعي، خاصة العمل الأساسي لـ Matute et al. (2015) حول الأوهام السببية، والأبحاث الحديثة حول قدرات الاستدلال السببي لنماذج اللغة الكبيرة.
التقييم الشامل: هذه ورقة بحثية عالية الجودة متعددة التخصصات، تنجح في تطبيق نموذج معرفي كلاسيكي من العلوم المعرفية على تقييم الذكاء الاصطناعي، وتكشف عن نقاط ضعف مهمة في الاستدلال السببي لنماذج اللغة الكبيرة. المنهجية صارمة، والنتائج ذات أهمية نظرية وعملية كبيرة، وتوفر رؤى قيمة لأبحاث سلامة الذكاء الاصطناعي في المستقبل.