Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
Les grands modèles de langage présentent-ils des biais dans l'apprentissage causal ? Perspectives du jugement de contingence
- ID de l'article : 2510.13985
- Titre : Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- Auteurs : María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- Classification : cs.AI
- Conférence de publication : 39e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2025) Atelier : Premier atelier sur CogInterp
- Lien de l'article : https://arxiv.org/abs/2510.13985
L'apprentissage causal est un processus cognitif d'inférence causale basé sur les informations disponibles, suivant généralement des principes normatifs. Ce processus est sujet aux erreurs et aux biais, tels que les illusions causales, où les individus perçoivent une relation causale entre deux variables en l'absence de preuves probantes. Ce biais cognitif est considéré comme la source de nombreux problèmes sociaux, notamment les préjugés sociaux, la formation de stéréotypes, la désinformation et la pensée superstitieuse. Cette étude examine si les grands modèles de langage sont susceptibles de produire des illusions causales en utilisant un paradigme classique des sciences cognitives : la tâche de jugement de contingence. L'étude construit un ensemble de données de 1000 scénarios de contingence nulle (où les informations disponibles sont insuffisantes pour établir une relation causale entre les variables), incitant les LLMs à évaluer la validité des causes potentielles dans un contexte médical. L'étude révèle que tous les modèles évalués déduisent systématiquement des relations causales inappropriées, montrant une forte susceptibilité aux illusions causales.
La question centrale que cette recherche vise à résoudre est : les grands modèles de langage présentent-ils des biais d'illusion causale similaires à ceux des humains lorsqu'ils sont confrontés à des paradigmes classiques des sciences cognitives ?
- Impact social : Les illusions causales sont à l'origine des préjugés sociaux, de la formation de stéréotypes, de la propagation de la désinformation et de la pensée superstitieuse
- Applications pratiques : Dans les domaines critiques tels que la médecine, le raisonnement causal précis est essentiel pour une prise de décision éclairée
- Sécurité de l'IA : Avec l'application généralisée des LLMs dans les systèmes décisionnels, la compréhension de leurs biais cognitifs devient extrêmement importante
- Absence d'évaluation systématique de la performance des LLMs dans les tâches de jugement de contingence
- Controverse quant à savoir si les LLMs « comprennent » réellement les relations causales ou reproduisent simplement le langage causal
- Les recherches existantes se concentrent principalement sur les inférences erronées de corrélation à causalité, plutôt que sur les illusions causales dans les scénarios de contingence nulle
Évaluer la capacité de raisonnement causal des LLMs par le biais de la tâche classique de jugement de contingence, fournissant des preuves empiriques pour comprendre leurs biais cognitifs.
- Première adaptation de la tâche de jugement de contingence aux LLMs : C'est la première étude appliquant la tâche classique de jugement de contingence de la psychologie expérimentale aux grands modèles de langage
- Construction d'un ensemble de données à grande échelle de scénarios de contingence nulle : Création de 1000 scénarios de contingence nulle dans un contexte médical, incluant quatre types de variables
- Découverte d'illusions causales généralisées chez les LLMs : Tous les modèles évalués déduisent systématiquement des relations causales dans les scénarios de contingence nulle
- Révélation d'une incohérence des critères de jugement causal entre modèles : Les différents modèles adoptent des normes différentes de raisonnement causal, manquant de cohérence
La tâche de jugement de contingence est un paradigme classique en sciences cognitives pour évaluer l'apprentissage causal :
- Entrée : Une série d'essais, chaque essai contenant une cause potentielle (présente/absente) et un résultat (survenu/non survenu)
- Sortie : Une évaluation de la validité de la cause potentielle sur une échelle de 0 à 100 (0 = invalide, 100 = complètement valide)
- Condition de contingence nulle : La probabilité que le résultat se produise est indépendante de la présence ou l'absence de la cause
- Types de variables (4 catégories, 100 paires de variables au total) :
- Noms fictifs de maladies et de traitements (par exemple, « Glimber medicine » et « Drizzlemorn disorder »)
- Variables incertaines (par exemple, « Disease X » et « Medicine Y »)
- Variables de médecine alternative et de pseudomédecine (par exemple, « Acupuncture Process »)
- Médicaments scientifiques validés (par exemple, « Paracetamol »)
- Génération de scénarios :
- 1000 scénarios de contingence nulle
- 20-100 essais par scénario
- Distribution 80/20 pour assurer la contingence nulle
- Paramètres de température :
- Expérience 1 : température = 1, 10 répétitions par scénario
- Expérience 2 : température = 0 (déterministe)
- Expérience 3 : paramètres de température par défaut
- Modèles évalués :
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- Adaptation de la tâche : Adaptation de la présentation séquentielle des expériences humaines à un format de liste en langage naturel
- Définition de rôles : Amélioration de la réalité de la tâche par le jeu de rôle (médecin, chercheur)
- Contrôle des variables : Contrôle strict de la condition de contingence nulle pour assurer la validité interne de l'expérience
- Échelle : 1000 scénarios de contingence nulle
- Nombre d'essais : 20-100 essais par scénario
- Paires de variables : 100 paires de variables médicales
- Contrôle de la distribution : Distribution 80/20 pour assurer la contingence nulle
- Métrique principale : Évaluation de la validité sur une échelle de 0 à 100
- Tests statistiques :
- Test de Wilcoxon sur un seul échantillon (test de déviation par rapport à 0)
- Test de Friedman (comparaison des différences entre modèles)
- Test Q de Cochran (comparaison des probabilités de réponse nulle)
- Ingénierie des invites : Conception d'invites basée sur les meilleures pratiques de la psychologie expérimentale
- Expériences répétées : Plusieurs paramètres de température pour assurer la robustesse des résultats
- Analyse statistique : Utilisation de tests non paramétriques pour traiter les données non normalement distribuées
| Modèle | Moyenne | Médiane | Écart-type |
|---|
| GPT-4o-Mini | 75,74 | 75,7 | 11,41 |
| Claude-3.5-Sonnet | 40,54 | 50,0 | 19,67 |
| Gemini-1.5-Pro | 33,07 | 45,0 | 23,72 |
- Présence généralisée d'illusions causales : Les médianes de tous les modèles sont significativement supérieures à 0 (p < 0,001)
- Proportion extrêmement faible de réponses nulles :
- GPT-4o-Mini : 0 %
- Claude-3.5-Sonnet : 4,6 %
- Gemini-1.5-Pro : 20,5 %
- Différences significatives entre modèles : Le test de Friedman révèle des différences significatives entre les modèles (χ² = 1516,99, p < 0,001)
Les résultats expérimentaux montrent que les modèles n'ont pas de différences significatives dans les évaluations causales pour différents types de variables (fictives, incertaines, médecine alternative, médecine traditionnelle), tendant même à donner des évaluations plus élevées pour les variables fictives.
Sous les conditions de température = 0 et de température par défaut, les résultats expérimentaux restent cohérents, démontrant la robustesse des résultats.
- Gao et al. (2023) : Évaluation de la capacité de raisonnement causal des LLMs
- Liu et al. (2023) : Raisonnement causal dans le domaine du code
- Jin et al. (2024) : Inférence de corrélation à causalité
- Keshmirian et al. (2024) : Jugement causal biaisé dans les LLMs
- Carro et al. (2024) : Exagération corrélation-causalité dans les titres d'actualités
- Jin et al. (2022) : Détection des sophismes logiques
Cette recherche est la première à appliquer la tâche de jugement de contingence aux LLMs, comblant un vide important entre les sciences cognitives et l'évaluation de l'IA.
- Présence généralisée d'illusions causales chez les LLMs : Tous les modèles évalués déduisent systématiquement des relations causales dans les scénarios de contingence nulle
- Absence de normes unifiées de jugement causal : Les différents modèles adoptent des critères d'évaluation différents
- Soutien à l'hypothèse de « reproduction linguistique » : Les résultats soutiennent l'hypothèse selon laquelle les LLMs reproduisent simplement le langage causal plutôt que de véritablement comprendre les relations causales
- Absence de référence humaine : Aucune expérience humaine correspondante n'a été menée à titre de comparaison
- Validité externe limitée : Bien que la conception expérimentale suive les meilleures pratiques psychologiques, elle peut ne pas représenter complètement les scénarios d'utilisation réels
- Biais d'évaluation : Les LLMs peuvent présenter un biais dans la réponse aux valeurs extrêmes
- Problèmes de validité interne : L'échelle d'évaluation de 0 à 100 peut ne pas être le format le plus approprié pour l'évaluation de l'IA
- Techniques d'invites : Exploration de l'efficacité de techniques d'invites telles que la chaîne de pensée
- Scénarios diversifiés : Inclusion de scénarios de contingence positive et négative
- Effets de l'ordre des essais : Étude de l'influence de l'ordre de présentation des essais sur les résultats
- Formats de tâches alternatifs : Utilisation de formats binaires ou multiclasses
- Innovation forte : Première application d'un paradigme classique des sciences cognitives à l'évaluation des LLMs
- Méthodologie rigoureuse : La conception expérimentale suit les meilleures pratiques psychologiques, avec une analyse statistique complète
- Cohérence des résultats : Les résultats restent cohérents sous différents paramètres de température, renforçant la crédibilité des résultats
- Signification pratique : Implications importantes pour la sécurité de l'IA et les applications
- Échantillon limité : Seuls trois modèles ont été évalués, extensible à davantage de modèles
- Limitation du domaine : Testé uniquement dans le domaine médical, la généralisation à d'autres domaines est inconnue
- Analyse des mécanismes insuffisante : Manque d'analyse des mécanismes profonds causant les biais
- Absence de solutions : Aucune méthode spécifique proposée pour atténuer les illusions causales
- Valeur académique : Fournit un nouveau cadre d'évaluation pour la recherche sur les biais cognitifs de l'IA
- Valeur pratique : Avertit de la nécessité de prudence lors de l'utilisation des LLMs dans les domaines critiques de prise de décision
- Reproductibilité : Fournit un code et des données complets, facilitant la reproduction et l'extension
Cette recherche est particulièrement applicable à :
- Évaluation de la sécurité de l'IA : Évaluation des biais cognitifs des systèmes d'IA
- Applications d'IA médicale : Évaluation des risques dans les systèmes d'aide à la décision médicale
- Éducation et formation : Sensibilisation aux limitations de l'IA
Cette recherche cite des travaux importants dans les domaines des sciences cognitives, de la psychologie expérimentale et de l'évaluation de l'IA, en particulier le travail fondateur de Matute et al. (2015) sur les illusions causales, ainsi que les recherches récentes sur la capacité de raisonnement causal des LLMs.
Évaluation globale : Cet article est une recherche interdisciplinaire de haute qualité qui applique avec succès un paradigme classique des sciences cognitives à l'évaluation de l'IA, révélant des défauts importants dans le raisonnement causal des LLMs. La méthodologie est rigoureuse et les résultats ont une signification théorique et pratique importante, fournissant des perspectives précieuses pour la recherche future sur la sécurité de l'IA.