2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.
Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
academic

Les grands modèles de langage sont surconfiants et amplifient les biais humains

Informations de base

  • ID de l'article : 2505.02151
  • Titre : Large Language Models are overconfident and amplify human bias
  • Auteurs : Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
  • Classification : cs.SE (Ingénierie logicielle), cs.CY (Informatique et société)
  • Date de publication : Mai 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2505.02151v2

Résumé

Les grands modèles de langage (LLMs) transforment radicalement de nombreux aspects de la société et sont de plus en plus utilisés pour remplacer l'évaluation humaine dans les tâches de résolution de problèmes. Puisque les LLMs sont entraînés sur du contenu rédigé par des humains, ils sont exposés aux biais humains. Cette recherche évalue si les LLMs héritent de l'un des biais humains les plus courants : la surconfiance. Les chercheurs ont construit algorithmiquement des problèmes de raisonnement avec des réponses vraies connues, ont invité les LLMs à répondre à ces questions et ont évalué le degré de confiance de leurs réponses. L'étude révèle que les cinq LLMs examinés présentent tous une surconfiance : ils surestiment la probabilité que leurs réponses soient correctes de 20 % à 60 %. Bien que la précision des humains soit similaire à celle des LLMs plus avancés, leur degré de surconfiance est beaucoup plus faible. Lorsque les LLMs sont moins certains de leurs réponses, leur biais augmente considérablement par rapport aux humains. L'étude montre également que les entrées de LLM ont un effet complexe sur la prise de décision humaine : bien qu'elles améliorent la précision, elles plus que doublent le degré de surconfiance.

Contexte et motivation de la recherche

Définition du problème

La question centrale que cette recherche aborde est : les grands modèles de langage héritent-ils et amplifient-ils le biais de surconfiance humain ? Cette question revêt une importance particulière pour les raisons suivantes :

  1. Scénarios d'application généralisés : Les LLMs sont de plus en plus utilisés dans des tâches de résolution de problèmes nécessitant un raisonnement et une évaluation minutieux
  2. Biais des données d'entraînement : Les LLMs sont entraînés sur du contenu rédigé par des humains, ce qui les expose naturellement aux biais humains
  3. Impact décisionnel : La surconfiance s'est avérée affecter plusieurs domaines de la prise de décision professionnelle et quotidienne

Importance de la recherche

La surconfiance est l'un des biais les plus courants dans le jugement humain et a produit des effets négatifs dans plusieurs domaines :

  • Domaine professionnel : Les gestionnaires surconfiants sont plus susceptibles de procéder à des fusions-acquisitions non rentables
  • Comportement quotidien : Affecte les habitudes d'exercice, les choix alimentaires et les décisions d'investissement financier
  • Capacité d'apprentissage : Peut conduire à des biais persistants plutôt qu'à l'apprentissage à partir des commentaires

Limitations de la recherche existante

La recherche existante sur l'étalonnage des LLMs présente principalement les problèmes suivants :

  1. S'appuie principalement sur des ensembles de données de questions-réponses standard, que les LLMs ont probablement vus pendant l'entraînement
  2. Manque d'études sur le degré de confiance pour les problèmes nécessitant des capacités de raisonnement
  3. N'a pas suffisamment exploré l'impact du degré de confiance des LLMs sur la prise de décision humaine

Contributions principales

  1. Première évaluation systématique : Évaluation complète du biais de surconfiance chez cinq LLMs courants
  2. Conception expérimentale innovante : Construction de 10 000 problèmes de raisonnement générés algorithmiquement, minimisant la contamination des données d'entraînement
  3. Analyse comparative homme-machine : Fournit une comparaison directe entre les LLMs et les humains sur la même tâche
  4. Découverte du gradient de confiance : Révèle l'« effet Dunning-Kruger » où le biais des LLMs augmente considérablement en cas d'incertitude
  5. Étude de l'impact sur la prise de décision humaine : Quantifie l'effet double de l'entrée LLM sur la précision et le biais humains
  6. Analyse des effets de bien-être : Établit un modèle théorique pour analyser les impacts de bien-être de l'exposition aux LLMs

Explication détaillée de la méthode

Définition de la tâche

L'étude a conçu trois expériences interconnectées :

  1. Évaluation de la surconfiance des LLMs : Mesure de la précision et du degré de confiance des LLMs dans les tâches de raisonnement
  2. Étalonnage humain : Évaluation de la performance humaine sur les mêmes tâches
  3. Expérience d'exposition aux LLMs : Test de l'impact de l'entrée LLM sur la prise de décision humaine

Méthode de génération de problèmes

Extraction de triplets

Extraction de triplets structurés (sujet, prédicat, objet) à partir de Wikidata, couvrant dix catégories populaires.

Règles de raisonnement logique

Implémentation de cinq types de raisonnement :

  1. Raisonnement par négation : Déduction de la validité de la négation à partir de connaissances factuelles
  2. Raisonnement symétrique : Échange du sujet et de l'objet dans les relations symétriques
  3. Raisonnement inverse : Connexion du sujet et de l'objet par des relations inverses
  4. Raisonnement transitif : Raisonnement en chaîne pour générer de nouveaux triplets
  5. Raisonnement composé : Combinaison de plusieurs règles de raisonnement de base

Validation des problèmes

Utilisation du moteur de raisonnement Prolog pour le raisonnement automatique, validation manuelle des composants de prédicat, conservation finale de 476 prédicats et leurs triplets correspondants.

Mesure du degré de confiance

Utilisation d'invites spécialement conçues pour obtenir simultanément :

  • Le degré de confiance dans la correction de la réponse
  • Le degré de confiance dans la correction des connaissances factuelles
  • Le degré de confiance dans la correction du processus de raisonnement

Évaluation de la similarité

Développement d'algorithmes pour calculer la similarité entre les réponses des LLMs et les réponses standard :

  • Similarité factuelle : Basée sur la correspondance des sujets et la similarité des objets
  • Similarité de raisonnement : Évaluation du degré de correspondance des prédicats et des objets

Configuration expérimentale

Ensemble de données

  • Échelle : 10 000 problèmes de raisonnement équilibrés
  • Distribution : 5 types de raisonnement × 10 domaines de connaissances, 200 problèmes par combinaison
  • Étalonnage humain : 2 000 problèmes sélectionnés pour l'expérience humaine

Sélection des modèles

Test de cinq LLMs représentatifs :

  • Modèles propriétaires : GPT-3.5, GPT-4o, GPT-o1
  • Modèles open source : Llama 3.1 8B, Llama 3.2 3B

Indicateurs d'évaluation

  • Précision : Proportion de réponses correctes
  • Degré de confiance : Probabilité correcte auto-déclarée par le modèle
  • Biais : Différence entre le degré de confiance et la précision
  • Gradient de confiance : Taux de variation de la précision par rapport au degré de confiance

Conception de l'expérience humaine

  • Plateforme : Plateforme d'expérience en ligne Prolific
  • Mécanisme d'incitation : Suivi du mécanisme d'incitation véritable de Danz et al. (2022)
  • Échantillon : 588 participants pour l'expérience de base, 1 161 pour l'expérience d'exposition

Résultats expérimentaux

Performance de surconfiance des LLMs

Conclusions principales

Les cinq LLMs présentent tous une surconfiance significative :

  • GPT-3.5 : Précision 35 %, degré de confiance 94 %, biais 59 %
  • GPT-4o : Précision 63 %, degré de confiance 94 %, biais 30 %
  • GPT-o1 : Précision 73 %, degré de confiance 95 %, biais 22 %
  • Llama 3.1 : Précision 63 %, degré de confiance 86 %, biais 23 %
  • Llama 3.2 : Précision 61 %, degré de confiance 94 %, biais 33 %

Analyse du gradient de confiance

Les modèles plus avancés affichent un gradient de confiance plus fort :

  • GPT-4o et GPT-o1 : Une baisse de 10 % du degré de confiance correspond à une baisse d'environ 25 % de la précision
  • Llama 3.1 : Une baisse de 10 % du degré de confiance correspond à une baisse d'environ 13 % de la précision

Résultats de la comparaison homme-machine

Comparaison des performances

  • Précision humaine : 66 % (comparable à GPT-4o et Llama 3.1)
  • Degré de confiance humain : 70 % (surconfiance de seulement 4 %)
  • Différence clé : Les humains présentent moins de biais en cas d'incertitude, tandis que les LLMs font l'inverse

Effet Dunning-Kruger

Les LLMs présentent un effet Dunning-Kruger plus fort que les humains :

  • Lorsqu'ils sont complètement certains, la précision des LLMs est de 79-85 % (avec un biais résiduel de 15-21 %)
  • Les humains, lorsqu'ils sont incertains, finissent par afficher une légère sous-estimation (précision 54 % contre 50 % attendu)

Impact de l'exposition aux LLMs sur les humains

Amélioration de la précision

  • Groupe réponses LLM : Amélioration de la précision de 5,6 points de pourcentage
  • Groupe réponses LLM + degré de confiance : Amélioration de la précision de 7,0 points de pourcentage

Amplification du biais

  • Groupe réponses LLM : Augmentation du biais de 4,2 points de pourcentage (doublement)
  • Groupe réponses LLM + degré de confiance : Augmentation du biais de 7,6 points de pourcentage (triplement)

Effets d'hétérogénéité

Les participants ayant un degré de confiance de base faible en bénéficient le plus :

  • Amélioration de la précision de 8,6-11,9 points de pourcentage
  • Mais augmentation du biais de 7,0-14,1 points de pourcentage

Travaux connexes

Recherche sur l'étalonnage des LLMs

La recherche existante emploie principalement trois méthodes pour mesurer le degré de confiance des LLMs :

  1. Estimation basée sur les logits : Nécessite l'accès aux paramètres internes du modèle
  2. Induction directe du degré de confiance : Interrogation directe par invite
  3. Approche par modèle auxiliaire : Intégration de plusieurs sources

L'innovation de cette recherche réside dans l'utilisation de problèmes générés algorithmiquement pour minimiser la contamination des données d'entraînement.

Recherche sur la surconfiance

L'impact de la surconfiance dans plusieurs domaines :

  • Décisions d'entreprise : Affecte les choix de financement et les décisions de fusion-acquisition
  • Comportement personnel : Affecte les choix de santé et les décisions d'investissement
  • Processus d'apprentissage : Peut conduire à des biais persistants plutôt qu'à un apprentissage adaptatif

Interaction homme-machine

La recherche émergente explore comment les individus réagissent aux entrées d'IA (potentiellement biaisées), et cette étude apporte une contribution importante à ce domaine.

Conclusions et discussion

Conclusions principales

  1. Surconfiance universelle : Tous les LLMs testés présentent une surconfiance significative, bien supérieure à celle des humains
  2. Effet Dunning-Kruger : Le biais des LLMs augmente considérablement en cas d'incertitude, manquant de conscience des limites de leurs connaissances
  3. Effet double : Bien que les entrées LLM améliorent la précision humaine, elles augmentent significativement la surconfiance
  4. Complexité du bien-être : Dans les environnements nécessitant des décisions d'investissement, l'augmentation du biais peut compenser les gains de précision

Perspectives théoriques

Mécanisme de l'effet Dunning-Kruger

Les LLMs sont « piégés » dans leur modèle de prédiction :

  • Incapables de percevoir les connaissances absentes des données d'entraînement
  • Forment des estimations de précision basées sur les données d'entraînement
  • Manquent de conscience intuitive humaine des limites des connaissances

Modèle théorique du bien-être

Établissement d'un modèle de bien-être tenant compte de la précision et du biais :

  • Lorsque l'investissement a une élasticité élevée par rapport à la probabilité de succès, l'impact négatif de la surconfiance est plus important
  • Même avec une amélioration de la précision, l'exposition aux LLMs peut réduire le bien-être global

Limitations

  1. Portée des tâches : Limitée aux problèmes de raisonnement avec choix binaires
  2. Versions des modèles : Les résultats peuvent varier avec les mises à jour des modèles
  3. Différences culturelles : Les expériences humaines sont principalement basées sur des utilisateurs anglophones
  4. Effets temporels : N'a pas considéré les effets d'apprentissage et d'adaptation à long terme

Implications pratiques

Orientation pour les utilisateurs

  • Fournit de nouveaux points de référence pour évaluer les capacités de raisonnement des LLMs
  • Souligne la nécessité de maintenir un scepticisme approprié envers les recommandations des LLMs

Recommandations pour les développeurs

  • Les objectifs d'entraînement actuels privilégient la fluidité plutôt que la précision
  • Nécessité de développer des mécanismes de correction de l'incertitude intégrés
  • Recommandation d'intégrer des mécanismes de vérification pour examiner le processus de raisonnement

Implications pour la recherche

  • Souligne l'importance d'évaluer les biais comportementaux des LLMs
  • Fournit un paradigme pour la recherche sur d'autres biais cognitifs
  • Favorise la collaboration interdisciplinaire entre les sciences du comportement et l'informatique

Évaluation approfondie

Points forts

  1. Innovativité méthodologique :
    • Les problèmes générés algorithmiquement minimisent la contamination des données d'entraînement
    • Mesure multidimensionnelle du degré de confiance (réponse, fait, raisonnement)
    • Conception expérimentale rigoureuse de comparaison homme-machine
  2. Suffisance expérimentale :
    • Expériences à grande échelle (10 000 questions LLM, 5 000+ réponses humaines)
    • Vérifications de robustesse avec plusieurs modèles et paramètres de température
    • Expériences d'ablation détaillées et vérification de la reproductibilité
  3. Contribution théorique :
    • Première révélation de l'effet Dunning-Kruger chez les LLMs
    • Établissement d'un cadre d'analyse du bien-être pour l'exposition aux LLMs
    • Nouvelle perspective sur l'étalonnage du degré de confiance
  4. Valeur pratique :
    • Fournit des considérations de sécurité importantes pour l'application des LLMs
    • Offre une orientation directe pour la conception des systèmes d'IA
    • Fournit des preuves scientifiques pour l'élaboration des politiques de régulation

Insuffisances

  1. Limitations des tâches :
    • Considère uniquement les problèmes de choix binaires, qui peuvent ne pas représenter complètement les scénarios d'application réels
    • Les types de raisonnement sont relativement simples, manquant de raisonnement multi-étapes plus complexe
  2. Méthode de mesure :
    • La mesure du degré de confiance dépend de l'auto-déclaration, pouvant présenter une sensibilité aux invites
    • L'algorithme d'évaluation de la similarité peut introduire de la subjectivité
  3. Représentativité de l'échantillon :
    • Les expériences humaines sont principalement basées sur les utilisateurs de plateformes en ligne
    • Manque de diversité dans les contextes culturels et les domaines professionnels
  4. Effets à long terme :
    • N'a pas considéré les effets d'apprentissage de l'exposition répétée
    • Manque de vérification de la validité écologique dans les environnements décisionnels réels

Évaluation de l'impact

Impact académique

  • Contribution théorique : Ouvre une nouvelle direction pour la recherche sur les biais comportementaux des LLMs
  • Valeur méthodologique : Fournit un paradigme expérimental reproductible
  • Signification interdisciplinaire : Relie l'IA, les sciences cognitives et l'économie comportementale

Impact pratique

  • Application industrielle : Influence la conception et la stratégie de déploiement des produits LLM
  • Valeur éducative : Améliore la conscience publique des limitations des systèmes d'IA
  • Élaboration des politiques : Fournit des preuves scientifiques pour la gouvernance de l'IA

Scénarios applicables

  1. Prise de décision à haut risque : Diagnostic médical, investissement financier et autres scénarios nécessitant une évaluation de la précision
  2. Applications éducatives : Nécessité de considérer l'impact de la surconfiance sur l'efficacité de l'apprentissage
  3. Collaboration homme-machine : Conception de meilleurs mécanismes de transmission du degré de confiance
  4. Sécurité de l'IA : Développement de méthodes plus fiables de quantification de l'incertitude

Directions de recherche futures

  1. Extension des types de tâches : Étude de tâches de raisonnement plus complexes et de problèmes ouverts
  2. Validation transculturelle : Vérification de l'universalité des conclusions dans différents contextes culturels
  3. Mécanismes d'intervention : Développement de méthodes d'entraînement et d'invite pour réduire la surconfiance
  4. Effets à long terme : Étude des processus d'apprentissage et d'adaptation dans les interactions répétées
  5. Autres biais : Étude systématique d'autres biais cognitifs chez les LLMs

Références

L'article cite une riche littérature connexe, couvrant :

  • Recherche sur la surconfiance en économie comportementale (Kahneman, 2011 ; Moore and Healy, 2008)
  • Étalonnage des LLMs et quantification de l'incertitude (Tian et al., 2023 ; Wei et al., 2024)
  • Interaction homme-machine et biais de l'IA (Barocas and Selbst, 2016 ; Rambachan and Roth, 2020)
  • Recherche classique sur l'effet Dunning-Kruger (Kruger and Dunning, 1999)

Cette recherche fournit des perspectives importantes pour comprendre et améliorer la fiabilité des grands modèles de langage, avec des implications profondes pour la sécurité de l'IA et la collaboration homme-machine. En révélant le problème de surconfiance des LLMs, la recherche indique la direction pour développer des systèmes d'IA plus dignes de confiance.