2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic

Jugement d'apprentissage : Une capacité humaine au-delà de l'intelligence artificielle générative

Informations fondamentales

  • ID de l'article : 2410.13392
  • Titre : Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
  • Auteurs : Markus Huff, Elanur Ulakci (Leibniz-Institut für Wissensmedien & Eberhard Karls Universität Tübingen)
  • Classification : cs.CL (Linguistique informatique)
  • Date de publication : Octobre 2024
  • Lien de l'article : https://arxiv.org/abs/2410.13392

Résumé

Les modèles de langage de grande taille (LLMs) simulent de plus en plus efficacement la cognition humaine dans diverses tâches basées sur le langage. Cependant, leurs capacités métacognitives — en particulier dans la prédiction de la performance mnésique — restent largement inexplorées. Cette étude introduit un modèle de prédiction transagent évaluant si les LLMs basés sur ChatGPT sont en accord avec le jugement d'apprentissage (JOL) humain, une mesure métacognitive permettant aux individus de prédire leur performance mnésique future. L'étude teste le traitement par les humains et les LLMs de paires de phrases, dont l'une est une phrase jardin — une phrase qui induit initialement une interprétation erronée avant de nécessiter une réanalyse. En manipulant le degré de correspondance contextuelle (phrases correspondantes vs non correspondantes), nous examinons comment les indices intrinsèques (c'est-à-dire la pertinence) influencent le JOL des LLMs et des humains. Les résultats montrent que, bien que le JOL humain prédise de manière fiable la performance mnésique réelle, les LLMs testés (GPT-3.5-turbo, GPT-4-turbo et GPT-4o) ne présentent pas de précision prédictive comparable.

Contexte et motivation de la recherche

  1. Problème à résoudre : Explorer si les modèles de langage de grande taille possèdent des capacités métacognitives, en particulier s'ils peuvent effectuer des jugements d'apprentissage (JOL) comme les humains, prédisant la performance mnésique.
  2. Importance du problème :
    • Les LLMs ont démontré une similarité avec la cognition humaine au niveau objet
    • Les capacités métacognitives sont essentielles pour l'auto-surveillance, l'adaptation et la prédiction des réactions humaines par les systèmes IA
    • L'absence de cette capacité limite les applications de l'IA dans l'éducation et l'apprentissage personnalisé
  3. Limitations des approches existantes :
    • Les recherches existantes se concentrent principalement sur les capacités cognitives au niveau objet des LLMs
    • Absence d'études systématiques des capacités métacognitives
    • Bien que les LLMs puissent simuler les performances cognitives agrégées humaines, ils ont du mal à capturer les différences individuelles
  4. Motivation de la recherche :
    • Combler le vide dans la recherche sur la métacognition des LLMs
    • Fournir une base théorique pour améliorer l'autonomie des systèmes IA et la qualité de l'interaction homme-machine
    • Explorer le potentiel de l'IA dans les tâches nécessitant une conscience cognitive profonde, telles que l'éducation

Contributions principales

  1. Proposition d'un modèle de prédiction transagent : Première comparaison systématique des capacités métacognitives humaines et des LLMs dans les tâches de jugement d'apprentissage
  2. Révélation des limitations métacognitives des LLMs : Découverte que, bien que les LLMs performent bien au niveau objet, leurs capacités de surveillance au niveau méta sont gravement insuffisantes
  3. Vérification de l'influence du contexte sur le JOL : Analyse approfondie du rôle de la pertinence comme indice intrinsèque par le biais de phrases jardin et de manipulations contextuelles
  4. Fourniture d'informations pour les applications éducatives : Preuve importante des limitations des applications de l'IA dans l'apprentissage personnalisé et les technologies éducatives
  5. Établissement d'un nouveau paradigme de recherche : Fondation méthodologique pour les futures recherches sur les capacités métacognitives des LLMs

Explication détaillée de la méthode

Définition de la tâche

Tâche de jugement d'apprentissage (JOL) : Les participants (humains ou LLM) lisent des paires de phrases, puis prédisent la mémorabilité de la deuxième phrase (phrase jardin) dans un test mnésique futur, avec une échelle d'évaluation de 1 à 10.

Entrée : Paires de phrases (phrase contextuelle + phrase jardin) Sortie : Évaluation de pertinence (1-10) + Évaluation de mémorabilité (1-10) Contraintes : Le contexte se divise en deux conditions : correspondance et non-correspondance

Conception expérimentale

Construction du matériel

  • Phrases jardin : 45 phrases grammaticalement complexes, telles que « Because Bill drinks wine is never kept in the house »
  • Manipulation contextuelle :
    • Contexte correspondant : « Bill has chronic alcoholism »
    • Contexte non correspondant : « Bill likes to play golf »

Modèle de prédiction transagent

Ce modèle comprend deux composants principaux :

  1. Expérience humaine : 78 participants complètent le processus apprentissage-jugement-test
  2. Évaluation des LLMs : GPT-3.5-turbo, GPT-4-turbo, GPT-4o générant chacun 9000 réponses indépendantes

Points d'innovation technique

  1. Stratégie d'incitation sans exemple :
"Read Sentence 1 and Sentence 2 and answer the following question. 
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
  1. Méthode d'analyse Bootstrap :
    • 1000 itérations de rééchantillonnage
    • Préservation de la structure interne des participants et des éléments
    • Génération d'intervalles de confiance à 95% pour évaluer la capacité prédictive
  2. Modèle linéaire généralisé à effets mixtes (GLMM) :
    • Effets fixes : JOL, contexte et leurs interactions
    • Effets aléatoires : Intercepts aléatoires pour les participants et les éléments

Configuration expérimentale

Ensemble de données

  • Données LLM : 9000 réponses par modèle (4500 correspondantes/non correspondantes)
  • Données humaines : 78 participants, 44 paires de phrases (22 cibles + 22 distracteurs)
  • Prétraitement : Exclusion des participants ayant des problèmes de vision ou n'ayant pas complété l'expérience

Métriques d'évaluation

  • Métrique principale : Corrélation entre JOL et performance mnésique réelle (pente Bootstrap)
  • Métriques auxiliaires : Tests de signification des effets contextuels
  • Méthodes statistiques : Intervalles de confiance à 95%, tests du chi-carré

Méthodes de comparaison

  • Performance JOL humaine comme étalon-or
  • Comparaison des performances sans exemple des trois modèles GPT
  • Comparaison entre conditions contextuelles correspondantes vs non correspondantes

Détails d'implémentation

  • Configuration des LLMs : temperature=1 pour augmenter la variabilité des réponses
  • Expérience humaine : Programmée avec PsychoPy, 15 minutes pour compléter
  • Analyse statistique : Langage R, analyse ANOVA avec le package car

Résultats expérimentaux

Résultats principaux

Performance humaine

  • Contexte correspondant : B = 0,167, IC 95% 0,018, 0,316 ✓ Significatif
  • Contexte non correspondant : B = 0,104, IC 95% 0,005, 0,202 ✓ Significatif
  • Effet principal du JOL : χ²(1) = 36,29, p < 0,001
  • Effet principal du contexte : χ²(1) = 80,59, p < 0,001

Performance des LLMs

Tous les modèles GPT n'ont montré aucune capacité prédictive significative dans les deux conditions contextuelles :

Contexte correspondant :

  • GPT-3.5-turbo : B = 0,013, IC 95% -0,147, 0,172
  • GPT-4-turbo : B = 0,026, IC 95% -0,143, 0,194
  • GPT-4o : B = 0,045, IC 95% -0,159, 0,248

Contexte non correspondant :

  • GPT-3.5-turbo : B = 0,044, IC 95% -0,087, 0,175
  • GPT-4-turbo : B = 0,016, IC 95% -0,108, 0,139
  • GPT-4o : B = 0,027, IC 95% -0,090, 0,143

Découvertes clés

  1. Absence de capacité métacognitive : Tous les LLMs testés ne peuvent pas prédire efficacement la performance mnésique humaine
  2. Indépendance contextuelle : L'échec prédictif des LLMs ne dépend pas du degré de correspondance contextuelle
  3. Difficulté à capturer les différences individuelles : Les LLMs ne peuvent pas simuler la variabilité individuelle du JOL humain
  4. Différence objet vs niveau méta : Confirmation des différences de capacités des LLMs à différents niveaux cognitifs

Travaux connexes

Recherche en psychologie des machines

  • Binz & Schulz (2023) : Similarité humaine des LLMs dans les tâches cognitives
  • Strachan et al. (2024) : Tests de théorie de l'esprit des modèles de langage de grande taille
  • Contribution de cet article : Extension de la cognition au niveau objet à la métacognition

Fondements théoriques de la métacognition

  • Nelson (1990) : Cadre théorique de la métamémoire et du jugement d'apprentissage
  • Koriat (1997) : Cadre d'utilisation des indices dans le JOL
  • Contribution de cet article : Application de la théorie métacognitive à l'évaluation des systèmes IA

Applications en technologie éducative

  • Chen et al. (2020) : Applications de l'IA dans l'apprentissage personnalisé
  • Découvertes de cet article : Preuve des limitations fondamentales des systèmes IA actuels dans les applications éducatives

Conclusions et discussion

Conclusions principales

  1. Avantage métacognitif unique aux humains : Les humains peuvent effectuer des jugements d'apprentissage précis, tandis que les LLMs les plus avancés actuels ne le peuvent pas
  2. Goulot d'étranglement de l'autonomie de l'IA : Les LLMs manquent de capacités d'auto-surveillance efficaces, limitant le développement de leur autonomie
  3. Défi de la modélisation des différences individuelles : Bien que les LLMs puissent simuler les performances cognitives agrégées, ils ont du mal à capturer la variabilité cognitive au niveau individuel

Limitations

  1. Limitations de l'évaluation sans exemple : Exploration insuffisante des performances des LLMs ayant reçu une formation spécifique
  2. Restrictions des modèles de boîte noire : Impossibilité d'analyser en profondeur les mécanismes internes des LLMs
  3. Dépendance à la version : Les résultats peuvent ne pas s'appliquer aux versions futures des modèles
  4. Spécificité de la tâche : Seules les capacités métacognitives liées à la mémoire ont été testées

Directions futures

  1. Amélioration des capacités métacognitives : Développement de méthodes d'entraînement métacognitif spécialisées
  2. Modélisation des différences individuelles : Exploration de techniques pour capturer la variabilité cognitive individuelle
  3. Tâches métacognitives multiples : Extension à d'autres types d'évaluations métacognitives
  4. Optimisation des applications éducatives : Amélioration des outils éducatifs IA basée sur les découvertes

Évaluation approfondie

Points forts

  1. Innovativité de la recherche :
    • Première étude systématique des capacités métacognitives des LLMs
    • Proposition d'un nouveau paradigme de modèle de prédiction transagent
    • Intégration organique de la théorie de la psychologie cognitive et de l'évaluation de l'IA
  2. Rigueur méthodologique :
    • Utilisation de méthodes statistiques strictes (Bootstrap + GLMM)
    • Contrôle de multiples facteurs de confusion potentiels
    • Calcul de la taille d'échantillon basé sur l'analyse de puissance a priori
  3. Valeur pratique :
    • Fourniture d'avertissements importants pour les applications éducatives de l'IA
    • Révélation des différences cognitives dans l'interaction homme-machine
    • Indication de directions pour l'amélioration des systèmes IA
  4. Contribution théorique :
    • Enrichissement du domaine de recherche de la psychologie des machines
    • Validation de l'applicabilité de la théorie métacognitive Nelson-Koriat dans l'évaluation de l'IA

Insuffisances

  1. Limitations méthodologiques :
    • Utilisation uniquement d'évaluations sans exemple, exploration insuffisante des effets du fine-tuning ou de l'ingénierie des incitations
    • Les phrases jardin peuvent ne pas être suffisamment représentatives, affectant la généralité des résultats
    • Le paramètre de température (temperature=1) peut affecter la stabilité de la performance des LLMs
  2. Profondeur d'analyse insuffisante :
    • Manque d'analyse approfondie des mécanismes d'échec des LLMs
    • Exploration insuffisante des impacts spécifiques de différents types d'indices intrinsèques
    • Analyse quantitative limitée des différences individuelles
  3. Défauts de conception expérimentale :
    • Existence de différences dans les conditions de test entre humains et LLMs (interactif vs traitement par lots)
    • Manque d'analyse des représentations internes des LLMs
    • Taille d'échantillon relativement limitée (78 participants humains)

Impact

  1. Valeur académique :
    • Ouverture d'une nouvelle direction de recherche pour l'évaluation métacognitive des LLMs
    • Fourniture d'un exemple pour la recherche interdisciplinaire entre sciences cognitives et IA
    • Potentiel de catalyser davantage de recherches liées à la métacognition de l'IA
  2. Impact pratique :
    • Fourniture de références importantes aux développeurs d'outils éducatifs IA
    • Influence sur les concepts de conception de l'interaction homme-machine
    • Promotion du développement des capacités d'auto-surveillance des systèmes IA
  3. Reproductibilité :
    • Fourniture de données et de code complets (plateforme OSF)
    • Description détaillée et claire du processus expérimental
    • Haut degré de standardisation des méthodes statistiques

Scénarios d'application

  1. Technologie éducative : Évaluation des capacités des systèmes d'apprentissage personnalisé et des assistants d'enseignement intelligents
  2. Interaction homme-machine : Amélioration des capacités d'auto-surveillance des chatbots et assistants IA
  3. Évaluation cognitive : Tests standardisés des capacités cognitives des systèmes IA
  4. Sécurité de l'IA : Évaluation de l'auto-conscience et de la fiabilité des systèmes IA

Références

  1. Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
  2. Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
  3. Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
  4. Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
  5. Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

Cet article revêt une importance pionnière dans la recherche sur les capacités métacognitives des LLMs. Bien qu'il présente certaines limitations méthodologiques, ses découvertes sont d'une grande valeur pour comprendre les limites cognitives des systèmes IA et pour promouvoir le développement des technologies connexes. Les résultats de la recherche indiquent que les systèmes IA actuels ont encore beaucoup de place pour amélioration en matière d'auto-surveillance et de métacognition, ce qui fournit une direction claire pour les recherches et applications futures.