Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic
Jugement d'apprentissage : Une capacité humaine au-delà de l'intelligence artificielle générative
Les modèles de langage de grande taille (LLMs) simulent de plus en plus efficacement la cognition humaine dans diverses tâches basées sur le langage. Cependant, leurs capacités métacognitives — en particulier dans la prédiction de la performance mnésique — restent largement inexplorées. Cette étude introduit un modèle de prédiction transagent évaluant si les LLMs basés sur ChatGPT sont en accord avec le jugement d'apprentissage (JOL) humain, une mesure métacognitive permettant aux individus de prédire leur performance mnésique future. L'étude teste le traitement par les humains et les LLMs de paires de phrases, dont l'une est une phrase jardin — une phrase qui induit initialement une interprétation erronée avant de nécessiter une réanalyse. En manipulant le degré de correspondance contextuelle (phrases correspondantes vs non correspondantes), nous examinons comment les indices intrinsèques (c'est-à-dire la pertinence) influencent le JOL des LLMs et des humains. Les résultats montrent que, bien que le JOL humain prédise de manière fiable la performance mnésique réelle, les LLMs testés (GPT-3.5-turbo, GPT-4-turbo et GPT-4o) ne présentent pas de précision prédictive comparable.
Problème à résoudre : Explorer si les modèles de langage de grande taille possèdent des capacités métacognitives, en particulier s'ils peuvent effectuer des jugements d'apprentissage (JOL) comme les humains, prédisant la performance mnésique.
Importance du problème :
Les LLMs ont démontré une similarité avec la cognition humaine au niveau objet
Les capacités métacognitives sont essentielles pour l'auto-surveillance, l'adaptation et la prédiction des réactions humaines par les systèmes IA
L'absence de cette capacité limite les applications de l'IA dans l'éducation et l'apprentissage personnalisé
Limitations des approches existantes :
Les recherches existantes se concentrent principalement sur les capacités cognitives au niveau objet des LLMs
Absence d'études systématiques des capacités métacognitives
Bien que les LLMs puissent simuler les performances cognitives agrégées humaines, ils ont du mal à capturer les différences individuelles
Motivation de la recherche :
Combler le vide dans la recherche sur la métacognition des LLMs
Fournir une base théorique pour améliorer l'autonomie des systèmes IA et la qualité de l'interaction homme-machine
Explorer le potentiel de l'IA dans les tâches nécessitant une conscience cognitive profonde, telles que l'éducation
Proposition d'un modèle de prédiction transagent : Première comparaison systématique des capacités métacognitives humaines et des LLMs dans les tâches de jugement d'apprentissage
Révélation des limitations métacognitives des LLMs : Découverte que, bien que les LLMs performent bien au niveau objet, leurs capacités de surveillance au niveau méta sont gravement insuffisantes
Vérification de l'influence du contexte sur le JOL : Analyse approfondie du rôle de la pertinence comme indice intrinsèque par le biais de phrases jardin et de manipulations contextuelles
Fourniture d'informations pour les applications éducatives : Preuve importante des limitations des applications de l'IA dans l'apprentissage personnalisé et les technologies éducatives
Établissement d'un nouveau paradigme de recherche : Fondation méthodologique pour les futures recherches sur les capacités métacognitives des LLMs
Tâche de jugement d'apprentissage (JOL) : Les participants (humains ou LLM) lisent des paires de phrases, puis prédisent la mémorabilité de la deuxième phrase (phrase jardin) dans un test mnésique futur, avec une échelle d'évaluation de 1 à 10.
Entrée : Paires de phrases (phrase contextuelle + phrase jardin)
Sortie : Évaluation de pertinence (1-10) + Évaluation de mémorabilité (1-10)
Contraintes : Le contexte se divise en deux conditions : correspondance et non-correspondance
"Read Sentence 1 and Sentence 2 and answer the following question.
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
Méthode d'analyse Bootstrap :
1000 itérations de rééchantillonnage
Préservation de la structure interne des participants et des éléments
Génération d'intervalles de confiance à 95% pour évaluer la capacité prédictive
Modèle linéaire généralisé à effets mixtes (GLMM) :
Effets fixes : JOL, contexte et leurs interactions
Effets aléatoires : Intercepts aléatoires pour les participants et les éléments
Avantage métacognitif unique aux humains : Les humains peuvent effectuer des jugements d'apprentissage précis, tandis que les LLMs les plus avancés actuels ne le peuvent pas
Goulot d'étranglement de l'autonomie de l'IA : Les LLMs manquent de capacités d'auto-surveillance efficaces, limitant le développement de leur autonomie
Défi de la modélisation des différences individuelles : Bien que les LLMs puissent simuler les performances cognitives agrégées, ils ont du mal à capturer la variabilité cognitive au niveau individuel
Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.
Cet article revêt une importance pionnière dans la recherche sur les capacités métacognitives des LLMs. Bien qu'il présente certaines limitations méthodologiques, ses découvertes sont d'une grande valeur pour comprendre les limites cognitives des systèmes IA et pour promouvoir le développement des technologies connexes. Les résultats de la recherche indiquent que les systèmes IA actuels ont encore beaucoup de place pour amélioration en matière d'auto-surveillance et de métacognition, ce qui fournit une direction claire pour les recherches et applications futures.