Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic
Giudizio dell'Apprendimento: Un'Abilità Umana Oltre l'Intelligenza Artificiale Generativa
I modelli linguistici di grandi dimensioni (LLM) simulano sempre più efficacemente la cognizione umana in vari compiti basati sul linguaggio. Tuttavia, le loro capacità metacognitive — in particolare nella previsione della prestazione della memoria — rimangono ancora inesplorate. Questo studio introduce un modello predittivo trans-agente che valuta se gli LLM basati su ChatGPT sono coerenti con il giudizio dell'apprendimento (JOL) umano, una misura metacognitiva in cui gli individui prevedono la loro futura prestazione di memoria. Lo studio ha testato l'elaborazione di coppie di frasi da parte di umani e LLM, dove una è una frase garden-path — un tipo di frase che inizialmente induce il lettore a un'interpretazione errata e richiede successivamente una rianalisi. Manipolando il grado di corrispondenza del contesto (frasi corrispondenti vs. non corrispondenti), si è investigato come gli indizi intrinseci (cioè la rilevanza) influenzino il JOL di LLM e umani. I risultati mostrano che, mentre il JOL umano predice in modo affidabile la prestazione effettiva della memoria, gli LLM testati (GPT-3.5-turbo, GPT-4-turbo e GPT-4o) non hanno mostrato una precisione predittiva comparabile.
Problema da Risolvere: Esplorare se i modelli linguistici di grandi dimensioni possiedono capacità metacognitive, in particolare se possono effettuare giudizi dell'apprendimento (JOL) come gli umani, prevedendo la prestazione della memoria.
Importanza del Problema:
Gli LLM hanno già dimostrato somiglianze con la cognizione umana a livello oggettuale
Le capacità metacognitive sono cruciali per l'automonitoraggio dei sistemi IA, l'adattamento e la previsione delle risposte umane
L'assenza di questa capacità limita l'applicazione dell'IA in settori come l'educazione e l'apprendimento personalizzato
Limitazioni degli Approcci Esistenti:
La ricerca esistente si concentra principalmente sulle capacità cognitive a livello oggettuale degli LLM
Manca una ricerca sistematica sulle capacità a livello metacognitivo
Sebbene gli LLM possano simulare le prestazioni cognitive aggregate umane, hanno difficoltà a catturare le differenze individuali
Motivazione della Ricerca:
Colmare il divario nella ricerca metacognitiva degli LLM
Fornire una base teorica per migliorare l'autonomia dei sistemi IA e la qualità dell'interazione uomo-macchina
Esplorare il potenziale dell'IA in compiti che richiedono una profonda consapevolezza cognitiva, come l'educazione
Propone un Modello Predittivo Trans-Agente: Primo confronto sistematico delle capacità metacognitive umane e degli LLM nel compito di giudizio dell'apprendimento
Rivela le Limitazioni Metacognitive degli LLM: Scopre che, sebbene gli LJM funzionino bene a livello oggettuale, le loro capacità di monitoraggio a livello meta sono gravemente insufficienti
Verifica l'Influenza del Contesto sul JOL: Analizza profondamente il ruolo della rilevanza come indizio intrinseco attraverso frasi garden-path e manipolazione del contesto
Fornisce Intuizioni per Applicazioni Educative: Fornisce prove importanti delle limitazioni dell'IA nell'apprendimento personalizzato e nella tecnologia educativa
Stabilisce un Nuovo Paradigma di Ricerca: Pone le basi metodologiche per la ricerca futura sulle capacità metacognitive degli LLM
Compito di Giudizio dell'Apprendimento (JOL): I partecipanti (umani o LLM) leggono coppie di frasi e prevedono la memorabilità della seconda frase (frase garden-path) in un futuro test di memoria, con valutazioni da 1 a 10.
Input: Coppie di frasi (frase di contesto + frase garden-path)
Output: Valutazione di rilevanza (1-10) + Valutazione di memorabilità (1-10)
Vincoli: Il contesto è diviso in due condizioni: corrispondente e non corrispondente
"Read Sentence 1 and Sentence 2 and answer the following question.
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
Metodo di Analisi Bootstrap:
1000 iterazioni di ricampionamento
Mantenimento della struttura interna di partecipanti e elementi
Generazione di intervalli di confidenza al 95% per valutare la capacità predittiva
Modello Lineare Generalizzato ad Effetti Misti (GLMM):
Effetti fissi: JOL, contesto e loro interazione
Effetti casuali: intercette casuali per partecipanti e elementi
Vantaggio Metacognitivo Unico degli Umani: Gli umani possono effettuare accuratamente giudizi dell'apprendimento, mentre gli attuali LLM più avanzati non possono farlo
Collo di Bottiglia nell'Autonomia dell'IA: Gli LLM mancano di efficaci capacità di automonitoraggio, limitando lo sviluppo della loro autonomia
Sfida nella Modellazione delle Differenze Individuali: Sebbene gli LLM possano simulare prestazioni cognitive aggregate, hanno difficoltà a catturare la variabilità cognitiva a livello individuale
Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.
Questo articolo ha un significato pioneristico nella ricerca sulle capacità metacognitive degli LLM. Sebbene presenti alcune limitazioni metodologiche, le sue scoperte hanno un valore importante per comprendere i confini cognitivi dei sistemi IA e per promuovere lo sviluppo delle tecnologie correlate. I risultati della ricerca indicano che i sistemi IA attuali hanno ancora molto spazio per migliorare in termini di automonitoraggio e metacognizione, fornendo una direzione chiara per la ricerca e l'applicazione futura.