Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic
Lernurteil: Eine menschliche Fähigkeit jenseits generativer künstlicher Intelligenz
Große Sprachmodelle (LLMs) simulieren zunehmend menschliche Kognition in verschiedenen sprachgestützten Aufgaben. Ihre metakognitiven Fähigkeiten – insbesondere bei der Vorhersage von Gedächtnisleistung – bleiben jedoch unerforschte Bereiche. Diese Studie führt ein agentübergreifendes Vorhersagemodell ein, das bewertet, ob auf ChatGPT basierende LLMs mit menschlichen Lernurteilen (JOL) übereinstimmen, einer metakognitiven Messung, bei der Individuen ihre zukünftige Gedächtnisleistung vorhersagen. Die Studie testete die Verarbeitung von Satzpaaren durch Menschen und LLMs, wobei einer ein Gartenpfad-Satz ist – ein Satz, der Leser zunächst zu einer falschen Interpretation verleitet und dann eine Neuanalyse erfordert. Durch Manipulation der Kontextübereinstimmung (übereinstimmende vs. nicht übereinstimmende Sätze) wurde untersucht, wie intrinsische Hinweise (d. h. Relevanz) die JOL von LLMs und Menschen beeinflussen. Die Ergebnisse zeigen, dass während menschliche JOL zuverlässig die tatsächliche Gedächtnisleistung vorhersagt, die getesteten LLMs (GPT-3.5-turbo, GPT-4-turbo und GPT-4o) keine vergleichbare Vorhersagegenauigkeit aufweisen.
Zu lösende Probleme: Untersuchen, ob große Sprachmodelle metakognitive Fähigkeiten besitzen, insbesondere ob sie wie Menschen Lernurteile (JOL) durchführen können, um Gedächtnisleistung vorherzusagen.
Bedeutung des Problems:
LLMs haben auf Objektebene bereits Ähnlichkeiten mit menschlicher Kognition gezeigt
Metakognitive Fähigkeiten sind für Selbstüberwachung, Anpassung und Vorhersage menschlicher Reaktionen durch KI-Systeme entscheidend
Das Fehlen dieser Fähigkeit begrenzt KI-Anwendungen in Bildung, personalisiertem Lernen und anderen Bereichen
Einschränkungen bestehender Ansätze:
Bestehende Forschung konzentriert sich hauptsächlich auf kognitive Fähigkeiten von LLMs auf Objektebene
Mangel an systematischer Forschung zu metakognitiven Fähigkeiten
Obwohl LLMs aggregierte menschliche Kognition simulieren können, erfassen sie schwer Unterschiede zwischen Individuen
Forschungsmotivation:
Schließung der Forschungslücke in der Metakognition von LLMs
Bereitstellung einer theoretischen Grundlage zur Verbesserung der Autonomie von KI-Systemen und der Qualität der Mensch-Maschine-Interaktion
Erforschung des Potenzials von KI bei Aufgaben, die tiefes kognitives Bewusstsein erfordern, wie Bildung
Vorschlag eines agentübergreifenden Vorhersagemodells: Erste systematische Vergleichsstudie der metakognitiven Fähigkeiten von Menschen und LLMs bei Lernurteilsaufgaben
Offenlegung metakognitiver Einschränkungen von LLMs: Feststellung, dass obwohl LLMs auf Objektebene gut abschneiden, ihre Überwachungsfähigkeiten auf Metaebene erheblich mangelhaft sind
Validierung des Kontexteinflusses auf JOL: Tiefgreifende Analyse der Rolle von Relevanz als intrinsischer Hinweis durch Gartenpfad-Sätze und Kontextmanipulation
Bereitstellung von Erkenntnissen für Bildungsanwendungen: Wichtige Evidenz für die Einschränkungen von KI in personalisierten Lern- und Bildungstechnologieanwendungen
Etablierung eines neuen Forschungsparadigmas: Schaffung einer methodologischen Grundlage für zukünftige Forschung zu metakognitiven Fähigkeiten von LLMs
Lernurteilsaufgabe (JOL): Teilnehmer (Menschen oder LLM) lesen Satzpaare und sagen dann voraus, wie merkfähig der zweite Satz (Gartenpfad-Satz) in einem zukünftigen Gedächtnistest sein wird, mit einer Bewertungsskala von 1-10.
Eingabe: Satzpaare (Kontextsatz + Gartenpfad-Satz)
Ausgabe: Relevanzbewertung (1-10) + Merkfähigkeitsbewertung (1-10)
Einschränkungen: Kontext wird in übereinstimmende und nicht übereinstimmende Bedingungen unterteilt
"Read Sentence 1 and Sentence 2 and answer the following question.
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
Bootstrap-Analysemethode:
1000 Resampling-Iterationen
Beibehaltung der internen Struktur von Teilnehmern und Elementen
Generierung von 95%-Konfidenzintervallen zur Bewertung der Vorhersagefähigkeit
Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.
Dieses Paper hat Pionierarbeit bei der Erforschung der metakognitiven Fähigkeiten von LLMs geleistet. Obwohl es einige methodische Einschränkungen gibt, sind seine Befunde für das Verständnis der kognitiven Grenzen von KI-Systemen und die Förderung der Entwicklung verwandter Technologien von großem Wert. Die Forschungsergebnisse zeigen, dass aktuelle KI-Systeme bei Selbstüberwachung und Metakognition noch großes Verbesserungspotenzial haben, was klare Richtungen für zukünftige Forschung und Anwendungen bietet.