2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, UlakÃ§Ä±

Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.

academic

Lernurteil: Eine menschliche Fähigkeit jenseits generativer künstlicher Intelligenz

Grundinformationen

Paper-ID: 2410.13392
Titel: Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
Autoren: Markus Huff, Elanur Ulakci (Leibniz-Institut für Wissensmedien & Eberhard Karls Universität Tübingen)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: Oktober 2024
Paper-Link: https://arxiv.org/abs/2410.13392

Zusammenfassung

Große Sprachmodelle (LLMs) simulieren zunehmend menschliche Kognition in verschiedenen sprachgestützten Aufgaben. Ihre metakognitiven Fähigkeiten – insbesondere bei der Vorhersage von Gedächtnisleistung – bleiben jedoch unerforschte Bereiche. Diese Studie führt ein agentübergreifendes Vorhersagemodell ein, das bewertet, ob auf ChatGPT basierende LLMs mit menschlichen Lernurteilen (JOL) übereinstimmen, einer metakognitiven Messung, bei der Individuen ihre zukünftige Gedächtnisleistung vorhersagen. Die Studie testete die Verarbeitung von Satzpaaren durch Menschen und LLMs, wobei einer ein Gartenpfad-Satz ist – ein Satz, der Leser zunächst zu einer falschen Interpretation verleitet und dann eine Neuanalyse erfordert. Durch Manipulation der Kontextübereinstimmung (übereinstimmende vs. nicht übereinstimmende Sätze) wurde untersucht, wie intrinsische Hinweise (d. h. Relevanz) die JOL von LLMs und Menschen beeinflussen. Die Ergebnisse zeigen, dass während menschliche JOL zuverlässig die tatsächliche Gedächtnisleistung vorhersagt, die getesteten LLMs (GPT-3.5-turbo, GPT-4-turbo und GPT-4o) keine vergleichbare Vorhersagegenauigkeit aufweisen.

Forschungshintergrund und Motivation

Zu lösende Probleme: Untersuchen, ob große Sprachmodelle metakognitive Fähigkeiten besitzen, insbesondere ob sie wie Menschen Lernurteile (JOL) durchführen können, um Gedächtnisleistung vorherzusagen.
Bedeutung des Problems:
- LLMs haben auf Objektebene bereits Ähnlichkeiten mit menschlicher Kognition gezeigt
- Metakognitive Fähigkeiten sind für Selbstüberwachung, Anpassung und Vorhersage menschlicher Reaktionen durch KI-Systeme entscheidend
- Das Fehlen dieser Fähigkeit begrenzt KI-Anwendungen in Bildung, personalisiertem Lernen und anderen Bereichen
Einschränkungen bestehender Ansätze:
- Bestehende Forschung konzentriert sich hauptsächlich auf kognitive Fähigkeiten von LLMs auf Objektebene
- Mangel an systematischer Forschung zu metakognitiven Fähigkeiten
- Obwohl LLMs aggregierte menschliche Kognition simulieren können, erfassen sie schwer Unterschiede zwischen Individuen
Forschungsmotivation:
- Schließung der Forschungslücke in der Metakognition von LLMs
- Bereitstellung einer theoretischen Grundlage zur Verbesserung der Autonomie von KI-Systemen und der Qualität der Mensch-Maschine-Interaktion
- Erforschung des Potenzials von KI bei Aufgaben, die tiefes kognitives Bewusstsein erfordern, wie Bildung

Kernbeiträge

Vorschlag eines agentübergreifenden Vorhersagemodells: Erste systematische Vergleichsstudie der metakognitiven Fähigkeiten von Menschen und LLMs bei Lernurteilsaufgaben
Offenlegung metakognitiver Einschränkungen von LLMs: Feststellung, dass obwohl LLMs auf Objektebene gut abschneiden, ihre Überwachungsfähigkeiten auf Metaebene erheblich mangelhaft sind
Validierung des Kontexteinflusses auf JOL: Tiefgreifende Analyse der Rolle von Relevanz als intrinsischer Hinweis durch Gartenpfad-Sätze und Kontextmanipulation
Bereitstellung von Erkenntnissen für Bildungsanwendungen: Wichtige Evidenz für die Einschränkungen von KI in personalisierten Lern- und Bildungstechnologieanwendungen
Etablierung eines neuen Forschungsparadigmas: Schaffung einer methodologischen Grundlage für zukünftige Forschung zu metakognitiven Fähigkeiten von LLMs

Methodische Details

Aufgabendefinition

Lernurteilsaufgabe (JOL): Teilnehmer (Menschen oder LLM) lesen Satzpaare und sagen dann voraus, wie merkfähig der zweite Satz (Gartenpfad-Satz) in einem zukünftigen Gedächtnistest sein wird, mit einer Bewertungsskala von 1-10.

Eingabe: Satzpaare (Kontextsatz + Gartenpfad-Satz) Ausgabe: Relevanzbewertung (1-10) + Merkfähigkeitsbewertung (1-10) Einschränkungen: Kontext wird in übereinstimmende und nicht übereinstimmende Bedingungen unterteilt

Experimentelles Design

Materialkonstruktion

Gartenpfad-Sätze: 45 grammatikalisch komplexe Sätze, wie „Because Bill drinks wine is never kept in the house"
Kontextmanipulation:
- Übereinstimmender Kontext: „Bill has chronic alcoholism"
- Nicht übereinstimmender Kontext: „Bill likes to play golf"

Agentübergreifendes Vorhersagemodell

Das Modell enthält zwei Kernkomponenten:

Menschliches Experiment: 78 Teilnehmer führten Lern-Urteils-Test-Ablauf durch
LLM-Bewertung: GPT-3.5-turbo, GPT-4-turbo, GPT-4o generieren jeweils 9000 unabhängige Antworten

Technische Innovationen

Zero-Shot-Prompt-Strategie:

"Read Sentence 1 and Sentence 2 and answer the following question. 
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"

Bootstrap-Analysemethode:
- 1000 Resampling-Iterationen
- Beibehaltung der internen Struktur von Teilnehmern und Elementen
- Generierung von 95%-Konfidenzintervallen zur Bewertung der Vorhersagefähigkeit
Verallgemeinertes lineares gemischtes Effektmodell (GLMM):
- Feste Effekte: JOL, Kontext und deren Wechselwirkungen
- Zufällige Effekte: Zufällige Achsenabschnitte für Teilnehmer und Elemente

Experimentelle Einrichtung

Datensatz

LLM-Daten: 9000 Antworten pro Modell (je 4500 übereinstimmend/nicht übereinstimmend)
Menschliche Daten: 78 Teilnehmer, 44 Satzpaare (22 Ziel + 22 Ablenkung)
Vorverarbeitung: Ausschluss von Teilnehmern mit Sehbehinderung und unvollständigen Experimenten

Bewertungsmetriken

Primäre Metrik: Korrelation zwischen JOL und tatsächlicher Gedächtnisleistung (Bootstrap-Steigung)
Sekundäre Metriken: Signifikanztests für Kontexteffekte
Statistische Methoden: 95%-Konfidenzintervalle, Chi-Quadrat-Tests

Vergleichsmethoden

Menschliche JOL-Leistung als Goldstandard
Zero-Shot-Leistungsvergleich zwischen drei GPT-Modellen
Vergleich zwischen übereinstimmenden und nicht übereinstimmenden Kontextbedingungen

Implementierungsdetails

LLM-Einstellungen: temperature=1 zur Erhöhung der Antwortenvariabilität
Menschliches Experiment: PsychoPy-Programmierung, 15 Minuten Abschlusszeit
Statistische Analyse: R-Sprache, car-Paket für ANOVA-Analyse

Experimentelle Ergebnisse

Hauptergebnisse

Menschliche Leistung

Übereinstimmender Kontext: B = 0,167, 95% CI 0,018, 0,316 ✓ signifikant
Nicht übereinstimmender Kontext: B = 0,104, 95% CI 0,005, 0,202 ✓ signifikant
JOL-Haupteffekt: χ²(1) = 36,29, p < 0,001
Kontext-Haupteffekt: χ²(1) = 80,59, p < 0,001

LLM-Leistung

Alle GPT-Modelle zeigten unter beiden Kontextbedingungen keine signifikante Vorhersagefähigkeit:

Übereinstimmender Kontext:

GPT-3.5-turbo: B = 0,013, 95% CI -0,147, 0,172 ✗
GPT-4-turbo: B = 0,026, 95% CI -0,143, 0,194 ✗
GPT-4o: B = 0,045, 95% CI -0,159, 0,248 ✗

Nicht übereinstimmender Kontext:

GPT-3.5-turbo: B = 0,044, 95% CI -0,087, 0,175 ✗
GPT-4-turbo: B = 0,016, 95% CI -0,108, 0,139 ✗
GPT-4o: B = 0,027, 95% CI -0,090, 0,143 ✗

Schlüsselfeststellungen

Fehlende metakognitive Fähigkeiten: Alle getesteten LLMs können die menschliche Gedächtnisleistung nicht wirksam vorhersagen
Kontextunabhängigkeit: Das Vorhersageversagen von LLMs hängt nicht vom Grad der Kontextübereinstimmung ab
Schwierigkeit bei der Erfassung individueller Unterschiede: LLMs können die individuelle Variabilität menschlicher JOL nicht simulieren
Unterschiede zwischen Objekt- und Metaebene: Bestätigung der Fähigkeitsunterschiede von LLMs auf verschiedenen kognitiven Ebenen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Menschlicher metakognitiver Vorteil: Menschen können Lernurteile genau durchführen, während aktuelle fortschrittliche LLMs dies nicht können
Engpass der KI-Autonomie: Das Fehlen effektiver Selbstüberwachungsfähigkeiten bei LLMs begrenzt die Entwicklung ihrer Autonomie
Herausforderung bei der Modellierung individueller Unterschiede: Obwohl LLMs aggregierte kognitive Leistung simulieren können, erfassen sie schwer kognitive Variabilität auf individueller Ebene

Einschränkungen

Zero-Shot-Bewertungseinschränkungen: Keine Erforschung der Leistung speziell trainierter LLMs
Black-Box-Modellbeschränkungen: Keine tiefgreifende Analyse der internen Mechanismen von LLMs
Versionsabhängigkeit: Ergebnisse gelten möglicherweise nicht für zukünftige Modellversionen
Aufgabenspezifität: Nur gedächtnisbezogene metakognitive Fähigkeiten wurden getestet

Zukünftige Richtungen

Verbesserung metakognitiver Fähigkeiten: Entwicklung spezieller Trainingsmethoden für Metakognition
Modellierung individueller Unterschiede: Erforschung von Techniken zur Erfassung kognitiver Individualvariabilität
Mehrere metakognitive Aufgaben: Erweiterung auf andere Arten von metakognitiven Bewertungen
Optimierung von Bildungsanwendungen: Verbesserung von KI-Bildungswerkzeugen basierend auf Befunden

Tiefgreifende Bewertung

Stärken

Forschungsinnovation:
- Erste systematische Untersuchung der metakognitiven Fähigkeiten von LLMs
- Vorschlag eines neuen Paradigmas für agentübergreifende Vorhersagemodelle
- Organische Kombination von kognitiver Psychologie-Theorie mit KI-Bewertung
Methodische Strenge:
- Einsatz strenger statistischer Methoden (Bootstrap + GLMM)
- Kontrolle mehrerer potenzieller Störfaktoren
- Stichprobengrößenberechnung basierend auf vorheriger Leistungsanalyse
Praktischer Wert:
- Wichtige Warnung für KI-Bildungsanwendungen
- Offenlegung kognitiver Unterschiede in der Mensch-Maschine-Interaktion
- Klare Richtung für KI-Systemverbesserungen
Theoretischer Beitrag:
- Bereicherung des Forschungsbereichs Maschinenpsychologie
- Validierung der Anwendbarkeit der Nelson-Koriat-Metakognitionstheorie in der KI-Bewertung

Mängel

Methodische Einschränkungen:
- Nur Zero-Shot-Bewertung, keine Erforschung von Fine-Tuning oder Prompt-Engineering-Effekten
- Gartenpfad-Sätze mögen nicht ausreichend repräsentativ sein und beeinflussen die Allgemeingültigkeit der Ergebnisse
- Die Temperaturparameter-Einstellung (temperature=1) könnte die Stabilitätsleistung von LLMs beeinflussen
Unzureichende Analysentiefe:
- Mangel an tiefgreifender Analyse der Fehlermechanismen von LLMs
- Keine Erforschung spezifischer Auswirkungen verschiedener Arten intrinsischer Hinweise
- Begrenzte quantitative Analyse individueller Unterschiede
Experimentelle Designmängel:
- Unterschiede in den Testbedingungen zwischen Menschen und LLMs (interaktiv vs. Batch-Verarbeitung)
- Mangel an Analyse interner LLM-Repräsentationen
- Relativ begrenzte Stichprobengröße (78 menschliche Teilnehmer)

Auswirkungen

Akademischer Wert:
- Eröffnung einer neuen Forschungsrichtung in der metakognitiven Bewertung von LLMs
- Bereitstellung eines Beispiels für interdisziplinäre Forschung zwischen Kognitionswissenschaft und KI
- Mögliche Katalysierung weiterer metakognitions-bezogener KI-Forschung
Praktische Auswirkungen:
- Wichtige Referenz für KI-Bildungswerkzeugentwickler
- Beeinflussung von Mensch-Maschine-Interaktionsdesign-Konzepten
- Förderung der Entwicklung von Selbstüberwachungsfähigkeiten in KI-Systemen
Reproduzierbarkeit:
- Bereitstellung vollständiger Daten und Code (OSF-Plattform)
- Detaillierte und klare Experimentalablauf-Beschreibung
- Hoher Standardisierungsgrad statistischer Methoden

Anwendungsszenarien

Bildungstechnologie: Bewertung von Fähigkeiten personalisierter Lernsysteme und intelligenter Unterrichtsassistenten
Mensch-Maschine-Interaktion: Verbesserung der Selbstüberwachungsfähigkeiten von Chatbots und KI-Assistenten
Kognitive Bewertung: Standardisierte Tests für kognitive Fähigkeiten von KI-Systemen
KI-Sicherheit: Bewertung des Selbstbewusstseins und der Zuverlässigkeit von KI-Systemen

Literaturverzeichnis

Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

Dieses Paper hat Pionierarbeit bei der Erforschung der metakognitiven Fähigkeiten von LLMs geleistet. Obwohl es einige methodische Einschränkungen gibt, sind seine Befunde für das Verständnis der kognitiven Grenzen von KI-Systemen und die Förderung der Entwicklung verwandter Technologien von großem Wert. Die Forschungsergebnisse zeigen, dass aktuelle KI-Systeme bei Selbstüberwachung und Metakognition noch großes Verbesserungspotenzial haben, was klare Richtungen für zukünftige Forschung und Anwendungen bietet.