2025-11-12T16:07:10.639674

Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence

Huff, Ulakçı
Large language models (LLMs) increasingly mimic human cognition in various language-based tasks. However, their capacity for metacognition - particularly in predicting memory performance - remains unexplored. Here, we introduce a cross-agent prediction model to assess whether ChatGPT-based LLMs align with human judgments of learning (JOL), a metacognitive measure where individuals predict their own future memory performance. We tested humans and LLMs on pairs of sentences, one of which was a garden-path sentence - a sentence that initially misleads the reader toward an incorrect interpretation before requiring reanalysis. By manipulating contextual fit (fitting vs. unfitting sentences), we probed how intrinsic cues (i.e., relatedness) affect both LLM and human JOL. Our results revealed that while human JOL reliably predicted actual memory performance, none of the tested LLMs (GPT-3.5-turbo, GPT-4-turbo, and GPT-4o) demonstrated comparable predictive accuracy. This discrepancy emerged regardless of whether sentences appeared in fitting or unfitting contexts. These findings indicate that, despite LLMs' demonstrated capacity to model human cognition at the object-level, they struggle at the meta-level, failing to capture the variability in individual memory predictions. By identifying this shortcoming, our study underscores the need for further refinements in LLMs' self-monitoring abilities, which could enhance their utility in educational settings, personalized learning, and human-AI interactions. Strengthening LLMs' metacognitive performance may reduce the reliance on human oversight, paving the way for more autonomous and seamless integration of AI into tasks requiring deeper cognitive awareness.
academic

Lernurteil: Eine menschliche Fähigkeit jenseits generativer künstlicher Intelligenz

Grundinformationen

  • Paper-ID: 2410.13392
  • Titel: Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence
  • Autoren: Markus Huff, Elanur Ulakci (Leibniz-Institut für Wissensmedien & Eberhard Karls Universität Tübingen)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: Oktober 2024
  • Paper-Link: https://arxiv.org/abs/2410.13392

Zusammenfassung

Große Sprachmodelle (LLMs) simulieren zunehmend menschliche Kognition in verschiedenen sprachgestützten Aufgaben. Ihre metakognitiven Fähigkeiten – insbesondere bei der Vorhersage von Gedächtnisleistung – bleiben jedoch unerforschte Bereiche. Diese Studie führt ein agentübergreifendes Vorhersagemodell ein, das bewertet, ob auf ChatGPT basierende LLMs mit menschlichen Lernurteilen (JOL) übereinstimmen, einer metakognitiven Messung, bei der Individuen ihre zukünftige Gedächtnisleistung vorhersagen. Die Studie testete die Verarbeitung von Satzpaaren durch Menschen und LLMs, wobei einer ein Gartenpfad-Satz ist – ein Satz, der Leser zunächst zu einer falschen Interpretation verleitet und dann eine Neuanalyse erfordert. Durch Manipulation der Kontextübereinstimmung (übereinstimmende vs. nicht übereinstimmende Sätze) wurde untersucht, wie intrinsische Hinweise (d. h. Relevanz) die JOL von LLMs und Menschen beeinflussen. Die Ergebnisse zeigen, dass während menschliche JOL zuverlässig die tatsächliche Gedächtnisleistung vorhersagt, die getesteten LLMs (GPT-3.5-turbo, GPT-4-turbo und GPT-4o) keine vergleichbare Vorhersagegenauigkeit aufweisen.

Forschungshintergrund und Motivation

  1. Zu lösende Probleme: Untersuchen, ob große Sprachmodelle metakognitive Fähigkeiten besitzen, insbesondere ob sie wie Menschen Lernurteile (JOL) durchführen können, um Gedächtnisleistung vorherzusagen.
  2. Bedeutung des Problems:
    • LLMs haben auf Objektebene bereits Ähnlichkeiten mit menschlicher Kognition gezeigt
    • Metakognitive Fähigkeiten sind für Selbstüberwachung, Anpassung und Vorhersage menschlicher Reaktionen durch KI-Systeme entscheidend
    • Das Fehlen dieser Fähigkeit begrenzt KI-Anwendungen in Bildung, personalisiertem Lernen und anderen Bereichen
  3. Einschränkungen bestehender Ansätze:
    • Bestehende Forschung konzentriert sich hauptsächlich auf kognitive Fähigkeiten von LLMs auf Objektebene
    • Mangel an systematischer Forschung zu metakognitiven Fähigkeiten
    • Obwohl LLMs aggregierte menschliche Kognition simulieren können, erfassen sie schwer Unterschiede zwischen Individuen
  4. Forschungsmotivation:
    • Schließung der Forschungslücke in der Metakognition von LLMs
    • Bereitstellung einer theoretischen Grundlage zur Verbesserung der Autonomie von KI-Systemen und der Qualität der Mensch-Maschine-Interaktion
    • Erforschung des Potenzials von KI bei Aufgaben, die tiefes kognitives Bewusstsein erfordern, wie Bildung

Kernbeiträge

  1. Vorschlag eines agentübergreifenden Vorhersagemodells: Erste systematische Vergleichsstudie der metakognitiven Fähigkeiten von Menschen und LLMs bei Lernurteilsaufgaben
  2. Offenlegung metakognitiver Einschränkungen von LLMs: Feststellung, dass obwohl LLMs auf Objektebene gut abschneiden, ihre Überwachungsfähigkeiten auf Metaebene erheblich mangelhaft sind
  3. Validierung des Kontexteinflusses auf JOL: Tiefgreifende Analyse der Rolle von Relevanz als intrinsischer Hinweis durch Gartenpfad-Sätze und Kontextmanipulation
  4. Bereitstellung von Erkenntnissen für Bildungsanwendungen: Wichtige Evidenz für die Einschränkungen von KI in personalisierten Lern- und Bildungstechnologieanwendungen
  5. Etablierung eines neuen Forschungsparadigmas: Schaffung einer methodologischen Grundlage für zukünftige Forschung zu metakognitiven Fähigkeiten von LLMs

Methodische Details

Aufgabendefinition

Lernurteilsaufgabe (JOL): Teilnehmer (Menschen oder LLM) lesen Satzpaare und sagen dann voraus, wie merkfähig der zweite Satz (Gartenpfad-Satz) in einem zukünftigen Gedächtnistest sein wird, mit einer Bewertungsskala von 1-10.

Eingabe: Satzpaare (Kontextsatz + Gartenpfad-Satz) Ausgabe: Relevanzbewertung (1-10) + Merkfähigkeitsbewertung (1-10) Einschränkungen: Kontext wird in übereinstimmende und nicht übereinstimmende Bedingungen unterteilt

Experimentelles Design

Materialkonstruktion

  • Gartenpfad-Sätze: 45 grammatikalisch komplexe Sätze, wie „Because Bill drinks wine is never kept in the house"
  • Kontextmanipulation:
    • Übereinstimmender Kontext: „Bill has chronic alcoholism"
    • Nicht übereinstimmender Kontext: „Bill likes to play golf"

Agentübergreifendes Vorhersagemodell

Das Modell enthält zwei Kernkomponenten:

  1. Menschliches Experiment: 78 Teilnehmer führten Lern-Urteils-Test-Ablauf durch
  2. LLM-Bewertung: GPT-3.5-turbo, GPT-4-turbo, GPT-4o generieren jeweils 9000 unabhängige Antworten

Technische Innovationen

  1. Zero-Shot-Prompt-Strategie:
"Read Sentence 1 and Sentence 2 and answer the following question. 
How do you rate the memorability of Sentence 2 from 1 (not at all) to 10 (excellent)?"
  1. Bootstrap-Analysemethode:
    • 1000 Resampling-Iterationen
    • Beibehaltung der internen Struktur von Teilnehmern und Elementen
    • Generierung von 95%-Konfidenzintervallen zur Bewertung der Vorhersagefähigkeit
  2. Verallgemeinertes lineares gemischtes Effektmodell (GLMM):
    • Feste Effekte: JOL, Kontext und deren Wechselwirkungen
    • Zufällige Effekte: Zufällige Achsenabschnitte für Teilnehmer und Elemente

Experimentelle Einrichtung

Datensatz

  • LLM-Daten: 9000 Antworten pro Modell (je 4500 übereinstimmend/nicht übereinstimmend)
  • Menschliche Daten: 78 Teilnehmer, 44 Satzpaare (22 Ziel + 22 Ablenkung)
  • Vorverarbeitung: Ausschluss von Teilnehmern mit Sehbehinderung und unvollständigen Experimenten

Bewertungsmetriken

  • Primäre Metrik: Korrelation zwischen JOL und tatsächlicher Gedächtnisleistung (Bootstrap-Steigung)
  • Sekundäre Metriken: Signifikanztests für Kontexteffekte
  • Statistische Methoden: 95%-Konfidenzintervalle, Chi-Quadrat-Tests

Vergleichsmethoden

  • Menschliche JOL-Leistung als Goldstandard
  • Zero-Shot-Leistungsvergleich zwischen drei GPT-Modellen
  • Vergleich zwischen übereinstimmenden und nicht übereinstimmenden Kontextbedingungen

Implementierungsdetails

  • LLM-Einstellungen: temperature=1 zur Erhöhung der Antwortenvariabilität
  • Menschliches Experiment: PsychoPy-Programmierung, 15 Minuten Abschlusszeit
  • Statistische Analyse: R-Sprache, car-Paket für ANOVA-Analyse

Experimentelle Ergebnisse

Hauptergebnisse

Menschliche Leistung

  • Übereinstimmender Kontext: B = 0,167, 95% CI 0,018, 0,316 ✓ signifikant
  • Nicht übereinstimmender Kontext: B = 0,104, 95% CI 0,005, 0,202 ✓ signifikant
  • JOL-Haupteffekt: χ²(1) = 36,29, p < 0,001
  • Kontext-Haupteffekt: χ²(1) = 80,59, p < 0,001

LLM-Leistung

Alle GPT-Modelle zeigten unter beiden Kontextbedingungen keine signifikante Vorhersagefähigkeit:

Übereinstimmender Kontext:

  • GPT-3.5-turbo: B = 0,013, 95% CI -0,147, 0,172
  • GPT-4-turbo: B = 0,026, 95% CI -0,143, 0,194
  • GPT-4o: B = 0,045, 95% CI -0,159, 0,248

Nicht übereinstimmender Kontext:

  • GPT-3.5-turbo: B = 0,044, 95% CI -0,087, 0,175
  • GPT-4-turbo: B = 0,016, 95% CI -0,108, 0,139
  • GPT-4o: B = 0,027, 95% CI -0,090, 0,143

Schlüsselfeststellungen

  1. Fehlende metakognitive Fähigkeiten: Alle getesteten LLMs können die menschliche Gedächtnisleistung nicht wirksam vorhersagen
  2. Kontextunabhängigkeit: Das Vorhersageversagen von LLMs hängt nicht vom Grad der Kontextübereinstimmung ab
  3. Schwierigkeit bei der Erfassung individueller Unterschiede: LLMs können die individuelle Variabilität menschlicher JOL nicht simulieren
  4. Unterschiede zwischen Objekt- und Metaebene: Bestätigung der Fähigkeitsunterschiede von LLMs auf verschiedenen kognitiven Ebenen

Verwandte Arbeiten

Maschinenpsychologie-Forschung

  • Binz & Schulz (2023): Menschliche Ähnlichkeit von LLMs bei kognitiven Aufgaben
  • Strachan et al. (2024): Tests der Theorie des Geistes großer Sprachmodelle
  • Beitrag dieses Papers: Erweiterung von objektebenen-kognitiven zu metakognitiven Ebenen

Theoretische Grundlagen der Metakognition

  • Nelson (1990): Theoretischer Rahmen für Metamemorierung und Lernurteile
  • Koriat (1997): Hinweisnutzungsrahmen in JOL
  • Beitrag dieses Papers: Anwendung der Metakognitionstheorie auf KI-Systembewertung

Bildungstechnologie-Anwendungen

  • Chen et al. (2020): KI-Anwendungen im personalisierten Lernen
  • Befunde dieses Papers: Offenlegung grundlegender Einschränkungen aktueller KI-Systeme in Bildungsanwendungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Menschlicher metakognitiver Vorteil: Menschen können Lernurteile genau durchführen, während aktuelle fortschrittliche LLMs dies nicht können
  2. Engpass der KI-Autonomie: Das Fehlen effektiver Selbstüberwachungsfähigkeiten bei LLMs begrenzt die Entwicklung ihrer Autonomie
  3. Herausforderung bei der Modellierung individueller Unterschiede: Obwohl LLMs aggregierte kognitive Leistung simulieren können, erfassen sie schwer kognitive Variabilität auf individueller Ebene

Einschränkungen

  1. Zero-Shot-Bewertungseinschränkungen: Keine Erforschung der Leistung speziell trainierter LLMs
  2. Black-Box-Modellbeschränkungen: Keine tiefgreifende Analyse der internen Mechanismen von LLMs
  3. Versionsabhängigkeit: Ergebnisse gelten möglicherweise nicht für zukünftige Modellversionen
  4. Aufgabenspezifität: Nur gedächtnisbezogene metakognitive Fähigkeiten wurden getestet

Zukünftige Richtungen

  1. Verbesserung metakognitiver Fähigkeiten: Entwicklung spezieller Trainingsmethoden für Metakognition
  2. Modellierung individueller Unterschiede: Erforschung von Techniken zur Erfassung kognitiver Individualvariabilität
  3. Mehrere metakognitive Aufgaben: Erweiterung auf andere Arten von metakognitiven Bewertungen
  4. Optimierung von Bildungsanwendungen: Verbesserung von KI-Bildungswerkzeugen basierend auf Befunden

Tiefgreifende Bewertung

Stärken

  1. Forschungsinnovation:
    • Erste systematische Untersuchung der metakognitiven Fähigkeiten von LLMs
    • Vorschlag eines neuen Paradigmas für agentübergreifende Vorhersagemodelle
    • Organische Kombination von kognitiver Psychologie-Theorie mit KI-Bewertung
  2. Methodische Strenge:
    • Einsatz strenger statistischer Methoden (Bootstrap + GLMM)
    • Kontrolle mehrerer potenzieller Störfaktoren
    • Stichprobengrößenberechnung basierend auf vorheriger Leistungsanalyse
  3. Praktischer Wert:
    • Wichtige Warnung für KI-Bildungsanwendungen
    • Offenlegung kognitiver Unterschiede in der Mensch-Maschine-Interaktion
    • Klare Richtung für KI-Systemverbesserungen
  4. Theoretischer Beitrag:
    • Bereicherung des Forschungsbereichs Maschinenpsychologie
    • Validierung der Anwendbarkeit der Nelson-Koriat-Metakognitionstheorie in der KI-Bewertung

Mängel

  1. Methodische Einschränkungen:
    • Nur Zero-Shot-Bewertung, keine Erforschung von Fine-Tuning oder Prompt-Engineering-Effekten
    • Gartenpfad-Sätze mögen nicht ausreichend repräsentativ sein und beeinflussen die Allgemeingültigkeit der Ergebnisse
    • Die Temperaturparameter-Einstellung (temperature=1) könnte die Stabilitätsleistung von LLMs beeinflussen
  2. Unzureichende Analysentiefe:
    • Mangel an tiefgreifender Analyse der Fehlermechanismen von LLMs
    • Keine Erforschung spezifischer Auswirkungen verschiedener Arten intrinsischer Hinweise
    • Begrenzte quantitative Analyse individueller Unterschiede
  3. Experimentelle Designmängel:
    • Unterschiede in den Testbedingungen zwischen Menschen und LLMs (interaktiv vs. Batch-Verarbeitung)
    • Mangel an Analyse interner LLM-Repräsentationen
    • Relativ begrenzte Stichprobengröße (78 menschliche Teilnehmer)

Auswirkungen

  1. Akademischer Wert:
    • Eröffnung einer neuen Forschungsrichtung in der metakognitiven Bewertung von LLMs
    • Bereitstellung eines Beispiels für interdisziplinäre Forschung zwischen Kognitionswissenschaft und KI
    • Mögliche Katalysierung weiterer metakognitions-bezogener KI-Forschung
  2. Praktische Auswirkungen:
    • Wichtige Referenz für KI-Bildungswerkzeugentwickler
    • Beeinflussung von Mensch-Maschine-Interaktionsdesign-Konzepten
    • Förderung der Entwicklung von Selbstüberwachungsfähigkeiten in KI-Systemen
  3. Reproduzierbarkeit:
    • Bereitstellung vollständiger Daten und Code (OSF-Plattform)
    • Detaillierte und klare Experimentalablauf-Beschreibung
    • Hoher Standardisierungsgrad statistischer Methoden

Anwendungsszenarien

  1. Bildungstechnologie: Bewertung von Fähigkeiten personalisierter Lernsysteme und intelligenter Unterrichtsassistenten
  2. Mensch-Maschine-Interaktion: Verbesserung der Selbstüberwachungsfähigkeiten von Chatbots und KI-Assistenten
  3. Kognitive Bewertung: Standardisierte Tests für kognitive Fähigkeiten von KI-Systemen
  4. KI-Sicherheit: Bewertung des Selbstbewusstseins und der Zuverlässigkeit von KI-Systemen

Literaturverzeichnis

  1. Nelson, T. O. (1990). Metamemory: A theoretical framework and new findings. Psychology of Learning and Motivation, 26, 125-173.
  2. Koriat, A. (1997). Monitoring one's own knowledge during study: A cue-utilization approach to judgments of learning. Journal of Experimental Psychology: General, 126(4), 349-370.
  3. Binz, M., & Schulz, E. (2023). Turning large language models into cognitive models. arXiv preprint arXiv:2306.03917.
  4. Chen, L., Chen, P., & Lin, Z. (2020). Artificial Intelligence in Education: A Review. IEEE Access, 8, 75264-75278.
  5. Huff, M., & Ulakçı, E. (2024). Towards a Psychology of Machines: Large Language Models Predict Human Memory. arXiv preprint arXiv:2403.05152.

Dieses Paper hat Pionierarbeit bei der Erforschung der metakognitiven Fähigkeiten von LLMs geleistet. Obwohl es einige methodische Einschränkungen gibt, sind seine Befunde für das Verständnis der kognitiven Grenzen von KI-Systemen und die Förderung der Entwicklung verwandter Technologien von großem Wert. Die Forschungsergebnisse zeigen, dass aktuelle KI-Systeme bei Selbstüberwachung und Metakognition noch großes Verbesserungspotenzial haben, was klare Richtungen für zukünftige Forschung und Anwendungen bietet.