Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
- Papier-ID: 2510.07141
- Titel: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
- Autoren: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: Oktober 2025 (arXiv-Preprint)
- Papier-Link: https://arxiv.org/abs/2510.07141
Große Sprachmodelle (LLMs) können bereits fließend mit Menschen kommunizieren, aber stoßen sie auf ähnliche Satzverarbeitungsschwierigkeiten wie Menschen? Diese Studie vergleicht systematisch die Satzverständnisfähigkeiten von Menschen und LLMs bei sieben herausfordernden Sprachstrukturen. Die Forschung sammelte Satzverständnisdaten von Menschen und fünf SOTA-LLM-Familien, die sich in Größe und Trainingsverfahren unterscheiden. Die Ergebnisse zeigen, dass LLMs bei den Zielstrukturen allgemein Schwierigkeiten haben, besonders bei Gartenpfad-Sätzen (GP). Während die stärksten Modelle bei Nicht-GP-Strukturen nahezu perfekte Genauigkeit erreichen (GPT-5 erreicht 93,7%), zeigen sie Schwierigkeiten bei GP-Strukturen (GPT-5 nur 46,8%). Darüber hinaus nimmt die Rangkorrelation zwischen Menschen und Modellen zu, wenn Strukturen nach durchschnittlicher Leistung geordnet werden, mit zunehmender Parametergröße.
Mit dem Durchbruch großer Sprachmodelle in Gesprächsfähigkeiten stellt sich eine Schlüsselfrage: Stoßen LLMs wie Menschen auf Verarbeitungsschwierigkeiten bei bestimmten Sprachstrukturen? Diese Frage ist entscheidend für das Verständnis der kognitiven Mechanismen von LLMs und ihrer Ähnlichkeiten mit der menschlichen Sprachverarbeitung.
- Kognitionswissenschaftliche Bedeutung: Durch den Vergleich von Fehlermustern zwischen Menschen und LLMs können Einblicke in die Sprachverarbeitungsmechanismen beider gewonnen werden
- Anforderungen zur Modellbewertung: Traditionelle Bewertungen konzentrieren sich auf die Gesamtleistung und fehlt es an detaillierter Analyse der Verarbeitungsfähigkeiten für spezifische Sprachphänomene
- Anwendungswert: Das Verständnis der Sprachverarbeitungsgrenzen von LLMs trägt zur Verbesserung des Modelldesigns und der Anwendungsbereitstellung bei
- Indirekte Messung: Die meisten Studien verwenden indirekte Indikatoren (wie Lesezeit, Verwirrung) statt direkter Verständnistests
- Inkonsistente experimentelle Einrichtung: Verschiedene Studien verwenden unterschiedliche Modelle, Daten und Prompts, was es schwierig macht, einheitliche Schlussfolgerungen zu ziehen
- Begrenzte Abdeckung: Mangel an systematischem Vergleich mehrerer Sprachphänomene
- Erstellung eines Satzverständnis-Datensatzes mit sieben herausfordernden Sprachstrukturen, einschließlich vier Gartenpfad-Sätze, doppelte Mittenverschachtelung, Ähnlichkeitsstörung und Tiefenauswirkungssätze
- Systematische Prüfung von 31 SOTA-Modellen, die 5 Modellfamilien umfassen, mit unterschiedlichen Größen und Trainingsmethoden
- Entdeckung von Verarbeitungsunterschieden zwischen GP und Nicht-GP-Strukturen: LLMs zeigen bei GP-Sätzen menschlichere Leistungen, bei Nicht-GP-Strukturen bessere Leistungen
- Vorschlag der "Sweet-Spot"-Regel: Nur bei Modellen mittlerer Stärke können mit Menschen ähnliche Ziel-Baseline-Leistungsdifferenzmuster beobachtet werden
Eingabe: Ein Satz und eine Verständnisfrage
Ausgabe: Ja/Nein-Antwort
Ziel: Vergleich der Leistungsmuster zwischen Menschen und LLMs bei derselben Aufgabe
- Gartenpfad-Sätze (4 Typen):
- Subject/Object GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- Reduced relative GP: "The chef hired last month worked overtime."
- Doppelte Mittenverschachtelung: Enthält zwei verschachtelte Nebensätze, wie "The man that the teacher that the student liked called sat."
- Tiefenauswirkungssätze: Mehrfache Negationsstrukturen, wie "No head injury is too trivial to be ignored."
- Ähnlichkeitsstörung: Zwei Nominalphrasen teilen Merkmale, die Störung verursachen, wie "The banker that the barber praised climbed the mountain."
Jede Struktur wurde mit einer Zielkondition (enthält schwierige Struktur) und einer Baseline-Kondition (schwierige Faktoren entfernt) entworfen, um die Auswirkungen der Struktur selbst zu messen.
- Teilnehmer: Englische Muttersprachler, rekrutiert über die Prolific-Plattform
- Verfahren: Wort-für-Wort-Präsentation (400ms/Wort), Frage präsentiert für 5 Sekunden
- Design: Jeder Teilnehmer sieht nur ein Satz-Frage-Paar, um Lerneffekte zu vermeiden
- Stichprobengröße: 5.380 Datenpunkte, 10 Teilnehmer pro Satz-Frage-Paar
- Prompt-Strategie: Few-shot-Prompting mit Beispielen ohne Zielstrukturen
- Kontrollvariablen: 2 Systemprompts × 4 Beispielreihenfolgen = 8 Wiederholungen
- Modellabdeckung: 31 Modelle, einschließlich GPT-, Llama-, Qwen-, Gemma- und DeepSeek-Familien
- Chain-of-Thought-Test: Teilweise Modelle getestet mit aktiviertem/deaktiviertem "Denk"-Modus
- Durchschnittliche menschliche Genauigkeit: 28,3%, was die Herausforderung der Strukturen bestätigt
- Beste LLM-Leistung: o3-Modell 74,5% (ohne Chain-of-Thought), GPT-5 mit Chain-of-Thought-Modus 88,9%
- Strukturunterschiede: GP-Sätze sind für LLMs relativ schwieriger, im Gegensatz zu Nicht-GP-Strukturen
| Modelltyp | GP-Struktur-Genauigkeit | Nicht-GP-Struktur-Genauigkeit | Differenz |
|---|
| GPT-5 | 46,8% | 93,7% | 46,9% |
| o3 | 66,5% | 87,3% | 20,8% |
| Mensch | 25,8% | 32,4% | 6,6% |
Absolute Leistungsdifferenzen:
- GP-Struktur: Durchschnittliche Differenz 0,173 (näher an Menschen)
- Tiefenauswirkung: Durchschnittliche Differenz 0,328
- Doppelte Verschachtelung: Durchschnittliche Differenz 0,330
- Ähnlichkeitsstörung: Durchschnittliche Differenz 0,370
Rangkorrelation: Mit zunehmender Modellgröße nimmt die Korrelation der Strukturschwierigkeitsreihenfolge mit Menschen zu, wobei o4-mini die höchste Korrelation von 0,929 erreicht.
Modelle müssen mittlere Stärke haben, um das menschliche Ziel-Baseline-Differenzmuster zu reproduzieren:
- Zu schwach: Beide Bedingungen zeigen schlechte Leistung
- Zu stark: Beide Bedingungen zeigen gute Leistung
- Mittelmäßig: Kann ähnliche Richtungsdifferenzen wie Menschen zeigen
- Stärkeabhängigkeit: Nur ausreichend starke Modelle können von Chain-of-Thought profitieren
- Strukturspezifität: Chain-of-Thought hilft bei Nicht-GP-Strukturen mehr, bei GP-Strukturen begrenzt
- Ausnahmefälle: GPT-5 erhält bei GP-Strukturen signifikante Verbesserungen durch Chain-of-Thought
- Gehirnaktivierungsvergleich: Schrimpf et al. vergleichen Gehirn- und LLM-Aktivierungsmuster
- Vorhersage kognitiver Indikatoren: Verwendung von LLM-Informationen zur Vorhersage menschlicher Lesezeit, Augenbewegungen usw.
- Gartenpfad-Effekt: Amouyal et al. entdeckten LLM-ähnliche Fehler bei bestimmten GP-Sätzen
- Mittenverschachtelung: Hu et al. zeigen, dass LLMs wie Menschen Mittenverschachtelungssätze als ungrammatikalisch betrachten
Diese Studie vergleicht erstmals systematisch mehrere Sprachphänomene in einem einheitlichen Rahmen und überwindet die Inkonsistenz experimenteller Einrichtungen in früheren Studien.
- Besonderheit von GP-Strukturen: LLMs zeigen bei GP-Sätzen menschlichere Leistungen, möglicherweise weil GP-Sätze das Verwerfen falscher Interpretationen erfordern, anstatt sich nur auf Arbeitsgedächtnis zu verlassen
- Größeneffekt: Größere Modelle zeigen höhere Korrelation mit Menschen bei der Strukturschwierigkeitsreihenfolge
- Sweet-Spot-Regel: Modelle mittlerer Stärke können das menschliche Verarbeitungsmuster am besten reproduzieren
Arbeitsgedächtnis-Hypothese: LLMs sind bei Strukturen, die viel Arbeitsgedächtnis erfordern (wie doppelte Verschachtelung), Menschen überlegen, aber bei GP-Sätzen, die das Verwerfen falscher Interpretationen erfordern, relativ schwächer, da letztere kein Arbeitsgedächtnis-Kapazitätsproblem sind.
- Modellabdeckung: Nur eine geschlossene Modellfamilie von OpenAI getestet, keine Modelle von Anthropic oder Google
- GP-Typ-Einschränkung: Nicht alle Arten von Gartenpfad-Sätzen getestet
- Einzelner Indikator: Nur Verständnisgenauigkeit getestet, fehlende Augenbewegungen, Lesezeit und andere kognitive Indikatoren
- Kausale Verifizierung: Experimentelles Design zur Verifizierung der Arbeitsgedächtnis-Hypothese
- Erweiterte Tests: Einbeziehung weiterer Modellfamilien und GP-Typen
- Multimodale Indikatoren: Kombination mehrerer kognitiver Messindikatoren
- Strenge experimentelle Gestaltung: Systematischer Vergleich in einem einheitlichen Rahmen mit ausreichender Variablenkontrolle
- Beispiellose Skalierung: Umfasst 31 Modelle und 7 Sprachphänomene, die größte Studie in diesem Bereich
- Wichtige Erkenntnisse: Die Entdeckung von Unterschieden zwischen GP und Nicht-GP-Strukturen hat wichtige theoretische Bedeutung
- Methodische Innovation: Direkte Messung der Verständnisfähigkeit statt indirekter Indikatoren, zuverlässiger
- Begrenzte theoretische Erklärung: Arbeitsgedächtnis-Hypothese benötigt noch mehr Beweise
- Sprachliche Einschränkung: Nur Englisch getestet, fehlende sprachübergreifende Validierung
- Einzelne Aufgabe: Nur Ja/Nein-Fragen verwendet, kann Verständnisfähigkeit möglicherweise nicht vollständig widerspiegeln
- Akademischer Beitrag: Bietet neuen methodologischen Rahmen für Vergleichsforschung zwischen Mensch und KI-Kognition
- Praktischer Wert: Hilft, die Sprachverarbeitungsgrenzen von LLMs zu verstehen und leitet Modellverbesserungen
- Reproduzierbarkeit: Autoren verpflichten sich, Code und Daten zu veröffentlichen, um nachfolgende Forschung zu erleichtern
- Modellbewertung: Bietet feingranulare Bewertungsinstrumente für LLM-Sprachverständnisfähigkeiten
- Kognitionsforschung: Bietet Paradigma für den Vergleich von Sprachverarbeitungsmechanismen zwischen künstlicher und natürlicher Intelligenz
- Bildungsanwendungen: Kann zur Identifizierung schwieriger Strukturen beim Sprachenlernen und gezieltem Training verwendet werden
- Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
- Christianson et al. (2001). Thematic roles assigned along the garden path linger.
- Gibson & Thomas (1999). Memory limitations and structural forgetting.
- Gordon et al. (2001). Memory interference during language processing.
Gesamtbewertung: Dies ist eine hochwertige interdisziplinäre Forschung mit methodologischer Innovation, strenger experimenteller Gestaltung und Erkenntnissen mit wichtiger theoretischer und praktischer Bedeutung. Besonders die Entdeckung von Unterschieden zwischen GP und Nicht-GP-Strukturen bietet neue Perspektiven zum Verständnis der kognitiven Mechanismen von LLMs. Trotz einiger Einschränkungen ist der Gesamtbeitrag erheblich und verdient weitere Forschung.