Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
- ID Articolo: 2510.07141
- Titolo: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
- Autori: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- Classificazione: cs.CL cs.AI
- Data di Pubblicazione: Ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.07141
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di poter conversare fluidamente con gli umani, ma incontrano difficoltà di elaborazione sintattica simili a quelle umane? Questo studio confronta sistematicamente la capacità di comprensione sintattica di umani e LLM su sette strutture linguistiche complesse. La ricerca raccoglie dati di comprensione sintattica da umani e cinque famiglie di LLM all'avanguardia, che differiscono per scala e processo di addestramento. I risultati mostrano che gli LLM presentano difficoltà generalizzate sulle strutture target, in particolare su frasi garden path (GP). Sebbene i modelli più forti raggiungano un'accuratezza quasi perfetta su strutture non-GP (GPT-5 raggiunge il 93,7%), mostrano difficoltà su strutture GP (GPT-5 solo il 46,8%). Inoltre, quando si ordinano le strutture in base alle prestazioni medie, la correlazione di rango tra umani e modelli aumenta con l'aumentare del numero di parametri.
Con i progressi dei modelli linguistici di grandi dimensioni nelle capacità conversazionali, una questione cruciale è: gli LLM incontrano difficoltà di elaborazione su strutture linguistiche specifiche come gli umani? Questa domanda è fondamentale per comprendere i meccanismi cognitivi degli LLM e le loro somiglianze con l'elaborazione linguistica umana.
- Significato Cognitivo-Scientifico: Confrontando i modelli di errore tra umani e LLM, è possibile ottenere intuizioni sui meccanismi di elaborazione linguistica di entrambi
- Esigenze di Valutazione dei Modelli: La valutazione tradizionale si concentra principalmente sulle prestazioni complessive, mancando di analisi dettagliate sulla capacità di elaborazione di fenomeni linguistici specifici
- Valore Applicativo: Comprendere i limiti dell'elaborazione linguistica degli LLM aiuta a migliorare la progettazione dei modelli e la distribuzione delle applicazioni
- Misurazione Indiretta: La maggior parte degli studi utilizza indicatori indiretti (come tempo di lettura, perplessità) piuttosto che test di comprensione diretti
- Impostazioni Sperimentali Incoerenti: Diversi studi utilizzano modelli, dati e prompt diversi, rendendo difficile trarre conclusioni unificate
- Copertura Limitata: Manca un confronto sistematico di molteplici fenomeni linguistici
- Costruzione di un dataset di comprensione sintattica con sette strutture linguistiche complesse, incluse quattro frasi garden path, doppi embedding centrali, interferenza di similarità e frasi di impatto profondo
- Test sistematico di 31 modelli all'avanguardia, coprendo 5 famiglie di modelli con scale e metodi di addestramento diversi
- Scoperta delle differenze di elaborazione tra strutture GP e non-GP: gli LLM mostrano prestazioni più vicine agli umani su frasi GP, ma superiori su strutture non-GP
- Proposizione della "regola del punto dolce": solo nei modelli di intensità moderata si osserva un modello di differenza prestazioni target-baseline simile agli umani
Input: Una frase e una domanda di comprensione
Output: Risposta Sì/No
Obiettivo: Confrontare i modelli di prestazione tra umani e LLM sullo stesso compito
- Frasi Garden Path (4 tipi):
- Subject/Object GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- Reduced relative GP: "The chef hired last month worked overtime."
- Doppi Embedding Centrali: Contengono due clausole annidate, come "The man that the teacher that the student liked called sat."
- Frasi di Impatto Profondo: Strutture con negazioni multiple, come "No head injury is too trivial to be ignored."
- Interferenza di Similarità: Due sintagmi nominali che condividono caratteristiche causando interferenza, come "The banker that the barber praised climbed the mountain."
Ogni struttura è stata progettata con una condizione target (contenente la struttura difficile) e una condizione baseline (con il fattore difficile rimosso), garantendo la misurazione dell'effetto della struttura stessa.
- Partecipanti: Parlanti nativi di inglese reclutati tramite la piattaforma Prolific
- Procedura: Presentazione parola per parola (400ms/parola), domanda presentata per 5 secondi
- Progettazione: Ogni partecipante vede solo una coppia frase-domanda, evitando effetti di apprendimento
- Dimensione del Campione: 5.380 punti dati, 10 partecipanti per coppia frase-domanda
- Strategia di Prompt: Prompt con pochi esempi, includendo esempi senza la struttura target
- Variabili di Controllo: 2 prompt di sistema × 4 ordini di esempi = 8 ripetizioni
- Copertura dei Modelli: 31 modelli, incluse famiglie GPT, Llama, Qwen, Gemma, DeepSeek
- Test Chain-of-Thought: Test su alcuni modelli con modalità "riflessione" attivata/disattivata
- Accuratezza Media Umana: 28,3%, confermando la complessità delle strutture
- Miglior Prestazione LLM: Modello o3 74,5% (senza chain-of-thought), GPT-5 modalità chain-of-thought 88,9%
- Differenze Strutturali: Le frasi GP sono relativamente più difficili per gli LLM, in contrasto con le strutture non-GP
| Tipo di Modello | Accuratezza GP | Accuratezza Non-GP | Differenza |
|---|
| GPT-5 | 46,8% | 93,7% | 46,9% |
| o3 | 66,5% | 87,3% | 20,8% |
| Umani | 25,8% | 32,4% | 6,6% |
Differenze di Prestazione Assoluta:
- Strutture GP: differenza media 0,173 (più vicina agli umani)
- Impatto Profondo: differenza media 0,328
- Doppi Embedding: differenza media 0,330
- Interferenza di Similarità: differenza media 0,370
Correlazione di Rango: Con l'aumento della scala del modello, la correlazione nell'ordinamento della difficoltà strutturale con gli umani aumenta, raggiungendo la correlazione più alta di 0,929 con o4-mini.
I modelli necessitano di un'intensità moderata per replicare il modello di differenza target-baseline umano:
- Troppo Deboli: Prestazioni scarse in entrambe le condizioni
- Troppo Forti: Prestazioni buone in entrambe le condizioni
- Moderati: Mostrano differenze direzionali simili agli umani
- Dipendenza dall'Intensità: Solo i modelli sufficientemente forti traggono beneficio dalla chain-of-thought
- Specificità Strutturale: La chain-of-thought aiuta più le strutture non-GP, con effetto limitato su strutture GP
- Eccezioni: GPT-5 ottiene miglioramenti significativi dalla chain-of-thought su strutture GP
- Confronto Attivazione Cerebrale: Schrimpf et al. confrontano i modelli di attivazione cerebrale e LLM
- Previsione di Indicatori Cognitivi: Utilizzo di informazioni LLM per prevedere tempo di lettura umano, movimenti oculari, ecc.
- Effetto Garden Path: Amouyal et al. scoprono errori simili agli umani negli LLM su frasi GP specifiche
- Embedding Centrale: Hu et al. mostrano che gli LLM, come gli umani, considerano le frasi con embedding centrale non grammaticali
Questo studio è il primo a confrontare sistematicamente molteplici fenomeni linguistici in un framework unificato, superando l'incoerenza delle impostazioni sperimentali negli studi precedenti.
- Specificità delle Strutture GP: Gli LLM mostrano prestazioni più vicine agli umani su frasi GP, probabilmente perché le frasi GP richiedono di scartare interpretazioni errate piuttosto che dipendere solo dalla memoria di lavoro
- Effetto della Scala: I modelli più grandi mostrano una correlazione più alta con gli umani nell'ordinamento della difficoltà strutturale
- Regola del Punto Dolce: I modelli di intensità moderata replicano meglio il modello di elaborazione umano
Ipotesi della Memoria di Lavoro: Gli LLM superano gli umani su strutture che richiedono molta memoria di lavoro (come doppi embedding), ma mostrano prestazioni relativamente peggiori su frasi GP che richiedono di scartare interpretazioni errate, poiché quest'ultimo non è un problema di capacità della memoria di lavoro.
- Copertura dei Modelli: Solo testati modelli closed-source di una famiglia (OpenAI), senza includere modelli di Anthropic o Google
- Limitazioni dei Tipi GP: Non testati tutti i tipi di frasi garden path
- Metrica Singola: Solo testata l'accuratezza della comprensione, mancano indicatori cognitivi come movimenti oculari e tempo di lettura
- Verifica Causale: Progettazione di esperimenti per verificare l'ipotesi della memoria di lavoro
- Test Estesi: Inclusione di più famiglie di modelli e tipi di GP
- Indicatori Multimodali: Integrazione di molteplici misure cognitive
- Progettazione Sperimentale Rigorosa: Confronto sistematico in un framework unificato, con controllo adeguato delle variabili
- Scala Senza Precedenti: Copertura di 31 modelli e 7 fenomeni linguistici, lo studio più grande nel suo genere
- Scoperte Importanti: La scoperta della differenza tra strutture GP e non-GP ha significato teorico importante
- Innovazione Metodologica: Misurazione diretta della capacità di comprensione piuttosto che indicatori indiretti, più affidabile
- Spiegazione Teorica Limitata: L'ipotesi della memoria di lavoro richiede ancora più prove
- Limitazioni Linguistiche: Solo testato l'inglese, manca verifica cross-linguistica
- Compito Singolo: Solo domande Sì/No, potrebbe non riflettere completamente la capacità di comprensione
- Contributo Accademico: Fornisce un nuovo framework metodologico per la ricerca sul confronto cognitivo umano-AI
- Valore Pratico: Aiuta a comprendere i limiti dell'elaborazione linguistica degli LLM, guidando il miglioramento dei modelli
- Riproducibilità: Gli autori si impegnano a rendere open-source il codice e i dati, facilitando ricerche successive
- Valutazione dei Modelli: Fornisce uno strumento di valutazione a grana fine per la capacità di comprensione linguistica degli LLM
- Ricerca Cognitiva: Fornisce un paradigma per confrontare i meccanismi di elaborazione linguistica dell'intelligenza artificiale e naturale
- Applicazioni Educative: Può essere utilizzato per identificare strutture difficili nell'apprendimento linguistico e fornire formazione mirata
- Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
- Christianson et al. (2001). Thematic roles assigned along the garden path linger.
- Gibson & Thomas (1999). Memory limitations and structural forgetting.
- Gordon et al. (2001). Memory interference during language processing.
Valutazione Complessiva: Questo è uno studio di alta qualità interdisciplinare, innovativo dal punto di vista metodologico, con progettazione sperimentale rigorosa e scoperte di significato teorico e pratico importante. In particolare, la scoperta della differenza tra strutture GP e non-GP fornisce una nuova prospettiva per comprendere i meccanismi cognitivi degli LLM. Nonostante alcune limitazioni, il contributo complessivo è significativo e merita ulteriori ricerche approfondite.