2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant

Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.

academic

Confronto delle Difficoltà di Elaborazione Sintattica tra Umani e Modelli Linguistici su Strutture Complesse

Informazioni Fondamentali

ID Articolo: 2510.07141
Titolo: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
Autori: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
Classificazione: cs.CL cs.AI
Data di Pubblicazione: Ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.07141

Riassunto

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di poter conversare fluidamente con gli umani, ma incontrano difficoltà di elaborazione sintattica simili a quelle umane? Questo studio confronta sistematicamente la capacità di comprensione sintattica di umani e LLM su sette strutture linguistiche complesse. La ricerca raccoglie dati di comprensione sintattica da umani e cinque famiglie di LLM all'avanguardia, che differiscono per scala e processo di addestramento. I risultati mostrano che gli LLM presentano difficoltà generalizzate sulle strutture target, in particolare su frasi garden path (GP). Sebbene i modelli più forti raggiungano un'accuratezza quasi perfetta su strutture non-GP (GPT-5 raggiunge il 93,7%), mostrano difficoltà su strutture GP (GPT-5 solo il 46,8%). Inoltre, quando si ordinano le strutture in base alle prestazioni medie, la correlazione di rango tra umani e modelli aumenta con l'aumentare del numero di parametri.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con i progressi dei modelli linguistici di grandi dimensioni nelle capacità conversazionali, una questione cruciale è: gli LLM incontrano difficoltà di elaborazione su strutture linguistiche specifiche come gli umani? Questa domanda è fondamentale per comprendere i meccanismi cognitivi degli LLM e le loro somiglianze con l'elaborazione linguistica umana.

Importanza della Ricerca

Significato Cognitivo-Scientifico: Confrontando i modelli di errore tra umani e LLM, è possibile ottenere intuizioni sui meccanismi di elaborazione linguistica di entrambi
Esigenze di Valutazione dei Modelli: La valutazione tradizionale si concentra principalmente sulle prestazioni complessive, mancando di analisi dettagliate sulla capacità di elaborazione di fenomeni linguistici specifici
Valore Applicativo: Comprendere i limiti dell'elaborazione linguistica degli LLM aiuta a migliorare la progettazione dei modelli e la distribuzione delle applicazioni

Limitazioni della Ricerca Esistente

Misurazione Indiretta: La maggior parte degli studi utilizza indicatori indiretti (come tempo di lettura, perplessità) piuttosto che test di comprensione diretti
Impostazioni Sperimentali Incoerenti: Diversi studi utilizzano modelli, dati e prompt diversi, rendendo difficile trarre conclusioni unificate
Copertura Limitata: Manca un confronto sistematico di molteplici fenomeni linguistici

Contributi Principali

Costruzione di un dataset di comprensione sintattica con sette strutture linguistiche complesse, incluse quattro frasi garden path, doppi embedding centrali, interferenza di similarità e frasi di impatto profondo
Test sistematico di 31 modelli all'avanguardia, coprendo 5 famiglie di modelli con scale e metodi di addestramento diversi
Scoperta delle differenze di elaborazione tra strutture GP e non-GP: gli LLM mostrano prestazioni più vicine agli umani su frasi GP, ma superiori su strutture non-GP
Proposizione della "regola del punto dolce": solo nei modelli di intensità moderata si osserva un modello di differenza prestazioni target-baseline simile agli umani

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Una frase e una domanda di comprensione Output: Risposta Sì/No Obiettivo: Confrontare i modelli di prestazione tra umani e LLM sullo stesso compito

Progettazione della Struttura Sperimentale

Sette Strutture Linguistiche

Frasi Garden Path (4 tipi):
- Subject/Object GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- Reduced relative GP: "The chef hired last month worked overtime."
Doppi Embedding Centrali: Contengono due clausole annidate, come "The man that the teacher that the student liked called sat."
Frasi di Impatto Profondo: Strutture con negazioni multiple, come "No head injury is too trivial to be ignored."
Interferenza di Similarità: Due sintagmi nominali che condividono caratteristiche causando interferenza, come "The banker that the barber praised climbed the mountain."

Progettazione del Controllo

Ogni struttura è stata progettata con una condizione target (contenente la struttura difficile) e una condizione baseline (con il fattore difficile rimosso), garantendo la misurazione dell'effetto della struttura stessa.

Procedura Sperimentale

Esperimento con Umani

Partecipanti: Parlanti nativi di inglese reclutati tramite la piattaforma Prolific
Procedura: Presentazione parola per parola (400ms/parola), domanda presentata per 5 secondi
Progettazione: Ogni partecipante vede solo una coppia frase-domanda, evitando effetti di apprendimento
Dimensione del Campione: 5.380 punti dati, 10 partecipanti per coppia frase-domanda

Esperimento con LLM

Strategia di Prompt: Prompt con pochi esempi, includendo esempi senza la struttura target
Variabili di Controllo: 2 prompt di sistema × 4 ordini di esempi = 8 ripetizioni
Copertura dei Modelli: 31 modelli, incluse famiglie GPT, Llama, Qwen, Gemma, DeepSeek
Test Chain-of-Thought: Test su alcuni modelli con modalità "riflessione" attivata/disattivata

Risultati Sperimentali

Scoperte Principali

1. Modelli di Prestazione Complessiva

Accuratezza Media Umana: 28,3%, confermando la complessità delle strutture
Miglior Prestazione LLM: Modello o3 74,5% (senza chain-of-thought), GPT-5 modalità chain-of-thought 88,9%
Differenze Strutturali: Le frasi GP sono relativamente più difficili per gli LLM, in contrasto con le strutture non-GP

2. Differenze Chiave tra Strutture GP e Non-GP

Tipo di Modello	Accuratezza GP	Accuratezza Non-GP	Differenza
GPT-5	46,8%	93,7%	46,9%
o3	66,5%	87,3%	20,8%
Umani	25,8%	32,4%	6,6%

3. Analisi di Similarità con gli Umani

Differenze di Prestazione Assoluta:

Strutture GP: differenza media 0,173 (più vicina agli umani)
Impatto Profondo: differenza media 0,328
Doppi Embedding: differenza media 0,330
Interferenza di Similarità: differenza media 0,370

Correlazione di Rango: Con l'aumento della scala del modello, la correlazione nell'ordinamento della difficoltà strutturale con gli umani aumenta, raggiungendo la correlazione più alta di 0,929 con o4-mini.

4. Fenomeno del "Punto Dolce"

I modelli necessitano di un'intensità moderata per replicare il modello di differenza target-baseline umano:

Troppo Deboli: Prestazioni scarse in entrambe le condizioni
Troppo Forti: Prestazioni buone in entrambe le condizioni
Moderati: Mostrano differenze direzionali simili agli umani

Impatto della Chain-of-Thought

Dipendenza dall'Intensità: Solo i modelli sufficientemente forti traggono beneficio dalla chain-of-thought
Specificità Strutturale: La chain-of-thought aiuta più le strutture non-GP, con effetto limitato su strutture GP
Eccezioni: GPT-5 ottiene miglioramenti significativi dalla chain-of-thought su strutture GP

Lavori Correlati

Ricerca Neurolingüistica

Confronto Attivazione Cerebrale: Schrimpf et al. confrontano i modelli di attivazione cerebrale e LLM
Previsione di Indicatori Cognitivi: Utilizzo di informazioni LLM per prevedere tempo di lettura umano, movimenti oculari, ecc.

Ricerca sull'Elaborazione Sintattica

Effetto Garden Path: Amouyal et al. scoprono errori simili agli umani negli LLM su frasi GP specifiche
Embedding Centrale: Hu et al. mostrano che gli LLM, come gli umani, considerano le frasi con embedding centrale non grammaticali

Contributi Metodologici

Questo studio è il primo a confrontare sistematicamente molteplici fenomeni linguistici in un framework unificato, superando l'incoerenza delle impostazioni sperimentali negli studi precedenti.

Conclusioni e Discussione

Conclusioni Principali

Specificità delle Strutture GP: Gli LLM mostrano prestazioni più vicine agli umani su frasi GP, probabilmente perché le frasi GP richiedono di scartare interpretazioni errate piuttosto che dipendere solo dalla memoria di lavoro
Effetto della Scala: I modelli più grandi mostrano una correlazione più alta con gli umani nell'ordinamento della difficoltà strutturale
Regola del Punto Dolce: I modelli di intensità moderata replicano meglio il modello di elaborazione umano

Spiegazione Teorica

Ipotesi della Memoria di Lavoro: Gli LLM superano gli umani su strutture che richiedono molta memoria di lavoro (come doppi embedding), ma mostrano prestazioni relativamente peggiori su frasi GP che richiedono di scartare interpretazioni errate, poiché quest'ultimo non è un problema di capacità della memoria di lavoro.

Limitazioni

Copertura dei Modelli: Solo testati modelli closed-source di una famiglia (OpenAI), senza includere modelli di Anthropic o Google
Limitazioni dei Tipi GP: Non testati tutti i tipi di frasi garden path
Metrica Singola: Solo testata l'accuratezza della comprensione, mancano indicatori cognitivi come movimenti oculari e tempo di lettura

Direzioni Future

Verifica Causale: Progettazione di esperimenti per verificare l'ipotesi della memoria di lavoro
Test Estesi: Inclusione di più famiglie di modelli e tipi di GP
Indicatori Multimodali: Integrazione di molteplici misure cognitive

Valutazione Approfondita

Punti di Forza

Progettazione Sperimentale Rigorosa: Confronto sistematico in un framework unificato, con controllo adeguato delle variabili
Scala Senza Precedenti: Copertura di 31 modelli e 7 fenomeni linguistici, lo studio più grande nel suo genere
Scoperte Importanti: La scoperta della differenza tra strutture GP e non-GP ha significato teorico importante
Innovazione Metodologica: Misurazione diretta della capacità di comprensione piuttosto che indicatori indiretti, più affidabile

Insufficienze

Spiegazione Teorica Limitata: L'ipotesi della memoria di lavoro richiede ancora più prove
Limitazioni Linguistiche: Solo testato l'inglese, manca verifica cross-linguistica
Compito Singolo: Solo domande Sì/No, potrebbe non riflettere completamente la capacità di comprensione

Impatto

Contributo Accademico: Fornisce un nuovo framework metodologico per la ricerca sul confronto cognitivo umano-AI
Valore Pratico: Aiuta a comprendere i limiti dell'elaborazione linguistica degli LLM, guidando il miglioramento dei modelli
Riproducibilità: Gli autori si impegnano a rendere open-source il codice e i dati, facilitando ricerche successive

Scenari Applicabili

Valutazione dei Modelli: Fornisce uno strumento di valutazione a grana fine per la capacità di comprensione linguistica degli LLM
Ricerca Cognitiva: Fornisce un paradigma per confrontare i meccanismi di elaborazione linguistica dell'intelligenza artificiale e naturale
Applicazioni Educative: Può essere utilizzato per identificare strutture difficili nell'apprendimento linguistico e fornire formazione mirata

Bibliografia

Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
Christianson et al. (2001). Thematic roles assigned along the garden path linger.
Gibson & Thomas (1999). Memory limitations and structural forgetting.
Gordon et al. (2001). Memory interference during language processing.

Valutazione Complessiva: Questo è uno studio di alta qualità interdisciplinare, innovativo dal punto di vista metodologico, con progettazione sperimentale rigorosa e scoperte di significato teorico e pratico importante. In particolare, la scoperta della differenza tra strutture GP e non-GP fornisce una nuova prospettiva per comprendere i meccanismi cognitivi degli LLM. Nonostante alcune limitazioni, il contributo complessivo è significativo e merita ulteriori ricerche approfondite.