2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant
Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
academic

Confronto delle Difficoltà di Elaborazione Sintattica tra Umani e Modelli Linguistici su Strutture Complesse

Informazioni Fondamentali

  • ID Articolo: 2510.07141
  • Titolo: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
  • Autori: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: Ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.07141

Riassunto

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di poter conversare fluidamente con gli umani, ma incontrano difficoltà di elaborazione sintattica simili a quelle umane? Questo studio confronta sistematicamente la capacità di comprensione sintattica di umani e LLM su sette strutture linguistiche complesse. La ricerca raccoglie dati di comprensione sintattica da umani e cinque famiglie di LLM all'avanguardia, che differiscono per scala e processo di addestramento. I risultati mostrano che gli LLM presentano difficoltà generalizzate sulle strutture target, in particolare su frasi garden path (GP). Sebbene i modelli più forti raggiungano un'accuratezza quasi perfetta su strutture non-GP (GPT-5 raggiunge il 93,7%), mostrano difficoltà su strutture GP (GPT-5 solo il 46,8%). Inoltre, quando si ordinano le strutture in base alle prestazioni medie, la correlazione di rango tra umani e modelli aumenta con l'aumentare del numero di parametri.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con i progressi dei modelli linguistici di grandi dimensioni nelle capacità conversazionali, una questione cruciale è: gli LLM incontrano difficoltà di elaborazione su strutture linguistiche specifiche come gli umani? Questa domanda è fondamentale per comprendere i meccanismi cognitivi degli LLM e le loro somiglianze con l'elaborazione linguistica umana.

Importanza della Ricerca

  1. Significato Cognitivo-Scientifico: Confrontando i modelli di errore tra umani e LLM, è possibile ottenere intuizioni sui meccanismi di elaborazione linguistica di entrambi
  2. Esigenze di Valutazione dei Modelli: La valutazione tradizionale si concentra principalmente sulle prestazioni complessive, mancando di analisi dettagliate sulla capacità di elaborazione di fenomeni linguistici specifici
  3. Valore Applicativo: Comprendere i limiti dell'elaborazione linguistica degli LLM aiuta a migliorare la progettazione dei modelli e la distribuzione delle applicazioni

Limitazioni della Ricerca Esistente

  1. Misurazione Indiretta: La maggior parte degli studi utilizza indicatori indiretti (come tempo di lettura, perplessità) piuttosto che test di comprensione diretti
  2. Impostazioni Sperimentali Incoerenti: Diversi studi utilizzano modelli, dati e prompt diversi, rendendo difficile trarre conclusioni unificate
  3. Copertura Limitata: Manca un confronto sistematico di molteplici fenomeni linguistici

Contributi Principali

  1. Costruzione di un dataset di comprensione sintattica con sette strutture linguistiche complesse, incluse quattro frasi garden path, doppi embedding centrali, interferenza di similarità e frasi di impatto profondo
  2. Test sistematico di 31 modelli all'avanguardia, coprendo 5 famiglie di modelli con scale e metodi di addestramento diversi
  3. Scoperta delle differenze di elaborazione tra strutture GP e non-GP: gli LLM mostrano prestazioni più vicine agli umani su frasi GP, ma superiori su strutture non-GP
  4. Proposizione della "regola del punto dolce": solo nei modelli di intensità moderata si osserva un modello di differenza prestazioni target-baseline simile agli umani

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Una frase e una domanda di comprensione Output: Risposta Sì/No Obiettivo: Confrontare i modelli di prestazione tra umani e LLM sullo stesso compito

Progettazione della Struttura Sperimentale

Sette Strutture Linguistiche

  1. Frasi Garden Path (4 tipi):
    • Subject/Object GP: "While the man hunted the deer ran into the woods."
    • NP/S GP: "The policeman saw the lights were off."
    • NP/VP GP: "The complex houses married soldiers."
    • Reduced relative GP: "The chef hired last month worked overtime."
  2. Doppi Embedding Centrali: Contengono due clausole annidate, come "The man that the teacher that the student liked called sat."
  3. Frasi di Impatto Profondo: Strutture con negazioni multiple, come "No head injury is too trivial to be ignored."
  4. Interferenza di Similarità: Due sintagmi nominali che condividono caratteristiche causando interferenza, come "The banker that the barber praised climbed the mountain."

Progettazione del Controllo

Ogni struttura è stata progettata con una condizione target (contenente la struttura difficile) e una condizione baseline (con il fattore difficile rimosso), garantendo la misurazione dell'effetto della struttura stessa.

Procedura Sperimentale

Esperimento con Umani

  • Partecipanti: Parlanti nativi di inglese reclutati tramite la piattaforma Prolific
  • Procedura: Presentazione parola per parola (400ms/parola), domanda presentata per 5 secondi
  • Progettazione: Ogni partecipante vede solo una coppia frase-domanda, evitando effetti di apprendimento
  • Dimensione del Campione: 5.380 punti dati, 10 partecipanti per coppia frase-domanda

Esperimento con LLM

  • Strategia di Prompt: Prompt con pochi esempi, includendo esempi senza la struttura target
  • Variabili di Controllo: 2 prompt di sistema × 4 ordini di esempi = 8 ripetizioni
  • Copertura dei Modelli: 31 modelli, incluse famiglie GPT, Llama, Qwen, Gemma, DeepSeek
  • Test Chain-of-Thought: Test su alcuni modelli con modalità "riflessione" attivata/disattivata

Risultati Sperimentali

Scoperte Principali

1. Modelli di Prestazione Complessiva

  • Accuratezza Media Umana: 28,3%, confermando la complessità delle strutture
  • Miglior Prestazione LLM: Modello o3 74,5% (senza chain-of-thought), GPT-5 modalità chain-of-thought 88,9%
  • Differenze Strutturali: Le frasi GP sono relativamente più difficili per gli LLM, in contrasto con le strutture non-GP

2. Differenze Chiave tra Strutture GP e Non-GP

Tipo di ModelloAccuratezza GPAccuratezza Non-GPDifferenza
GPT-546,8%93,7%46,9%
o366,5%87,3%20,8%
Umani25,8%32,4%6,6%

3. Analisi di Similarità con gli Umani

Differenze di Prestazione Assoluta:

  • Strutture GP: differenza media 0,173 (più vicina agli umani)
  • Impatto Profondo: differenza media 0,328
  • Doppi Embedding: differenza media 0,330
  • Interferenza di Similarità: differenza media 0,370

Correlazione di Rango: Con l'aumento della scala del modello, la correlazione nell'ordinamento della difficoltà strutturale con gli umani aumenta, raggiungendo la correlazione più alta di 0,929 con o4-mini.

4. Fenomeno del "Punto Dolce"

I modelli necessitano di un'intensità moderata per replicare il modello di differenza target-baseline umano:

  • Troppo Deboli: Prestazioni scarse in entrambe le condizioni
  • Troppo Forti: Prestazioni buone in entrambe le condizioni
  • Moderati: Mostrano differenze direzionali simili agli umani

Impatto della Chain-of-Thought

  1. Dipendenza dall'Intensità: Solo i modelli sufficientemente forti traggono beneficio dalla chain-of-thought
  2. Specificità Strutturale: La chain-of-thought aiuta più le strutture non-GP, con effetto limitato su strutture GP
  3. Eccezioni: GPT-5 ottiene miglioramenti significativi dalla chain-of-thought su strutture GP

Lavori Correlati

Ricerca Neurolingüistica

  • Confronto Attivazione Cerebrale: Schrimpf et al. confrontano i modelli di attivazione cerebrale e LLM
  • Previsione di Indicatori Cognitivi: Utilizzo di informazioni LLM per prevedere tempo di lettura umano, movimenti oculari, ecc.

Ricerca sull'Elaborazione Sintattica

  • Effetto Garden Path: Amouyal et al. scoprono errori simili agli umani negli LLM su frasi GP specifiche
  • Embedding Centrale: Hu et al. mostrano che gli LLM, come gli umani, considerano le frasi con embedding centrale non grammaticali

Contributi Metodologici

Questo studio è il primo a confrontare sistematicamente molteplici fenomeni linguistici in un framework unificato, superando l'incoerenza delle impostazioni sperimentali negli studi precedenti.

Conclusioni e Discussione

Conclusioni Principali

  1. Specificità delle Strutture GP: Gli LLM mostrano prestazioni più vicine agli umani su frasi GP, probabilmente perché le frasi GP richiedono di scartare interpretazioni errate piuttosto che dipendere solo dalla memoria di lavoro
  2. Effetto della Scala: I modelli più grandi mostrano una correlazione più alta con gli umani nell'ordinamento della difficoltà strutturale
  3. Regola del Punto Dolce: I modelli di intensità moderata replicano meglio il modello di elaborazione umano

Spiegazione Teorica

Ipotesi della Memoria di Lavoro: Gli LLM superano gli umani su strutture che richiedono molta memoria di lavoro (come doppi embedding), ma mostrano prestazioni relativamente peggiori su frasi GP che richiedono di scartare interpretazioni errate, poiché quest'ultimo non è un problema di capacità della memoria di lavoro.

Limitazioni

  1. Copertura dei Modelli: Solo testati modelli closed-source di una famiglia (OpenAI), senza includere modelli di Anthropic o Google
  2. Limitazioni dei Tipi GP: Non testati tutti i tipi di frasi garden path
  3. Metrica Singola: Solo testata l'accuratezza della comprensione, mancano indicatori cognitivi come movimenti oculari e tempo di lettura

Direzioni Future

  1. Verifica Causale: Progettazione di esperimenti per verificare l'ipotesi della memoria di lavoro
  2. Test Estesi: Inclusione di più famiglie di modelli e tipi di GP
  3. Indicatori Multimodali: Integrazione di molteplici misure cognitive

Valutazione Approfondita

Punti di Forza

  1. Progettazione Sperimentale Rigorosa: Confronto sistematico in un framework unificato, con controllo adeguato delle variabili
  2. Scala Senza Precedenti: Copertura di 31 modelli e 7 fenomeni linguistici, lo studio più grande nel suo genere
  3. Scoperte Importanti: La scoperta della differenza tra strutture GP e non-GP ha significato teorico importante
  4. Innovazione Metodologica: Misurazione diretta della capacità di comprensione piuttosto che indicatori indiretti, più affidabile

Insufficienze

  1. Spiegazione Teorica Limitata: L'ipotesi della memoria di lavoro richiede ancora più prove
  2. Limitazioni Linguistiche: Solo testato l'inglese, manca verifica cross-linguistica
  3. Compito Singolo: Solo domande Sì/No, potrebbe non riflettere completamente la capacità di comprensione

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework metodologico per la ricerca sul confronto cognitivo umano-AI
  2. Valore Pratico: Aiuta a comprendere i limiti dell'elaborazione linguistica degli LLM, guidando il miglioramento dei modelli
  3. Riproducibilità: Gli autori si impegnano a rendere open-source il codice e i dati, facilitando ricerche successive

Scenari Applicabili

  1. Valutazione dei Modelli: Fornisce uno strumento di valutazione a grana fine per la capacità di comprensione linguistica degli LLM
  2. Ricerca Cognitiva: Fornisce un paradigma per confrontare i meccanismi di elaborazione linguistica dell'intelligenza artificiale e naturale
  3. Applicazioni Educative: Può essere utilizzato per identificare strutture difficili nell'apprendimento linguistico e fornire formazione mirata

Bibliografia

  1. Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
  2. Christianson et al. (2001). Thematic roles assigned along the garden path linger.
  3. Gibson & Thomas (1999). Memory limitations and structural forgetting.
  4. Gordon et al. (2001). Memory interference during language processing.

Valutazione Complessiva: Questo è uno studio di alta qualità interdisciplinare, innovativo dal punto di vista metodologico, con progettazione sperimentale rigorosa e scoperte di significato teorico e pratico importante. In particolare, la scoperta della differenza tra strutture GP e non-GP fornisce una nuova prospettiva per comprendere i meccanismi cognitivi degli LLM. Nonostante alcune limitazioni, il contributo complessivo è significativo e merita ulteriori ricerche approfondite.