2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant

Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.

academic

Comparación de las Dificultades en el Procesamiento de Oraciones entre Humanos y Modelos de Lenguaje en Estructuras Complejas

Información Básica

ID del Artículo: 2510.07141
Título: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
Autores: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
Clasificación: cs.CL cs.AI
Fecha de Publicación: Octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.07141

Resumen

Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidad para conversar fluidamente con humanos, pero ¿experimentan dificultades similares en el procesamiento de oraciones como los humanos? Este estudio compara sistemáticamente la capacidad de comprensión de oraciones entre humanos y LLMs en siete estructuras lingüísticas desafiantes. Se recopilaron datos de comprensión de oraciones de humanos y cinco familias de LLMs de última generación, que varían en escala y procesos de entrenamiento. Los resultados muestran que los LLMs experimentan dificultades generalizadas en las estructuras objetivo, especialmente en oraciones de camino de jardín (GP). Aunque los modelos más fuertes logran precisión casi perfecta en estructuras no-GP (GPT-5 alcanza 93.7%), muestran dificultades en estructuras GP (GPT-5 solo 46.8%). Además, al clasificar estructuras por desempeño promedio, la correlación de rangos entre humanos y modelos aumenta con el número de parámetros.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con los avances en capacidades conversacionales de los modelos de lenguaje de gran escala, surge una pregunta crítica: ¿Experimentan los LLMs dificultades de procesamiento en estructuras lingüísticas específicas de manera similar a los humanos? Esta pregunta es fundamental para comprender los mecanismos cognitivos de los LLMs y sus similitudes con el procesamiento del lenguaje humano.

Importancia de la Investigación

Significado en Ciencias Cognitivas: Comparar patrones de errores entre humanos y LLMs proporciona información sobre los mecanismos de procesamiento del lenguaje en ambos
Necesidad de Evaluación de Modelos: Las evaluaciones tradicionales se centran en el desempeño general, careciendo de análisis detallado de la capacidad de procesamiento de fenómenos lingüísticos específicos
Valor Aplicado: Comprender las limitaciones del procesamiento del lenguaje en LLMs ayuda a mejorar el diseño de modelos y la implementación de aplicaciones

Limitaciones de la Investigación Existente

Medición Indirecta: La mayoría de estudios utilizan indicadores indirectos (como tiempo de lectura, perplejidad) en lugar de pruebas directas de comprensión
Configuración Experimental Inconsistente: Diferentes estudios utilizan diferentes modelos, datos y indicaciones, dificultando conclusiones unificadas
Cobertura Limitada: Falta de comparación sistemática de múltiples fenómenos lingüísticos

Contribuciones Principales

Construcción de un conjunto de datos de comprensión de oraciones con siete estructuras lingüísticas desafiantes, incluyendo cuatro tipos de oraciones de camino de jardín, incrustación central doble, interferencia de similitud y oraciones de impacto profundo
Prueba sistemática de 31 modelos de última generación, abarcando 5 familias de modelos con diferentes escalas y métodos de entrenamiento
Descubrimiento de diferencias de procesamiento entre estructuras GP y no-GP: Los LLMs muestran un desempeño más cercano al humano en oraciones GP, pero superior en estructuras no-GP
Proposición de la "Regla del Punto Dulce": Solo en modelos de intensidad moderada se pueden observar patrones de diferencia objetivo-línea base similares a los humanos

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Una oración y una pregunta de comprensión Salida: Respuesta Sí/No Objetivo: Comparar patrones de desempeño entre humanos y LLMs en la misma tarea

Diseño de la Estructura Experimental

Siete Estructuras Lingüísticas

Oraciones de Camino de Jardín (4 tipos):
- GP Sujeto/Objeto: "While the man hunted the deer ran into the woods."
- GP NP/S: "The policeman saw the lights were off."
- GP NP/VP: "The complex houses married soldiers."
- GP de Relativa Reducida: "The chef hired last month worked overtime."
Incrustación Central Doble: Contiene dos cláusulas anidadas, como "The man that the teacher that the student liked called sat."
Oraciones de Impacto Profundo: Estructuras con múltiples negaciones, como "No head injury is too trivial to be ignored."
Interferencia de Similitud: Dos sintagmas nominales que comparten características causando interferencia, como "The banker that the barber praised climbed the mountain."

Diseño de Control

Cada estructura se diseñó con condición objetivo (que contiene la estructura difícil) y condición de línea base (que elimina el factor difícil), asegurando que se pueda medir el impacto de la estructura en sí.

Procedimiento Experimental

Experimento con Humanos

Participantes: Hablantes nativos de inglés reclutados a través de la plataforma Prolific
Procedimiento: Presentación palabra por palabra (400ms/palabra), pregunta presentada durante 5 segundos
Diseño: Cada participante ve solo un par oración-pregunta, evitando efectos de aprendizaje
Tamaño de Muestra: 5,380 puntos de datos, 10 participantes por par oración-pregunta

Experimento con LLMs

Estrategia de Indicación: Indicación con pocos ejemplos, incluyendo ejemplos sin la estructura objetivo
Variables de Control: 2 indicaciones del sistema × 4 órdenes de ejemplos = 8 repeticiones
Cobertura de Modelos: 31 modelos, incluyendo familias GPT, Llama, Qwen, Gemma y DeepSeek
Prueba de Cadena de Pensamiento: Algunos modelos probados con modo "pensamiento" activado/desactivado

Resultados Experimentales

Hallazgos Principales

1. Patrones de Desempeño General

Precisión Promedio Humana: 28.3%, validando la dificultad de las estructuras
Mejor Desempeño de LLM: Modelo o3 74.5% (sin cadena de pensamiento), GPT-5 modo cadena de pensamiento 88.9%
Diferencias Estructurales: Las oraciones GP son relativamente más difíciles para los LLMs, en contraste con estructuras no-GP

2. Diferencias Clave entre Estructuras GP y No-GP

Tipo de Modelo	Precisión GP	Precisión No-GP	Diferencia
GPT-5	46.8%	93.7%	46.9%
o3	66.5%	87.3%	20.8%
Humanos	25.8%	32.4%	6.6%

3. Análisis de Similitud con Humanos

Diferencias de Desempeño Absoluto:

Estructuras GP: Diferencia promedio 0.173 (más cercano a humanos)
Impacto Profundo: Diferencia promedio 0.328
Incrustación Doble: Diferencia promedio 0.330
Interferencia de Similitud: Diferencia promedio 0.370

Correlación de Rangos: La correlación con el ordenamiento de dificultad de estructuras humanas aumenta con el tamaño del modelo, alcanzando la correlación más alta de 0.929 en o4-mini.

4. Fenómeno del "Punto Dulce"

Los modelos necesitan una intensidad moderada para replicar el patrón de diferencia objetivo-línea base humano:

Demasiado Débil: Desempeño deficiente en ambas condiciones
Demasiado Fuerte: Desempeño excelente en ambas condiciones
Intensidad Moderada: Muestra diferencias direccionales similares a las humanas

Impacto de la Cadena de Pensamiento

Dependencia de Intensidad: Solo modelos suficientemente fuertes se benefician de la cadena de pensamiento
Especificidad Estructural: La cadena de pensamiento ayuda más en estructuras no-GP, con efecto limitado en estructuras GP
Casos Excepcionales: GPT-5 obtiene mejoras significativas en estructuras GP con cadena de pensamiento

Trabajo Relacionado

Investigación en Neurolingüística

Comparación de Activación Cerebral: Schrimpf et al. comparan patrones de activación cerebral y LLM
Predicción de Indicadores Cognitivos: Uso de información de LLM para predecir tiempo de lectura humano, movimientos oculares, etc.

Investigación en Procesamiento Sintáctico

Efecto de Camino de Jardín: Amouyal et al. descubren errores similares a humanos en LLMs en oraciones GP específicas
Incrustación Central: Hu et al. muestran que LLMs, como humanos, consideran oraciones con incrustación central como agramaticales

Contribuciones Metodológicas

Este estudio es el primero en comparar sistemáticamente múltiples fenómenos lingüísticos bajo un marco unificado, superando la inconsistencia en configuraciones experimentales de investigaciones anteriores.

Conclusiones y Discusión

Conclusiones Principales

Especificidad de Estructuras GP: Los LLMs muestran desempeño más cercano a humanos en oraciones GP, posiblemente porque estas requieren descartar interpretaciones erróneas en lugar de depender únicamente de memoria de trabajo
Efecto de Escala: Los modelos más grandes muestran mayor correlación con humanos en el ordenamiento de dificultad de estructuras
Regla del Punto Dulce: Los modelos de intensidad moderada mejor replican los patrones de procesamiento humano

Explicación Teórica

Hipótesis de Memoria de Trabajo: Los LLMs superan a humanos en estructuras que requieren gran cantidad de memoria de trabajo (como incrustación doble), pero muestran desempeño relativamente inferior en oraciones GP que requieren descartar interpretaciones erróneas, ya que este último no es un problema de capacidad de memoria de trabajo.

Limitaciones

Cobertura de Modelos: Solo se probó una familia de modelos de código cerrado de OpenAI, sin incluir modelos de Anthropic o Google
Limitación de Tipos GP: No se probaron todos los tipos de oraciones de camino de jardín
Métrica Única: Solo se probó precisión de comprensión, faltando indicadores cognitivos como movimientos oculares y tiempo de lectura

Direcciones Futuras

Verificación Causal: Diseñar experimentos para verificar la hipótesis de memoria de trabajo
Pruebas Extendidas: Incluir más familias de modelos y tipos de GP
Indicadores Multimodales: Combinar múltiples medidas cognitivas

Evaluación Profunda

Fortalezas

Diseño Experimental Riguroso: Comparación sistemática bajo marco unificado con control suficiente de variables
Escala Sin Precedentes: Abarca 31 modelos y 7 fenómenos lingüísticos, el estudio más grande en este campo
Descubrimientos Importantes: El hallazgo de diferencias entre estructuras GP y no-GP tiene significado teórico importante
Innovación Metodológica: Medición directa de capacidad de comprensión en lugar de indicadores indirectos, más confiable

Insuficiencias

Explicación Teórica Limitada: La hipótesis de memoria de trabajo aún requiere más evidencia
Limitación Lingüística: Solo se probó inglés, faltando verificación multilingüe
Tarea Única: Solo se utilizó preguntas Sí/No, posiblemente no reflejando completamente la capacidad de comprensión

Impacto

Contribución Académica: Proporciona nuevo marco metodológico para investigación de comparación cognitiva humano-IA
Valor Práctico: Ayuda a comprender limitaciones de procesamiento del lenguaje en LLMs, guiando mejoras de modelos
Reproducibilidad: Los autores se comprometen a liberar código y datos, facilitando investigación posterior

Escenarios Aplicables

Evaluación de Modelos: Proporciona herramienta de evaluación de grano fino para capacidad de comprensión del lenguaje de LLMs
Investigación Cognitiva: Proporciona paradigma para comparar mecanismos de procesamiento del lenguaje en inteligencia artificial y natural
Aplicaciones Educativas: Puede utilizarse para identificación de estructuras difíciles en aprendizaje de idiomas y entrenamiento dirigido

Referencias

Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
Christianson et al. (2001). Thematic roles assigned along the garden path linger.
Gibson & Thomas (1999). Memory limitations and structural forgetting.
Gordon et al. (2001). Memory interference during language processing.

Evaluación General: Este es un estudio de alta calidad interdisciplinario que es innovador en metodología, con diseño experimental riguroso y hallazgos de significado teórico y práctico importante. En particular, el descubrimiento de diferencias entre estructuras GP y no-GP proporciona una nueva perspectiva para comprender los mecanismos cognitivos de los LLMs. A pesar de algunas limitaciones, la contribución general es significativa y merece investigación posterior en profundidad.