Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
- ID del Artículo: 2510.07141
- Título: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
- Autores: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: Octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.07141
Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidad para conversar fluidamente con humanos, pero ¿experimentan dificultades similares en el procesamiento de oraciones como los humanos? Este estudio compara sistemáticamente la capacidad de comprensión de oraciones entre humanos y LLMs en siete estructuras lingüísticas desafiantes. Se recopilaron datos de comprensión de oraciones de humanos y cinco familias de LLMs de última generación, que varían en escala y procesos de entrenamiento. Los resultados muestran que los LLMs experimentan dificultades generalizadas en las estructuras objetivo, especialmente en oraciones de camino de jardín (GP). Aunque los modelos más fuertes logran precisión casi perfecta en estructuras no-GP (GPT-5 alcanza 93.7%), muestran dificultades en estructuras GP (GPT-5 solo 46.8%). Además, al clasificar estructuras por desempeño promedio, la correlación de rangos entre humanos y modelos aumenta con el número de parámetros.
Con los avances en capacidades conversacionales de los modelos de lenguaje de gran escala, surge una pregunta crítica: ¿Experimentan los LLMs dificultades de procesamiento en estructuras lingüísticas específicas de manera similar a los humanos? Esta pregunta es fundamental para comprender los mecanismos cognitivos de los LLMs y sus similitudes con el procesamiento del lenguaje humano.
- Significado en Ciencias Cognitivas: Comparar patrones de errores entre humanos y LLMs proporciona información sobre los mecanismos de procesamiento del lenguaje en ambos
- Necesidad de Evaluación de Modelos: Las evaluaciones tradicionales se centran en el desempeño general, careciendo de análisis detallado de la capacidad de procesamiento de fenómenos lingüísticos específicos
- Valor Aplicado: Comprender las limitaciones del procesamiento del lenguaje en LLMs ayuda a mejorar el diseño de modelos y la implementación de aplicaciones
- Medición Indirecta: La mayoría de estudios utilizan indicadores indirectos (como tiempo de lectura, perplejidad) en lugar de pruebas directas de comprensión
- Configuración Experimental Inconsistente: Diferentes estudios utilizan diferentes modelos, datos y indicaciones, dificultando conclusiones unificadas
- Cobertura Limitada: Falta de comparación sistemática de múltiples fenómenos lingüísticos
- Construcción de un conjunto de datos de comprensión de oraciones con siete estructuras lingüísticas desafiantes, incluyendo cuatro tipos de oraciones de camino de jardín, incrustación central doble, interferencia de similitud y oraciones de impacto profundo
- Prueba sistemática de 31 modelos de última generación, abarcando 5 familias de modelos con diferentes escalas y métodos de entrenamiento
- Descubrimiento de diferencias de procesamiento entre estructuras GP y no-GP: Los LLMs muestran un desempeño más cercano al humano en oraciones GP, pero superior en estructuras no-GP
- Proposición de la "Regla del Punto Dulce": Solo en modelos de intensidad moderada se pueden observar patrones de diferencia objetivo-línea base similares a los humanos
Entrada: Una oración y una pregunta de comprensión
Salida: Respuesta Sí/No
Objetivo: Comparar patrones de desempeño entre humanos y LLMs en la misma tarea
- Oraciones de Camino de Jardín (4 tipos):
- GP Sujeto/Objeto: "While the man hunted the deer ran into the woods."
- GP NP/S: "The policeman saw the lights were off."
- GP NP/VP: "The complex houses married soldiers."
- GP de Relativa Reducida: "The chef hired last month worked overtime."
- Incrustación Central Doble: Contiene dos cláusulas anidadas, como "The man that the teacher that the student liked called sat."
- Oraciones de Impacto Profundo: Estructuras con múltiples negaciones, como "No head injury is too trivial to be ignored."
- Interferencia de Similitud: Dos sintagmas nominales que comparten características causando interferencia, como "The banker that the barber praised climbed the mountain."
Cada estructura se diseñó con condición objetivo (que contiene la estructura difícil) y condición de línea base (que elimina el factor difícil), asegurando que se pueda medir el impacto de la estructura en sí.
- Participantes: Hablantes nativos de inglés reclutados a través de la plataforma Prolific
- Procedimiento: Presentación palabra por palabra (400ms/palabra), pregunta presentada durante 5 segundos
- Diseño: Cada participante ve solo un par oración-pregunta, evitando efectos de aprendizaje
- Tamaño de Muestra: 5,380 puntos de datos, 10 participantes por par oración-pregunta
- Estrategia de Indicación: Indicación con pocos ejemplos, incluyendo ejemplos sin la estructura objetivo
- Variables de Control: 2 indicaciones del sistema × 4 órdenes de ejemplos = 8 repeticiones
- Cobertura de Modelos: 31 modelos, incluyendo familias GPT, Llama, Qwen, Gemma y DeepSeek
- Prueba de Cadena de Pensamiento: Algunos modelos probados con modo "pensamiento" activado/desactivado
- Precisión Promedio Humana: 28.3%, validando la dificultad de las estructuras
- Mejor Desempeño de LLM: Modelo o3 74.5% (sin cadena de pensamiento), GPT-5 modo cadena de pensamiento 88.9%
- Diferencias Estructurales: Las oraciones GP son relativamente más difíciles para los LLMs, en contraste con estructuras no-GP
| Tipo de Modelo | Precisión GP | Precisión No-GP | Diferencia |
|---|
| GPT-5 | 46.8% | 93.7% | 46.9% |
| o3 | 66.5% | 87.3% | 20.8% |
| Humanos | 25.8% | 32.4% | 6.6% |
Diferencias de Desempeño Absoluto:
- Estructuras GP: Diferencia promedio 0.173 (más cercano a humanos)
- Impacto Profundo: Diferencia promedio 0.328
- Incrustación Doble: Diferencia promedio 0.330
- Interferencia de Similitud: Diferencia promedio 0.370
Correlación de Rangos: La correlación con el ordenamiento de dificultad de estructuras humanas aumenta con el tamaño del modelo, alcanzando la correlación más alta de 0.929 en o4-mini.
Los modelos necesitan una intensidad moderada para replicar el patrón de diferencia objetivo-línea base humano:
- Demasiado Débil: Desempeño deficiente en ambas condiciones
- Demasiado Fuerte: Desempeño excelente en ambas condiciones
- Intensidad Moderada: Muestra diferencias direccionales similares a las humanas
- Dependencia de Intensidad: Solo modelos suficientemente fuertes se benefician de la cadena de pensamiento
- Especificidad Estructural: La cadena de pensamiento ayuda más en estructuras no-GP, con efecto limitado en estructuras GP
- Casos Excepcionales: GPT-5 obtiene mejoras significativas en estructuras GP con cadena de pensamiento
- Comparación de Activación Cerebral: Schrimpf et al. comparan patrones de activación cerebral y LLM
- Predicción de Indicadores Cognitivos: Uso de información de LLM para predecir tiempo de lectura humano, movimientos oculares, etc.
- Efecto de Camino de Jardín: Amouyal et al. descubren errores similares a humanos en LLMs en oraciones GP específicas
- Incrustación Central: Hu et al. muestran que LLMs, como humanos, consideran oraciones con incrustación central como agramaticales
Este estudio es el primero en comparar sistemáticamente múltiples fenómenos lingüísticos bajo un marco unificado, superando la inconsistencia en configuraciones experimentales de investigaciones anteriores.
- Especificidad de Estructuras GP: Los LLMs muestran desempeño más cercano a humanos en oraciones GP, posiblemente porque estas requieren descartar interpretaciones erróneas en lugar de depender únicamente de memoria de trabajo
- Efecto de Escala: Los modelos más grandes muestran mayor correlación con humanos en el ordenamiento de dificultad de estructuras
- Regla del Punto Dulce: Los modelos de intensidad moderada mejor replican los patrones de procesamiento humano
Hipótesis de Memoria de Trabajo: Los LLMs superan a humanos en estructuras que requieren gran cantidad de memoria de trabajo (como incrustación doble), pero muestran desempeño relativamente inferior en oraciones GP que requieren descartar interpretaciones erróneas, ya que este último no es un problema de capacidad de memoria de trabajo.
- Cobertura de Modelos: Solo se probó una familia de modelos de código cerrado de OpenAI, sin incluir modelos de Anthropic o Google
- Limitación de Tipos GP: No se probaron todos los tipos de oraciones de camino de jardín
- Métrica Única: Solo se probó precisión de comprensión, faltando indicadores cognitivos como movimientos oculares y tiempo de lectura
- Verificación Causal: Diseñar experimentos para verificar la hipótesis de memoria de trabajo
- Pruebas Extendidas: Incluir más familias de modelos y tipos de GP
- Indicadores Multimodales: Combinar múltiples medidas cognitivas
- Diseño Experimental Riguroso: Comparación sistemática bajo marco unificado con control suficiente de variables
- Escala Sin Precedentes: Abarca 31 modelos y 7 fenómenos lingüísticos, el estudio más grande en este campo
- Descubrimientos Importantes: El hallazgo de diferencias entre estructuras GP y no-GP tiene significado teórico importante
- Innovación Metodológica: Medición directa de capacidad de comprensión en lugar de indicadores indirectos, más confiable
- Explicación Teórica Limitada: La hipótesis de memoria de trabajo aún requiere más evidencia
- Limitación Lingüística: Solo se probó inglés, faltando verificación multilingüe
- Tarea Única: Solo se utilizó preguntas Sí/No, posiblemente no reflejando completamente la capacidad de comprensión
- Contribución Académica: Proporciona nuevo marco metodológico para investigación de comparación cognitiva humano-IA
- Valor Práctico: Ayuda a comprender limitaciones de procesamiento del lenguaje en LLMs, guiando mejoras de modelos
- Reproducibilidad: Los autores se comprometen a liberar código y datos, facilitando investigación posterior
- Evaluación de Modelos: Proporciona herramienta de evaluación de grano fino para capacidad de comprensión del lenguaje de LLMs
- Investigación Cognitiva: Proporciona paradigma para comparar mecanismos de procesamiento del lenguaje en inteligencia artificial y natural
- Aplicaciones Educativas: Puede utilizarse para identificación de estructuras difíciles en aprendizaje de idiomas y entrenamiento dirigido
- Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
- Christianson et al. (2001). Thematic roles assigned along the garden path linger.
- Gibson & Thomas (1999). Memory limitations and structural forgetting.
- Gordon et al. (2001). Memory interference during language processing.
Evaluación General: Este es un estudio de alta calidad interdisciplinario que es innovador en metodología, con diseño experimental riguroso y hallazgos de significado teórico y práctico importante. En particular, el descubrimiento de diferencias entre estructuras GP y no-GP proporciona una nueva perspectiva para comprender los mecanismos cognitivos de los LLMs. A pesar de algunas limitaciones, la contribución general es significativa y merece investigación posterior en profundidad.