2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant
Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
academic

Comparación de las Dificultades en el Procesamiento de Oraciones entre Humanos y Modelos de Lenguaje en Estructuras Complejas

Información Básica

  • ID del Artículo: 2510.07141
  • Título: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
  • Autores: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: Octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.07141

Resumen

Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidad para conversar fluidamente con humanos, pero ¿experimentan dificultades similares en el procesamiento de oraciones como los humanos? Este estudio compara sistemáticamente la capacidad de comprensión de oraciones entre humanos y LLMs en siete estructuras lingüísticas desafiantes. Se recopilaron datos de comprensión de oraciones de humanos y cinco familias de LLMs de última generación, que varían en escala y procesos de entrenamiento. Los resultados muestran que los LLMs experimentan dificultades generalizadas en las estructuras objetivo, especialmente en oraciones de camino de jardín (GP). Aunque los modelos más fuertes logran precisión casi perfecta en estructuras no-GP (GPT-5 alcanza 93.7%), muestran dificultades en estructuras GP (GPT-5 solo 46.8%). Además, al clasificar estructuras por desempeño promedio, la correlación de rangos entre humanos y modelos aumenta con el número de parámetros.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con los avances en capacidades conversacionales de los modelos de lenguaje de gran escala, surge una pregunta crítica: ¿Experimentan los LLMs dificultades de procesamiento en estructuras lingüísticas específicas de manera similar a los humanos? Esta pregunta es fundamental para comprender los mecanismos cognitivos de los LLMs y sus similitudes con el procesamiento del lenguaje humano.

Importancia de la Investigación

  1. Significado en Ciencias Cognitivas: Comparar patrones de errores entre humanos y LLMs proporciona información sobre los mecanismos de procesamiento del lenguaje en ambos
  2. Necesidad de Evaluación de Modelos: Las evaluaciones tradicionales se centran en el desempeño general, careciendo de análisis detallado de la capacidad de procesamiento de fenómenos lingüísticos específicos
  3. Valor Aplicado: Comprender las limitaciones del procesamiento del lenguaje en LLMs ayuda a mejorar el diseño de modelos y la implementación de aplicaciones

Limitaciones de la Investigación Existente

  1. Medición Indirecta: La mayoría de estudios utilizan indicadores indirectos (como tiempo de lectura, perplejidad) en lugar de pruebas directas de comprensión
  2. Configuración Experimental Inconsistente: Diferentes estudios utilizan diferentes modelos, datos y indicaciones, dificultando conclusiones unificadas
  3. Cobertura Limitada: Falta de comparación sistemática de múltiples fenómenos lingüísticos

Contribuciones Principales

  1. Construcción de un conjunto de datos de comprensión de oraciones con siete estructuras lingüísticas desafiantes, incluyendo cuatro tipos de oraciones de camino de jardín, incrustación central doble, interferencia de similitud y oraciones de impacto profundo
  2. Prueba sistemática de 31 modelos de última generación, abarcando 5 familias de modelos con diferentes escalas y métodos de entrenamiento
  3. Descubrimiento de diferencias de procesamiento entre estructuras GP y no-GP: Los LLMs muestran un desempeño más cercano al humano en oraciones GP, pero superior en estructuras no-GP
  4. Proposición de la "Regla del Punto Dulce": Solo en modelos de intensidad moderada se pueden observar patrones de diferencia objetivo-línea base similares a los humanos

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Una oración y una pregunta de comprensión Salida: Respuesta Sí/No Objetivo: Comparar patrones de desempeño entre humanos y LLMs en la misma tarea

Diseño de la Estructura Experimental

Siete Estructuras Lingüísticas

  1. Oraciones de Camino de Jardín (4 tipos):
    • GP Sujeto/Objeto: "While the man hunted the deer ran into the woods."
    • GP NP/S: "The policeman saw the lights were off."
    • GP NP/VP: "The complex houses married soldiers."
    • GP de Relativa Reducida: "The chef hired last month worked overtime."
  2. Incrustación Central Doble: Contiene dos cláusulas anidadas, como "The man that the teacher that the student liked called sat."
  3. Oraciones de Impacto Profundo: Estructuras con múltiples negaciones, como "No head injury is too trivial to be ignored."
  4. Interferencia de Similitud: Dos sintagmas nominales que comparten características causando interferencia, como "The banker that the barber praised climbed the mountain."

Diseño de Control

Cada estructura se diseñó con condición objetivo (que contiene la estructura difícil) y condición de línea base (que elimina el factor difícil), asegurando que se pueda medir el impacto de la estructura en sí.

Procedimiento Experimental

Experimento con Humanos

  • Participantes: Hablantes nativos de inglés reclutados a través de la plataforma Prolific
  • Procedimiento: Presentación palabra por palabra (400ms/palabra), pregunta presentada durante 5 segundos
  • Diseño: Cada participante ve solo un par oración-pregunta, evitando efectos de aprendizaje
  • Tamaño de Muestra: 5,380 puntos de datos, 10 participantes por par oración-pregunta

Experimento con LLMs

  • Estrategia de Indicación: Indicación con pocos ejemplos, incluyendo ejemplos sin la estructura objetivo
  • Variables de Control: 2 indicaciones del sistema × 4 órdenes de ejemplos = 8 repeticiones
  • Cobertura de Modelos: 31 modelos, incluyendo familias GPT, Llama, Qwen, Gemma y DeepSeek
  • Prueba de Cadena de Pensamiento: Algunos modelos probados con modo "pensamiento" activado/desactivado

Resultados Experimentales

Hallazgos Principales

1. Patrones de Desempeño General

  • Precisión Promedio Humana: 28.3%, validando la dificultad de las estructuras
  • Mejor Desempeño de LLM: Modelo o3 74.5% (sin cadena de pensamiento), GPT-5 modo cadena de pensamiento 88.9%
  • Diferencias Estructurales: Las oraciones GP son relativamente más difíciles para los LLMs, en contraste con estructuras no-GP

2. Diferencias Clave entre Estructuras GP y No-GP

Tipo de ModeloPrecisión GPPrecisión No-GPDiferencia
GPT-546.8%93.7%46.9%
o366.5%87.3%20.8%
Humanos25.8%32.4%6.6%

3. Análisis de Similitud con Humanos

Diferencias de Desempeño Absoluto:

  • Estructuras GP: Diferencia promedio 0.173 (más cercano a humanos)
  • Impacto Profundo: Diferencia promedio 0.328
  • Incrustación Doble: Diferencia promedio 0.330
  • Interferencia de Similitud: Diferencia promedio 0.370

Correlación de Rangos: La correlación con el ordenamiento de dificultad de estructuras humanas aumenta con el tamaño del modelo, alcanzando la correlación más alta de 0.929 en o4-mini.

4. Fenómeno del "Punto Dulce"

Los modelos necesitan una intensidad moderada para replicar el patrón de diferencia objetivo-línea base humano:

  • Demasiado Débil: Desempeño deficiente en ambas condiciones
  • Demasiado Fuerte: Desempeño excelente en ambas condiciones
  • Intensidad Moderada: Muestra diferencias direccionales similares a las humanas

Impacto de la Cadena de Pensamiento

  1. Dependencia de Intensidad: Solo modelos suficientemente fuertes se benefician de la cadena de pensamiento
  2. Especificidad Estructural: La cadena de pensamiento ayuda más en estructuras no-GP, con efecto limitado en estructuras GP
  3. Casos Excepcionales: GPT-5 obtiene mejoras significativas en estructuras GP con cadena de pensamiento

Trabajo Relacionado

Investigación en Neurolingüística

  • Comparación de Activación Cerebral: Schrimpf et al. comparan patrones de activación cerebral y LLM
  • Predicción de Indicadores Cognitivos: Uso de información de LLM para predecir tiempo de lectura humano, movimientos oculares, etc.

Investigación en Procesamiento Sintáctico

  • Efecto de Camino de Jardín: Amouyal et al. descubren errores similares a humanos en LLMs en oraciones GP específicas
  • Incrustación Central: Hu et al. muestran que LLMs, como humanos, consideran oraciones con incrustación central como agramaticales

Contribuciones Metodológicas

Este estudio es el primero en comparar sistemáticamente múltiples fenómenos lingüísticos bajo un marco unificado, superando la inconsistencia en configuraciones experimentales de investigaciones anteriores.

Conclusiones y Discusión

Conclusiones Principales

  1. Especificidad de Estructuras GP: Los LLMs muestran desempeño más cercano a humanos en oraciones GP, posiblemente porque estas requieren descartar interpretaciones erróneas en lugar de depender únicamente de memoria de trabajo
  2. Efecto de Escala: Los modelos más grandes muestran mayor correlación con humanos en el ordenamiento de dificultad de estructuras
  3. Regla del Punto Dulce: Los modelos de intensidad moderada mejor replican los patrones de procesamiento humano

Explicación Teórica

Hipótesis de Memoria de Trabajo: Los LLMs superan a humanos en estructuras que requieren gran cantidad de memoria de trabajo (como incrustación doble), pero muestran desempeño relativamente inferior en oraciones GP que requieren descartar interpretaciones erróneas, ya que este último no es un problema de capacidad de memoria de trabajo.

Limitaciones

  1. Cobertura de Modelos: Solo se probó una familia de modelos de código cerrado de OpenAI, sin incluir modelos de Anthropic o Google
  2. Limitación de Tipos GP: No se probaron todos los tipos de oraciones de camino de jardín
  3. Métrica Única: Solo se probó precisión de comprensión, faltando indicadores cognitivos como movimientos oculares y tiempo de lectura

Direcciones Futuras

  1. Verificación Causal: Diseñar experimentos para verificar la hipótesis de memoria de trabajo
  2. Pruebas Extendidas: Incluir más familias de modelos y tipos de GP
  3. Indicadores Multimodales: Combinar múltiples medidas cognitivas

Evaluación Profunda

Fortalezas

  1. Diseño Experimental Riguroso: Comparación sistemática bajo marco unificado con control suficiente de variables
  2. Escala Sin Precedentes: Abarca 31 modelos y 7 fenómenos lingüísticos, el estudio más grande en este campo
  3. Descubrimientos Importantes: El hallazgo de diferencias entre estructuras GP y no-GP tiene significado teórico importante
  4. Innovación Metodológica: Medición directa de capacidad de comprensión en lugar de indicadores indirectos, más confiable

Insuficiencias

  1. Explicación Teórica Limitada: La hipótesis de memoria de trabajo aún requiere más evidencia
  2. Limitación Lingüística: Solo se probó inglés, faltando verificación multilingüe
  3. Tarea Única: Solo se utilizó preguntas Sí/No, posiblemente no reflejando completamente la capacidad de comprensión

Impacto

  1. Contribución Académica: Proporciona nuevo marco metodológico para investigación de comparación cognitiva humano-IA
  2. Valor Práctico: Ayuda a comprender limitaciones de procesamiento del lenguaje en LLMs, guiando mejoras de modelos
  3. Reproducibilidad: Los autores se comprometen a liberar código y datos, facilitando investigación posterior

Escenarios Aplicables

  1. Evaluación de Modelos: Proporciona herramienta de evaluación de grano fino para capacidad de comprensión del lenguaje de LLMs
  2. Investigación Cognitiva: Proporciona paradigma para comparar mecanismos de procesamiento del lenguaje en inteligencia artificial y natural
  3. Aplicaciones Educativas: Puede utilizarse para identificación de estructuras difíciles en aprendizaje de idiomas y entrenamiento dirigido

Referencias

  1. Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
  2. Christianson et al. (2001). Thematic roles assigned along the garden path linger.
  3. Gibson & Thomas (1999). Memory limitations and structural forgetting.
  4. Gordon et al. (2001). Memory interference during language processing.

Evaluación General: Este es un estudio de alta calidad interdisciplinario que es innovador en metodología, con diseño experimental riguroso y hallazgos de significado teórico y práctico importante. En particular, el descubrimiento de diferencias entre estructuras GP y no-GP proporciona una nueva perspectiva para comprender los mecanismos cognitivos de los LLMs. A pesar de algunas limitaciones, la contribución general es significativa y merece investigación posterior en profundidad.