2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant

Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.

academic

Сравнение трудностей обработки предложений человеком и языковыми моделями на сложных структурах

Основная информация

ID статьи: 2510.07141
Название: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
Авторы: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
Классификация: cs.CL cs.AI
Дата публикации: октябрь 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.07141

Аннотация

Большие языковые модели (LLM) способны вести свободное общение с людьми, но испытывают ли они трудности при обработке предложений, подобные человеческим? В данном исследовании систематически сравнивается понимание предложений человеком и LLM на семи сложных языковых структурах. Исследование собрало данные о понимании предложений от людей и пяти семейств современных LLM, различающихся по масштабу и процессу обучения. Результаты показывают, что LLM испытывают общие трудности на целевых структурах, особенно на предложениях-ловушках (GP). Хотя наиболее мощные модели достигают почти идеальной точности на структурах без GP (GPT-5 достигает 93,7%), они испытывают трудности на структурах GP (GPT-5 только 46,8%). Кроме того, при ранжировании структур по средней производительности корреляция рангов между человеком и моделью увеличивается с увеличением количества параметров.

Предпосылки и мотивация исследования

Определение проблемы

С прорывом больших языковых моделей в способности к диалогу возникает ключевой вопрос: испытывают ли LLM трудности при обработке определённых языковых структур так же, как люди? Этот вопрос имеет решающее значение для понимания когнитивных механизмов LLM и сходства с человеческой обработкой языка.

Значимость исследования

Когнитивно-научное значение: сравнение ошибок человека и LLM позволяет выявить механизмы языковой обработки обоих
Потребность в оценке моделей: традиционная оценка сосредоточена на общей производительности, не хватает детального анализа способности обработки конкретных языковых явлений
Практическая ценность: понимание ограничений LLM в обработке языка помогает улучшить проектирование и развёртывание моделей

Ограничения существующих исследований

Косвенные измерения: большинство исследований используют косвенные показатели (время чтения, перплексия) вместо прямых тестов понимания
Неунифицированные экспериментальные установки: разные исследования используют разные модели, данные и подсказки, что затрудняет получение единых выводов
Ограниченный охват: отсутствует систематическое сравнение множества языковых явлений

Основные вклады

Создан набор данных для понимания предложений с семью сложными языковыми структурами, включая четыре типа предложений-ловушек, двойное центральное вложение, помехи сходства и предложения с глубокими конфликтами
Систематическое тестирование 31 современной модели, охватывающее 5 семейств моделей с различными масштабами и методами обучения
Обнаружены различия в обработке структур GP и не-GP: LLM показывают более близкие к человеческим результаты на предложениях GP, но превосходят человека на структурах не-GP
Предложен закон "сладкой точки": сходство с человеческими паттернами обработки наблюдается только в моделях средней мощности

Подробное описание методологии

Определение задачи

Вход: предложение и вопрос на понимание Выход: ответ "Да/Нет" Цель: сравнить паттерны производительности человека и LLM на одинаковых задачах

Дизайн экспериментальной структуры

Семь языковых структур

Предложения-ловушки (4 типа):
- Subject/Object GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- Reduced relative GP: "The chef hired last month worked overtime."
Двойное центральное вложение: содержит два вложенных придаточных предложения, например "The man that the teacher that the student liked called sat."
Предложения с глубокими конфликтами: множественные отрицательные структуры, например "No head injury is too trivial to be ignored."
Помехи сходства: два именных словосочетания с общими признаками вызывают помехи, например "The banker that the barber praised climbed the mountain."

Контрольный дизайн

Каждая структура имеет целевое условие (содержит сложную структуру) и базовое условие (сложный фактор удалён), что позволяет измерить влияние самой структуры.

Экспериментальная процедура

Эксперимент с людьми

Участники: носители английского языка, привлечённые через платформу Prolific
Процедура: слова предъявляются последовательно (400 мс/слово), вопрос предъявляется на 5 секунд
Дизайн: каждый участник видит только одну пару предложение-вопрос, чтобы избежать эффектов обучения
Размер выборки: 5380 точек данных, 10 участников на каждую пару предложение-вопрос

Эксперимент с LLM

Стратегия подсказок: few-shot подсказки, включающие примеры без целевых структур
Контроль переменных: 2 системных подсказки × 4 порядка примеров = 8 повторений
Охват моделей: 31 модель, включая семейства GPT, Llama, Qwen, Gemma, DeepSeek
Тестирование цепочки мышления: для некоторых моделей тестировалось влияние включения/отключения режима "размышления"

Результаты экспериментов

Основные выводы

1. Общие паттерны производительности

Средняя точность человека: 28,3%, что подтверждает сложность структур
Лучшая производительность LLM: модель o3 74,5% (без цепочки мышления), GPT-5 в режиме цепочки мышления 88,9%
Различия структур: предложения GP относительно более сложны для LLM, в отличие от структур не-GP

2. Ключевые различия между структурами GP и не-GP

Тип модели	Точность GP	Точность не-GP	Разница
GPT-5	46,8%	93,7%	46,9%
o3	66,5%	87,3%	20,8%
Человек	25,8%	32,4%	6,6%

3. Анализ сходства с человеком

Различия абсолютной производительности:

Структуры GP: средняя разница 0,173 (ближе к человеку)
Глубокие конфликты: средняя разница 0,328
Двойное вложение: средняя разница 0,330
Помехи сходства: средняя разница 0,370

Корреляция рангов: с увеличением масштаба модели корреляция ранжирования сложности структур с человеком возрастает, достигая максимальной корреляции 0,929 для o4-mini.

4. Феномен "сладкой точки"

Модели должны иметь среднюю мощность для воспроизведения человеческого паттерна различий между целевыми и базовыми условиями:

Слишком слабые: плохая производительность в обоих условиях
Слишком мощные: хорошая производительность в обоих условиях
Средние: показывают направленные различия, подобные человеческим

Влияние цепочки мышления

Зависимость от мощности: только достаточно мощные модели могут извлекать пользу из цепочки мышления
Специфичность структуры: цепочка мышления больше помогает на структурах не-GP, менее эффективна на структурах GP
Исключения: GPT-5 получает значительное улучшение от цепочки мышления на структурах GP

Связанные работы

Исследования нейролингвистики

Сравнение активации мозга: Schrimpf и др. сравнивают паттерны активации мозга и LLM
Предсказание когнитивных показателей: использование информации LLM для предсказания времени чтения человека, движений глаз и других показателей

Исследования синтаксической обработки

Эффект предложений-ловушек: Amouyal и др. обнаружили ошибки, подобные человеческим, у LLM на определённых предложениях-ловушках
Центральное вложение: Hu и др. показали, что LLM, как люди, считают предложения с центральным вложением неграмматичными

Методологический вклад

Данное исследование впервые систематически сравнивает множество языковых явлений в единой структуре, преодолевая проблему несогласованности экспериментальных установок в предыдущих исследованиях.

Выводы и обсуждение

Основные выводы

Особенность структур GP: LLM показывают результаты, более близкие к человеческим, на предложениях-ловушках, возможно, потому что GP требуют отказа от неправильной интерпретации, а не только полагаются на объём рабочей памяти
Эффект масштаба: более крупные модели показывают более высокую корреляцию с человеком в ранжировании сложности структур
Закон "сладкой точки": модели средней мощности лучше всего воспроизводят паттерны обработки человека

Теоретическое объяснение

Гипотеза рабочей памяти: LLM превосходят человека на структурах, требующих большого объёма рабочей памяти (например, двойное вложение), но показывают относительно худшие результаты на предложениях-ловушках, требующих отказа от неправильной интерпретации, поскольку последние не являются проблемой ёмкости рабочей памяти.

Ограничения

Охват моделей: протестировано только одно семейство закрытых моделей OpenAI, не включены модели Anthropic или Google
Ограничение типов GP: не протестированы все типы предложений-ловушек
Единственный показатель: протестирована только точность понимания, отсутствуют движения глаз, время чтения и другие когнитивные показатели

Направления будущих исследований

Причинная верификация: разработка экспериментов для проверки гипотезы рабочей памяти
Расширенное тестирование: включение большего количества семейств моделей и типов GP
Мультимодальные показатели: интеграция множественных когнитивных показателей

Глубокая оценка

Преимущества

Строгий экспериментальный дизайн: систематическое сравнение в единой структуре с достаточным контролем переменных
Беспрецедентный масштаб: охват 31 модели и 7 языковых явлений, крупнейшее исследование в этой области
Важные открытия: обнаруженные различия между структурами GP и не-GP имеют важное теоретическое значение
Методологическая инновация: прямое измерение способности понимания вместо косвенных показателей, более надёжно

Недостатки

Ограниченное теоретическое объяснение: гипотеза рабочей памяти требует дополнительных доказательств
Языковые ограничения: протестирован только английский язык, отсутствует кроссязыковая верификация
Единственная задача: использовано только вопросно-ответное тестирование "Да/Нет", может не полностью отражать способность понимания

Влияние

Научный вклад: предоставляет новую методологическую основу для исследования когнитивного сравнения человека и ИИ
Практическая ценность: помогает понять ограничения LLM в обработке языка, направляет улучшение моделей
Воспроизводимость: авторы обещают открыть исходный код и данные для облегчения последующих исследований

Применимые сценарии

Оценка моделей: предоставляет инструмент детальной оценки способности языкового понимания LLM
Когнитивные исследования: предоставляет парадигму для сравнения механизмов языковой обработки искусственного и естественного интеллекта
Образовательные приложения: может использоваться для выявления сложных структур в изучении языка и целевого обучения

Библиография

Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
Christianson et al. (2001). Thematic roles assigned along the garden path linger.
Gibson & Thomas (1999). Memory limitations and structural forgetting.
Gordon et al. (2001). Memory interference during language processing.

Общая оценка: это высококачественное междисциплинарное исследование с методологической инновативностью, строгим экспериментальным дизайном и выводами, имеющими важное теоретическое и практическое значение. Особенно важно открытие различий между структурами GP и не-GP, которое предоставляет новую перспективу для понимания когнитивных механизмов LLM. Несмотря на некоторые ограничения, общий вклад значителен и заслуживает дальнейших углублённых исследований.