2025-11-17T03:40:13.370820

Studies with impossible languages falsify LMs as models of human language

Bowers, Mitchell
According to Futrell and Mahowald [arXiv:2501.17047], both infants and language models (LMs) find attested languages easier to learn than impossible languages that have unnatural structures. We review the literature and show that LMs often learn attested and many impossible languages equally well. Difficult to learn impossible languages are simply more complex (or random). LMs are missing human inductive biases that support language acquisition.
academic

Исследования с невозможными языками опровергают языковые модели как модели человеческого языка

Основная информация

  • ID статьи: 2511.11389
  • Название: Studies with impossible languages falsify LMs as models of human language
  • Авторы: Jeffrey S. Bowers (Университет Бристоля), Jeff Mitchell (Университет Сассекса)
  • Классификация: cs.CL (Компьютерная лингвистика)
  • Тип статьи: Комментарий к работе Futrell & Mahowald (в печати), Behavioural and Brain Sciences
  • Ссылка на статью: https://arxiv.org/abs/2511.11389

Аннотация

Данная статья представляет собой комментарий к работе Futrell и Mahowald (F&M) о языковых моделях и изучении языка человеком. F&M утверждают, что младенцы и языковые модели (LMs) находят естественные языки более легкими для изучения, чем "невозможные языки" с неестественной структурой. Авторы посредством обзора литературы демонстрируют, что LMs часто способны одинаково легко изучать как естественные языки, так и множество невозможных языков. Те невозможные языки, которые сложнее изучать, просто являются более сложными или случайными. Авторы утверждают, что LMs не обладают индуктивными смещениями (inductive biases), поддерживающими усвоение человеческого языка.

Исследовательский контекст и мотивация

Основной вопрос

Статья сосредоточена на фундаментальном теоретическом вопросе: являются ли языковые модели (LMs) надлежащей моделью усвоения языка человеком?

Значимость проблемы

  1. Загадка скорости языкового усвоения: младенцы способны изучать язык с поразительной скоростью, что представляет собой центральную проблему для моделей языкового усвоения
  2. Фокус теоретических дебатов: теория универсальной грамматики (Universal Grammar, UG) Хомского предполагает, что люди обладают врожденными языковыми индуктивными смещениями, которые не только ограничивают структуру всех естественных языков, но и позволяют детям быстро учиться
  3. Вызов для LMs: крупные языковые модели, такие как ChatGPT, не обладают подобными человеку априорными знаниями, однако демонстрируют отличные результаты в различных языковых задачах, что ставит под сомнение традиционные лингвистические теории

Ограничения существующих подходов

  1. Позиция F&M: утверждают, что LMs, как и люди, находят естественные языки более легкими для изучения, чем невозможные языки, что предполагает наличие у LMs индуктивных смещений, согласованных с человеческим языком
  2. Критика Хомского: утверждает, что LMs способны одинаково легко изучать как возможные, так и невозможные для человека языки, что является глубочайшим недостатком LMs как модели человеческого языка
  3. Расхождения в интерпретации литературы: различные интерпретации одних и тех же исследований приводят к противоположным выводам

Исследовательская мотивация

Авторы ставят целью посредством систематического обзора литературы уточнить эмпирические доказательства способности LMs изучать невозможные языки, оспорить точку зрения F&M и поддержать утверждение Хомского о том, что LMs не обладают человеческими индуктивными смещениями в языковом усвоении.

Основные вклады

  1. Систематический обзор литературы: полный обзор и переанализ недавних исследований о способности LMs изучать невозможные языки
  2. Уточнение эмпирических доказательств: выявление неправильного толкования F&M существующих исследований, демонстрирующее, что LMs фактически легко изучают множество невозможных языков
  3. Теоретическое разграничение: различие между "сложностью изучения" и "структурной сложностью/случайностью", аргумент о том, что сложные для изучения невозможные языки просто являются более сложными или случайными
  4. Поддержка утверждения Хомского: предоставление доказательств того, что LMs не обладают специфичными для человека индуктивными смещениями в языковом усвоении
  5. Методологическая критика: указание на применимость "теоремы об отсутствии бесплатного обеда", аргумент о том, что плохая производительность LMs на некоторых языках неудивительна

Подробное описание методологии

Определение задачи

Статья не предлагает новый метод, а представляет собой критический обзор литературы. Основная задача:

  • Входные данные: недавние эмпирические исследования о способности LMs изучать невозможные языки
  • Выходные данные: систематическая переинтерпретация и теоретический анализ этих исследований
  • Цель: оценить, действительно ли LMs, подобно людям, испытывают трудности при изучении невозможных языков

Аналитическая структура

1. Определение невозможных языков

  • Естественные языки (Attested Languages): языки, которые фактически используются людьми
  • Невозможные языки (Impossible Languages): искусственно созданные языки, нарушающие ограничения универсальной грамматики, такие как языки с полностью инвертированным порядком слов
  • Сложные/случайные языки: языки, лишенные структуры или содержащие множество случайных правил

2. Критерии оценки

Авторы используют следующие критерии для оценки производительности LMs при изучении:

  • Скорость изучения: объем обучающих данных, необходимый LMs для изучения различных типов языков
  • Итоговая производительность: конечная производительность LMs на различных языках
  • Сравнительный анализ: естественные языки vs. невозможные языки vs. случайные/сложные языки

3. Теоретическая структура

  • Предсказание Хомского: если LMs не обладают UG, они должны одинаково легко изучать невозможные языки
  • Возражение F&M: утверждают, что LMs демонстрируют предпочтения в изучении, согласованные с человеческими
  • "Теорема об отсутствии бесплатного обеда": любой алгоритм обучения, хорошо работающий на одном классе данных, обязательно будет работать хуже на других данных

Технические инновации

Инновация статьи заключается не в технических методах, а в глубине теоретического анализа:

  1. Различие типов языков: четкое разграничение между "невозможными языками, нарушающими UG" и "случайными/сложными языками"
  2. Переинтерпретация эмпирических результатов: указание на то, что F&M и другие смешивают сложность языка с возможностью языка
  3. Проверка теоретической согласованности: использование "теоремы об отсутствии бесплатного обеда" для аргументации того, что плохая производительность LMs на некоторых языках неизбежна и не может служить доказательством наличия у них человеческих индуктивных смещений

Экспериментальная установка

Статья не содержит новых экспериментов, а представляет переанализ опубликованных исследований. Авторы систематически рассмотрели следующие исследования:

Рассмотренные исследования

1. Kallini et al. (2024)

  • Экспериментальный дизайн: тестирование способности LMs изучать английский язык и множество невозможных языков
  • Интерпретация F&M: LMs изучают реальные английские тексты последовательно быстрее, чем базовые невозможные языки
  • Переанализ авторов:
    • Хотя были сообщены два сложных для изучения невозможных языка, множество невозможных языков изучаются почти так же легко, как английский
    • Включая невозможный язык, разработанный Mitchell & Bowers (2020)
    • Наиболее сложный для изучения невозможный язык - это полностью случайная перестановка слов (без структуры для изучения)
    • Другой сложный язык - это детерминированная случайная перестановка (использует разные правила перестановки для разных длин предложений, что эквивалентно изучению множества случайных языков)

2. Yang et al. (2025)

  • Экспериментальный дизайн: оценка производительности LMs на множестве невозможных языков, включая языки с детерминированной перестановкой
  • Результаты: множество невозможных языков легко изучаются, языки со случайной перестановкой сложны
  • Критика авторов: авторы ошибочно полагали, что Хомский предсказывал, что LMs должны быть способны изучать языки со случайной перестановкой, однако изучение множества различных случайных языков (для разных длин предложений) сложно в любой теории

3. Xu et al. (2025)

  • Экспериментальный дизайн: варьирование правдоподобности (plausibility) языка, а не его невозможности
  • Результаты: LMs испытывают трудности с некоторыми неправдоподобными языками, но легко изучают другие
  • Замечание авторов: исследователи сами признали, что конструкция материала может содержать ошибки, приводящие к увеличению шума в контрфактических корпусах

4. Ziv et al. (2025)

  • Результаты: сообщили о множестве невозможных языков, которые LMs легко изучают, включая частично инвертированные языки (воспроизведение результатов Mitchell & Bowers, 2020)

5. Lou et al. (2024) (не цитировано F&M)

  • Результаты: LMs могут легко изучать полностью инвертированные языки

Сводка данных

ИсследованиеЛегко изучаемые невозможные языкиСложные типы языковКлючевая проблема
Kallini et al.Множество, включая язык MB2020Случайная перестановка, детерминированная множественная перестановкаСложные языки являются случайными/сложными
Yang et al.МножествоДетерминированная множественная перестановкаСмешение сложности и невозможности
Xu et al.Частично неправдоподобные языкиЧастично неправдоподобные языкиВозможные ошибки в конструкции материала
Ziv et al.Частично инвертированные языки и др.-Поддерживает точку зрения Хомского
Lou et al.Полностью инвертированные языки-Поддерживает точку зрения Хомского

Результаты экспериментов

Основные находки

1. LMs часто легко изучают невозможные языки

  • Невозможный язык, разработанный Mitchell & Bowers (2020), подтвержден как легко изучаемый
  • Частично инвертированные языки (Ziv et al., 2025) легко изучаются
  • Полностью инвертированные языки (Lou et al., 2024) легко изучаются
  • Как Kallini et al., так и Yang et al. сообщили о множестве легко изучаемых невозможных языков

2. Сложные для изучения "невозможные языки" фактически являются сложными/случайными языками

  • Полностью случайная перестановка: не имеет никакой структуры для изучения
  • Детерминированная множественная перестановка: требует изучения множества различных случайных правил отображения (одно для каждой длины предложения)
  • Сложность этих языков проистекает из сложности и случайности, а не из нарушения UG

3. Огромные различия в эффективности использования данных

Авторы ссылаются на Bowers (2025a), указывая:

  • LMs требуют на несколько порядков величины больше обучающих данных, чем младенцы
  • Это согласуется с отсутствием человеческих индуктивных смещений

4. Ограниченная эффективность попыток индуцировать UG

McCoy & Griffiths (2025) попытались дистиллировать байесовские априорные вероятности в LMs:

  • Не смогли значительно улучшить эффективность использования данных (Bowers, 2025b)

Теоретический анализ

Применение "теоремы об отсутствии бесплатного обеда"

Авторы ссылаются на теорию Wolpert & Macready (2002):

  • Основная идея: алгоритм обучения, хорошо работающий на одном классе данных, обязательно будет работать хуже на других данных
  • Вывод: плохая производительность LMs на некоторых языках (таких как случайная перестановка) неизбежна и не требует эмпирического подтверждения
  • Ключевое различие: плохая производительность на некоторых языках ≠ наличие человеческих индуктивных смещений
  • Логика опровержения: успешное изучение некоторых невозможных языков опровергает то, что LMs являются надлежащей моделью человеческого языкового усвоения

Анализ конкретных случаев

Случай 1: Детерминированная перестановка Kallini et al.

Исходное предложение (длина 5): The cat sat on mat
Правило перестановки 1 (длина 5): cat The on sat mat
Исходное предложение (длина 6): The big cat sat on mat
Правило перестановки 2 (длина 6): big The sat cat mat on

Анализ: изучение такого языка эквивалентно изучению множества различных случайных отображений, сложность растет линейно с количеством типов длин предложений. Это не тест на наличие UG смещений, а тест на способность запомнить множество произвольных отображений.

Случай 2: Частично инвертированный язык Mitchell & Bowers (2020)

Некоторые правила порядка слов систематически инвертированы, но остаются последовательными. Результаты: LMs легко изучают такие языки, что указывает на то, что они не обладают индуктивными смещениями, исключающими такие языки.

Связанные работы

Теории языкового усвоения

1. Универсальная грамматика Хомского (UG)

  • Люди обладают врожденными языковыми индуктивными смещениями
  • Ограничения UG ограничивают структуру возможных человеческих языков
  • Позволяют детям быстро изучать язык

2. Теория статистического обучения

  • Подчеркивает извлечение статистических закономерностей из входных данных
  • LMs рассматриваются как кульминация статистического обучения

Сравнительные исследования LMs и человеческого языкового усвоения

Исследования, поддерживающие LMs

  • F&M и цитируемые ими исследования утверждают, что LMs демонстрируют предпочтения в изучении, подобные человеческим

Исследования, критикующие LMs

  • Mitchell & Bowers (2020): первое систематическое демонстрирование способности LMs изучать невозможные языки
  • Chomsky et al. (2023): критика LMs за отсутствие способности различать возможные и невозможные языки
  • Bowers (2025a): подчеркивание того, что эффективность использования данных LMs намного ниже, чем у людей

Позиция данной статьи

Статья занимает позицию традиционной лингвистики Хомского, опровергая последние аргументы лагеря коннекционизма/статистического обучения посредством переанализа эмпирических исследований.

Заключение и обсуждение

Основные выводы

  1. Эмпирические доказательства не поддерживают точку зрения F&M: LMs часто одинаково легко изучают как естественные языки, так и невозможные языки
  2. Сложные для изучения "невозможные языки" являются сложными/случайными: трудность изучения проистекает из сложности, а не из нарушения UG
  3. LMs не обладают человеческими индуктивными смещениями: объединяя доказательства легкого изучения невозможных языков и низкой эффективности использования данных, модели обучения LMs принципиально отличаются от человеческих
  4. "Отсутствие бесплатного обеда" не может служить подтверждающим доказательством: плохая производительность LMs на некоторых языках неизбежна и не может доказать наличие у них человеческих смещений
  5. LMs не являются надлежащей моделью человеческого языкового усвоения: текущий способ обучения LMs именно таков, какого следует ожидать при отсутствии врожденных человеческих языковых смещений

Ограничения

Ограничения самой статьи

  1. Отсутствие новых эмпирических данных: основано исключительно на обзоре литературы без проведения новых экспериментов
  2. Нечеткое определение невозможных языков: различные исследования используют различные операциональные определения "невозможных языков"
  3. Отсутствие глубокого анализа механизмов: не подробно анализируется, почему LMs способны изучать невозможные языки
  4. Ограниченный размер выборки: рассмотренное количество исследований относительно невелико (в основном 5 недавних статей)

Ограничения исследовательской области

  1. Экологическая валидность невозможных языков: искусственно созданные невозможные языки могут не полностью отражать ограничения UG
  2. Разнообразие LMs: LMs различных архитектур могут демонстрировать различную производительность, но статья не полностью это различает
  3. Проблемы измерения: остается спорным, как точно измерить "сложность изучения"

Будущие направления

Направления, явно предложенные в статье

  1. Более строгий дизайн невозможных языков: требуется более точная операционализация нарушений UG
  2. Исследование механизмов: понимание внутренних представлений и процессов, посредством которых LMs изучают невозможные языки

Подразумеваемые направления исследований

  1. Сравнение между моделями: систематическое сравнение индуктивных смещений LMs различных архитектур
  2. Исследование траектории развития: сравнение кривых обучения LMs и детей
  3. Гибридные модели: исследование способов интеграции лингвистических априорных знаний в LMs
  4. Нейронаучная верификация: использование нейровизуализации для проверки нейронных механизмов обработки человеком невозможных языков

Глубокая оценка

Преимущества

1. Высокая теоретическая ясность

  • Четко различает "сложность" и "невозможность", что является ключевым концептуальным уточнением
  • Правильно применяет "теорему об отсутствии бесплатного обеда", выявляя логические ошибки

2. Глубокий анализ литературы

  • Не просто читает выводы цитируемых работ, но глубоко анализирует их экспериментальный дизайн и данные
  • Выявляет проблемы избирательного цитирования и неправильного толкования F&M

3. Строгие логические аргументы

  • Использует логику опровержения: успешное изучение невозможных языков опровергает то, что LMs являются моделью человеческого языкового усвоения
  • Указывает на асимметрию в аргументации противников: сложность изучения некоторых языков не может подтвердить наличие человеческих смещений

4. Академическая честность

  • Признает проблемы с материалами, указанные самими авторами Xu et al.
  • Справедливо представляет точки зрения всех сторон

5. Значительное теоретическое значение

  • Затрагивает центральные споры в лингвистике: врожденное vs. приобретенное, UG vs. статистическое обучение
  • Имеет значение для области AI: понимание границ возможностей LMs

Недостатки

1. Слабая эмпирическая база

  • Отсутствие новых данных: полностью зависит от переинтерпретации исследований других авторов
  • Возможная избирательность: хотя критикует F&M за избирательное цитирование, собственный выбор литературы также может быть предвзятым
  • Отсутствие количественного синтеза: не проводит метаанализ или систематический количественный обзор

2. Недостаточная операционализация концепций

  • Нечеткое определение "невозможных языков": различные исследования используют различные определения, статья недостаточно обсуждает эту проблему
  • Неясные стандарты "легко изучаемых" vs "сложно изучаемых": не предоставляет явные количественные стандарты
  • Измерение "сложности": как количественно измерить сложность языка?

3. Ограничения аргументации

  • Аргумент о детерминированной перестановке: хотя указывает на сложность, остается спорным, полностью ли эта сложность не связана с нарушением UG
  • Применимость "теоремы об отсутствии бесплатного обеда": эта теорема применима к задачам оптимизации, прямое применение к языковому усвоению требует дополнительных аргументов
  • Неучет альтернативных объяснений: LMs могут обладать другими типами индуктивных смещений (например, предпочтение локальности), которые просто отличаются от UG

4. Отсутствие глубокого анализа механизмов

  • Анализ "черного ящика": судит только по входам и выходам, не анализирует внутренние представления LMs
  • Отсутствие конструктивных предложений: критика преобладает над конструктивностью, не предлагает способы улучшения LMs

5. Выраженный полемический характер

  • Четкая позиция: явно занимает сторону Хомского, что может влиять на объективность
  • Жесткая критика работ противников: использует такие выражения как "неправильное толкование", "ошибка" и т.д., академический тон может быть более мягким

6. Размер выборки и репрезентативность

  • Рассмотрено только 5 основных статей: размер выборки относительно мал
  • Узкое временное окно: в основном исследования 2020-2025 годов
  • Однородность типов моделей: в основном сосредоточено на Transformer-подобных LMs

Оценка влияния

Вклад в область

  1. Теоретическое уточнение: важное концептуальное различие (сложность vs. невозможность)
  2. Методологический вклад: указание на распространенные ошибки в экспериментальном дизайне
  3. Продвижение дебатов: будет способствовать более строгому экспериментальному дизайну и более глубокому теоретическому обсуждению

Потенциальное влияние

  • Краткосрочное: вероятно, вызовет ответы от F&M и связанных исследователей, продвигая академический диалог
  • Среднесрочное: побудит исследователей разрабатывать более строгие эксперименты с невозможными языками
  • Долгосрочное: может повлиять на оценку места LMs в когнитивной науке

Практическая ценность

  • Для исследований AI: понимание индуктивных смещений LMs имеет ценность для улучшения моделей
  • Для образования: если способ обучения LMs отличается от человеческого, его нельзя напрямую использовать для моделирования языкового обучения

Воспроизводимость

  • Высокая: статья в основном представляет обзор литературы, все цитируемые исследования опубликованы, читатели могут проверить анализ авторов

Применимые сценарии

Целевые группы читателей

  1. Теоретические лингвисты: интересующиеся теорией UG и языковым усвоением
  2. Компьютерные лингвисты: исследующие возможности и ограничения LMs
  3. Когнитивные ученые: интересующиеся вычислительными моделями человеческой обработки языка
  4. Исследователи AI: размышляющие о том, как улучшить индуктивные смещения LMs

Применимые сценарии исследований

  1. Разработка экспериментов с невозможными языками: предоставляет важные методологические рекомендации
  2. Оценка когнитивной адекватности LMs: предоставляет теоретическую структуру
  3. Лингвистические теоретические дебаты: предоставляет поддержку позиции врожденности

Неприменимые сценарии

  1. Инженерные приложения: ограниченная помощь для практического применения LMs
  2. Нелингвистические области: аргументация специфична для языкового усвоения

Ключевые ссылки

Основные работы в дебатах

  1. Chomsky et al. (2023): "The False Promise of ChatGPT" - классическая критика LMs Хомским
  2. Futrell & Mahowald (2025): целевая статья для комментария, представляющая точку зрения, поддерживающую LMs

Ключевые эмпирические исследования

  1. Mitchell & Bowers (2020): первое систематическое демонстрирование способности LMs изучать невозможные языки
  2. Kallini et al. (2024): "Mission: Impossible language models" - одно из наиболее полных эмпирических исследований
  3. Yang et al. (2025): кросс-языковое исследование изучения невозможных языков

Теоретические основы

  1. Wolpert & Macready (2002): "No free lunch theorems" - фундаментальная теория машинного обучения
  2. McCoy & Griffiths (2025): исследование интеграции байесовских априорных вероятностей в LMs

Собственные работы авторов

  1. Bowers (2025a): систематический анализ эффективности использования данных LMs
  2. Bowers (2025b): комментарий к работе McCoy & Griffiths

Общая оценка

Это теоретически четко позиционированная, логически строгая, но с относительно слабой эмпирической базой комментарийная статья. Авторы посредством глубокого анализа существующей литературы убедительно оспаривают точку зрения о том, что "LMs обладают человеческими языковыми индуктивными смещениями", поддерживая традиционную позицию Хомского в лингвистике.

Наибольшая ценность заключается в концептуальном уточнении (различие между сложностью и невозможностью) и логическом анализе (применение логики опровержения и "теоремы об отсутствии бесплатного обеда"), что имеет важное методологическое значение для данной области.

Основные ограничения заключаются в отсутствии новых эмпирических данных и недостаточном анализе внутренних механизмов LMs. Для комментарийной статьи это понятно, но также ограничивает убедительность.

Данная статья будет способствовать углубленному обсуждению природы LMs в лингвистике и области AI, продвигая более строгий экспериментальный дизайн, однако может не сразу изменить фундаментальные позиции обеих сторон дебатов. Разрешение этого спора, вероятно, потребует дополнительных эмпирических исследований, более точных теоретических структур и, возможно, независимых доказательств из нейронауки.

Рекомендуемая оценка: ⭐⭐⭐⭐ (4/5)

  • Теоретический вклад: ⭐⭐⭐⭐⭐
  • Эмпирическая адекватность: ⭐⭐⭐
  • Методологическая инновативность: ⭐⭐⭐
  • Практическая ценность: ⭐⭐⭐
  • Качество написания: ⭐⭐⭐⭐