2025-11-17T03:40:13.370820

Studies with impossible languages falsify LMs as models of human language

Bowers, Mitchell

According to Futrell and Mahowald [arXiv:2501.17047], both infants and language models (LMs) find attested languages easier to learn than impossible languages that have unnatural structures. We review the literature and show that LMs often learn attested and many impossible languages equally well. Difficult to learn impossible languages are simply more complex (or random). LMs are missing human inductive biases that support language acquisition.

academic

Studies with impossible languages falsify LMs as models of human language

基本信息

论文ID: 2511.11389
标题: Studies with impossible languages falsify LMs as models of human language
作者: Jeffrey S. Bowers (University of Bristol), Jeff Mitchell (University of Sussex)
分类: cs.CL (Computational Linguistics)
论文类型: Commentary on Futrell & Mahowald (in press), Behavioural and Brain Sciences
论文链接: https://arxiv.org/abs/2511.11389

摘要

本文是对Futrell和Mahowald (F&M)关于语言模型与人类语言学习的论文的评论。F&M声称婴儿和语言模型(LMs)都发现真实语言比具有非自然结构的"不可能语言"更容易学习。作者通过文献综述表明，LMs经常能够同样轻松地学习真实语言和许多不可能语言。那些难以学习的不可能语言仅仅是更复杂或随机的。作者认为LMs缺乏支持人类语言习得的归纳偏置(inductive biases)。

研究背景与动机

核心问题

本文聚焦于一个根本性的理论问题：语言模型(LMs)是否是人类语言习得的适当模型？

问题的重要性

语言习得的速度之谜：婴儿能够以惊人的速度学习语言，这是语言习得模型面临的核心挑战
理论争论的焦点：Chomsky的普遍语法(Universal Grammar, UG)理论认为人类拥有先天的语言归纳偏置，这不仅约束所有真实语言的结构，还使儿童能够快速学习
LMs的挑战：如ChatGPT等大型语言模型缺乏类人的先验知识，却能在多种语言任务上表现出色，引发了对传统语言学理论的挑战

现有方法的局限性

F&M的观点：声称LMs和人类一样，发现真实语言比不可能语言更容易学习，暗示LMs具有与人类语言对齐的归纳偏置
Chomsky的批判：认为LMs能够同样容易地学习人类可能和不可能的语言，这是其作为人类语言模型的最深层缺陷
文献解读的分歧：对相同研究的不同解读导致了相反的结论

研究动机

作者旨在通过系统性文献综述，澄清关于LMs学习不可能语言能力的实证证据，挑战F&M的观点，支持Chomsky关于LMs缺乏人类语言归纳偏置的论断。

核心贡献

系统性文献综述：对近期关于LMs学习不可能语言的研究进行全面回顾和重新分析
澄清实证证据：揭示F&M对现有研究的误读，指出LMs实际上能够轻松学习许多不可能语言
理论辨析：区分"难以学习"与"结构复杂/随机"，论证难学的不可能语言仅仅是更复杂或随机的
支持Chomsky论断：提供证据表明LMs缺乏人类特有的语言学习归纳偏置
方法论批判：指出"无免费午餐定理"的适用性，论证LMs在某些语言上表现差并不令人惊讶

方法详解

任务定义

本文不是提出新方法，而是进行批判性文献综述。核心任务是：

输入：近期关于LMs学习不可能语言的实证研究
输出：对这些研究的系统性重新解读和理论分析
目标：评估LMs是否真的像人类一样难以学习不可能语言

分析框架

1. 不可能语言的定义

真实语言(Attested Languages)：人类实际使用的自然语言
不可能语言(Impossible Languages)：违反普遍语法约束的人工构造语言，如词序完全颠倒的语言
复杂/随机语言：缺乏结构或包含多种随机规则的语言

2. 评估标准

作者采用以下标准评估LMs的学习表现：

学习速度：LMs学习不同类型语言所需的训练数据量
最终性能：LMs在不同语言上达到的最终表现
对比分析：真实语言 vs. 不可能语言 vs. 随机/复杂语言

3. 理论框架

Chomsky的预测：如果LMs缺乏UG，它们应该能够同样容易地学习不可能语言
F&M的反驳：声称LMs表现出与人类一致的学习偏好
"无免费午餐定理"：任何在某类数据上表现好的学习算法必然在其他数据上表现差

技术创新点

本文的创新不在于技术方法，而在于理论分析的深度：

区分语言类型：明确区分"违反UG的不可能语言"与"随机/复杂语言"
重新解读实证结果：指出F&M等人混淆了语言的复杂性与语言的可能性
理论一致性检验：用"无免费午餐定理"论证LMs在某些语言上表现差是必然的，不能作为支持其具有类人归纳偏置的证据

实验设置

本文不包含新的实验，而是对已发表研究的重新分析。作者系统回顾了以下研究：

回顾的研究

1. Kallini et al. (2024)

实验设计：测试LMs学习英语和多种不可能语言的能力
F&M的解读：LMs学习真实英语文本始终快于基线不可能语言
作者的重新分析：
- 虽然报告了两种难学的不可能语言，但多种不可能语言几乎与英语一样容易学习
- 包括Mitchell & Bowers (2020)设计的一种不可能语言
- 最难学的不可能语言是随机词序打乱（无结构可学）
- 另一种难学语言是确定性随机打乱（不同句长使用不同打乱规则，相当于学习多种随机语言）

2. Yang et al. (2025)

实验设计：评估LMs在多种不可能语言上的表现，包括确定性打乱语言
发现：多种不可能语言容易学习，随机打乱语言困难
作者批评：作者错误地认为Chomsky预测LMs应该能够学习随机打乱语言，但学习多种不同的随机语言（针对不同句长）在任何理论下都是困难的

3. Xu et al. (2025)

实验设计：变化语言的合理性(plausibility)而非不可能性
发现：LMs在某些不合理语言上困难，但在其他情况下容易学习
作者注意到的问题：研究者自己承认材料构造可能存在错误，导致反事实语料库中的噪声增加

4. Ziv et al. (2025)

发现：报告了多种LMs能够轻松学习的不可能语言，包括部分颠倒语言（复制了Mitchell & Bowers, 2020的结果）

5. Lou et al. (2024)（未被F&M引用）

发现：LMs可以轻松学习完全颠倒的语言

数据汇总

研究	易学的不可能语言	难学的语言类型	关键问题
Kallini et al.	多种，包括MB2020的语言	随机打乱、确定性多重打乱	难学语言是随机/复杂的
Yang et al.	多种	确定性多重打乱	混淆复杂性与不可能性
Xu et al.	部分不合理语言	部分不合理语言	材料构造可能有误
Ziv et al.	部分颠倒语言等	-	支持Chomsky观点
Lou et al.	完全颠倒语言	-	支持Chomsky观点

实验结果

主要发现

1. LMs经常能够轻松学习不可能语言

Mitchell & Bowers (2020)设计的不可能语言被证实容易学习
部分颠倒语言（Ziv et al., 2025）容易学习
完全颠倒语言（Lou et al., 2024）容易学习
Kallini et al.和Yang et al.都报告了多种易学的不可能语言

2. 难学的"不可能语言"实际上是复杂/随机语言

完全随机打乱：没有任何结构可学习
确定性多重打乱：需要学习多种不同的随机映射规则（每个句长一种）
这些语言的难度来自复杂性和随机性，而非违反UG

3. 数据效率的巨大差异

作者引用Bowers (2025a)指出：

LMs需要比婴儿多几个数量级的训练数据
这与缺乏人类归纳偏置一致

4. 诱导UG的尝试效果有限

McCoy & Griffiths (2025)尝试将贝叶斯先验蒸馏到LMs中：

未能显著提高数据效率（Bowers, 2025b）

理论分析

"无免费午餐定理"的应用

作者引用Wolpert & Macready (2002)的理论：

核心观点：在某类数据上表现好的学习算法必然在其他数据上表现差
推论：LMs在某些语言（如随机打乱）上表现差是必然的，不需要实证确认
关键区分：在某些语言上表现差≠具有类人归纳偏置
证伪逻辑：成功学习某些不可能语言证伪了LMs是人类语言学习的适当模型

案例分析

案例1：Kallini et al.的确定性打乱语言

原始句子（长度5）：The cat sat on mat
打乱规则1（长度5）：cat The on sat mat
原始句子（长度6）：The big cat sat on mat
打乱规则2（长度6）：big The sat cat mat on

分析：学习这种语言相当于学习多个不同的随机映射，复杂性随句长种类线性增长。这不是测试UG偏置，而是测试记忆多个任意映射的能力。

案例2：Mitchell & Bowers (2020)的部分颠倒语言

某些词序规则被系统性颠倒，但保持一致性。发现：LMs能够轻松学习，说明它们缺乏排除这类语言的归纳偏置。

结论与讨论

主要结论

实证证据不支持F&M的观点：LMs经常能够同样轻松地学习真实语言和不可能语言
难学的"不可能语言"是复杂/随机的：学习困难源于复杂性而非违反UG
LMs缺乏人类归纳偏置：结合易学不可能语言和低数据效率的证据，LMs的学习模式与人类根本不同
"无免费午餐"不能作为支持证据：LMs在某些语言上表现差是必然的，不能证明其具有类人偏置
LMs不是人类语言习得的适当模型：当前LMs的学习方式正是缺乏人类先天语言偏置所预期的

局限性

论文自身的局限

未提供新实证数据：仅基于文献综述，未进行新的实验验证
不可能语言的定义模糊：不同研究对"不可能语言"的操作化定义不一致
未深入探讨机制：未详细分析为何LMs能学习不可能语言的内部机制
样本量有限：回顾的研究数量相对较少（主要是5篇近期论文）

研究领域的局限

不可能语言的生态效度：人工构造的不可能语言可能无法完全捕捉UG的约束
LMs的多样性：不同架构的LMs可能表现不同，但论文未充分区分
测量问题：如何准确测量"学习难度"仍有争议

未来方向

论文明确提出的方向

更严格的不可能语言设计：需要更精确地操作化UG违反
机制研究：理解LMs学习不可能语言的内部表征和过程

隐含的研究方向

跨模型比较：系统比较不同架构LMs的归纳偏置
发展轨迹研究：比较LMs和儿童的学习曲线
混合模型：探索如何将语言学先验知识整合到LMs中
神经科学验证：用脑成像研究验证人类处理不可能语言的神经机制

深度评价

优点

1. 理论清晰度高

明确区分"复杂性"与"不可能性"，这是关键的概念澄清
正确应用"无免费午餐定理"，揭示逻辑谬误

2. 文献分析深入

不仅阅读被引研究的结论，还深入分析其实验设计和数据
发现F&M选择性引用和误读的问题

3. 逻辑论证严密

使用证伪逻辑：成功学习不可能语言证伪LMs作为人类模型
指出对手论证的不对称性：某些语言难学不能证实类人偏置

4. 学术诚实

承认Xu et al.研究者自己指出的材料问题
公平呈现各方观点

5. 理论意义重大

触及语言学核心争论：先天vs.后天，UG vs.统计学习
对AI领域也有启示：LMs的能力边界

不足

1. 实证基础薄弱

未提供新数据：完全依赖对他人研究的重新解读
可能的选择性：虽然批评F&M选择性引用，但自己的文献选择也可能有偏
缺乏定量综合：未进行meta分析或系统性定量综述

2. 概念操作化不足

"不可能语言"定义模糊：不同研究使用不同定义，论文未充分讨论这一问题
"易学"vs"难学"的标准：未给出明确的定量标准
"复杂性"的度量：如何量化语言的复杂性？

3. 论证的局限性

确定性打乱语言的论证：虽然指出其复杂性，但这种复杂性是否与UG违反完全无关仍可争论
"无免费午餐"的适用性：该定理适用于优化问题，直接应用于语言学习需要更多论证
未考虑替代解释：LMs可能有其他类型的归纳偏置（如局部性偏好），只是不同于UG

4. 未深入探讨机制

黑箱分析：仅从输入输出判断，未分析LMs内部表征
缺乏建设性方案：批评有余，建设不足，未提出如何改进LMs

5. 论战色彩较重

立场鲜明：明显站在Chomsky一方，可能影响客观性
对对手研究的批评较严厉：如指出"误读"、"错误"等，学术争论的语气可以更温和

6. 样本量和代表性

仅回顾5篇主要论文：样本量较小
时间窗口窄：主要是2020-2025年的研究
模型类型单一：主要关注Transformer类LMs

影响力评估

对领域的贡献

理论澄清：重要的概念区分（复杂性vs.不可能性）
方法论贡献：指出实验设计中的常见陷阱
推动辩论：将促进更严格的实验设计和更深入的理论讨论

潜在影响

短期：可能引发F&M及相关研究者的回应，推动学术辩论
中期：促使研究者设计更严格的不可能语言实验
长期：可能影响对LMs在认知科学中地位的评估

实用价值

对AI研究的启示：理解LMs的归纳偏置对改进模型有价值
对教育的启示：如果LMs学习方式与人类不同，不能直接用于模拟语言教学

可复现性

高：论文主要是文献综述，所有引用的研究都已发表，读者可以验证作者的分析

适用场景

适合的读者群体

理论语言学家：关心UG和语言习得理论
计算语言学家：研究LMs的能力和局限
认知科学家：关心人类语言处理的计算模型
AI研究者：思考如何改进LMs的归纳偏置

适用的研究场景

设计不可能语言实验：提供了重要的方法论指导
评估LMs的认知合理性：提供了理论框架
语言学理论争论：为先天论提供支持

不适用的场景

工程应用：对实际应用LMs帮助有限
非语言领域：论证特定于语言学习

参考文献（重点）

核心争论文献

Chomsky et al. (2023): "The False Promise of ChatGPT" - Chomsky对LMs的经典批判
Futrell & Mahowald (2025): 被评论的目标论文，代表支持LMs的观点

关键实证研究

Mitchell & Bowers (2020): 首次系统展示LMs学习不可能语言的研究
Kallini et al. (2024): "Mission: Impossible language models" - 最全面的实证研究之一
Yang et al. (2025): 跨语言的不可能语言学习研究

理论基础

Wolpert & Macready (2002): "No free lunch theorems" - 机器学习的基础理论
McCoy & Griffiths (2025): 尝试将贝叶斯先验整合到LMs的研究

作者自己的相关工作

Bowers (2025a): LMs数据效率的系统分析
Bowers (2025b): 对McCoy & Griffiths的评论

总体评价

这是一篇理论立场鲜明、论证逻辑严密、但实证基础相对薄弱的评论性论文。作者通过深入分析现有文献，有力地挑战了"LMs具有类人语言归纳偏置"的观点，支持Chomsky的传统语言学立场。

最大价值在于其概念澄清（区分复杂性与不可能性）和逻辑分析（应用证伪逻辑和"无免费午餐定理"），这对该领域的方法论有重要贡献。

主要局限在于缺乏新的实证数据和对LMs内部机制的深入分析。作为一篇评论文章，这是可以理解的，但也限制了其说服力。

该论文将促进语言学和AI领域关于LMs本质的深入讨论，推动更严格的实验设计，但可能不会立即改变两个阵营的基本立场。这场争论的解决可能需要更多的实证研究、更精确的理论框架，以及可能来自神经科学的独立证据。

推荐指数: ⭐⭐⭐⭐ (4/5)

理论贡献：⭐⭐⭐⭐⭐
实证充分性：⭐⭐⭐
方法创新性：⭐⭐⭐
实用价值：⭐⭐⭐
写作质量：⭐⭐⭐⭐