本文是对Futrell和Mahowald (F&M)关于语言模型与人类语言学习的论文的评论。F&M声称婴儿和语言模型(LMs)都发现真实语言比具有非自然结构的"不可能语言"更容易学习。作者通过文献综述表明,LMs经常能够同样轻松地学习真实语言和许多不可能语言。那些难以学习的不可能语言仅仅是更复杂或随机的。作者认为LMs缺乏支持人类语言习得的归纳偏置(inductive biases)。
本文聚焦于一个根本性的理论问题:语言模型(LMs)是否是人类语言习得的适当模型?
作者旨在通过系统性文献综述,澄清关于LMs学习不可能语言能力的实证证据,挑战F&M的观点,支持Chomsky关于LMs缺乏人类语言归纳偏置的论断。
本文不是提出新方法,而是进行批判性文献综述。核心任务是:
作者采用以下标准评估LMs的学习表现:
本文的创新不在于技术方法,而在于理论分析的深度:
本文不包含新的实验,而是对已发表研究的重新分析。作者系统回顾了以下研究:
| 研究 | 易学的不可能语言 | 难学的语言类型 | 关键问题 |
|---|---|---|---|
| Kallini et al. | 多种,包括MB2020的语言 | 随机打乱、确定性多重打乱 | 难学语言是随机/复杂的 |
| Yang et al. | 多种 | 确定性多重打乱 | 混淆复杂性与不可能性 |
| Xu et al. | 部分不合理语言 | 部分不合理语言 | 材料构造可能有误 |
| Ziv et al. | 部分颠倒语言等 | - | 支持Chomsky观点 |
| Lou et al. | 完全颠倒语言 | - | 支持Chomsky观点 |
作者引用Bowers (2025a)指出:
McCoy & Griffiths (2025)尝试将贝叶斯先验蒸馏到LMs中:
作者引用Wolpert & Macready (2002)的理论:
原始句子(长度5):The cat sat on mat
打乱规则1(长度5):cat The on sat mat
原始句子(长度6):The big cat sat on mat
打乱规则2(长度6):big The sat cat mat on
分析:学习这种语言相当于学习多个不同的随机映射,复杂性随句长种类线性增长。这不是测试UG偏置,而是测试记忆多个任意映射的能力。
某些词序规则被系统性颠倒,但保持一致性。 发现:LMs能够轻松学习,说明它们缺乏排除这类语言的归纳偏置。
本文站在Chomsky传统语言学立场,通过重新分析实证研究,反驳连接主义/统计学习阵营的最新论证。
这是一篇理论立场鲜明、论证逻辑严密、但实证基础相对薄弱的评论性论文。作者通过深入分析现有文献,有力地挑战了"LMs具有类人语言归纳偏置"的观点,支持Chomsky的传统语言学立场。
最大价值在于其概念澄清(区分复杂性与不可能性)和逻辑分析(应用证伪逻辑和"无免费午餐定理"),这对该领域的方法论有重要贡献。
主要局限在于缺乏新的实证数据和对LMs内部机制的深入分析。作为一篇评论文章,这是可以理解的,但也限制了其说服力。
该论文将促进语言学和AI领域关于LMs本质的深入讨论,推动更严格的实验设计,但可能不会立即改变两个阵营的基本立场。这场争论的解决可能需要更多的实证研究、更精确的理论框架,以及可能来自神经科学的独立证据。
推荐指数: ⭐⭐⭐⭐ (4/5)