2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

academic

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

基本信息

论文ID: 2510.10159
标题: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
作者: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck等27位作者
分类: cs.CL (计算语言学)
发表时间: 2025年10月11日提交至arXiv
论文链接: https://arxiv.org/abs/2510.10159

摘要

本文提出了BabyBabelLM，这是一个多语言数据集集合，旨在模拟人类从出生到获得母语期间所接触的语言环境。研究者精心策划了发展上合理的预训练数据，目标是为45种语言各提供相当于1亿英语单词的内容。同时编制了评估套件并为每种语言训练了基线模型。BabyBabelLM旨在促进多语言预训练和认知建模研究。

研究背景与动机

问题定义

当前语言模型研究主要关注规模扩展，追求更大的模型和更多的训练数据，但这种趋势忽略了语言学习的本质问题。人类从婴儿期到成年期通过接触少于1亿个英语单词就能获得语言能力，这与需要超过10万亿词汇的现代语言模型形成了数个数量级的差异。

研究动机

数据效率问题：探索在有限数据预算下如何实现高效的语言建模
发展合理性：研究符合人类语言习得过程的训练数据组成
多语言覆盖：扩展BabyLM挑战赛的范围，从英语扩展到多语言环境
认知建模：为理解人类语言习得与语言模型学习的关系提供资源

现有方法局限性

BabyLM挑战赛仅限于英语，缺乏跨语言验证
缺乏系统性的多语言发展合理数据集
现有研究多为单独努力，缺乏协调一致的数据收集标准
评估资源在不同语言间分布不均

核心贡献

构建了覆盖45种语言的发展合理预训练数据集，按数据量分为三个等级（100M、10M、1M英语等效词汇）
提供了开源的数据扩展管道，支持社区添加新语言和扩展现有数据集
编制了全面的多语言评估套件，涵盖正式和功能语言能力
训练了45个单语言模型、7个双语言模型和1个多语言模型作为基线
建立了社区驱动的协作框架，促进持续的数据集扩展和改进

方法详解

数据收集原则

发展合理性标准

儿童导向语言(CDS)：成人对儿童说话的转录
教育材料：面向儿童的教科书和考试内容
儿童媒体：儿童书籍、儿童维基、儿童新闻
字幕内容：适合儿童的电影/电视节目字幕
排除合成数据：避免使用TinyStories等人工生成的内容

社区驱动的数据领导

每种语言的数据收集由熟悉该语言的研究者负责，确保数据质量和文化适应性。

数据集组成

数据类别

转录数据(Transcription)
- 儿童导向语言：CHILDES数据库中的看护者-儿童互动
- 儿童可接触语言：成人对话，儿童可能无意中听到
教育内容(Education)
- 面向儿童的教科书、考试材料
- 提供直接指导，补充CDS的形式语言模式
书籍、维基、新闻(Books, Wiki, News)
- 儿童书籍、儿童维基文章、儿童新闻
- 包含更复杂的句子结构和多样化词汇
字幕(Subtitles)
- 儿童适宜的电影/电视节目字幕
- QED语料库中的教育内容字幕
填充数据(Padding)
- OpenSubtitles语料库（过滤不适宜内容）
- FineWeb-C和维基百科数据作为后备

语言分层

第一层(Tier 1)：9种语言，约1亿英语等效词汇
第二层(Tier 2)：15种语言，约1000万英语等效词汇
第三层(Tier 3)：21种语言，约100万英语等效词汇

数据预处理

语言特定预处理

由语言负责人根据具体语言和数据需求进行初步处理。

统一处理管道

标准化：Unicode、空白符、标点符号规范化
类别特定处理：
- 对话转录：移除语言学标注
- 字幕数据：移除说话者标签、音乐符号、舞台指示
- 书籍格式：移除XML标签和URL
语言验证：使用GlotLID v3进行语言识别和验证

实验设置

模型配置

单语言模型：GPT-2架构，4个transformer层，8个注意力头，隐藏维度512
双语言模型：结合目标语言和英语数据（共200M词汇）
多语言模型：12层，隐藏维度768，词汇表32,768，111M参数
词汇表大小：8,192（单语言），32,768（多语言）
训练策略：BPE分词，10个epoch（单语言），5个epoch（双语言），1个epoch（多语言）

评估框架

正式语言能力

MonoBLiMP：语言特定的最小对比基准
MultiBLiMP：基于Universal Dependencies的大规模最小对比数据集
CLAMS：跨语言主谓一致性基准

功能语言能力

知识型任务：Global-MMLU, INCLUDE, BM-LAMA
推理型任务：XNLI, HellaSwag, Belebele, ARC, XCOPA等

评估方式

零样本评估：基于模型输出概率的最小对比较
微调评估：分类和问答任务，最多8000个训练样本，10个epoch

对比方法

基线模型：随机性能
对比模型：Qwen3-0.6B（规模适中的多语言模型）
架构对比：GPT-BERT vs GPT-2

实验结果

主要结果

单语言模型性能

MultiBLiMP任务：第一层语言通常超过80%准确率，显示出良好的语法学习能力
其他基准：大多数任务性能接近随机水平，反映了数据规模限制
数据规模影响：第一层>第二层>第三层，显示数据量对性能的重要影响

多语言 vs 单语言对比

MultiBLiMP：单语言模型通常优于多语言模型，除4个第三层语言外
Belebele：两种模型都接近随机水平，而Qwen表现显著更好
整体趋势：Qwen在大多数任务上超越本文模型，但在8种语言上本文多语言模型更强

双语言模型效果

知识密集型任务：SIB-200, BM-LAMA, XCOMPS, INCLUDE显示一致的性能提升
语法任务：MultiBLiMP性能基本不变，表明句法能力对双语输入不太敏感
特殊案例：荷兰语在INCLUDE任务上略有下降，可能由于领域不匹配

消融实验

架构对比(GPT-2 vs GPT-BERT)

GPT-2模型在SIB-200和MultiBLiMP任务上一致优于GPT-BERT
结果表明在当前配置下GPT-2架构更适合小规模数据训练

语言覆盖分析

第一层语言：中文、法语、保加利亚语等，拥有相对丰富的发展合理数据
第二层语言：日语、塞尔维亚语、粤语等，数据量适中
第三层语言：多为资源稀缺语言，主要依赖多语言资源填充

相关工作

BabyLM挑战赛

第一版：10M和100M词汇的英语语料，39%发展合理数据
第二版：提高到70%儿童导向数据
评估方式：零样本最小对比和微调评估

多语言扩展努力

Salhan等(2024)：法语、德语、日语、中文的习得启发课程学习
Prévot等(2024)：英语和法语的自发语音语料研究
Matzopoulos等(2025)：isiXhosa的BabyLM研究，突出低资源语言挑战

现有多语言资源

CHILDES：40多种语言的儿童-成人互动数据库
MAO-CHILDES：5种语言的年龄排序数据集
IPA-CHILDES：31种语言的音素化语料库

结论与讨论

主要结论

可行性验证：成功构建了45种语言的发展合理数据集，证明了多语言BabyLM研究的可行性
数据量影响：更多的发展合理数据确实能提升语法学习能力，特别是在MultiBLiMP任务上
双语言效益：在知识密集型任务上，双语言训练带来一致的性能提升
架构选择：在小规模数据设置下，GPT-2架构优于GPT-BERT

局限性

语言覆盖不均：尽管涵盖45种语言，但非洲语言和小语种仍然代表性不足
数据组成差异：不同语言的发展合理数据比例差异较大，可能影响跨语言比较
评估资源限制：缺乏覆盖所有语言的标准化评估基准
数据近似性：数据集只是对真实儿童语言输入的粗略近似

未来方向

扩展语言覆盖：特别是非洲语言和其他低资源语言
改进数据质量：收集更多高质量的儿童导向语言数据
标准化评估：开发跨语言一致的评估框架
多语言能力研究：深入研究双语和多语言习得机制

深度评价

优点

系统性贡献：首次系统性地构建了大规模多语言发展合理数据集
社区导向：建立了可持续的社区驱动数据收集框架
方法论严谨：采用字节溢价方法确保跨语言数据量的可比性
开放性强：提供完整的数据、代码和模型，促进可复现研究
实用价值高：为多语言认知建模和数据效率研究提供重要资源

不足

数据质量不一：不同语言的发展合理数据比例差异较大
模型性能有限：基线模型在多数任务上性能接近随机水平
评估覆盖不全：部分语言缺乏充分的评估基准
理论分析不足：对为什么某些语言或任务表现更好缺乏深入分析

影响力

领域贡献：填补了多语言发展合理数据集的空白，推动相关研究发展
实用价值：为低资源语言的语言模型研究提供重要起点
可复现性：完整的开源资源确保研究的可复现和可扩展性
社区建设：建立了可持续的协作框架，促进长期发展

适用场景

认知语言学研究：探索人类语言习得与机器学习的关系
低资源语言建模：为资源稀缺语言提供训练起点
多语言教育：支持双语和多语言学习研究
数据效率研究：在有限数据预算下的模型训练策略研究

技术创新点

数据收集创新

字节溢价校准：使用UTF-8编码大小调整不同语言的数据量，确保公平比较
分层数据组织：根据可用数据量将语言分为三层，平衡覆盖面和数据质量
社区驱动质量控制：每种语言由母语或熟练使用者负责，确保文化和语言适应性

评估框架创新

双模式评估：结合零样本和微调评估，全面测试模型能力
跨语言一致性：使用MultiBLiMP等工具确保评估的跨语言可比性
能力分类评估：区分正式语言能力和功能语言能力的评估

开放科学实践

完整资源发布：数据、代码、模型全部开源
可扩展设计：提供标准化管道支持社区贡献
透明文档：详细的数据来源、许可和预处理信息

这项工作为多语言语言模型研究和认知语言学交叉领域做出了重要贡献，建立了一个可持续发展的研究平台，有望推动对人类语言习得机制的深入理解。