本論文はBabyBabelLMを提案しており、これは人間が出生から母語習得期間に接する言語環境をシミュレートすることを目的とした多言語データセット集合である。研究者らは発達的に妥当な事前学習データを慎重に策定し、45言語それぞれに対して英語1億語相当のコンテンツを提供することを目標とした。同時に評価スイートを編集し、各言語のベースラインモデルを訓練した。BabyBabelLMは多言語事前学習と認知モデリング研究を促進することを目的としている。
現在の言語モデル研究は主にスケーリングに焦点を当てており、より大規模なモデルとより多くの訓練データを追求しているが、この傾向は言語学習の本質的な問題を見落としている。人間は乳幼児期から成人期にかけて、1億英語単語未満に接することで言語能力を習得するが、これは10万兆以上の語彙を必要とする現代の言語モデルとは数桁の差がある。
各言語のデータ収集は、その言語に精通した研究者が担当し、データ品質と文化的適応性を確保する。
言語責任者が具体的な言語とデータニーズに基づいて初期処理を実施。
本研究は多言語言語モデル研究と認知言語学の交差領域に重要な貢献をなし、持続的に発展する研究プラットフォームを確立し、人間の言語習得メカニズムの深入理解を推進することが期待される。