2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

academic

BabyBabelLM: 발달 적절성을 갖춘 다국어 훈련 데이터 벤치마크

기본 정보

논문 ID: 2510.10159
제목: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
저자: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck 등 27명
분류: cs.CL (계산언어학)
제출 일시: 2025년 10월 11일 (arXiv)
논문 링크: https://arxiv.org/abs/2510.10159

초록

본 논문은 BabyBabelLM을 제시하며, 이는 인간이 출생부터 모국어 습득까지 접하는 언어 환경을 모방하도록 설계된 다국어 데이터셋 모음입니다. 연구자들은 45개 언어 각각에 대해 약 1억 개의 영어 단어에 해당하는 발달 적절성을 갖춘 사전훈련 데이터를 신중하게 구성했습니다. 동시에 평가 스위트를 편집하고 각 언어에 대한 기준 모델을 훈련했습니다. BabyBabelLM은 다국어 사전훈련 및 인지 모델링 연구를 촉진하기 위해 고안되었습니다.

연구 배경 및 동기

문제 정의

현재 언어 모델 연구는 주로 규모 확장에 초점을 맞추고 있으며, 더 큰 모델과 더 많은 훈련 데이터를 추구하고 있습니다. 그러나 이러한 추세는 언어 학습의 본질적인 문제를 간과하고 있습니다. 인간은 유아기부터 성인기까지 1억 개 미만의 영어 단어에 노출되어 언어 능력을 습득하는 반면, 현대 언어 모델은 10만 조 개 이상의 단어가 필요하여 수 개 자릿수의 차이가 발생합니다.

연구 동기

데이터 효율성 문제: 제한된 데이터 예산 하에서 효율적인 언어 모델링을 달성하는 방법 탐색
발달 적절성: 인간 언어 습득 과정과 일치하는 훈련 데이터 구성 연구
다국어 커버리지: BabyLM 챌린지의 범위를 영어에서 다국어 환경으로 확장
인지 모델링: 인간 언어 습득과 언어 모델 학습 간의 관계를 이해하기 위한 자원 제공

기존 방법의 한계

BabyLM 챌린지는 영어에만 제한되어 있으며 언어 간 검증이 부족함
체계적인 다국어 발달 적절성 데이터셋 부재
기존 연구는 대부분 독립적인 노력으로 조율된 데이터 수집 표준 부족
평가 자원이 언어 간에 불균등하게 분포

핵심 기여

45개 언어를 아우르는 발달 적절성 사전훈련 데이터셋 구축 - 데이터량에 따라 세 가지 등급(100M, 10M, 1M 영어 등가 단어)으로 분류
오픈소스 데이터 확장 파이프라인 제공 - 커뮤니티가 새로운 언어를 추가하고 기존 데이터셋을 확장할 수 있도록 지원
포괄적인 다국어 평가 스위트 편집 - 형식적 및 기능적 언어 능력을 포함
45개 단일언어 모델, 7개 이중언어 모델, 1개 다국어 모델 훈련 - 기준선으로 사용
커뮤니티 주도 협력 프레임워크 구축 - 지속적인 데이터셋 확장 및 개선 촉진

방법론 상세 설명

데이터 수집 원칙

발달 적절성 기준

아동 지향 언어(CDS): 성인이 아동에게 사용하는 언어의 전사본
교육 자료: 아동용 교과서 및 시험 내용
아동 미디어: 아동 도서, 아동 위키, 아동 뉴스
자막 콘텐츠: 아동 적합 영화/TV 프로그램 자막
합성 데이터 제외: TinyStories 같은 인공 생성 콘텐츠 회피

커뮤니티 주도 데이터 리더십

각 언어의 데이터 수집은 해당 언어에 정통한 연구자가 담당하여 데이터 품질과 문화적 적응성을 보장합니다.

데이터셋 구성

데이터 카테고리

전사 데이터(Transcription)
- 아동 지향 언어: CHILDES 데이터베이스의 보호자-아동 상호작용
- 아동 접근 가능 언어: 성인 대화로 아동이 우연히 들을 수 있는 내용
교육 콘텐츠(Education)
- 아동용 교과서, 시험 자료
- CDS의 형식적 언어 패턴을 보완하는 직접 지도 제공
도서, 위키, 뉴스(Books, Wiki, News)
- 아동 도서, 아동 위키 기사, 아동 뉴스
- 더 복잡한 문장 구조와 다양한 어휘 포함
자막(Subtitles)
- 아동 적합 영화/TV 프로그램 자막
- QED 코퍼스의 교육 콘텐츠 자막
채우기 데이터(Padding)
- OpenSubtitles 코퍼스(부적절한 콘텐츠 필터링)
- FineWeb-C 및 위키백과 데이터를 백업으로 사용

언어 계층화

1계층(Tier 1): 9개 언어, 약 1억 영어 등가 단어
2계층(Tier 2): 15개 언어, 약 1,000만 영어 등가 단어
3계층(Tier 3): 21개 언어, 약 100만 영어 등가 단어

데이터 전처리

언어별 전처리

언어 담당자가 특정 언어 및 데이터 요구사항에 따라 초기 처리를 수행합니다.

통합 처리 파이프라인

정규화: 유니코드, 공백, 구두점 정규화
카테고리별 처리:
- 대화 전사: 언어학적 주석 제거
- 자막 데이터: 화자 태그, 음악 기호, 무대 지시문 제거
- 도서 형식: XML 태그 및 URL 제거
언어 검증: GlotLID v3을 사용한 언어 식별 및 검증