We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
- 논문 ID: 2510.10159
- 제목: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
- 저자: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck 등 27명
- 분류: cs.CL (계산언어학)
- 제출 일시: 2025년 10월 11일 (arXiv)
- 논문 링크: https://arxiv.org/abs/2510.10159
본 논문은 BabyBabelLM을 제시하며, 이는 인간이 출생부터 모국어 습득까지 접하는 언어 환경을 모방하도록 설계된 다국어 데이터셋 모음입니다. 연구자들은 45개 언어 각각에 대해 약 1억 개의 영어 단어에 해당하는 발달 적절성을 갖춘 사전훈련 데이터를 신중하게 구성했습니다. 동시에 평가 스위트를 편집하고 각 언어에 대한 기준 모델을 훈련했습니다. BabyBabelLM은 다국어 사전훈련 및 인지 모델링 연구를 촉진하기 위해 고안되었습니다.
현재 언어 모델 연구는 주로 규모 확장에 초점을 맞추고 있으며, 더 큰 모델과 더 많은 훈련 데이터를 추구하고 있습니다. 그러나 이러한 추세는 언어 학습의 본질적인 문제를 간과하고 있습니다. 인간은 유아기부터 성인기까지 1억 개 미만의 영어 단어에 노출되어 언어 능력을 습득하는 반면, 현대 언어 모델은 10만 조 개 이상의 단어가 필요하여 수 개 자릿수의 차이가 발생합니다.
- 데이터 효율성 문제: 제한된 데이터 예산 하에서 효율적인 언어 모델링을 달성하는 방법 탐색
- 발달 적절성: 인간 언어 습득 과정과 일치하는 훈련 데이터 구성 연구
- 다국어 커버리지: BabyLM 챌린지의 범위를 영어에서 다국어 환경으로 확장
- 인지 모델링: 인간 언어 습득과 언어 모델 학습 간의 관계를 이해하기 위한 자원 제공
- BabyLM 챌린지는 영어에만 제한되어 있으며 언어 간 검증이 부족함
- 체계적인 다국어 발달 적절성 데이터셋 부재
- 기존 연구는 대부분 독립적인 노력으로 조율된 데이터 수집 표준 부족
- 평가 자원이 언어 간에 불균등하게 분포
- 45개 언어를 아우르는 발달 적절성 사전훈련 데이터셋 구축 - 데이터량에 따라 세 가지 등급(100M, 10M, 1M 영어 등가 단어)으로 분류
- 오픈소스 데이터 확장 파이프라인 제공 - 커뮤니티가 새로운 언어를 추가하고 기존 데이터셋을 확장할 수 있도록 지원
- 포괄적인 다국어 평가 스위트 편집 - 형식적 및 기능적 언어 능력을 포함
- 45개 단일언어 모델, 7개 이중언어 모델, 1개 다국어 모델 훈련 - 기준선으로 사용
- 커뮤니티 주도 협력 프레임워크 구축 - 지속적인 데이터셋 확장 및 개선 촉진
- 아동 지향 언어(CDS): 성인이 아동에게 사용하는 언어의 전사본
- 교육 자료: 아동용 교과서 및 시험 내용
- 아동 미디어: 아동 도서, 아동 위키, 아동 뉴스
- 자막 콘텐츠: 아동 적합 영화/TV 프로그램 자막
- 합성 데이터 제외: TinyStories 같은 인공 생성 콘텐츠 회피
각 언어의 데이터 수집은 해당 언어에 정통한 연구자가 담당하여 데이터 품질과 문화적 적응성을 보장합니다.
- 전사 데이터(Transcription)
- 아동 지향 언어: CHILDES 데이터베이스의 보호자-아동 상호작용
- 아동 접근 가능 언어: 성인 대화로 아동이 우연히 들을 수 있는 내용
- 교육 콘텐츠(Education)
- 아동용 교과서, 시험 자료
- CDS의 형식적 언어 패턴을 보완하는 직접 지도 제공
- 도서, 위키, 뉴스(Books, Wiki, News)
- 아동 도서, 아동 위키 기사, 아동 뉴스
- 더 복잡한 문장 구조와 다양한 어휘 포함
- 자막(Subtitles)
- 아동 적합 영화/TV 프로그램 자막
- QED 코퍼스의 교육 콘텐츠 자막
- 채우기 데이터(Padding)
- OpenSubtitles 코퍼스(부적절한 콘텐츠 필터링)
- FineWeb-C 및 위키백과 데이터를 백업으로 사용
- 1계층(Tier 1): 9개 언어, 약 1억 영어 등가 단어
- 2계층(Tier 2): 15개 언어, 약 1,000만 영어 등가 단어
- 3계층(Tier 3): 21개 언어, 약 100만 영어 등가 단어
언어 담당자가 특정 언어 및 데이터 요구사항에 따라 초기 처리를 수행합니다.
- 정규화: 유니코드, 공백, 구두점 정규화
- 카테고리별 처리:
- 대화 전사: 언어학적 주석 제거
- 자막 데이터: 화자 태그, 음악 기호, 무대 지시문 제거
- 도서 형식: XML 태그 및 URL 제거
- 언어 검증: GlotLID v3을 사용한 언어 식별 및 검증
- 단일언어 모델: GPT-2 아키텍처, 4개 트랜스포머 층, 8개 주의 헤드, 숨겨진 차원 512
- 이중언어 모델: 목표 언어와 영어 데이터 결합(총 200M 단어)
- 다국어 모델: 12개 층, 숨겨진 차원 768, 어휘 크기 32,768, 111M 매개변수
- 어휘 크기: 8,192(단일언어), 32,768(다국어)
- 훈련 전략: BPE 토큰화, 10 에포크(단일언어), 5 에포크(이중언어), 1 에포크(다국어)
- MonoBLiMP: 언어별 최소 대조 벤치마크
- MultiBLiMP: Universal Dependencies 기반 대규모 최소 대조 데이터셋
- CLAMS: 언어 간 주-동사 일치 벤치마크
- 지식 기반 작업: Global-MMLU, INCLUDE, BM-LAMA
- 추론 기반 작업: XNLI, HellaSwag, Belebele, ARC, XCOPA 등
- 영샷 평가: 모델 출력 확률 기반 최소 대조 비교
- 미세조정 평가: 분류 및 질의응답 작업, 최대 8,000개 훈련 샘플, 10 에포크
- 기준선 모델: 무작위 성능
- 비교 모델: Qwen3-0.6B(규모가 적절한 다국어 모델)
- 아키텍처 비교: GPT-BERT vs GPT-2
- MultiBLiMP 작업: 1계층 언어는 일반적으로 80% 이상의 정확도 달성, 우수한 문법 학습 능력 시연
- 기타 벤치마크: 대부분의 작업 성능이 무작위 수준에 가까움, 데이터 규모 제한 반영
- 데이터 규모 영향: 1계층 > 2계층 > 3계층, 성능에 대한 데이터량의 중요성 입증
- MultiBLiMP: 단일언어 모델이 일반적으로 다국어 모델보다 우수(3계층 4개 언어 제외)
- Belebele: 두 모델 모두 무작위 수준에 가까운 반면 Qwen은 현저히 더 나은 성능
- 전체 추세: Qwen이 대부분의 작업에서 본 논문 모델을 초과하지만, 8개 언어에서는 본 논문의 다국어 모델이 더 강함
- 지식 집약적 작업: SIB-200, BM-LAMA, XCOMPS, INCLUDE에서 일관된 성능 향상 표시
- 문법 작업: MultiBLiMP 성능은 기본적으로 불변, 구문 능력이 이중언어 입력에 덜 민감함을 시사
- 특수 사례: 네덜란드어는 INCLUDE 작업에서 약간의 성능 저하, 도메인 불일치 가능성
- GPT-2 모델이 SIB-200 및 MultiBLiMP 작업에서 GPT-BERT보다 일관되게 우수
- 결과는 현재 구성에서 GPT-2 아키텍처가 소규모 데이터 훈련에 더 적합함을 시사
- 1계층 언어: 중국어, 프랑스어, 불가리아어 등 상대적으로 풍부한 발달 적절성 데이터 보유
- 2계층 언어: 일본어, 세르비아어, 광동어 등 적당한 데이터량
- 3계층 언어: 대부분 자원 부족 언어로 주로 다국어 자원에 의존
- 1판: 10M 및 100M 단어의 영어 코퍼스, 39% 발달 적절성 데이터
- 2판: 아동 지향 데이터를 70%로 증가
- 평가 방식: 영샷 최소 대조 및 미세조정 평가
- Salhan 등(2024): 프랑스어, 독일어, 일본어, 중국어의 습득 영감 커리큘럼 학습
- Prévot 등(2024): 영어 및 프랑스어의 자발적 음성 코퍼스 연구
- Matzopoulos 등(2025): isiXhosa의 BabyLM 연구로 저자원 언어 과제 강조
- CHILDES: 40개 이상 언어의 아동-성인 상호작용 데이터베이스
- MAO-CHILDES: 5개 언어의 연령 정렬 데이터셋
- IPA-CHILDES: 31개 언어의 음소화 코퍼스
- 실행 가능성 검증: 45개 언어의 발달 적절성 데이터셋 구축 성공으로 다국어 BabyLM 연구의 실행 가능성 입증
- 데이터량 영향: 더 많은 발달 적절성 데이터가 실제로 문법 학습 능력을 향상시키며, 특히 MultiBLiMP 작업에서 두드러짐
- 이중언어 이점: 지식 집약적 작업에서 이중언어 훈련이 일관된 성능 향상 제공
- 아키텍처 선택: 소규모 데이터 설정에서 GPT-2 아키텍처가 GPT-BERT보다 우수
- 언어 커버리지 불균형: 45개 언어를 포함하지만 아프리카 언어와 소수 언어의 대표성 부족
- 데이터 구성 차이: 언어별 발달 적절성 데이터 비율의 상당한 차이로 언어 간 비교에 영향 가능
- 평가 자원 제한: 모든 언어를 포괄하는 표준화된 평가 벤치마크 부재
- 데이터 근사성: 데이터셋은 실제 아동 언어 입력의 대략적인 근사일 뿐
- 언어 커버리지 확장: 특히 아프리카 언어 및 기타 저자원 언어
- 데이터 품질 개선: 더 많은 고품질 아동 지향 언어 데이터 수집
- 표준화된 평가: 언어 간 일관된 평가 프레임워크 개발
- 다국어 능력 연구: 이중언어 및 다국어 습득 메커니즘에 대한 심화 연구
- 체계적 기여: 대규모 다국어 발달 적절성 데이터셋을 최초로 체계적으로 구축
- 커뮤니티 지향: 지속 가능한 커뮤니티 주도 데이터 수집 프레임워크 구축
- 방법론적 엄밀성: 바이트 프리미엄 방법을 채택하여 언어 간 데이터량 비교 가능성 보장
- 개방성 강함: 완전한 데이터, 코드 및 모델 제공으로 재현 가능한 연구 촉진
- 실용적 가치 높음: 다국어 인지 모델링 및 데이터 효율성 연구에 중요한 자원 제공
- 데이터 품질 불균일: 언어별 발달 적절성 데이터 비율의 상당한 차이
- 모델 성능 제한: 기준선 모델이 대부분의 작업에서 무작위 수준에 가까운 성능
- 평가 커버리지 불완전: 일부 언어에 충분한 평가 벤치마크 부재
- 이론적 분석 부족: 특정 언어나 작업이 더 나은 성능을 보이는 이유에 대한 심화 분석 부재
- 분야 기여: 다국어 발달 적절성 데이터셋의 공백을 메우고 관련 연구 발전 촉진
- 실용적 가치: 저자원 언어의 언어 모델 연구에 중요한 시작점 제공
- 재현성: 완전한 오픈소스 자원으로 연구의 재현성 및 확장성 보장
- 커뮤니티 구축: 지속적인 협력 프레임워크 구축으로 장기적 발전 촉진
- 인지언어학 연구: 인간 언어 습득과 기계 학습의 관계 탐색
- 저자원 언어 모델링: 자원 부족 언어에 훈련 시작점 제공
- 다국어 교육: 이중언어 및 다국어 학습 연구 지원
- 데이터 효율성 연구: 제한된 데이터 예산 하에서의 모델 훈련 전략 연구
- 바이트 프리미엄 보정: UTF-8 인코딩 크기를 사용하여 다양한 언어의 데이터량 조정, 공정한 비교 보장
- 계층화 데이터 조직: 이용 가능한 데이터량에 따라 언어를 3계층으로 분류, 커버리지와 데이터 품질의 균형 유지
- 커뮤니티 주도 품질 관리: 각 언어를 모국어 사용자 또는 능숙한 사용자가 담당하여 문화적 및 언어적 적응성 보장
- 이중 모드 평가: 영샷 및 미세조정 평가를 결합하여 모델 능력을 포괄적으로 테스트
- 언어 간 일관성: MultiBLiMP 등의 도구를 사용하여 평가의 언어 간 비교 가능성 보장
- 능력 분류 평가: 형식적 언어 능력과 기능적 언어 능력 평가 구분
- 완전한 자원 공개: 데이터, 코드, 모델 모두 오픈소스
- 확장 가능한 설계: 커뮤니티 기여를 지원하는 표준화된 파이프라인 제공
- 투명한 문서화: 데이터 출처, 라이선스 및 전처리 정보의 상세한 문서화
이 연구는 다국어 언어 모델 연구와 인지언어학의 교차 분야에 중요한 기여를 하며, 인간 언어 습득 메커니즘에 대한 심화된 이해를 촉진할 수 있는 지속 가능한 연구 플랫폼을 구축했습니다.