2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

academic

BabyBabelLM: Ein mehrsprachiger Benchmark für entwicklungsplausible Trainingsdaten

Grundinformationen

Papier-ID: 2510.10159
Titel: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
Autoren: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck und 27 weitere Autoren
Klassifizierung: cs.CL (Computerlinguistik)
Einreichungsdatum: 11. Oktober 2025 bei arXiv eingereicht
Papierlink: https://arxiv.org/abs/2510.10159

Zusammenfassung

In diesem Papier wird BabyBabelLM vorgestellt, eine Sammlung mehrsprachiger Datensätze, die darauf abzielt, die Sprachumgebung zu simulieren, der Menschen von der Geburt bis zum Erwerb ihrer Muttersprache ausgesetzt sind. Die Forscher haben sorgfältig entwicklungsplausible Vortrainingsdaten zusammengestellt mit dem Ziel, für 45 Sprachen jeweils Inhalte im Umfang von etwa 100 Millionen englischen Wörtern bereitzustellen. Gleichzeitig wurde eine Evaluierungssuite zusammengestellt und für jede Sprache wurden Baseline-Modelle trainiert. BabyBabelLM soll die Forschung im mehrsprachigen Vortraining und der kognitiven Modellierung fördern.

Forschungshintergrund und Motivation

Problemdefinition

Die aktuelle Sprachmodellforschung konzentriert sich hauptsächlich auf Skalierungserweiterung und strebt nach größeren Modellen und mehr Trainingsdaten. Dieser Trend übersieht jedoch die grundlegenden Fragen des Sprachlernens. Menschen erwerben Sprachfähigkeiten von der Säuglingszeit bis zum Erwachsenenalter durch Exposition gegenüber weniger als 100 Millionen englischen Wörtern – ein Unterschied von mehreren Größenordnungen zu modernen Sprachmodellen, die über 100 Billionen Wörter benötigen.

Forschungsmotivation

Dateneffizienzproblem: Erforschung, wie effiziente Sprachmodellierung unter begrenztem Datenbudget erreicht werden kann
Entwicklungsplausibilität: Untersuchung der Zusammensetzung von Trainingsdaten, die dem menschlichen Spracherwerb entspricht
Mehrsprachige Abdeckung: Erweiterung des BabyLM-Wettbewerbs vom Englischen auf mehrsprachige Umgebungen
Kognitive Modellierung: Bereitstellung von Ressourcen zum Verständnis der Beziehung zwischen menschlichem Spracherwerb und Sprachmodelllernen

Einschränkungen bestehender Methoden

Der BabyLM-Wettbewerb ist auf Englisch beschränkt und ermangelt sprachübergreifender Validierung
Mangel an systematischen mehrsprachigen entwicklungsplausiblen Datensätzen
Bestehende Forschung besteht meist aus isolierten Bemühungen ohne koordinierte Datenerfassungsstandards
Evaluierungsressourcen sind ungleichmäßig über verschiedene Sprachen verteilt

Kernbeiträge

Konstruktion eines entwicklungsplausiblen Vortrainingsdatensatzes für 45 Sprachen, unterteilt in drei Ebenen nach Datenmenge (100M, 10M, 1M englische Wortäquivalente)
Bereitstellung einer quelloffenen Datenerweiterungspipeline, die es der Gemeinschaft ermöglicht, neue Sprachen hinzuzufügen und bestehende Datensätze zu erweitern
Zusammenstellung einer umfassenden mehrsprachigen Evaluierungssuite, die formale und funktionale Sprachfähigkeiten abdeckt
Training von 45 einsprachigen Modellen, 7 zweisprachigen Modellen und 1 mehrsprachigen Modell als Baselines
Etablierung eines gemeinschaftsgesteuerten Kooperationsrahmens, der kontinuierliche Datensatzerweiterung und Verbesserung fördert

Methodische Details

Datenerfassungsprinzipien

Entwicklungsplausibilitätskriterien

Kindergerichtete Sprache (CDS): Transkriptionen von Erwachsenen, die mit Kindern sprechen
Unterrichtsmaterialien: Lehrbücher und Prüfungsinhalte für Kinder
Kindermedien: Kinderbücher, Kinder-Wikis, Kindernachrichten
Untertitelinhalt: Untertitel von kinderfreundlichen Filmen/Fernsehsendungen
Ausschluss synthetischer Daten: Vermeidung künstlich generierter Inhalte wie TinyStories

Gemeinschaftsgesteuerte Datenleitung

Die Datenerfassung für jede Sprache wird von Forschern geleitet, die mit dieser Sprache vertraut sind, um Datenqualität und kulturelle Angemessenheit zu gewährleisten.

Datensatzzusammensetzung

Datenkategorien

Transkriptionsdaten
- Kindergerichtete Sprache: Betreuer-Kind-Interaktionen aus der CHILDES-Datenbank
- Für Kinder zugängliche Sprache: Erwachsenengespräche, die Kinder möglicherweise zufällig hören
Unterrichtsinhalte
- Kindergerichtete Lehrbücher und Prüfungsmaterialien
- Bieten direkte Anleitung, ergänzen die formalen Sprachmuster von CDS
Bücher, Wikis, Nachrichten
- Kinderbücher, Kinder-Wiki-Artikel, Kindernachrichten
- Enthalten komplexere Satzstrukturen und vielfältigere Vokabeln
Untertitel
- Untertitel von kinderfreundlichen Filmen/Fernsehsendungen
- Unterrichtsinhalte aus der QED-Korpus
Füllmaterial
- OpenSubtitles-Korpus (gefiltert nach unangemessenen Inhalten)
- FineWeb-C und Wikipedia-Daten als Fallback

Sprachliche Schichtung

Ebene 1: 9 Sprachen mit etwa 100 Millionen englischen Wortäquivalenten
Ebene 2: 15 Sprachen mit etwa 10 Millionen englischen Wortäquivalenten
Ebene 3: 21 Sprachen mit etwa 1 Million englischen Wortäquivalenten

Datenvorverarbeitung

Sprachspezifische Vorverarbeitung

Durchgeführt von Sprachenverantwortlichen basierend auf spezifischen Sprach- und Datenanforderungen.

Einheitliche Verarbeitungspipeline

Normalisierung: Unicode-, Leerzeichen- und Interpunktionsnormalisierung
Kategorienspezifische Verarbeitung:
- Dialogtranskriptionen: Entfernung linguistischer Annotationen
- Untertiteldaten: Entfernung von Sprecherkennzeichnungen, Musiksymbolen, Regieanweisungen
- Buchformate: Entfernung von XML-Tags und URLs
Sprachvalidierung: Spracherkennung und Validierung mit GlotLID v3

Experimentelle Einrichtung

Modellkonfiguration

Einsprachige Modelle: GPT-2-Architektur, 4 Transformer-Schichten, 8 Aufmerksamkeitsköpfe, verborgene Dimension 512
Zweisprachige Modelle: Kombination von Zielsprache und englischen Daten (insgesamt 200M Wörter)
Mehrsprachiges Modell: 12 Schichten, verborgene Dimension 768, Vokabulgröße 32.768, 111M Parameter
Vokabulgröße: 8.192 (einsprachig), 32.768 (mehrsprachig)
Trainingsstrategie: BPE-Tokenisierung, 10 Epochen (einsprachig), 5 Epochen (zweisprachig), 1 Epoche (mehrsprachig)

Evaluierungsrahmen

Formale Sprachfähigkeiten

MonoBLiMP: Sprachspezifische minimale Kontrastbenchmarks
MultiBLiMP: Großflächiger minimaler Kontrastdatensatz basierend auf Universal Dependencies
CLAMS: Sprachübergreifender Subjekt-Verb-Kongruenz-Benchmark

Funktionale Sprachfähigkeiten

Wissensintensive Aufgaben: Global-MMLU, INCLUDE, BM-LAMA
Schlussfolgerungsaufgaben: XNLI, HellaSwag, Belebele, ARC, XCOPA usw.

Evaluierungsmethoden

Zero-Shot-Evaluierung: Minimale Kontrastvergleiche basierend auf Modellausgabewahrscheinlichkeiten
Fine-Tuning-Evaluierung: Klassifizierungs- und Frage-Antwort-Aufgaben mit bis zu 8.000 Trainingsproben, 10 Epochen

Vergleichsmethoden

Baseline-Modelle: Zufällige Leistung
Vergleichsmodelle: Qwen3-0.6B (mehrsprachiges Modell mittlerer Größe)
Architekturvergleich: GPT-BERT vs. GPT-2

Experimentelle Ergebnisse

Hauptergebnisse

Leistung einsprachiger Modelle

MultiBLiMP-Aufgaben: Sprachen der Ebene 1 überschreiten typischerweise 80% Genauigkeit und zeigen gute Grammatiklernfähigkeiten
Andere Benchmarks: Die meisten Aufgaben zeigen Leistung nahe dem Zufallsniveau, was die Datenskalierungsbeschränkungen widerspiegelt
Auswirkung der Datenmenge: Ebene 1 > Ebene 2 > Ebene 3, was die Bedeutung der Datenmenge für die Leistung zeigt

Mehrsprachig vs. Einsprachig Vergleich

MultiBLiMP: Einsprachige Modelle übertreffen typischerweise mehrsprachige Modelle, außer bei 4 Sprachen der Ebene 3
Belebele: Beide Modelltypen liegen nahe am Zufallsniveau, während Qwen deutlich besser abschneidet
Gesamttrend: Qwen übertrifft die Modelle dieses Papiers bei den meisten Aufgaben, aber das mehrsprachige Modell dieses Papiers ist bei 8 Sprachen stärker

Effektivität zweisprachiger Modelle

Wissensintensive Aufgaben: SIB-200, BM-LAMA, XCOMPS, INCLUDE zeigen konsistente Leistungsverbesserungen
Grammatikaufgaben: MultiBLiMP-Leistung bleibt grundsätzlich unverändert, was darauf hindeutet, dass syntaktische Fähigkeiten weniger empfindlich gegenüber zweisprachigen Eingaben sind
Spezialfälle: Niederländisch zeigt einen leichten Rückgang bei der INCLUDE-Aufgabe, möglicherweise aufgrund von Bereichsinkongruenz

Ablationsstudien

Architekturvergleich (GPT-2 vs. GPT-BERT)

GPT-2-Modelle übertreffen GPT-BERT konsistent bei SIB-200 und MultiBLiMP-Aufgaben
Ergebnisse deuten darauf hin, dass GPT-2-Architektur unter den aktuellen Konfigurationen besser für das Training mit kleinen Datenmengen geeignet ist

Sprachüberdeckungsanalyse

Ebene-1-Sprachen: Chinesisch, Französisch, Bulgarisch usw. mit relativ reichhaltigen entwicklungsplausiblen Daten
Ebene-2-Sprachen: Japanisch, Serbisch, Kantonesisch usw. mit moderaten Datenmengen
Ebene-3-Sprachen: Überwiegend ressourcenknapp, hauptsächlich auf mehrsprachige Ressourcen angewiesen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Machbarkeitsprüfung: Erfolgreiche Konstruktion eines entwicklungsplausiblen Datensatzes für 45 Sprachen, was die Machbarkeit mehrsprachiger BabyLM-Forschung nachweist
Auswirkung der Datenmenge: Mehr entwicklungsplausible Daten verbessern tatsächlich die Grammatiklernfähigkeit, besonders bei MultiBLiMP-Aufgaben
Zweisprachige Vorteile: Zweisprachiges Training bringt konsistente Leistungsverbesserungen bei wissensintensiven Aufgaben
Architekturwahl: Bei kleinen Datenmengen ist GPT-2-Architektur GPT-BERT überlegen

Einschränkungen

Ungleichmäßige Sprachüberdeckung: Trotz 45 Sprachen sind afrikanische Sprachen und Minderheitensprachen unterrepräsentiert
Unterschiede in der Datenzusammensetzung: Der Anteil entwicklungsplausibel Daten variiert erheblich zwischen Sprachen, was sprachübergreifende Vergleiche beeinflussen kann
Evaluierungsressourcenbeschränkungen: Mangel an standardisierten Evaluierungsbenchmarks für alle Sprachen
Datennäherung: Der Datensatz ist nur eine grobe Annäherung an echte Spracheneingaben für Kinder

Zukünftige Richtungen

Sprachüberdeckung erweitern: Besonders afrikanische Sprachen und andere ressourcenknappen Sprachen
Datenqualität verbessern: Erfassung mehr hochwertiger kindergerichteter Sprachdaten
Standardisierte Evaluierung: Entwicklung sprachübergreifend konsistenter Evaluierungsrahmen
Mehrsprachige Fähigkeitsforschung: Tiefere Untersuchung zweisprachiger und mehrsprachiger Erwerbsmechanismen

Tiefgreifende Bewertung

Stärken

Systematischer Beitrag: Erste systematische Konstruktion eines großflächigen mehrsprachigen entwicklungsplausiblen Datensatzes
Gemeinschaftsorientierung: Etablierung eines nachhaltigen gemeinschaftsgesteuerten Datenerfassungsrahmens
Methodologische Strenge: Verwendung der Byte-Äquivalent-Methode zur Gewährleistung vergleichbarer Datenmengen über Sprachen hinweg
Hohe Offenheit: Bereitstellung vollständiger Daten, Code und Modelle zur Förderung reproduzierbarer Forschung
Hoher praktischer Wert: Bereitstellung wichtiger Ressourcen für mehrsprachige kognitive Modellierung und Dateneffizienzforschung

Mängel

Uneinheitliche Datenqualität: Der Anteil entwicklungsplausibel Daten variiert erheblich zwischen Sprachen
Begrenzte Modellleistung: Baseline-Modelle zeigen bei den meisten Aufgaben Leistung nahe dem Zufallsniveau
Unvollständige Evaluierungsabdeckung: Einige Sprachen ermangeln ausreichender Evaluierungsbenchmarks
Unzureichende theoretische Analyse: Mangel an tiefgreifender Analyse, warum bestimmte Sprachen oder Aufgaben bessere Ergebnisse zeigen

Auswirkungen

Feldbeitrag: Füllung der Lücke mehrsprachiger entwicklungsplausibel Datensätze, Förderung verwandter Forschung
Praktischer Wert: Bereitstellung wichtiger Ausgangspunkte für Sprachmodellforschung in ressourcenknappen Sprachen
Reproduzierbarkeit: Vollständige quelloffene Ressourcen gewährleisten Reproduzierbarkeit und Skalierbarkeit der Forschung
Gemeinschaftsaufbau: Etablierung eines nachhaltigen Kooperationsrahmens zur Förderung langfristiger Entwicklung

Anwendungsszenarien

Kognitive Linguistik-Forschung: Erforschung der Beziehung zwischen menschlichem Spracherwerb und maschinellem Lernen
Sprachmodellierung mit geringen Ressourcen: Bereitstellung von Trainingsausgangspunkten für ressourcenknappen Sprachen
Mehrsprachige Bildung: Unterstützung von Forschung zu zwei- und mehrsprachigem Lernen
Dateneffizienzforschung: Untersuchung von Modelltrainingsstrategien unter begrenztem Datenbudget

Technische Innovationspunkte

Datenerfassungsinnovationen

Byte-Äquivalent-Kalibrierung: Verwendung der UTF-8-Codierungsgröße zur Anpassung von Datenmengen verschiedener Sprachen, um faire Vergleiche zu gewährleisten
Schichtweise Datenorganisation: Einteilung der Sprachen in drei Ebenen basierend auf verfügbaren Datenmengen, um Abdeckung und Datenqualität auszugleichen
Gemeinschaftsgesteuerte Qualitätskontrolle: Jede Sprache wird von Muttersprachlern oder kompetenten Benutzern geleitet, um kulturelle und sprachliche Angemessenheit zu gewährleisten

Evaluierungsrahmen-Innovationen

Duales Evaluierungsmodus: Kombination von Zero-Shot- und Fine-Tuning-Evaluierung zur umfassenden Prüfung von Modellfähigkeiten
Sprachübergreifende Konsistenz: Verwendung von Tools wie MultiBLiMP zur Gewährleistung sprachübergreifender Evaluierungsvergleichbarkeit
Kategorisierte Fähigkeitsevaluierung: Unterscheidung zwischen formalen und funktionalen Sprachfähigkeitsevaluierungen

Offene Wissenschaftspraxis

Vollständige Ressourcenveröffentlichung: Daten, Code und Modelle vollständig quelloffen
Erweiterbare Gestaltung: Bereitstellung standardisierter Pipelines zur Unterstützung von Gemeinschaftsbeiträgen
Transparente Dokumentation: Detaillierte Informationen zu Datenquellen, Lizenzen und Vorverarbeitung

Diese Arbeit leistet einen wichtigen Beitrag zur Schnittstelle zwischen mehrsprachiger Sprachmodellforschung und kognitiver Linguistik, etabliert eine nachhaltig entwickelbare Forschungsplattform und wird voraussichtlich tiefere Erkenntnisse über die Mechanismen des menschlichen Spracherwerbs fördern.