We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
- Papier-ID: 2510.10159
- Titel: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
- Autoren: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck und 27 weitere Autoren
- Klassifizierung: cs.CL (Computerlinguistik)
- Einreichungsdatum: 11. Oktober 2025 bei arXiv eingereicht
- Papierlink: https://arxiv.org/abs/2510.10159
In diesem Papier wird BabyBabelLM vorgestellt, eine Sammlung mehrsprachiger Datensätze, die darauf abzielt, die Sprachumgebung zu simulieren, der Menschen von der Geburt bis zum Erwerb ihrer Muttersprache ausgesetzt sind. Die Forscher haben sorgfältig entwicklungsplausible Vortrainingsdaten zusammengestellt mit dem Ziel, für 45 Sprachen jeweils Inhalte im Umfang von etwa 100 Millionen englischen Wörtern bereitzustellen. Gleichzeitig wurde eine Evaluierungssuite zusammengestellt und für jede Sprache wurden Baseline-Modelle trainiert. BabyBabelLM soll die Forschung im mehrsprachigen Vortraining und der kognitiven Modellierung fördern.
Die aktuelle Sprachmodellforschung konzentriert sich hauptsächlich auf Skalierungserweiterung und strebt nach größeren Modellen und mehr Trainingsdaten. Dieser Trend übersieht jedoch die grundlegenden Fragen des Sprachlernens. Menschen erwerben Sprachfähigkeiten von der Säuglingszeit bis zum Erwachsenenalter durch Exposition gegenüber weniger als 100 Millionen englischen Wörtern – ein Unterschied von mehreren Größenordnungen zu modernen Sprachmodellen, die über 100 Billionen Wörter benötigen.
- Dateneffizienzproblem: Erforschung, wie effiziente Sprachmodellierung unter begrenztem Datenbudget erreicht werden kann
- Entwicklungsplausibilität: Untersuchung der Zusammensetzung von Trainingsdaten, die dem menschlichen Spracherwerb entspricht
- Mehrsprachige Abdeckung: Erweiterung des BabyLM-Wettbewerbs vom Englischen auf mehrsprachige Umgebungen
- Kognitive Modellierung: Bereitstellung von Ressourcen zum Verständnis der Beziehung zwischen menschlichem Spracherwerb und Sprachmodelllernen
- Der BabyLM-Wettbewerb ist auf Englisch beschränkt und ermangelt sprachübergreifender Validierung
- Mangel an systematischen mehrsprachigen entwicklungsplausiblen Datensätzen
- Bestehende Forschung besteht meist aus isolierten Bemühungen ohne koordinierte Datenerfassungsstandards
- Evaluierungsressourcen sind ungleichmäßig über verschiedene Sprachen verteilt
- Konstruktion eines entwicklungsplausiblen Vortrainingsdatensatzes für 45 Sprachen, unterteilt in drei Ebenen nach Datenmenge (100M, 10M, 1M englische Wortäquivalente)
- Bereitstellung einer quelloffenen Datenerweiterungspipeline, die es der Gemeinschaft ermöglicht, neue Sprachen hinzuzufügen und bestehende Datensätze zu erweitern
- Zusammenstellung einer umfassenden mehrsprachigen Evaluierungssuite, die formale und funktionale Sprachfähigkeiten abdeckt
- Training von 45 einsprachigen Modellen, 7 zweisprachigen Modellen und 1 mehrsprachigen Modell als Baselines
- Etablierung eines gemeinschaftsgesteuerten Kooperationsrahmens, der kontinuierliche Datensatzerweiterung und Verbesserung fördert
- Kindergerichtete Sprache (CDS): Transkriptionen von Erwachsenen, die mit Kindern sprechen
- Unterrichtsmaterialien: Lehrbücher und Prüfungsinhalte für Kinder
- Kindermedien: Kinderbücher, Kinder-Wikis, Kindernachrichten
- Untertitelinhalt: Untertitel von kinderfreundlichen Filmen/Fernsehsendungen
- Ausschluss synthetischer Daten: Vermeidung künstlich generierter Inhalte wie TinyStories
Die Datenerfassung für jede Sprache wird von Forschern geleitet, die mit dieser Sprache vertraut sind, um Datenqualität und kulturelle Angemessenheit zu gewährleisten.
- Transkriptionsdaten
- Kindergerichtete Sprache: Betreuer-Kind-Interaktionen aus der CHILDES-Datenbank
- Für Kinder zugängliche Sprache: Erwachsenengespräche, die Kinder möglicherweise zufällig hören
- Unterrichtsinhalte
- Kindergerichtete Lehrbücher und Prüfungsmaterialien
- Bieten direkte Anleitung, ergänzen die formalen Sprachmuster von CDS
- Bücher, Wikis, Nachrichten
- Kinderbücher, Kinder-Wiki-Artikel, Kindernachrichten
- Enthalten komplexere Satzstrukturen und vielfältigere Vokabeln
- Untertitel
- Untertitel von kinderfreundlichen Filmen/Fernsehsendungen
- Unterrichtsinhalte aus der QED-Korpus
- Füllmaterial
- OpenSubtitles-Korpus (gefiltert nach unangemessenen Inhalten)
- FineWeb-C und Wikipedia-Daten als Fallback
- Ebene 1: 9 Sprachen mit etwa 100 Millionen englischen Wortäquivalenten
- Ebene 2: 15 Sprachen mit etwa 10 Millionen englischen Wortäquivalenten
- Ebene 3: 21 Sprachen mit etwa 1 Million englischen Wortäquivalenten
Durchgeführt von Sprachenverantwortlichen basierend auf spezifischen Sprach- und Datenanforderungen.
- Normalisierung: Unicode-, Leerzeichen- und Interpunktionsnormalisierung
- Kategorienspezifische Verarbeitung:
- Dialogtranskriptionen: Entfernung linguistischer Annotationen
- Untertiteldaten: Entfernung von Sprecherkennzeichnungen, Musiksymbolen, Regieanweisungen
- Buchformate: Entfernung von XML-Tags und URLs
- Sprachvalidierung: Spracherkennung und Validierung mit GlotLID v3
- Einsprachige Modelle: GPT-2-Architektur, 4 Transformer-Schichten, 8 Aufmerksamkeitsköpfe, verborgene Dimension 512
- Zweisprachige Modelle: Kombination von Zielsprache und englischen Daten (insgesamt 200M Wörter)
- Mehrsprachiges Modell: 12 Schichten, verborgene Dimension 768, Vokabulgröße 32.768, 111M Parameter
- Vokabulgröße: 8.192 (einsprachig), 32.768 (mehrsprachig)
- Trainingsstrategie: BPE-Tokenisierung, 10 Epochen (einsprachig), 5 Epochen (zweisprachig), 1 Epoche (mehrsprachig)
- MonoBLiMP: Sprachspezifische minimale Kontrastbenchmarks
- MultiBLiMP: Großflächiger minimaler Kontrastdatensatz basierend auf Universal Dependencies
- CLAMS: Sprachübergreifender Subjekt-Verb-Kongruenz-Benchmark
- Wissensintensive Aufgaben: Global-MMLU, INCLUDE, BM-LAMA
- Schlussfolgerungsaufgaben: XNLI, HellaSwag, Belebele, ARC, XCOPA usw.
- Zero-Shot-Evaluierung: Minimale Kontrastvergleiche basierend auf Modellausgabewahrscheinlichkeiten
- Fine-Tuning-Evaluierung: Klassifizierungs- und Frage-Antwort-Aufgaben mit bis zu 8.000 Trainingsproben, 10 Epochen
- Baseline-Modelle: Zufällige Leistung
- Vergleichsmodelle: Qwen3-0.6B (mehrsprachiges Modell mittlerer Größe)
- Architekturvergleich: GPT-BERT vs. GPT-2
- MultiBLiMP-Aufgaben: Sprachen der Ebene 1 überschreiten typischerweise 80% Genauigkeit und zeigen gute Grammatiklernfähigkeiten
- Andere Benchmarks: Die meisten Aufgaben zeigen Leistung nahe dem Zufallsniveau, was die Datenskalierungsbeschränkungen widerspiegelt
- Auswirkung der Datenmenge: Ebene 1 > Ebene 2 > Ebene 3, was die Bedeutung der Datenmenge für die Leistung zeigt
- MultiBLiMP: Einsprachige Modelle übertreffen typischerweise mehrsprachige Modelle, außer bei 4 Sprachen der Ebene 3
- Belebele: Beide Modelltypen liegen nahe am Zufallsniveau, während Qwen deutlich besser abschneidet
- Gesamttrend: Qwen übertrifft die Modelle dieses Papiers bei den meisten Aufgaben, aber das mehrsprachige Modell dieses Papiers ist bei 8 Sprachen stärker
- Wissensintensive Aufgaben: SIB-200, BM-LAMA, XCOMPS, INCLUDE zeigen konsistente Leistungsverbesserungen
- Grammatikaufgaben: MultiBLiMP-Leistung bleibt grundsätzlich unverändert, was darauf hindeutet, dass syntaktische Fähigkeiten weniger empfindlich gegenüber zweisprachigen Eingaben sind
- Spezialfälle: Niederländisch zeigt einen leichten Rückgang bei der INCLUDE-Aufgabe, möglicherweise aufgrund von Bereichsinkongruenz
- GPT-2-Modelle übertreffen GPT-BERT konsistent bei SIB-200 und MultiBLiMP-Aufgaben
- Ergebnisse deuten darauf hin, dass GPT-2-Architektur unter den aktuellen Konfigurationen besser für das Training mit kleinen Datenmengen geeignet ist
- Ebene-1-Sprachen: Chinesisch, Französisch, Bulgarisch usw. mit relativ reichhaltigen entwicklungsplausiblen Daten
- Ebene-2-Sprachen: Japanisch, Serbisch, Kantonesisch usw. mit moderaten Datenmengen
- Ebene-3-Sprachen: Überwiegend ressourcenknapp, hauptsächlich auf mehrsprachige Ressourcen angewiesen
- Erste Version: 10M und 100M englische Wort-Korpora mit 39% entwicklungsplausiblen Daten
- Zweite Version: Erhöhung auf 70% kindergerichtete Daten
- Evaluierungsmethoden: Zero-Shot-Minimalkontrast und Fine-Tuning-Evaluierung
- Salhan et al. (2024): Curriculum-Learning inspiriert durch Spracherwerb für Französisch, Deutsch, Japanisch, Chinesisch
- Prévot et al. (2024): Forschung zu spontanen Sprachdaten auf Englisch und Französisch
- Matzopoulos et al. (2025): BabyLM-Forschung für isiXhosa, hebt Herausforderungen bei ressourcenknappen Sprachen hervor
- CHILDES: Datenbank mit Kind-Erwachsenen-Interaktionen in über 40 Sprachen
- MAO-CHILDES: Altersgeordneter Datensatz in 5 Sprachen
- IPA-CHILDES: Phonemisiertes Korpus in 31 Sprachen
- Machbarkeitsprüfung: Erfolgreiche Konstruktion eines entwicklungsplausiblen Datensatzes für 45 Sprachen, was die Machbarkeit mehrsprachiger BabyLM-Forschung nachweist
- Auswirkung der Datenmenge: Mehr entwicklungsplausible Daten verbessern tatsächlich die Grammatiklernfähigkeit, besonders bei MultiBLiMP-Aufgaben
- Zweisprachige Vorteile: Zweisprachiges Training bringt konsistente Leistungsverbesserungen bei wissensintensiven Aufgaben
- Architekturwahl: Bei kleinen Datenmengen ist GPT-2-Architektur GPT-BERT überlegen
- Ungleichmäßige Sprachüberdeckung: Trotz 45 Sprachen sind afrikanische Sprachen und Minderheitensprachen unterrepräsentiert
- Unterschiede in der Datenzusammensetzung: Der Anteil entwicklungsplausibel Daten variiert erheblich zwischen Sprachen, was sprachübergreifende Vergleiche beeinflussen kann
- Evaluierungsressourcenbeschränkungen: Mangel an standardisierten Evaluierungsbenchmarks für alle Sprachen
- Datennäherung: Der Datensatz ist nur eine grobe Annäherung an echte Spracheneingaben für Kinder
- Sprachüberdeckung erweitern: Besonders afrikanische Sprachen und andere ressourcenknappen Sprachen
- Datenqualität verbessern: Erfassung mehr hochwertiger kindergerichteter Sprachdaten
- Standardisierte Evaluierung: Entwicklung sprachübergreifend konsistenter Evaluierungsrahmen
- Mehrsprachige Fähigkeitsforschung: Tiefere Untersuchung zweisprachiger und mehrsprachiger Erwerbsmechanismen
- Systematischer Beitrag: Erste systematische Konstruktion eines großflächigen mehrsprachigen entwicklungsplausiblen Datensatzes
- Gemeinschaftsorientierung: Etablierung eines nachhaltigen gemeinschaftsgesteuerten Datenerfassungsrahmens
- Methodologische Strenge: Verwendung der Byte-Äquivalent-Methode zur Gewährleistung vergleichbarer Datenmengen über Sprachen hinweg
- Hohe Offenheit: Bereitstellung vollständiger Daten, Code und Modelle zur Förderung reproduzierbarer Forschung
- Hoher praktischer Wert: Bereitstellung wichtiger Ressourcen für mehrsprachige kognitive Modellierung und Dateneffizienzforschung
- Uneinheitliche Datenqualität: Der Anteil entwicklungsplausibel Daten variiert erheblich zwischen Sprachen
- Begrenzte Modellleistung: Baseline-Modelle zeigen bei den meisten Aufgaben Leistung nahe dem Zufallsniveau
- Unvollständige Evaluierungsabdeckung: Einige Sprachen ermangeln ausreichender Evaluierungsbenchmarks
- Unzureichende theoretische Analyse: Mangel an tiefgreifender Analyse, warum bestimmte Sprachen oder Aufgaben bessere Ergebnisse zeigen
- Feldbeitrag: Füllung der Lücke mehrsprachiger entwicklungsplausibel Datensätze, Förderung verwandter Forschung
- Praktischer Wert: Bereitstellung wichtiger Ausgangspunkte für Sprachmodellforschung in ressourcenknappen Sprachen
- Reproduzierbarkeit: Vollständige quelloffene Ressourcen gewährleisten Reproduzierbarkeit und Skalierbarkeit der Forschung
- Gemeinschaftsaufbau: Etablierung eines nachhaltigen Kooperationsrahmens zur Förderung langfristiger Entwicklung
- Kognitive Linguistik-Forschung: Erforschung der Beziehung zwischen menschlichem Spracherwerb und maschinellem Lernen
- Sprachmodellierung mit geringen Ressourcen: Bereitstellung von Trainingsausgangspunkten für ressourcenknappen Sprachen
- Mehrsprachige Bildung: Unterstützung von Forschung zu zwei- und mehrsprachigem Lernen
- Dateneffizienzforschung: Untersuchung von Modelltrainingsstrategien unter begrenztem Datenbudget
- Byte-Äquivalent-Kalibrierung: Verwendung der UTF-8-Codierungsgröße zur Anpassung von Datenmengen verschiedener Sprachen, um faire Vergleiche zu gewährleisten
- Schichtweise Datenorganisation: Einteilung der Sprachen in drei Ebenen basierend auf verfügbaren Datenmengen, um Abdeckung und Datenqualität auszugleichen
- Gemeinschaftsgesteuerte Qualitätskontrolle: Jede Sprache wird von Muttersprachlern oder kompetenten Benutzern geleitet, um kulturelle und sprachliche Angemessenheit zu gewährleisten
- Duales Evaluierungsmodus: Kombination von Zero-Shot- und Fine-Tuning-Evaluierung zur umfassenden Prüfung von Modellfähigkeiten
- Sprachübergreifende Konsistenz: Verwendung von Tools wie MultiBLiMP zur Gewährleistung sprachübergreifender Evaluierungsvergleichbarkeit
- Kategorisierte Fähigkeitsevaluierung: Unterscheidung zwischen formalen und funktionalen Sprachfähigkeitsevaluierungen
- Vollständige Ressourcenveröffentlichung: Daten, Code und Modelle vollständig quelloffen
- Erweiterbare Gestaltung: Bereitstellung standardisierter Pipelines zur Unterstützung von Gemeinschaftsbeiträgen
- Transparente Dokumentation: Detaillierte Informationen zu Datenquellen, Lizenzen und Vorverarbeitung
Diese Arbeit leistet einen wichtigen Beitrag zur Schnittstelle zwischen mehrsprachiger Sprachmodellforschung und kognitiver Linguistik, etabliert eine nachhaltig entwickelbare Forschungsplattform und wird voraussichtlich tiefere Erkenntnisse über die Mechanismen des menschlichen Spracherwerbs fördern.