2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.
We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
academic

BabyBabelLM: Ein mehrsprachiger Benchmark für entwicklungsplausible Trainingsdaten

Grundinformationen

  • Papier-ID: 2510.10159
  • Titel: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
  • Autoren: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck und 27 weitere Autoren
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Einreichungsdatum: 11. Oktober 2025 bei arXiv eingereicht
  • Papierlink: https://arxiv.org/abs/2510.10159

Zusammenfassung

In diesem Papier wird BabyBabelLM vorgestellt, eine Sammlung mehrsprachiger Datensätze, die darauf abzielt, die Sprachumgebung zu simulieren, der Menschen von der Geburt bis zum Erwerb ihrer Muttersprache ausgesetzt sind. Die Forscher haben sorgfältig entwicklungsplausible Vortrainingsdaten zusammengestellt mit dem Ziel, für 45 Sprachen jeweils Inhalte im Umfang von etwa 100 Millionen englischen Wörtern bereitzustellen. Gleichzeitig wurde eine Evaluierungssuite zusammengestellt und für jede Sprache wurden Baseline-Modelle trainiert. BabyBabelLM soll die Forschung im mehrsprachigen Vortraining und der kognitiven Modellierung fördern.

Forschungshintergrund und Motivation

Problemdefinition

Die aktuelle Sprachmodellforschung konzentriert sich hauptsächlich auf Skalierungserweiterung und strebt nach größeren Modellen und mehr Trainingsdaten. Dieser Trend übersieht jedoch die grundlegenden Fragen des Sprachlernens. Menschen erwerben Sprachfähigkeiten von der Säuglingszeit bis zum Erwachsenenalter durch Exposition gegenüber weniger als 100 Millionen englischen Wörtern – ein Unterschied von mehreren Größenordnungen zu modernen Sprachmodellen, die über 100 Billionen Wörter benötigen.

Forschungsmotivation

  1. Dateneffizienzproblem: Erforschung, wie effiziente Sprachmodellierung unter begrenztem Datenbudget erreicht werden kann
  2. Entwicklungsplausibilität: Untersuchung der Zusammensetzung von Trainingsdaten, die dem menschlichen Spracherwerb entspricht
  3. Mehrsprachige Abdeckung: Erweiterung des BabyLM-Wettbewerbs vom Englischen auf mehrsprachige Umgebungen
  4. Kognitive Modellierung: Bereitstellung von Ressourcen zum Verständnis der Beziehung zwischen menschlichem Spracherwerb und Sprachmodelllernen

Einschränkungen bestehender Methoden

  • Der BabyLM-Wettbewerb ist auf Englisch beschränkt und ermangelt sprachübergreifender Validierung
  • Mangel an systematischen mehrsprachigen entwicklungsplausiblen Datensätzen
  • Bestehende Forschung besteht meist aus isolierten Bemühungen ohne koordinierte Datenerfassungsstandards
  • Evaluierungsressourcen sind ungleichmäßig über verschiedene Sprachen verteilt

Kernbeiträge

  1. Konstruktion eines entwicklungsplausiblen Vortrainingsdatensatzes für 45 Sprachen, unterteilt in drei Ebenen nach Datenmenge (100M, 10M, 1M englische Wortäquivalente)
  2. Bereitstellung einer quelloffenen Datenerweiterungspipeline, die es der Gemeinschaft ermöglicht, neue Sprachen hinzuzufügen und bestehende Datensätze zu erweitern
  3. Zusammenstellung einer umfassenden mehrsprachigen Evaluierungssuite, die formale und funktionale Sprachfähigkeiten abdeckt
  4. Training von 45 einsprachigen Modellen, 7 zweisprachigen Modellen und 1 mehrsprachigen Modell als Baselines
  5. Etablierung eines gemeinschaftsgesteuerten Kooperationsrahmens, der kontinuierliche Datensatzerweiterung und Verbesserung fördert

Methodische Details

Datenerfassungsprinzipien

Entwicklungsplausibilitätskriterien

  • Kindergerichtete Sprache (CDS): Transkriptionen von Erwachsenen, die mit Kindern sprechen
  • Unterrichtsmaterialien: Lehrbücher und Prüfungsinhalte für Kinder
  • Kindermedien: Kinderbücher, Kinder-Wikis, Kindernachrichten
  • Untertitelinhalt: Untertitel von kinderfreundlichen Filmen/Fernsehsendungen
  • Ausschluss synthetischer Daten: Vermeidung künstlich generierter Inhalte wie TinyStories

Gemeinschaftsgesteuerte Datenleitung

Die Datenerfassung für jede Sprache wird von Forschern geleitet, die mit dieser Sprache vertraut sind, um Datenqualität und kulturelle Angemessenheit zu gewährleisten.

Datensatzzusammensetzung

Datenkategorien

  1. Transkriptionsdaten
    • Kindergerichtete Sprache: Betreuer-Kind-Interaktionen aus der CHILDES-Datenbank
    • Für Kinder zugängliche Sprache: Erwachsenengespräche, die Kinder möglicherweise zufällig hören
  2. Unterrichtsinhalte
    • Kindergerichtete Lehrbücher und Prüfungsmaterialien
    • Bieten direkte Anleitung, ergänzen die formalen Sprachmuster von CDS
  3. Bücher, Wikis, Nachrichten
    • Kinderbücher, Kinder-Wiki-Artikel, Kindernachrichten
    • Enthalten komplexere Satzstrukturen und vielfältigere Vokabeln
  4. Untertitel
    • Untertitel von kinderfreundlichen Filmen/Fernsehsendungen
    • Unterrichtsinhalte aus der QED-Korpus
  5. Füllmaterial
    • OpenSubtitles-Korpus (gefiltert nach unangemessenen Inhalten)
    • FineWeb-C und Wikipedia-Daten als Fallback

Sprachliche Schichtung

  • Ebene 1: 9 Sprachen mit etwa 100 Millionen englischen Wortäquivalenten
  • Ebene 2: 15 Sprachen mit etwa 10 Millionen englischen Wortäquivalenten
  • Ebene 3: 21 Sprachen mit etwa 1 Million englischen Wortäquivalenten

Datenvorverarbeitung

Sprachspezifische Vorverarbeitung

Durchgeführt von Sprachenverantwortlichen basierend auf spezifischen Sprach- und Datenanforderungen.

Einheitliche Verarbeitungspipeline

  1. Normalisierung: Unicode-, Leerzeichen- und Interpunktionsnormalisierung
  2. Kategorienspezifische Verarbeitung:
    • Dialogtranskriptionen: Entfernung linguistischer Annotationen
    • Untertiteldaten: Entfernung von Sprecherkennzeichnungen, Musiksymbolen, Regieanweisungen
    • Buchformate: Entfernung von XML-Tags und URLs
  3. Sprachvalidierung: Spracherkennung und Validierung mit GlotLID v3

Experimentelle Einrichtung

Modellkonfiguration

  • Einsprachige Modelle: GPT-2-Architektur, 4 Transformer-Schichten, 8 Aufmerksamkeitsköpfe, verborgene Dimension 512
  • Zweisprachige Modelle: Kombination von Zielsprache und englischen Daten (insgesamt 200M Wörter)
  • Mehrsprachiges Modell: 12 Schichten, verborgene Dimension 768, Vokabulgröße 32.768, 111M Parameter
  • Vokabulgröße: 8.192 (einsprachig), 32.768 (mehrsprachig)
  • Trainingsstrategie: BPE-Tokenisierung, 10 Epochen (einsprachig), 5 Epochen (zweisprachig), 1 Epoche (mehrsprachig)

Evaluierungsrahmen

Formale Sprachfähigkeiten

  • MonoBLiMP: Sprachspezifische minimale Kontrastbenchmarks
  • MultiBLiMP: Großflächiger minimaler Kontrastdatensatz basierend auf Universal Dependencies
  • CLAMS: Sprachübergreifender Subjekt-Verb-Kongruenz-Benchmark

Funktionale Sprachfähigkeiten

  • Wissensintensive Aufgaben: Global-MMLU, INCLUDE, BM-LAMA
  • Schlussfolgerungsaufgaben: XNLI, HellaSwag, Belebele, ARC, XCOPA usw.

Evaluierungsmethoden

  • Zero-Shot-Evaluierung: Minimale Kontrastvergleiche basierend auf Modellausgabewahrscheinlichkeiten
  • Fine-Tuning-Evaluierung: Klassifizierungs- und Frage-Antwort-Aufgaben mit bis zu 8.000 Trainingsproben, 10 Epochen

Vergleichsmethoden

  • Baseline-Modelle: Zufällige Leistung
  • Vergleichsmodelle: Qwen3-0.6B (mehrsprachiges Modell mittlerer Größe)
  • Architekturvergleich: GPT-BERT vs. GPT-2

Experimentelle Ergebnisse

Hauptergebnisse

Leistung einsprachiger Modelle

  • MultiBLiMP-Aufgaben: Sprachen der Ebene 1 überschreiten typischerweise 80% Genauigkeit und zeigen gute Grammatiklernfähigkeiten
  • Andere Benchmarks: Die meisten Aufgaben zeigen Leistung nahe dem Zufallsniveau, was die Datenskalierungsbeschränkungen widerspiegelt
  • Auswirkung der Datenmenge: Ebene 1 > Ebene 2 > Ebene 3, was die Bedeutung der Datenmenge für die Leistung zeigt

Mehrsprachig vs. Einsprachig Vergleich

  • MultiBLiMP: Einsprachige Modelle übertreffen typischerweise mehrsprachige Modelle, außer bei 4 Sprachen der Ebene 3
  • Belebele: Beide Modelltypen liegen nahe am Zufallsniveau, während Qwen deutlich besser abschneidet
  • Gesamttrend: Qwen übertrifft die Modelle dieses Papiers bei den meisten Aufgaben, aber das mehrsprachige Modell dieses Papiers ist bei 8 Sprachen stärker

Effektivität zweisprachiger Modelle

  • Wissensintensive Aufgaben: SIB-200, BM-LAMA, XCOMPS, INCLUDE zeigen konsistente Leistungsverbesserungen
  • Grammatikaufgaben: MultiBLiMP-Leistung bleibt grundsätzlich unverändert, was darauf hindeutet, dass syntaktische Fähigkeiten weniger empfindlich gegenüber zweisprachigen Eingaben sind
  • Spezialfälle: Niederländisch zeigt einen leichten Rückgang bei der INCLUDE-Aufgabe, möglicherweise aufgrund von Bereichsinkongruenz

Ablationsstudien

Architekturvergleich (GPT-2 vs. GPT-BERT)

  • GPT-2-Modelle übertreffen GPT-BERT konsistent bei SIB-200 und MultiBLiMP-Aufgaben
  • Ergebnisse deuten darauf hin, dass GPT-2-Architektur unter den aktuellen Konfigurationen besser für das Training mit kleinen Datenmengen geeignet ist

Sprachüberdeckungsanalyse

  • Ebene-1-Sprachen: Chinesisch, Französisch, Bulgarisch usw. mit relativ reichhaltigen entwicklungsplausiblen Daten
  • Ebene-2-Sprachen: Japanisch, Serbisch, Kantonesisch usw. mit moderaten Datenmengen
  • Ebene-3-Sprachen: Überwiegend ressourcenknapp, hauptsächlich auf mehrsprachige Ressourcen angewiesen

Verwandte Arbeiten

BabyLM-Wettbewerb

  • Erste Version: 10M und 100M englische Wort-Korpora mit 39% entwicklungsplausiblen Daten
  • Zweite Version: Erhöhung auf 70% kindergerichtete Daten
  • Evaluierungsmethoden: Zero-Shot-Minimalkontrast und Fine-Tuning-Evaluierung

Mehrsprachige Erweiterungsbemühungen

  • Salhan et al. (2024): Curriculum-Learning inspiriert durch Spracherwerb für Französisch, Deutsch, Japanisch, Chinesisch
  • Prévot et al. (2024): Forschung zu spontanen Sprachdaten auf Englisch und Französisch
  • Matzopoulos et al. (2025): BabyLM-Forschung für isiXhosa, hebt Herausforderungen bei ressourcenknappen Sprachen hervor

Bestehende mehrsprachige Ressourcen

  • CHILDES: Datenbank mit Kind-Erwachsenen-Interaktionen in über 40 Sprachen
  • MAO-CHILDES: Altersgeordneter Datensatz in 5 Sprachen
  • IPA-CHILDES: Phonemisiertes Korpus in 31 Sprachen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeitsprüfung: Erfolgreiche Konstruktion eines entwicklungsplausiblen Datensatzes für 45 Sprachen, was die Machbarkeit mehrsprachiger BabyLM-Forschung nachweist
  2. Auswirkung der Datenmenge: Mehr entwicklungsplausible Daten verbessern tatsächlich die Grammatiklernfähigkeit, besonders bei MultiBLiMP-Aufgaben
  3. Zweisprachige Vorteile: Zweisprachiges Training bringt konsistente Leistungsverbesserungen bei wissensintensiven Aufgaben
  4. Architekturwahl: Bei kleinen Datenmengen ist GPT-2-Architektur GPT-BERT überlegen

Einschränkungen

  1. Ungleichmäßige Sprachüberdeckung: Trotz 45 Sprachen sind afrikanische Sprachen und Minderheitensprachen unterrepräsentiert
  2. Unterschiede in der Datenzusammensetzung: Der Anteil entwicklungsplausibel Daten variiert erheblich zwischen Sprachen, was sprachübergreifende Vergleiche beeinflussen kann
  3. Evaluierungsressourcenbeschränkungen: Mangel an standardisierten Evaluierungsbenchmarks für alle Sprachen
  4. Datennäherung: Der Datensatz ist nur eine grobe Annäherung an echte Spracheneingaben für Kinder

Zukünftige Richtungen

  1. Sprachüberdeckung erweitern: Besonders afrikanische Sprachen und andere ressourcenknappen Sprachen
  2. Datenqualität verbessern: Erfassung mehr hochwertiger kindergerichteter Sprachdaten
  3. Standardisierte Evaluierung: Entwicklung sprachübergreifend konsistenter Evaluierungsrahmen
  4. Mehrsprachige Fähigkeitsforschung: Tiefere Untersuchung zweisprachiger und mehrsprachiger Erwerbsmechanismen

Tiefgreifende Bewertung

Stärken

  1. Systematischer Beitrag: Erste systematische Konstruktion eines großflächigen mehrsprachigen entwicklungsplausiblen Datensatzes
  2. Gemeinschaftsorientierung: Etablierung eines nachhaltigen gemeinschaftsgesteuerten Datenerfassungsrahmens
  3. Methodologische Strenge: Verwendung der Byte-Äquivalent-Methode zur Gewährleistung vergleichbarer Datenmengen über Sprachen hinweg
  4. Hohe Offenheit: Bereitstellung vollständiger Daten, Code und Modelle zur Förderung reproduzierbarer Forschung
  5. Hoher praktischer Wert: Bereitstellung wichtiger Ressourcen für mehrsprachige kognitive Modellierung und Dateneffizienzforschung

Mängel

  1. Uneinheitliche Datenqualität: Der Anteil entwicklungsplausibel Daten variiert erheblich zwischen Sprachen
  2. Begrenzte Modellleistung: Baseline-Modelle zeigen bei den meisten Aufgaben Leistung nahe dem Zufallsniveau
  3. Unvollständige Evaluierungsabdeckung: Einige Sprachen ermangeln ausreichender Evaluierungsbenchmarks
  4. Unzureichende theoretische Analyse: Mangel an tiefgreifender Analyse, warum bestimmte Sprachen oder Aufgaben bessere Ergebnisse zeigen

Auswirkungen

  1. Feldbeitrag: Füllung der Lücke mehrsprachiger entwicklungsplausibel Datensätze, Förderung verwandter Forschung
  2. Praktischer Wert: Bereitstellung wichtiger Ausgangspunkte für Sprachmodellforschung in ressourcenknappen Sprachen
  3. Reproduzierbarkeit: Vollständige quelloffene Ressourcen gewährleisten Reproduzierbarkeit und Skalierbarkeit der Forschung
  4. Gemeinschaftsaufbau: Etablierung eines nachhaltigen Kooperationsrahmens zur Förderung langfristiger Entwicklung

Anwendungsszenarien

  1. Kognitive Linguistik-Forschung: Erforschung der Beziehung zwischen menschlichem Spracherwerb und maschinellem Lernen
  2. Sprachmodellierung mit geringen Ressourcen: Bereitstellung von Trainingsausgangspunkten für ressourcenknappen Sprachen
  3. Mehrsprachige Bildung: Unterstützung von Forschung zu zwei- und mehrsprachigem Lernen
  4. Dateneffizienzforschung: Untersuchung von Modelltrainingsstrategien unter begrenztem Datenbudget

Technische Innovationspunkte

Datenerfassungsinnovationen

  1. Byte-Äquivalent-Kalibrierung: Verwendung der UTF-8-Codierungsgröße zur Anpassung von Datenmengen verschiedener Sprachen, um faire Vergleiche zu gewährleisten
  2. Schichtweise Datenorganisation: Einteilung der Sprachen in drei Ebenen basierend auf verfügbaren Datenmengen, um Abdeckung und Datenqualität auszugleichen
  3. Gemeinschaftsgesteuerte Qualitätskontrolle: Jede Sprache wird von Muttersprachlern oder kompetenten Benutzern geleitet, um kulturelle und sprachliche Angemessenheit zu gewährleisten

Evaluierungsrahmen-Innovationen

  1. Duales Evaluierungsmodus: Kombination von Zero-Shot- und Fine-Tuning-Evaluierung zur umfassenden Prüfung von Modellfähigkeiten
  2. Sprachübergreifende Konsistenz: Verwendung von Tools wie MultiBLiMP zur Gewährleistung sprachübergreifender Evaluierungsvergleichbarkeit
  3. Kategorisierte Fähigkeitsevaluierung: Unterscheidung zwischen formalen und funktionalen Sprachfähigkeitsevaluierungen

Offene Wissenschaftspraxis

  1. Vollständige Ressourcenveröffentlichung: Daten, Code und Modelle vollständig quelloffen
  2. Erweiterbare Gestaltung: Bereitstellung standardisierter Pipelines zur Unterstützung von Gemeinschaftsbeiträgen
  3. Transparente Dokumentation: Detaillierte Informationen zu Datenquellen, Lizenzen und Vorverarbeitung

Diese Arbeit leistet einen wichtigen Beitrag zur Schnittstelle zwischen mehrsprachiger Sprachmodellforschung und kognitiver Linguistik, etabliert eine nachhaltig entwickelbare Forschungsplattform und wird voraussichtlich tiefere Erkenntnisse über die Mechanismen des menschlichen Spracherwerbs fördern.