2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.
We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
academic

BabyBabelLM: Un Benchmark Multilingue di Dati di Addestramento Sviluppisticamente Plausibili

Informazioni Fondamentali

  • ID Articolo: 2510.10159
  • Titolo: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
  • Autori: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck e altri 27 autori
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: Sottomesso ad arXiv il 11 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.10159

Riassunto

Questo articolo presenta BabyBabelLM, una collezione di dataset multilingui progettata per simulare l'ambiente linguistico a cui gli esseri umani sono esposti dalla nascita fino all'acquisizione della lingua madre. I ricercatori hanno curato attentamente dati di preaddestramento sviluppisticamente plausibili, con l'obiettivo di fornire contenuti equivalenti a 100 milioni di parole inglesi per 45 lingue. Contemporaneamente, è stata compilata una suite di valutazione e sono stati addestrati modelli di base per ogni lingua. BabyBabelLM mira a promuovere la ricerca nel preaddestramento multilingue e nella modellazione cognitiva.

Contesto di Ricerca e Motivazione

Definizione del Problema

La ricerca attuale sui modelli linguistici si concentra principalmente sull'espansione della scala, perseguendo modelli più grandi e più dati di addestramento, ma questo trend trascura le questioni fondamentali dell'apprendimento linguistico. Gli esseri umani acquisiscono competenze linguistiche dall'infanzia all'età adulta attraverso l'esposizione a meno di 100 milioni di parole inglesi, il che contrasta con i moderni modelli linguistici che richiedono oltre 100 trilioni di parole—una differenza di diversi ordini di grandezza.

Motivazione della Ricerca

  1. Problema di Efficienza dei Dati: Esplorare come realizzare una modellazione linguistica efficiente con un budget di dati limitato
  2. Plausibilità Sviluppista: Studiare la composizione dei dati di addestramento coerente con il processo di acquisizione linguistica umana
  3. Copertura Multilingue: Estendere l'ambito della sfida BabyLM dall'inglese all'ambiente multilingue
  4. Modellazione Cognitiva: Fornire risorse per comprendere la relazione tra l'acquisizione linguistica umana e l'apprendimento dei modelli linguistici

Limitazioni degli Approcci Esistenti

  • La sfida BabyLM è limitata all'inglese, mancando di validazione cross-linguistica
  • Mancanza di dataset multilingui sistematici con dati sviluppisticamente plausibili
  • La ricerca esistente è principalmente frammentaria, mancando di standard di raccolta dati coordinati
  • Le risorse di valutazione sono distribuite in modo non uniforme tra le lingue

Contributi Principali

  1. Costruzione di un dataset di preaddestramento sviluppisticamente plausibile che copre 45 lingue, organizzato in tre livelli in base alla quantità di dati (100M, 10M, 1M parole equivalenti inglesi)
  2. Fornitura di una pipeline di espansione dati open-source che supporta l'aggiunta di nuove lingue e l'estensione dei dataset esistenti da parte della comunità
  3. Compilazione di una suite di valutazione multilingue completa che copre sia le competenze linguistiche formali che funzionali
  4. Addestramento di 45 modelli monolingui, 7 modelli bilingui e 1 modello multilingue come baseline
  5. Istituzione di un framework collaborativo guidato dalla comunità che promuove l'espansione e il miglioramento continuo del dataset

Spiegazione Dettagliata del Metodo

Principi di Raccolta Dati

Standard di Plausibilità Sviluppista

  • Linguaggio Diretto ai Bambini (CDS): Trascrizioni di adulti che parlano ai bambini
  • Materiali Educativi: Libri di testo e contenuti di esami rivolti ai bambini
  • Media per Bambini: Libri per bambini, wiki per bambini, notizie per bambini
  • Contenuti di Sottotitoli: Sottotitoli di film/programmi televisivi adatti ai bambini
  • Esclusione di Dati Sintetici: Evitare l'uso di contenuti generati artificialmente come TinyStories

Leadership Dati Guidata dalla Comunità

La raccolta dati per ogni lingua è supervisionata da ricercatori familiari con quella lingua, garantendo la qualità dei dati e l'adattamento culturale.

Composizione del Dataset

Categorie di Dati

  1. Dati Trascritti (Transcription)
    • Linguaggio diretto ai bambini: Interazioni caregiver-bambino dal database CHILDES
    • Linguaggio accessibile ai bambini: Conversazioni tra adulti che i bambini potrebbero sentire incidentalmente
  2. Contenuti Educativi (Education)
    • Libri di testo rivolti ai bambini, materiali di esame
    • Forniscono istruzioni dirette, integrando i modelli linguistici formali del CDS
  3. Libri, Wiki, Notizie (Books, Wiki, News)
    • Libri per bambini, articoli wiki per bambini, notizie per bambini
    • Contengono strutture di frasi più complesse e vocabolario diversificato
  4. Sottotitoli (Subtitles)
    • Sottotitoli di film/programmi televisivi adatti ai bambini
    • Contenuti educativi di sottotitoli dal corpus QED
  5. Dati di Riempimento (Padding)
    • Corpus OpenSubtitles (filtrato per contenuti inappropriati)
    • Dati FineWeb-C e Wikipedia come backup

Stratificazione Linguistica

  • Livello 1 (Tier 1): 9 lingue, circa 100 milioni di parole equivalenti inglesi
  • Livello 2 (Tier 2): 15 lingue, circa 10 milioni di parole equivalenti inglesi
  • Livello 3 (Tier 3): 21 lingue, circa 1 milione di parole equivalenti inglesi

Preelaborazione Dati

Preelaborazione Specifica della Lingua

Eseguita dai responsabili della lingua in base alle esigenze specifiche della lingua e dei dati.

Pipeline di Elaborazione Unificata

  1. Normalizzazione: Normalizzazione Unicode, spazi bianchi e punteggiatura
  2. Elaborazione Specifica per Categoria:
    • Trascrizioni di dialoghi: Rimozione di annotazioni linguistiche
    • Dati di sottotitoli: Rimozione di etichette di parlanti, simboli musicali, indicazioni sceniche
    • Formati di libri: Rimozione di tag XML e URL
  3. Validazione Linguistica: Utilizzo di GlotLID v3 per l'identificazione e la validazione della lingua

Configurazione Sperimentale

Configurazione del Modello

  • Modelli Monolingui: Architettura GPT-2, 4 strati transformer, 8 teste di attenzione, dimensione nascosta 512
  • Modelli Bilingui: Combinazione di dati della lingua target e inglese (200M parole totali)
  • Modello Multilingue: 12 strati, dimensione nascosta 768, vocabolario 32.768, 111M parametri
  • Dimensione Vocabolario: 8.192 (monolingue), 32.768 (multilingue)
  • Strategia di Addestramento: Tokenizzazione BPE, 10 epoch (monolingue), 5 epoch (bilingue), 1 epoch (multilingue)

Framework di Valutazione

Competenze Linguistiche Formali

  • MonoBLiMP: Benchmark minimo contrastivo specifico della lingua
  • MultiBLiMP: Dataset minimo contrastivo su larga scala basato su Universal Dependencies
  • CLAMS: Benchmark di concordanza soggetto-verbo cross-linguistico

Competenze Linguistiche Funzionali

  • Compiti Basati su Conoscenza: Global-MMLU, INCLUDE, BM-LAMA
  • Compiti di Ragionamento: XNLI, HellaSwag, Belebele, ARC, XCOPA, ecc.

Modalità di Valutazione

  • Valutazione Zero-Shot: Confronto minimo contrastivo basato sulla probabilità dell'output del modello
  • Valutazione con Fine-Tuning: Compiti di classificazione e domande-risposte, massimo 8.000 campioni di addestramento, 10 epoch

Metodi di Confronto

  • Modelli di Base: Prestazioni casuali
  • Modelli di Confronto: Qwen3-0.6B (modello multilingue di dimensioni moderate)
  • Confronto Architetturale: GPT-BERT vs GPT-2

Risultati Sperimentali

Risultati Principali

Prestazioni del Modello Monolingue

  • Compiti MultiBLiMP: Le lingue del Livello 1 generalmente superano l'80% di accuratezza, mostrando buone capacità di apprendimento grammaticale
  • Altri Benchmark: La maggior parte dei compiti ha prestazioni vicine al livello casuale, riflettendo i limiti della scala dei dati
  • Impatto della Scala Dati: Livello 1 > Livello 2 > Livello 3, mostrando l'importanza della quantità di dati sulle prestazioni

Confronto Multilingue vs Monolingue

  • MultiBLiMP: I modelli monolingui generalmente superano i modelli multilingui, ad eccezione di 4 lingue del Livello 3
  • Belebele: Entrambi i modelli hanno prestazioni vicine al livello casuale, mentre Qwen mostra prestazioni significativamente migliori
  • Trend Generale: Qwen supera i modelli di questo articolo nella maggior parte dei compiti, ma il modello multilingue di questo articolo è più forte in 8 lingue

Effetto dei Modelli Bilingui

  • Compiti Intensivi di Conoscenza: SIB-200, BM-LAMA, XCOMPS, INCLUDE mostrano miglioramenti di prestazioni coerenti
  • Compiti Grammaticali: Le prestazioni di MultiBLiMP rimangono sostanzialmente invariate, indicando che le capacità sintattiche sono meno sensibili all'input bilingue
  • Casi Speciali: L'olandese mostra un leggero calo nel compito INCLUDE, probabilmente dovuto a disallineamento di dominio

Esperimenti di Ablazione

Confronto Architetturale (GPT-2 vs GPT-BERT)

  • Il modello GPT-2 supera costantemente GPT-BERT nei compiti SIB-200 e MultiBLiMP
  • I risultati indicano che l'architettura GPT-2 è più adatta all'addestramento su dati di piccola scala nella configurazione attuale

Analisi della Copertura Linguistica

  • Lingue del Livello 1: Cinese, francese, bulgaro, ecc., con dati sviluppisticamente plausibili relativamente ricchi
  • Lingue del Livello 2: Giapponese, serbo, cantonese, ecc., con quantità di dati moderata
  • Lingue del Livello 3: Principalmente lingue con risorse scarse, dipendenti principalmente da risorse multilingui per il riempimento

Lavori Correlati

Sfida BabyLM

  • Prima Versione: Corpus inglese di 10M e 100M parole, 39% dati sviluppisticamente plausibili
  • Seconda Versione: Aumento al 70% di dati diretti ai bambini
  • Modalità di Valutazione: Confronto minimo contrastivo zero-shot e valutazione con fine-tuning

Sforzi di Estensione Multilingue

  • Salhan et al. (2024): Apprendimento curricolare ispirato all'acquisizione per francese, tedesco, giapponese, cinese
  • Prévot et al. (2024): Ricerca su corpus di linguaggio spontaneo in inglese e francese
  • Matzopoulos et al. (2025): Ricerca BabyLM su isiXhosa, evidenziando le sfide delle lingue a basse risorse

Risorse Multilingui Esistenti

  • CHILDES: Database di interazioni bambino-adulto in oltre 40 lingue
  • MAO-CHILDES: Dataset ordinato per età in 5 lingue
  • IPA-CHILDES: Corpus fonemizzato in 31 lingue

Conclusioni e Discussione

Conclusioni Principali

  1. Verifica di Fattibilità: Costruzione riuscita di un dataset sviluppisticamente plausibile per 45 lingue, provando la fattibilità della ricerca BabyLM multilingue
  2. Impatto della Quantità di Dati: Più dati sviluppisticamente plausibili migliorano effettivamente le capacità di apprendimento grammaticale, in particolare nei compiti MultiBLiMP
  3. Benefici del Bilinguismo: L'addestramento bilingue porta miglioramenti di prestazioni coerenti nei compiti intensivi di conoscenza
  4. Scelta Architetturale: Con impostazioni di dati su piccola scala, l'architettura GPT-2 supera GPT-BERT

Limitazioni

  1. Copertura Linguistica Ineguale: Nonostante copra 45 lingue, le lingue africane e le lingue minoritarie rimangono sottorappresentate
  2. Variabilità nella Composizione dei Dati: La proporzione di dati sviluppisticamente plausibili varia considerevolmente tra le lingue, potendo influenzare i confronti cross-linguistici
  3. Limitazioni delle Risorse di Valutazione: Mancanza di benchmark di valutazione standardizzati che coprano tutte le lingue
  4. Approssimazione dei Dati: Il dataset è solo un'approssimazione grossolana dell'input linguistico reale ricevuto dai bambini

Direzioni Future

  1. Espansione della Copertura Linguistica: In particolare lingue africane e altre lingue a basse risorse
  2. Miglioramento della Qualità dei Dati: Raccolta di più dati di alta qualità diretti ai bambini
  3. Valutazione Standardizzata: Sviluppo di un framework di valutazione coerente cross-linguistico
  4. Ricerca sulle Capacità Multilingui: Indagine approfondita sui meccanismi di acquisizione bilingue e multilingue

Valutazione Approfondita

Punti di Forza

  1. Contributo Sistematico: Prima costruzione sistematica di un dataset multilingue su larga scala di dati sviluppisticamente plausibili
  2. Orientamento Comunitario: Istituzione di un framework sostenibile di raccolta dati guidato dalla comunità
  3. Rigor Metodologico: Utilizzo del metodo del byte premium per garantire la comparabilità della quantità di dati cross-linguistica
  4. Forte Apertura: Fornitura completa di dati, codice e modelli, promuovendo la ricerca riproducibile
  5. Alto Valore Pratico: Fornitura di risorse importanti per la ricerca sulla modellazione cognitiva multilingue e l'efficienza dei dati

Insufficienze

  1. Qualità Dati Incoerente: Variazione considerevole nella proporzione di dati sviluppisticamente plausibili tra le lingue
  2. Prestazioni del Modello Limitate: I modelli di base hanno prestazioni vicine al livello casuale nella maggior parte dei compiti
  3. Copertura di Valutazione Incompleta: Alcune lingue mancano di benchmark di valutazione adeguati
  4. Analisi Teorica Insufficiente: Mancanza di analisi approfondita del perché alcune lingue o compiti hanno prestazioni migliori

Impatto

  1. Contributo al Campo: Colmamento del vuoto nei dataset multilingui di dati sviluppisticamente plausibili, promozione dello sviluppo della ricerca correlata
  2. Valore Pratico: Fornitura di un punto di partenza importante per la ricerca sulla modellazione linguistica per lingue a basse risorse
  3. Riproducibilità: Risorse complete open-source garantiscono la riproducibilità e l'estensibilità della ricerca
  4. Costruzione Comunitaria: Istituzione di un framework collaborativo sostenibile, promozione dello sviluppo a lungo termine

Scenari Applicabili

  1. Ricerca in Linguistica Cognitiva: Esplorazione della relazione tra l'acquisizione linguistica umana e l'apprendimento automatico
  2. Modellazione di Lingue a Basse Risorse: Fornitura di un punto di partenza di addestramento per lingue con risorse scarse
  3. Educazione Multilingue: Supporto della ricerca sull'apprendimento bilingue e multilingue
  4. Ricerca sull'Efficienza dei Dati: Ricerca su strategie di addestramento di modelli con budget di dati limitato

Punti di Innovazione Tecnica

Innovazione nella Raccolta Dati

  1. Calibrazione del Premium di Byte: Utilizzo della dimensione di codifica UTF-8 per regolare la quantità di dati di lingue diverse, garantendo confronti equi
  2. Organizzazione Dati Stratificata: Stratificazione delle lingue in tre livelli in base alla quantità di dati disponibili, bilanciando copertura e qualità dei dati
  3. Controllo di Qualità Guidato dalla Comunità: Supervisione della raccolta dati per ogni lingua da parte di madrelingua o utenti esperti, garantendo adattamento culturale e linguistico

Innovazione nel Framework di Valutazione

  1. Valutazione Bimodale: Combinazione di valutazione zero-shot e con fine-tuning per testare completamente le capacità del modello
  2. Coerenza Cross-Linguistica: Utilizzo di strumenti come MultiBLiMP per garantire la comparabilità della valutazione cross-linguistica
  3. Valutazione Categorizzata per Capacità: Distinzione tra valutazione delle competenze linguistiche formali e funzionali

Pratiche di Scienza Aperta

  1. Rilascio Completo di Risorse: Dati, codice e modelli completamente open-source
  2. Design Estensibile: Fornitura di pipeline standardizzate per supportare i contributi della comunità
  3. Documentazione Trasparente: Informazioni dettagliate su fonti dati, licenze e preelaborazione

Questo lavoro fornisce un contributo importante alla ricerca sui modelli linguistici multilingui e al campo interdisciplinare della linguistica cognitiva, istituendo una piattaforma di ricerca sostenibile che promette di promuovere una comprensione più profonda dei meccanismi di acquisizione linguistica umana.