2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

academic

BabyBabelLM : Un Benchmark Multilingue de Données d'Entraînement Développementalement Plausibles

Informations Fondamentales

ID de l'article : 2510.10159
Titre : BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
Auteurs : Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck et 27 autres auteurs
Classification : cs.CL (Linguistique Computationnelle)
Date de soumission : 11 octobre 2025 sur arXiv
Lien de l'article : https://arxiv.org/abs/2510.10159

Résumé

Cet article propose BabyBabelLM, une collection de jeux de données multilingues conçue pour simuler l'environnement linguistique auquel les humains sont exposés de la naissance à l'acquisition de la langue maternelle. Les chercheurs ont soigneusement organisé des données d'entraînement préalable développementalement plausibles, avec pour objectif de fournir pour 45 langues un contenu équivalent à environ 100 millions de mots anglais. Une suite d'évaluation a été compilée et des modèles de base ont été entraînés pour chaque langue. BabyBabelLM vise à promouvoir la recherche en préentraînement multilingue et en modélisation cognitive.

Contexte et Motivation de la Recherche

Définition du Problème

La recherche actuelle sur les modèles de langage se concentre principalement sur l'expansion de l'échelle, poursuivant des modèles plus grands et davantage de données d'entraînement, mais cette tendance ignore les questions fondamentales de l'apprentissage des langues. Les humains acquièrent des compétences linguistiques de la petite enfance à l'âge adulte en étant exposés à moins de 100 millions de mots anglais, ce qui contraste avec les modèles de langage modernes qui nécessitent plus de 100 billions de mots, une différence de plusieurs ordres de grandeur.

Motivation de la Recherche

Problème d'efficacité des données : Explorer comment réaliser une modélisation linguistique efficace avec un budget de données limité
Plausibilité développementale : Étudier la composition des données d'entraînement conforme au processus d'acquisition linguistique humaine
Couverture multilingue : Étendre la portée du défi BabyLM, passant de l'anglais à un environnement multilingue
Modélisation cognitive : Fournir des ressources pour comprendre la relation entre l'acquisition linguistique humaine et l'apprentissage des modèles de langage

Limitations des Approches Existantes

Le défi BabyLM se limite à l'anglais, manquant de validation interlingue
Absence de jeux de données développementalement plausibles multilingues systématiques
La plupart des recherches existantes sont des efforts isolés, manquant de normes de collecte de données coordonnées
Les ressources d'évaluation sont inégalement distribuées entre les langues

Contributions Principales

Construction d'un jeu de données d'entraînement préalable développementalement plausible couvrant 45 langues, organisé en trois niveaux selon la quantité de données (100M, 10M, 1M mots équivalents anglais)
Fourniture d'un pipeline d'extension de données open-source, permettant à la communauté d'ajouter de nouvelles langues et d'étendre les jeux de données existants
Compilation d'une suite d'évaluation multilingue complète, couvrant les compétences linguistiques formelles et fonctionnelles
Entraînement de 45 modèles monolingues, 7 modèles bilingues et 1 modèle multilingue comme références
Établissement d'un cadre collaboratif piloté par la communauté, promouvant l'expansion et l'amélioration continues du jeu de données

Explication Détaillée de la Méthodologie

Principes de Collecte de Données

Critères de Plausibilité Développementale

Langage Dirigé vers l'Enfant (CDS) : Transcriptions de la parole des adultes aux enfants
Matériel Éducatif : Manuels scolaires et contenus d'examen destinés aux enfants
Médias pour Enfants : Livres pour enfants, wikis pour enfants, actualités pour enfants
Contenu de Sous-titres : Sous-titres de films/émissions de télévision adaptés aux enfants
Exclusion des Données Synthétiques : Éviter l'utilisation de contenu généré artificiellement comme TinyStories

Leadership des Données Piloté par la Communauté

La collecte de données pour chaque langue est dirigée par des chercheurs familiers avec cette langue, garantissant la qualité des données et l'adaptation culturelle.

Composition du Jeu de Données

Catégories de Données

Données de Transcription
- Langage dirigé vers l'enfant : Interactions soignant-enfant de la base de données CHILDES
- Langage accessible aux enfants : Conversations d'adultes que les enfants peuvent entendre accidentellement
Contenu Éducatif
- Manuels scolaires destinés aux enfants, matériel d'examen
- Fournit une instruction directe, complétant les modèles de langage formel du CDS
Livres, Wiki, Actualités
- Livres pour enfants, articles wiki pour enfants, actualités pour enfants
- Contient des structures de phrases plus complexes et un vocabulaire diversifié
Sous-titres
- Sous-titres de films/émissions de télévision adaptés aux enfants
- Contenu éducatif de sous-titres du corpus QED
Données de Remplissage
- Corpus OpenSubtitles (contenu inapproprié filtré)
- Données FineWeb-C et Wikipédia comme secours

Stratification Linguistique

Niveau 1 (Tier 1) : 9 langues, environ 100 millions de mots équivalents anglais
Niveau 2 (Tier 2) : 15 langues, environ 10 millions de mots équivalents anglais
Niveau 3 (Tier 3) : 21 langues, environ 1 million de mots équivalents anglais

Prétraitement des Données

Prétraitement Spécifique à la Langue

Traitement initial effectué par les responsables de langue selon les besoins spécifiques de la langue et des données.

Pipeline de Traitement Unifié

Normalisation : Unicode, espaces blancs, normalisation de la ponctuation
Traitement Spécifique à la Catégorie :
- Transcriptions de dialogue : Suppression des annotations linguistiques
- Données de sous-titres : Suppression des étiquettes de locuteur, symboles musicaux, indications de scène
- Format de livres : Suppression des balises XML et URL
Validation Linguistique : Utilisation de GlotLID v3 pour l'identification et la validation de la langue

Configuration Expérimentale

Configuration des Modèles

Modèles Monolingues : Architecture GPT-2, 4 couches transformer, 8 têtes d'attention, dimension cachée 512
Modèles Bilingues : Combinaison de données de langue cible et d'anglais (200M mots au total)
Modèle Multilingue : 12 couches, dimension cachée 768, vocabulaire 32 768, 111M paramètres
Taille du Vocabulaire : 8 192 (monolingue), 32 768 (multilingue)
Stratégie d'Entraînement : Tokenisation BPE, 10 epochs (monolingue), 5 epochs (bilingue), 1 epoch (multilingue)

Cadre d'Évaluation

Compétences Linguistiques Formelles

MonoBLiMP : Benchmark de contraste minimal spécifique à la langue
MultiBLiMP : Jeu de données de contraste minimal à grande échelle basé sur Universal Dependencies
CLAMS : Benchmark d'accord sujet-verbe interlingue

Compétences Linguistiques Fonctionnelles

Tâches Basées sur les Connaissances : Global-MMLU, INCLUDE, BM-LAMA
Tâches de Raisonnement : XNLI, HellaSwag, Belebele, ARC, XCOPA, etc.

Méthodes d'Évaluation

Évaluation Zéro-Shot : Contraste minimal basé sur les probabilités de sortie du modèle
Évaluation par Ajustement Fin : Tâches de classification et questions-réponses, jusqu'à 8 000 échantillons d'entraînement, 10 epochs

Méthodes de Comparaison

Modèles de Base : Performance aléatoire
Modèles de Comparaison : Qwen3-0.6B (modèle multilingue de taille modérée)
Comparaison d'Architecture : GPT-BERT vs GPT-2

Résultats Expérimentaux

Résultats Principaux

Performance des Modèles Monolingues

Tâches MultiBLiMP : Les langues du Niveau 1 dépassent généralement 80% de précision, montrant une bonne capacité d'apprentissage grammatical
Autres Benchmarks : La plupart des tâches affichent une performance proche du niveau aléatoire, reflétant les limitations de la taille des données
Impact de la Taille des Données : Niveau 1 > Niveau 2 > Niveau 3, montrant l'importance de la quantité de données sur la performance

Comparaison Multilingue vs Monolingue

MultiBLiMP : Les modèles monolingues surpassent généralement les modèles multilingues, sauf pour 4 langues du Niveau 3
Belebele : Les deux types de modèles affichent une performance proche du niveau aléatoire, tandis que Qwen montre une performance significativement meilleure
Tendance Générale : Qwen surpasse les modèles de cet article sur la plupart des tâches, mais les modèles multilingues de cet article sont plus forts sur 8 langues

Efficacité des Modèles Bilingues

Tâches Intensives en Connaissances : SIB-200, BM-LAMA, XCOMPS, INCLUDE montrent une amélioration de performance cohérente
Tâches Grammaticales : La performance MultiBLiMP reste essentiellement inchangée, indiquant que la capacité syntaxique est peu sensible aux entrées bilingues
Cas Particuliers : Le néerlandais montre une légère baisse sur la tâche INCLUDE, possiblement due à une inadéquation de domaine

Expériences d'Ablation

Comparaison d'Architecture (GPT-2 vs GPT-BERT)

Le modèle GPT-2 surpasse systématiquement GPT-BERT sur les tâches SIB-200 et MultiBLiMP
Les résultats indiquent que l'architecture GPT-2 est plus adaptée à l'entraînement sur des données de petite taille dans la configuration actuelle

Analyse de la Couverture Linguistique

Langues du Niveau 1 : Chinois, français, bulgare, etc., possédant des données développementalement plausibles relativement riches
Langues du Niveau 2 : Japonais, serbe, cantonais, etc., avec une quantité de données modérée
Langues du Niveau 3 : Principalement des langues à ressources limitées, dépendant largement du remplissage de ressources multilingues

Travaux Connexes

Défi BabyLM

Première Version : Corpus anglais de 10M et 100M mots, 39% de données développementalement plausibles
Deuxième Version : Augmentation à 70% de données dirigées vers l'enfant
Méthodes d'Évaluation : Contraste minimal zéro-shot et évaluation par ajustement fin

Efforts d'Extension Multilingue

Salhan et al. (2024) : Apprentissage curriculaire inspiré par l'acquisition pour le français, l'allemand, le japonais et le chinois
Prévot et al. (2024) : Recherche sur corpus de parole spontanée en anglais et français
Matzopoulos et al. (2025) : Recherche BabyLM sur isiXhosa, mettant en évidence les défis des langues à faibles ressources

Ressources Multilingues Existantes

CHILDES : Base de données d'interactions enfant-adulte dans plus de 40 langues
MAO-CHILDES : Jeu de données trié par âge dans 5 langues
IPA-CHILDES : Corpus phonémisé dans 31 langues

Conclusion et Discussion

Conclusions Principales

Vérification de Faisabilité : Construction réussie d'un jeu de données développementalement plausible pour 45 langues, prouvant la faisabilité de la recherche BabyLM multilingue
Impact de la Quantité de Données : Plus de données développementalement plausibles améliorent effectivement la capacité d'apprentissage grammatical, particulièrement sur les tâches MultiBLiMP
Bénéfices du Bilinguisme : L'entraînement bilingue apporte une amélioration de performance cohérente sur les tâches intensives en connaissances
Choix d'Architecture : L'architecture GPT-2 surpasse GPT-BERT dans les paramètres de données de petite taille

Limitations

Couverture Linguistique Inégale : Malgré la couverture de 45 langues, les langues africaines et les petites langues restent sous-représentées
Variations dans la Composition des Données : Les proportions de données développementalement plausibles varient considérablement entre les langues, pouvant affecter les comparaisons interlingues
Limitations des Ressources d'Évaluation : Absence de benchmarks d'évaluation standardisés couvrant toutes les langues
Approximation des Données : Le jeu de données ne constitue qu'une approximation grossière de l'exposition réelle des enfants au langage

Directions Futures

Expansion de la Couverture Linguistique : Particulièrement les langues africaines et autres langues à faibles ressources
Amélioration de la Qualité des Données : Collecte de davantage de données de haute qualité dirigées vers l'enfant
Standardisation de l'Évaluation : Développement d'un cadre d'évaluation cohérent interlingue
Recherche sur les Capacités Multilingues : Étude approfondie des mécanismes d'acquisition bilingue et multilingue

Évaluation Approfondie

Points Forts

Contribution Systématique : Première construction systématique d'un jeu de données développementalement plausible multilingue à grande échelle
Orientation Communautaire : Établissement d'un cadre de collecte de données durable piloté par la communauté
Rigueur Méthodologique : Utilisation de la méthode d'équivalence en octets pour assurer la comparabilité des quantités de données interlingues
Forte Ouverture : Fourniture complète de données, code et modèles, promouvant la recherche reproductible
Valeur Pratique Élevée : Fourniture de ressources importantes pour la modélisation cognitive multilingue et la recherche sur l'efficacité des données

Insuffisances

Qualité des Données Inégale : Variations considérables dans les proportions de données développementalement plausibles entre les langues
Performance des Modèles Limitée : Les modèles de base affichent une performance proche du niveau aléatoire sur la plupart des tâches
Couverture d'Évaluation Incomplète : Certaines langues manquent de benchmarks d'évaluation suffisants
Analyse Théorique Insuffisante : Manque d'analyse approfondie sur les raisons pour lesquelles certaines langues ou tâches affichent de meilleures performances

Impact

Contribution Disciplinaire : Comble le vide des jeux de données développementalement plausibles multilingues, promouvant le développement de la recherche connexe
Valeur Pratique : Fournit un point de départ important pour la recherche sur la modélisation linguistique des langues à faibles ressources
Reproductibilité : Les ressources open-source complètes garantissent la reproductibilité et l'extensibilité de la recherche
Construction Communautaire : Établissement d'un cadre collaboratif durable promouvant le développement à long terme

Scénarios d'Application

Recherche en Linguistique Cognitive : Exploration de la relation entre l'acquisition linguistique humaine et l'apprentissage automatique
Modélisation de Langues à Faibles Ressources : Fourniture d'un point de départ d'entraînement pour les langues à ressources limitées
Éducation Multilingue : Soutien de la recherche sur l'apprentissage bilingue et multilingue
Recherche sur l'Efficacité des Données : Étude des stratégies d'entraînement de modèles avec un budget de données limité

Points d'Innovation Technique

Innovation dans la Collecte de Données

Calibrage d'Équivalence en Octets : Ajustement de la quantité de données pour différentes langues en utilisant la taille d'encodage UTF-8, garantissant une comparaison équitable
Organisation Hiérarchique des Données : Classification des langues en trois niveaux selon la quantité de données disponibles, équilibrant la couverture et la qualité des données
Contrôle de Qualité Piloté par la Communauté : Chaque langue est dirigée par un locuteur natif ou un utilisateur compétent, garantissant l'adaptation culturelle et linguistique

Innovation dans le Cadre d'Évaluation

Évaluation Bimodale : Combinaison d'évaluation zéro-shot et par ajustement fin, testant complètement les capacités du modèle
Cohérence Interlingue : Utilisation d'outils comme MultiBLiMP pour garantir la comparabilité de l'évaluation interlingue
Évaluation Catégorisée des Capacités : Distinction entre l'évaluation des compétences linguistiques formelles et fonctionnelles

Pratiques de Science Ouverte

Publication Complète des Ressources : Données, code et modèles entièrement open-source
Conception Extensible : Fourniture d'un pipeline standardisé soutenant les contributions communautaires
Documentation Transparente : Informations détaillées sur les sources de données, les licences et le prétraitement

Ce travail apporte une contribution importante à la recherche sur les modèles de langage multilingues et au domaine interdisciplinaire de la linguistique cognitive, établissant une plateforme de recherche durable susceptible de promouvoir une compréhension plus approfondie des mécanismes d'acquisition linguistique humaine.