We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
- ID de l'article : 2510.10159
- Titre : BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
- Auteurs : Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck et 27 autres auteurs
- Classification : cs.CL (Linguistique Computationnelle)
- Date de soumission : 11 octobre 2025 sur arXiv
- Lien de l'article : https://arxiv.org/abs/2510.10159
Cet article propose BabyBabelLM, une collection de jeux de données multilingues conçue pour simuler l'environnement linguistique auquel les humains sont exposés de la naissance à l'acquisition de la langue maternelle. Les chercheurs ont soigneusement organisé des données d'entraînement préalable développementalement plausibles, avec pour objectif de fournir pour 45 langues un contenu équivalent à environ 100 millions de mots anglais. Une suite d'évaluation a été compilée et des modèles de base ont été entraînés pour chaque langue. BabyBabelLM vise à promouvoir la recherche en préentraînement multilingue et en modélisation cognitive.
La recherche actuelle sur les modèles de langage se concentre principalement sur l'expansion de l'échelle, poursuivant des modèles plus grands et davantage de données d'entraînement, mais cette tendance ignore les questions fondamentales de l'apprentissage des langues. Les humains acquièrent des compétences linguistiques de la petite enfance à l'âge adulte en étant exposés à moins de 100 millions de mots anglais, ce qui contraste avec les modèles de langage modernes qui nécessitent plus de 100 billions de mots, une différence de plusieurs ordres de grandeur.
- Problème d'efficacité des données : Explorer comment réaliser une modélisation linguistique efficace avec un budget de données limité
- Plausibilité développementale : Étudier la composition des données d'entraînement conforme au processus d'acquisition linguistique humaine
- Couverture multilingue : Étendre la portée du défi BabyLM, passant de l'anglais à un environnement multilingue
- Modélisation cognitive : Fournir des ressources pour comprendre la relation entre l'acquisition linguistique humaine et l'apprentissage des modèles de langage
- Le défi BabyLM se limite à l'anglais, manquant de validation interlingue
- Absence de jeux de données développementalement plausibles multilingues systématiques
- La plupart des recherches existantes sont des efforts isolés, manquant de normes de collecte de données coordonnées
- Les ressources d'évaluation sont inégalement distribuées entre les langues
- Construction d'un jeu de données d'entraînement préalable développementalement plausible couvrant 45 langues, organisé en trois niveaux selon la quantité de données (100M, 10M, 1M mots équivalents anglais)
- Fourniture d'un pipeline d'extension de données open-source, permettant à la communauté d'ajouter de nouvelles langues et d'étendre les jeux de données existants
- Compilation d'une suite d'évaluation multilingue complète, couvrant les compétences linguistiques formelles et fonctionnelles
- Entraînement de 45 modèles monolingues, 7 modèles bilingues et 1 modèle multilingue comme références
- Établissement d'un cadre collaboratif piloté par la communauté, promouvant l'expansion et l'amélioration continues du jeu de données
- Langage Dirigé vers l'Enfant (CDS) : Transcriptions de la parole des adultes aux enfants
- Matériel Éducatif : Manuels scolaires et contenus d'examen destinés aux enfants
- Médias pour Enfants : Livres pour enfants, wikis pour enfants, actualités pour enfants
- Contenu de Sous-titres : Sous-titres de films/émissions de télévision adaptés aux enfants
- Exclusion des Données Synthétiques : Éviter l'utilisation de contenu généré artificiellement comme TinyStories
La collecte de données pour chaque langue est dirigée par des chercheurs familiers avec cette langue, garantissant la qualité des données et l'adaptation culturelle.
- Données de Transcription
- Langage dirigé vers l'enfant : Interactions soignant-enfant de la base de données CHILDES
- Langage accessible aux enfants : Conversations d'adultes que les enfants peuvent entendre accidentellement
- Contenu Éducatif
- Manuels scolaires destinés aux enfants, matériel d'examen
- Fournit une instruction directe, complétant les modèles de langage formel du CDS
- Livres, Wiki, Actualités
- Livres pour enfants, articles wiki pour enfants, actualités pour enfants
- Contient des structures de phrases plus complexes et un vocabulaire diversifié
- Sous-titres
- Sous-titres de films/émissions de télévision adaptés aux enfants
- Contenu éducatif de sous-titres du corpus QED
- Données de Remplissage
- Corpus OpenSubtitles (contenu inapproprié filtré)
- Données FineWeb-C et Wikipédia comme secours
- Niveau 1 (Tier 1) : 9 langues, environ 100 millions de mots équivalents anglais
- Niveau 2 (Tier 2) : 15 langues, environ 10 millions de mots équivalents anglais
- Niveau 3 (Tier 3) : 21 langues, environ 1 million de mots équivalents anglais
Traitement initial effectué par les responsables de langue selon les besoins spécifiques de la langue et des données.
- Normalisation : Unicode, espaces blancs, normalisation de la ponctuation
- Traitement Spécifique à la Catégorie :
- Transcriptions de dialogue : Suppression des annotations linguistiques
- Données de sous-titres : Suppression des étiquettes de locuteur, symboles musicaux, indications de scène
- Format de livres : Suppression des balises XML et URL
- Validation Linguistique : Utilisation de GlotLID v3 pour l'identification et la validation de la langue
- Modèles Monolingues : Architecture GPT-2, 4 couches transformer, 8 têtes d'attention, dimension cachée 512
- Modèles Bilingues : Combinaison de données de langue cible et d'anglais (200M mots au total)
- Modèle Multilingue : 12 couches, dimension cachée 768, vocabulaire 32 768, 111M paramètres
- Taille du Vocabulaire : 8 192 (monolingue), 32 768 (multilingue)
- Stratégie d'Entraînement : Tokenisation BPE, 10 epochs (monolingue), 5 epochs (bilingue), 1 epoch (multilingue)
- MonoBLiMP : Benchmark de contraste minimal spécifique à la langue
- MultiBLiMP : Jeu de données de contraste minimal à grande échelle basé sur Universal Dependencies
- CLAMS : Benchmark d'accord sujet-verbe interlingue
- Tâches Basées sur les Connaissances : Global-MMLU, INCLUDE, BM-LAMA
- Tâches de Raisonnement : XNLI, HellaSwag, Belebele, ARC, XCOPA, etc.
- Évaluation Zéro-Shot : Contraste minimal basé sur les probabilités de sortie du modèle
- Évaluation par Ajustement Fin : Tâches de classification et questions-réponses, jusqu'à 8 000 échantillons d'entraînement, 10 epochs
- Modèles de Base : Performance aléatoire
- Modèles de Comparaison : Qwen3-0.6B (modèle multilingue de taille modérée)
- Comparaison d'Architecture : GPT-BERT vs GPT-2
- Tâches MultiBLiMP : Les langues du Niveau 1 dépassent généralement 80% de précision, montrant une bonne capacité d'apprentissage grammatical
- Autres Benchmarks : La plupart des tâches affichent une performance proche du niveau aléatoire, reflétant les limitations de la taille des données
- Impact de la Taille des Données : Niveau 1 > Niveau 2 > Niveau 3, montrant l'importance de la quantité de données sur la performance
- MultiBLiMP : Les modèles monolingues surpassent généralement les modèles multilingues, sauf pour 4 langues du Niveau 3
- Belebele : Les deux types de modèles affichent une performance proche du niveau aléatoire, tandis que Qwen montre une performance significativement meilleure
- Tendance Générale : Qwen surpasse les modèles de cet article sur la plupart des tâches, mais les modèles multilingues de cet article sont plus forts sur 8 langues
- Tâches Intensives en Connaissances : SIB-200, BM-LAMA, XCOMPS, INCLUDE montrent une amélioration de performance cohérente
- Tâches Grammaticales : La performance MultiBLiMP reste essentiellement inchangée, indiquant que la capacité syntaxique est peu sensible aux entrées bilingues
- Cas Particuliers : Le néerlandais montre une légère baisse sur la tâche INCLUDE, possiblement due à une inadéquation de domaine
- Le modèle GPT-2 surpasse systématiquement GPT-BERT sur les tâches SIB-200 et MultiBLiMP
- Les résultats indiquent que l'architecture GPT-2 est plus adaptée à l'entraînement sur des données de petite taille dans la configuration actuelle
- Langues du Niveau 1 : Chinois, français, bulgare, etc., possédant des données développementalement plausibles relativement riches
- Langues du Niveau 2 : Japonais, serbe, cantonais, etc., avec une quantité de données modérée
- Langues du Niveau 3 : Principalement des langues à ressources limitées, dépendant largement du remplissage de ressources multilingues
- Première Version : Corpus anglais de 10M et 100M mots, 39% de données développementalement plausibles
- Deuxième Version : Augmentation à 70% de données dirigées vers l'enfant
- Méthodes d'Évaluation : Contraste minimal zéro-shot et évaluation par ajustement fin
- Salhan et al. (2024) : Apprentissage curriculaire inspiré par l'acquisition pour le français, l'allemand, le japonais et le chinois
- Prévot et al. (2024) : Recherche sur corpus de parole spontanée en anglais et français
- Matzopoulos et al. (2025) : Recherche BabyLM sur isiXhosa, mettant en évidence les défis des langues à faibles ressources
- CHILDES : Base de données d'interactions enfant-adulte dans plus de 40 langues
- MAO-CHILDES : Jeu de données trié par âge dans 5 langues
- IPA-CHILDES : Corpus phonémisé dans 31 langues
- Vérification de Faisabilité : Construction réussie d'un jeu de données développementalement plausible pour 45 langues, prouvant la faisabilité de la recherche BabyLM multilingue
- Impact de la Quantité de Données : Plus de données développementalement plausibles améliorent effectivement la capacité d'apprentissage grammatical, particulièrement sur les tâches MultiBLiMP
- Bénéfices du Bilinguisme : L'entraînement bilingue apporte une amélioration de performance cohérente sur les tâches intensives en connaissances
- Choix d'Architecture : L'architecture GPT-2 surpasse GPT-BERT dans les paramètres de données de petite taille
- Couverture Linguistique Inégale : Malgré la couverture de 45 langues, les langues africaines et les petites langues restent sous-représentées
- Variations dans la Composition des Données : Les proportions de données développementalement plausibles varient considérablement entre les langues, pouvant affecter les comparaisons interlingues
- Limitations des Ressources d'Évaluation : Absence de benchmarks d'évaluation standardisés couvrant toutes les langues
- Approximation des Données : Le jeu de données ne constitue qu'une approximation grossière de l'exposition réelle des enfants au langage
- Expansion de la Couverture Linguistique : Particulièrement les langues africaines et autres langues à faibles ressources
- Amélioration de la Qualité des Données : Collecte de davantage de données de haute qualité dirigées vers l'enfant
- Standardisation de l'Évaluation : Développement d'un cadre d'évaluation cohérent interlingue
- Recherche sur les Capacités Multilingues : Étude approfondie des mécanismes d'acquisition bilingue et multilingue
- Contribution Systématique : Première construction systématique d'un jeu de données développementalement plausible multilingue à grande échelle
- Orientation Communautaire : Établissement d'un cadre de collecte de données durable piloté par la communauté
- Rigueur Méthodologique : Utilisation de la méthode d'équivalence en octets pour assurer la comparabilité des quantités de données interlingues
- Forte Ouverture : Fourniture complète de données, code et modèles, promouvant la recherche reproductible
- Valeur Pratique Élevée : Fourniture de ressources importantes pour la modélisation cognitive multilingue et la recherche sur l'efficacité des données
- Qualité des Données Inégale : Variations considérables dans les proportions de données développementalement plausibles entre les langues
- Performance des Modèles Limitée : Les modèles de base affichent une performance proche du niveau aléatoire sur la plupart des tâches
- Couverture d'Évaluation Incomplète : Certaines langues manquent de benchmarks d'évaluation suffisants
- Analyse Théorique Insuffisante : Manque d'analyse approfondie sur les raisons pour lesquelles certaines langues ou tâches affichent de meilleures performances
- Contribution Disciplinaire : Comble le vide des jeux de données développementalement plausibles multilingues, promouvant le développement de la recherche connexe
- Valeur Pratique : Fournit un point de départ important pour la recherche sur la modélisation linguistique des langues à faibles ressources
- Reproductibilité : Les ressources open-source complètes garantissent la reproductibilité et l'extensibilité de la recherche
- Construction Communautaire : Établissement d'un cadre collaboratif durable promouvant le développement à long terme
- Recherche en Linguistique Cognitive : Exploration de la relation entre l'acquisition linguistique humaine et l'apprentissage automatique
- Modélisation de Langues à Faibles Ressources : Fourniture d'un point de départ d'entraînement pour les langues à ressources limitées
- Éducation Multilingue : Soutien de la recherche sur l'apprentissage bilingue et multilingue
- Recherche sur l'Efficacité des Données : Étude des stratégies d'entraînement de modèles avec un budget de données limité
- Calibrage d'Équivalence en Octets : Ajustement de la quantité de données pour différentes langues en utilisant la taille d'encodage UTF-8, garantissant une comparaison équitable
- Organisation Hiérarchique des Données : Classification des langues en trois niveaux selon la quantité de données disponibles, équilibrant la couverture et la qualité des données
- Contrôle de Qualité Piloté par la Communauté : Chaque langue est dirigée par un locuteur natif ou un utilisateur compétent, garantissant l'adaptation culturelle et linguistique
- Évaluation Bimodale : Combinaison d'évaluation zéro-shot et par ajustement fin, testant complètement les capacités du modèle
- Cohérence Interlingue : Utilisation d'outils comme MultiBLiMP pour garantir la comparabilité de l'évaluation interlingue
- Évaluation Catégorisée des Capacités : Distinction entre l'évaluation des compétences linguistiques formelles et fonctionnelles
- Publication Complète des Ressources : Données, code et modèles entièrement open-source
- Conception Extensible : Fourniture d'un pipeline standardisé soutenant les contributions communautaires
- Documentation Transparente : Informations détaillées sur les sources de données, les licences et le prétraitement
Ce travail apporte une contribution importante à la recherche sur les modèles de langage multilingues et au domaine interdisciplinaire de la linguistique cognitive, établissant une plateforme de recherche durable susceptible de promouvoir une compréhension plus approfondie des mécanismes d'acquisition linguistique humaine.