We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
- ID del Artículo: 2510.10159
- Título: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
- Autores: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck y 27 autores más
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: Enviado a arXiv el 11 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.10159
En este artículo se presenta BabyBabelLM, una colección de conjuntos de datos multilingües diseñada para simular el entorno lingüístico al que están expuestos los humanos desde el nacimiento hasta la adquisición de la lengua materna. Los investigadores han compilado cuidadosamente datos de preentrenamiento plausibles desde el desarrollo, con el objetivo de proporcionar contenido equivalente a cien millones de palabras en inglés para 45 idiomas. Simultáneamente, se ha compilado un conjunto de evaluación y se han entrenado modelos de referencia para cada idioma. BabyBabelLM tiene como objetivo promover la investigación en preentrenamiento multilingüe y modelado cognitivo.
La investigación actual en modelos de lenguaje se centra principalmente en la escalabilidad, persiguiendo modelos más grandes y más datos de entrenamiento, pero esta tendencia ignora las cuestiones fundamentales del aprendizaje lingüístico. Los humanos adquieren capacidades lingüísticas desde la infancia hasta la edad adulta al estar expuestos a menos de cien millones de palabras en inglés, lo que contrasta con los modelos de lenguaje modernos que requieren más de cien billones de palabras, una diferencia de varios órdenes de magnitud.
- Problema de Eficiencia de Datos: Explorar cómo lograr un modelado lingüístico eficiente con un presupuesto de datos limitado
- Plausibilidad del Desarrollo: Investigar la composición de datos de entrenamiento que se alinea con el proceso de adquisición lingüística humana
- Cobertura Multilingüe: Expandir el alcance del desafío BabyLM, extendiéndose del inglés a entornos multilingües
- Modelado Cognitivo: Proporcionar recursos para comprender la relación entre la adquisición lingüística humana y el aprendizaje de modelos de lenguaje
- El desafío BabyLM se limita al inglés, careciendo de validación entre idiomas
- Falta de conjuntos de datos sistemáticos y multilingües con plausibilidad de desarrollo
- La investigación existente es principalmente esfuerzos aislados, careciendo de estándares de recopilación de datos coordinados
- Los recursos de evaluación se distribuyen de manera desigual entre idiomas
- Construcción de un conjunto de datos de preentrenamiento con plausibilidad de desarrollo que cubre 45 idiomas, organizado en tres niveles según la cantidad de datos (equivalentes a 100M, 10M y 1M palabras en inglés)
- Provisión de una canalización de expansión de datos de código abierto que permite a la comunidad agregar nuevos idiomas y expandir conjuntos de datos existentes
- Compilación de un conjunto de evaluación multilingüe integral que abarca capacidades lingüísticas formales y funcionales
- Entrenamiento de 45 modelos monolingües, 7 modelos bilingües y 1 modelo multilingüe como referencias
- Establecimiento de un marco colaborativo impulsado por la comunidad que promueve la expansión y mejora continua del conjunto de datos
- Lenguaje Dirigido a Niños (CDS): Transcripciones de adultos hablando con niños
- Materiales Educativos: Libros de texto y contenido de exámenes dirigidos a niños
- Medios Infantiles: Libros infantiles, wikis infantiles, noticias infantiles
- Contenido de Subtítulos: Subtítulos de películas/programas de televisión apropiados para niños
- Exclusión de Datos Sintéticos: Evitar el uso de contenido generado artificialmente como TinyStories
La recopilación de datos para cada idioma es responsabilidad de investigadores familiarizados con ese idioma, garantizando la calidad de los datos y la adaptación cultural.
- Datos de Transcripción
- Lenguaje dirigido a niños: Interacciones cuidador-niño de la base de datos CHILDES
- Lenguaje accesible a niños: Conversaciones de adultos que los niños pueden escuchar incidentalmente
- Contenido Educativo
- Libros de texto dirigidos a niños, materiales de exámenes
- Proporciona instrucción directa, complementando los patrones lingüísticos formales del CDS
- Libros, Wiki, Noticias
- Libros infantiles, artículos de wiki infantiles, noticias infantiles
- Contiene estructuras de oraciones más complejas y vocabulario diverso
- Subtítulos
- Subtítulos de películas/programas de televisión apropiados para niños
- Contenido educativo de subtítulos del corpus QED
- Datos de Relleno
- Corpus de OpenSubtitles (filtrado para contenido inapropiado)
- Datos de FineWeb-C y Wikipedia como respaldo
- Nivel 1: 9 idiomas, aproximadamente 100 millones de palabras equivalentes en inglés
- Nivel 2: 15 idiomas, aproximadamente 10 millones de palabras equivalentes en inglés
- Nivel 3: 21 idiomas, aproximadamente 1 millón de palabras equivalentes en inglés
Realizado por los responsables del idioma según los requisitos específicos del idioma y los datos.
- Normalización: Normalización de Unicode, espacios en blanco y puntuación
- Procesamiento Específico de Categorías:
- Transcripciones de diálogos: Eliminación de anotaciones lingüísticas
- Datos de subtítulos: Eliminación de etiquetas de hablante, símbolos musicales, indicaciones de escena
- Formato de libros: Eliminación de etiquetas XML y URLs
- Validación Lingüística: Uso de GlotLID v3 para identificación y validación de idiomas
- Modelos Monolingües: Arquitectura GPT-2, 4 capas de transformador, 8 cabezas de atención, dimensión oculta 512
- Modelos Bilingües: Combinación de datos del idioma objetivo e inglés (200M palabras en total)
- Modelo Multilingüe: 12 capas, dimensión oculta 768, vocabulario 32,768, 111M parámetros
- Tamaño del Vocabulario: 8,192 (monolingüe), 32,768 (multilingüe)
- Estrategia de Entrenamiento: Tokenización BPE, 10 épocas (monolingüe), 5 épocas (bilingüe), 1 época (multilingüe)
- MonoBLiMP: Punto de referencia mínimo contrastivo específico del idioma
- MultiBLiMP: Conjunto de datos mínimo contrastivo a gran escala basado en Dependencias Universales
- CLAMS: Punto de referencia de concordancia sujeto-verbo entre idiomas
- Tareas Basadas en Conocimiento: Global-MMLU, INCLUDE, BM-LAMA
- Tareas de Razonamiento: XNLI, HellaSwag, Belebele, ARC, XCOPA, etc.
- Evaluación de Cero Ejemplos: Comparación mínima contrastiva basada en probabilidades de salida del modelo
- Evaluación de Ajuste Fino: Tareas de clasificación y preguntas-respuestas, máximo 8000 muestras de entrenamiento, 10 épocas
- Modelos de Referencia: Desempeño aleatorio
- Modelos de Comparación: Qwen3-0.6B (modelo multilingüe de tamaño moderado)
- Comparación de Arquitectura: GPT-BERT vs GPT-2
- Tareas MultiBLiMP: Los idiomas del Nivel 1 típicamente superan el 80% de precisión, demostrando una buena capacidad de aprendizaje gramatical
- Otros Puntos de Referencia: El desempeño en la mayoría de tareas se acerca al nivel aleatorio, reflejando limitaciones de escala de datos
- Impacto de la Escala de Datos: Nivel 1 > Nivel 2 > Nivel 3, demostrando la importancia de la cantidad de datos en el desempeño
- MultiBLiMP: Los modelos monolingües típicamente superan a los modelos multilingües, excepto en 4 idiomas del Nivel 3
- Belebele: Ambos tipos de modelos se acercan al nivel aleatorio, mientras que Qwen muestra un desempeño significativamente mejor
- Tendencia General: Qwen supera a los modelos de este artículo en la mayoría de tareas, pero el modelo multilingüe de este artículo es más fuerte en 8 idiomas
- Tareas Intensivas en Conocimiento: SIB-200, BM-LAMA, XCOMPS, INCLUDE muestran mejoras de desempeño consistentes
- Tareas Gramaticales: El desempeño de MultiBLiMP se mantiene esencialmente sin cambios, sugiriendo que la capacidad sintáctica es menos sensible a la entrada bilingüe
- Casos Especiales: El holandés muestra una ligera disminución en la tarea INCLUDE, posiblemente debido a desajuste de dominio
- El modelo GPT-2 supera consistentemente a GPT-BERT en tareas SIB-200 y MultiBLiMP
- Los resultados sugieren que la arquitectura GPT-2 es más adecuada para entrenamiento con datos pequeños en la configuración actual
- Idiomas del Nivel 1: Chino, francés, búlgaro, etc., con datos de desarrollo relativamente abundantes
- Idiomas del Nivel 2: Japonés, serbio, cantonés, etc., con cantidad moderada de datos
- Idiomas del Nivel 3: Principalmente idiomas de recursos escasos, dependiendo principalmente de recursos multilingües para relleno
- Primera Versión: Corpus en inglés de 10M y 100M palabras, 39% de datos con plausibilidad de desarrollo
- Segunda Versión: Aumentado a 70% de datos dirigidos a niños
- Métodos de Evaluación: Comparación mínima contrastiva de cero ejemplos y evaluación de ajuste fino
- Salhan et al. (2024): Aprendizaje curricular inspirado en adquisición para francés, alemán, japonés y chino
- Prévot et al. (2024): Investigación de corpus de habla espontánea en inglés y francés
- Matzopoulos et al. (2025): Investigación de BabyLM en isiXhosa, destacando desafíos de idiomas de bajos recursos
- CHILDES: Base de datos de interacciones niño-adulto en más de 40 idiomas
- MAO-CHILDES: Conjunto de datos ordenado por edad en 5 idiomas
- IPA-CHILDES: Corpus fonemizado en 31 idiomas
- Verificación de Viabilidad: Construcción exitosa de un conjunto de datos con plausibilidad de desarrollo para 45 idiomas, demostrando la viabilidad de la investigación multilingüe de BabyLM
- Impacto de la Cantidad de Datos: Más datos con plausibilidad de desarrollo realmente mejoran la capacidad de aprendizaje gramatical, particularmente en tareas MultiBLiMP
- Beneficios del Bilingüismo: El entrenamiento bilingüe proporciona mejoras de desempeño consistentes en tareas intensivas en conocimiento
- Selección de Arquitectura: La arquitectura GPT-2 supera a GPT-BERT en configuraciones de datos pequeños
- Cobertura Lingüística Desigual: A pesar de cubrir 45 idiomas, los idiomas africanos y las lenguas minoritarias siguen estando subrepresentados
- Variabilidad en Composición de Datos: La proporción de datos con plausibilidad de desarrollo varía considerablemente entre idiomas, lo que puede afectar comparaciones entre idiomas
- Limitaciones de Recursos de Evaluación: Falta de puntos de referencia de evaluación estandarizados que cubran todos los idiomas
- Aproximación de Datos: El conjunto de datos es solo una aproximación aproximada de la entrada lingüística real de los niños
- Expansión de Cobertura Lingüística: Particularmente idiomas africanos y otros idiomas de bajos recursos
- Mejora de Calidad de Datos: Recopilación de más datos de alta calidad dirigidos a niños
- Evaluación Estandarizada: Desarrollo de marcos de evaluación consistentes entre idiomas
- Investigación de Capacidades Multilingües: Investigación profunda de mecanismos de adquisición bilingüe y multilingüe
- Contribución Sistemática: Primera construcción sistemática de un conjunto de datos multilingüe a gran escala con plausibilidad de desarrollo
- Orientación Comunitaria: Establecimiento de un marco sostenible de recopilación de datos impulsado por la comunidad
- Rigor Metodológico: Adopción del método de prima de bytes para garantizar comparabilidad de cantidad de datos entre idiomas
- Fuerte Apertura: Provisión completa de datos, código y modelos, promoviendo investigación reproducible
- Alto Valor Práctico: Provisión de recursos importantes para modelado cognitivo multilingüe e investigación de eficiencia de datos
- Calidad de Datos Inconsistente: Variación considerable en la proporción de datos con plausibilidad de desarrollo entre idiomas
- Desempeño de Modelo Limitado: Los modelos de referencia tienen desempeño cercano al nivel aleatorio en la mayoría de tareas
- Cobertura de Evaluación Incompleta: Algunos idiomas carecen de puntos de referencia de evaluación suficientes
- Análisis Teórico Insuficiente: Falta de análisis profundo sobre por qué ciertos idiomas o tareas muestran mejor desempeño
- Contribución al Campo: Llena el vacío de conjuntos de datos multilingües con plausibilidad de desarrollo, impulsando el desarrollo de investigación relacionada
- Valor Práctico: Proporciona un punto de partida importante para investigación de modelado de lenguaje en idiomas de bajos recursos
- Reproducibilidad: Los recursos completamente de código abierto garantizan reproducibilidad y escalabilidad de la investigación
- Construcción Comunitaria: Establece un marco colaborativo sostenible que promueve desarrollo a largo plazo
- Investigación en Lingüística Cognitiva: Exploración de la relación entre adquisición lingüística humana y aprendizaje automático
- Modelado de Idiomas de Bajos Recursos: Proporciona un punto de partida de entrenamiento para idiomas con recursos escasos
- Educación Multilingüe: Apoyo a investigación de aprendizaje bilingüe y multilingüe
- Investigación de Eficiencia de Datos: Estrategias de entrenamiento de modelos con presupuesto de datos limitado
- Calibración de Prima de Bytes: Uso del tamaño de codificación UTF-8 para ajustar la cantidad de datos en diferentes idiomas, garantizando comparación justa
- Organización de Datos Estratificada: Clasificación de idiomas en tres niveles según cantidad de datos disponibles, equilibrando cobertura y calidad de datos
- Control de Calidad Impulsado por la Comunidad: Responsabilidad de cada idioma asignada a hablantes nativos o usuarios competentes, garantizando adaptación cultural y lingüística
- Evaluación Dual: Combinación de evaluación de cero ejemplos y ajuste fino, prueba integral de capacidades del modelo
- Consistencia Entre Idiomas: Uso de herramientas como MultiBLiMP para garantizar comparabilidad de evaluación entre idiomas
- Evaluación de Clasificación de Capacidades: Distinción entre evaluación de capacidades lingüísticas formales y funcionales
- Publicación de Recursos Completos: Datos, código y modelos completamente de código abierto
- Diseño Escalable: Provisión de canalización estandarizada que permite contribuciones comunitarias
- Documentación Transparente: Información detallada sobre fuentes de datos, licencias e información de preprocesamiento
Este trabajo realiza una contribución importante a la investigación de modelos de lenguaje multilingüe y al campo interdisciplinario de la lingüística cognitiva, estableciendo una plataforma de investigación sostenible que promete profundizar la comprensión de los mecanismos de adquisición lingüística humana.