2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

academic

BabyBabelLM: Un Punto de Referencia Multilingüe de Datos de Entrenamiento Plausibles desde el Desarrollo

Información Básica

ID del Artículo: 2510.10159
Título: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
Autores: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck y 27 autores más
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: Enviado a arXiv el 11 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.10159

Resumen

En este artículo se presenta BabyBabelLM, una colección de conjuntos de datos multilingües diseñada para simular el entorno lingüístico al que están expuestos los humanos desde el nacimiento hasta la adquisición de la lengua materna. Los investigadores han compilado cuidadosamente datos de preentrenamiento plausibles desde el desarrollo, con el objetivo de proporcionar contenido equivalente a cien millones de palabras en inglés para 45 idiomas. Simultáneamente, se ha compilado un conjunto de evaluación y se han entrenado modelos de referencia para cada idioma. BabyBabelLM tiene como objetivo promover la investigación en preentrenamiento multilingüe y modelado cognitivo.

Contexto de Investigación y Motivación

Definición del Problema

La investigación actual en modelos de lenguaje se centra principalmente en la escalabilidad, persiguiendo modelos más grandes y más datos de entrenamiento, pero esta tendencia ignora las cuestiones fundamentales del aprendizaje lingüístico. Los humanos adquieren capacidades lingüísticas desde la infancia hasta la edad adulta al estar expuestos a menos de cien millones de palabras en inglés, lo que contrasta con los modelos de lenguaje modernos que requieren más de cien billones de palabras, una diferencia de varios órdenes de magnitud.

Motivación de la Investigación

Problema de Eficiencia de Datos: Explorar cómo lograr un modelado lingüístico eficiente con un presupuesto de datos limitado
Plausibilidad del Desarrollo: Investigar la composición de datos de entrenamiento que se alinea con el proceso de adquisición lingüística humana
Cobertura Multilingüe: Expandir el alcance del desafío BabyLM, extendiéndose del inglés a entornos multilingües
Modelado Cognitivo: Proporcionar recursos para comprender la relación entre la adquisición lingüística humana y el aprendizaje de modelos de lenguaje

Limitaciones de Métodos Existentes

El desafío BabyLM se limita al inglés, careciendo de validación entre idiomas
Falta de conjuntos de datos sistemáticos y multilingües con plausibilidad de desarrollo
La investigación existente es principalmente esfuerzos aislados, careciendo de estándares de recopilación de datos coordinados
Los recursos de evaluación se distribuyen de manera desigual entre idiomas

Contribuciones Principales

Construcción de un conjunto de datos de preentrenamiento con plausibilidad de desarrollo que cubre 45 idiomas, organizado en tres niveles según la cantidad de datos (equivalentes a 100M, 10M y 1M palabras en inglés)
Provisión de una canalización de expansión de datos de código abierto que permite a la comunidad agregar nuevos idiomas y expandir conjuntos de datos existentes
Compilación de un conjunto de evaluación multilingüe integral que abarca capacidades lingüísticas formales y funcionales
Entrenamiento de 45 modelos monolingües, 7 modelos bilingües y 1 modelo multilingüe como referencias
Establecimiento de un marco colaborativo impulsado por la comunidad que promueve la expansión y mejora continua del conjunto de datos

Explicación Detallada de Métodos

Principios de Recopilación de Datos

Criterios de Plausibilidad del Desarrollo

Lenguaje Dirigido a Niños (CDS): Transcripciones de adultos hablando con niños
Materiales Educativos: Libros de texto y contenido de exámenes dirigidos a niños
Medios Infantiles: Libros infantiles, wikis infantiles, noticias infantiles
Contenido de Subtítulos: Subtítulos de películas/programas de televisión apropiados para niños
Exclusión de Datos Sintéticos: Evitar el uso de contenido generado artificialmente como TinyStories

Liderazgo de Datos Impulsado por la Comunidad

La recopilación de datos para cada idioma es responsabilidad de investigadores familiarizados con ese idioma, garantizando la calidad de los datos y la adaptación cultural.

Composición del Conjunto de Datos

Categorías de Datos

Datos de Transcripción
- Lenguaje dirigido a niños: Interacciones cuidador-niño de la base de datos CHILDES
- Lenguaje accesible a niños: Conversaciones de adultos que los niños pueden escuchar incidentalmente
Contenido Educativo
- Libros de texto dirigidos a niños, materiales de exámenes
- Proporciona instrucción directa, complementando los patrones lingüísticos formales del CDS
Libros, Wiki, Noticias
- Libros infantiles, artículos de wiki infantiles, noticias infantiles
- Contiene estructuras de oraciones más complejas y vocabulario diverso
Subtítulos
- Subtítulos de películas/programas de televisión apropiados para niños
- Contenido educativo de subtítulos del corpus QED
Datos de Relleno
- Corpus de OpenSubtitles (filtrado para contenido inapropiado)
- Datos de FineWeb-C y Wikipedia como respaldo

Estratificación Lingüística

Nivel 1: 9 idiomas, aproximadamente 100 millones de palabras equivalentes en inglés
Nivel 2: 15 idiomas, aproximadamente 10 millones de palabras equivalentes en inglés
Nivel 3: 21 idiomas, aproximadamente 1 millón de palabras equivalentes en inglés

Preprocesamiento de Datos

Preprocesamiento Específico del Idioma

Realizado por los responsables del idioma según los requisitos específicos del idioma y los datos.

Canalización de Procesamiento Unificada

Normalización: Normalización de Unicode, espacios en blanco y puntuación
Procesamiento Específico de Categorías:
- Transcripciones de diálogos: Eliminación de anotaciones lingüísticas
- Datos de subtítulos: Eliminación de etiquetas de hablante, símbolos musicales, indicaciones de escena
- Formato de libros: Eliminación de etiquetas XML y URLs
Validación Lingüística: Uso de GlotLID v3 para identificación y validación de idiomas

Configuración Experimental

Configuración del Modelo

Modelos Monolingües: Arquitectura GPT-2, 4 capas de transformador, 8 cabezas de atención, dimensión oculta 512
Modelos Bilingües: Combinación de datos del idioma objetivo e inglés (200M palabras en total)
Modelo Multilingüe: 12 capas, dimensión oculta 768, vocabulario 32,768, 111M parámetros
Tamaño del Vocabulario: 8,192 (monolingüe), 32,768 (multilingüe)
Estrategia de Entrenamiento: Tokenización BPE, 10 épocas (monolingüe), 5 épocas (bilingüe), 1 época (multilingüe)

Marco de Evaluación

Capacidades Lingüísticas Formales

MonoBLiMP: Punto de referencia mínimo contrastivo específico del idioma
MultiBLiMP: Conjunto de datos mínimo contrastivo a gran escala basado en Dependencias Universales
CLAMS: Punto de referencia de concordancia sujeto-verbo entre idiomas

Capacidades Lingüísticas Funcionales

Tareas Basadas en Conocimiento: Global-MMLU, INCLUDE, BM-LAMA
Tareas de Razonamiento: XNLI, HellaSwag, Belebele, ARC, XCOPA, etc.

Métodos de Evaluación

Evaluación de Cero Ejemplos: Comparación mínima contrastiva basada en probabilidades de salida del modelo
Evaluación de Ajuste Fino: Tareas de clasificación y preguntas-respuestas, máximo 8000 muestras de entrenamiento, 10 épocas

Métodos de Comparación

Modelos de Referencia: Desempeño aleatorio
Modelos de Comparación: Qwen3-0.6B (modelo multilingüe de tamaño moderado)
Comparación de Arquitectura: GPT-BERT vs GPT-2

Resultados Experimentales

Resultados Principales

Desempeño de Modelos Monolingües

Tareas MultiBLiMP: Los idiomas del Nivel 1 típicamente superan el 80% de precisión, demostrando una buena capacidad de aprendizaje gramatical
Otros Puntos de Referencia: El desempeño en la mayoría de tareas se acerca al nivel aleatorio, reflejando limitaciones de escala de datos
Impacto de la Escala de Datos: Nivel 1 > Nivel 2 > Nivel 3, demostrando la importancia de la cantidad de datos en el desempeño

Comparación Multilingüe vs Monolingüe

MultiBLiMP: Los modelos monolingües típicamente superan a los modelos multilingües, excepto en 4 idiomas del Nivel 3
Belebele: Ambos tipos de modelos se acercan al nivel aleatorio, mientras que Qwen muestra un desempeño significativamente mejor
Tendencia General: Qwen supera a los modelos de este artículo en la mayoría de tareas, pero el modelo multilingüe de este artículo es más fuerte en 8 idiomas

Efectividad de Modelos Bilingües

Tareas Intensivas en Conocimiento: SIB-200, BM-LAMA, XCOMPS, INCLUDE muestran mejoras de desempeño consistentes
Tareas Gramaticales: El desempeño de MultiBLiMP se mantiene esencialmente sin cambios, sugiriendo que la capacidad sintáctica es menos sensible a la entrada bilingüe
Casos Especiales: El holandés muestra una ligera disminución en la tarea INCLUDE, posiblemente debido a desajuste de dominio

Experimentos de Ablación

Comparación de Arquitectura (GPT-2 vs GPT-BERT)

El modelo GPT-2 supera consistentemente a GPT-BERT en tareas SIB-200 y MultiBLiMP
Los resultados sugieren que la arquitectura GPT-2 es más adecuada para entrenamiento con datos pequeños en la configuración actual

Análisis de Cobertura Lingüística

Idiomas del Nivel 1: Chino, francés, búlgaro, etc., con datos de desarrollo relativamente abundantes
Idiomas del Nivel 2: Japonés, serbio, cantonés, etc., con cantidad moderada de datos
Idiomas del Nivel 3: Principalmente idiomas de recursos escasos, dependiendo principalmente de recursos multilingües para relleno

Trabajo Relacionado

Desafío BabyLM

Primera Versión: Corpus en inglés de 10M y 100M palabras, 39% de datos con plausibilidad de desarrollo
Segunda Versión: Aumentado a 70% de datos dirigidos a niños
Métodos de Evaluación: Comparación mínima contrastiva de cero ejemplos y evaluación de ajuste fino

Esfuerzos de Expansión Multilingüe

Salhan et al. (2024): Aprendizaje curricular inspirado en adquisición para francés, alemán, japonés y chino
Prévot et al. (2024): Investigación de corpus de habla espontánea en inglés y francés
Matzopoulos et al. (2025): Investigación de BabyLM en isiXhosa, destacando desafíos de idiomas de bajos recursos

Recursos Multilingües Existentes

CHILDES: Base de datos de interacciones niño-adulto en más de 40 idiomas
MAO-CHILDES: Conjunto de datos ordenado por edad en 5 idiomas
IPA-CHILDES: Corpus fonemizado en 31 idiomas

Conclusiones y Discusión

Conclusiones Principales

Verificación de Viabilidad: Construcción exitosa de un conjunto de datos con plausibilidad de desarrollo para 45 idiomas, demostrando la viabilidad de la investigación multilingüe de BabyLM
Impacto de la Cantidad de Datos: Más datos con plausibilidad de desarrollo realmente mejoran la capacidad de aprendizaje gramatical, particularmente en tareas MultiBLiMP
Beneficios del Bilingüismo: El entrenamiento bilingüe proporciona mejoras de desempeño consistentes en tareas intensivas en conocimiento
Selección de Arquitectura: La arquitectura GPT-2 supera a GPT-BERT en configuraciones de datos pequeños

Limitaciones

Cobertura Lingüística Desigual: A pesar de cubrir 45 idiomas, los idiomas africanos y las lenguas minoritarias siguen estando subrepresentados
Variabilidad en Composición de Datos: La proporción de datos con plausibilidad de desarrollo varía considerablemente entre idiomas, lo que puede afectar comparaciones entre idiomas
Limitaciones de Recursos de Evaluación: Falta de puntos de referencia de evaluación estandarizados que cubran todos los idiomas
Aproximación de Datos: El conjunto de datos es solo una aproximación aproximada de la entrada lingüística real de los niños

Direcciones Futuras

Expansión de Cobertura Lingüística: Particularmente idiomas africanos y otros idiomas de bajos recursos
Mejora de Calidad de Datos: Recopilación de más datos de alta calidad dirigidos a niños
Evaluación Estandarizada: Desarrollo de marcos de evaluación consistentes entre idiomas
Investigación de Capacidades Multilingües: Investigación profunda de mecanismos de adquisición bilingüe y multilingüe

Evaluación Profunda

Fortalezas

Contribución Sistemática: Primera construcción sistemática de un conjunto de datos multilingüe a gran escala con plausibilidad de desarrollo
Orientación Comunitaria: Establecimiento de un marco sostenible de recopilación de datos impulsado por la comunidad
Rigor Metodológico: Adopción del método de prima de bytes para garantizar comparabilidad de cantidad de datos entre idiomas
Fuerte Apertura: Provisión completa de datos, código y modelos, promoviendo investigación reproducible
Alto Valor Práctico: Provisión de recursos importantes para modelado cognitivo multilingüe e investigación de eficiencia de datos

Deficiencias

Calidad de Datos Inconsistente: Variación considerable en la proporción de datos con plausibilidad de desarrollo entre idiomas
Desempeño de Modelo Limitado: Los modelos de referencia tienen desempeño cercano al nivel aleatorio en la mayoría de tareas
Cobertura de Evaluación Incompleta: Algunos idiomas carecen de puntos de referencia de evaluación suficientes
Análisis Teórico Insuficiente: Falta de análisis profundo sobre por qué ciertos idiomas o tareas muestran mejor desempeño

Impacto

Contribución al Campo: Llena el vacío de conjuntos de datos multilingües con plausibilidad de desarrollo, impulsando el desarrollo de investigación relacionada
Valor Práctico: Proporciona un punto de partida importante para investigación de modelado de lenguaje en idiomas de bajos recursos
Reproducibilidad: Los recursos completamente de código abierto garantizan reproducibilidad y escalabilidad de la investigación
Construcción Comunitaria: Establece un marco colaborativo sostenible que promueve desarrollo a largo plazo

Escenarios Aplicables

Investigación en Lingüística Cognitiva: Exploración de la relación entre adquisición lingüística humana y aprendizaje automático
Modelado de Idiomas de Bajos Recursos: Proporciona un punto de partida de entrenamiento para idiomas con recursos escasos
Educación Multilingüe: Apoyo a investigación de aprendizaje bilingüe y multilingüe
Investigación de Eficiencia de Datos: Estrategias de entrenamiento de modelos con presupuesto de datos limitado

Puntos de Innovación Técnica

Innovación en Recopilación de Datos

Calibración de Prima de Bytes: Uso del tamaño de codificación UTF-8 para ajustar la cantidad de datos en diferentes idiomas, garantizando comparación justa
Organización de Datos Estratificada: Clasificación de idiomas en tres niveles según cantidad de datos disponibles, equilibrando cobertura y calidad de datos
Control de Calidad Impulsado por la Comunidad: Responsabilidad de cada idioma asignada a hablantes nativos o usuarios competentes, garantizando adaptación cultural y lingüística

Innovación en Marco de Evaluación

Evaluación Dual: Combinación de evaluación de cero ejemplos y ajuste fino, prueba integral de capacidades del modelo
Consistencia Entre Idiomas: Uso de herramientas como MultiBLiMP para garantizar comparabilidad de evaluación entre idiomas
Evaluación de Clasificación de Capacidades: Distinción entre evaluación de capacidades lingüísticas formales y funcionales

Prácticas de Ciencia Abierta

Publicación de Recursos Completos: Datos, código y modelos completamente de código abierto
Diseño Escalable: Provisión de canalización estandarizada que permite contribuciones comunitarias
Documentación Transparente: Información detallada sobre fuentes de datos, licencias e información de preprocesamiento

Este trabajo realiza una contribución importante a la investigación de modelos de lenguaje multilingüe y al campo interdisciplinario de la lingüística cognitiva, estableciendo una plataforma de investigación sostenible que promete profundizar la comprensión de los mecanismos de adquisición lingüística humana.