2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.

We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.

academic

BabyBabelLM: Многоязычный эталон развивающихся правдоподобных обучающих данных

Основная информация

ID статьи: 2510.10159
Название: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
Авторы: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck и 27 других авторов
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: Отправлено на arXiv 11 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.10159

Аннотация

В данной работе представляется BabyBabelLM — набор многоязычных датасетов, предназначенный для моделирования языковой среды, с которой человек сталкивается от рождения до овладения родным языком. Исследователи тщательно подобрали развивающиеся правдоподобные данные предварительного обучения с целью предоставить содержимое, эквивалентное 100 миллионам английских слов, для каждого из 45 языков. Одновременно был составлен набор оценочных инструментов и обучены базовые модели для каждого языка. BabyBabelLM направлен на содействие исследованиям многоязычного предварительного обучения и когнитивного моделирования.

Исследовательский контекст и мотивация

Определение проблемы

Современные исследования языковых моделей в основном сосредоточены на масштабировании, стремясь к более крупным моделям и большему объёму обучающих данных, однако этот тренд игнорирует фундаментальные вопросы языкового обучения. Люди от младенчества до взрослого возраста приобретают языковые способности, контактируя менее чем со 100 миллионами английских слов, что отличается на несколько порядков величины от современных языковых моделей, требующих более 100 триллионов словоупотреблений.

Исследовательская мотивация

Проблема эффективности данных: Исследование эффективного языкового моделирования при ограниченном бюджете данных
Развивающаяся правдоподобность: Изучение состава обучающих данных, соответствующего процессу человеческого языкового усвоения
Многоязычное покрытие: Расширение области конкурса BabyLM с английского языка на многоязычную среду
Когнитивное моделирование: Предоставление ресурсов для понимания взаимосвязи между человеческим языковым усвоением и обучением языковых моделей

Ограничения существующих методов

Конкурс BabyLM ограничен английским языком, отсутствует кросс-языковая верификация
Отсутствуют систематические многоязычные датасеты развивающихся правдоподобных данных
Существующие исследования в основном представляют собой отдельные усилия, лишённые согласованных стандартов сбора данных
Оценочные ресурсы неравномерно распределены между языками

Основные вклады

Построение развивающихся правдоподобных датасетов предварительного обучения, охватывающих 45 языков, разделённых на три уровня по объёму данных (100M, 10M, 1M английских эквивалентных слов)
Предоставление открытого конвейера расширения данных, поддерживающего добавление новых языков и расширение существующих датасетов сообществом
Составление комплексного многоязычного набора оценочных инструментов, охватывающего формальные и функциональные языковые способности
Обучение 45 одноязычных моделей, 7 двуязычных моделей и 1 многоязычной модели в качестве базовых
Установление ориентированной на сообщество совместной базы, способствующей постоянному расширению и улучшению датасета

Подробное описание методологии

Принципы сбора данных

Стандарты развивающейся правдоподобности

Речь, направленная на детей (CDS): Транскрипции речи взрослых, обращённой к детям
Образовательные материалы: Учебники и экзаменационные материалы, предназначенные для детей
Детские медиа: Детские книги, детская Википедия, детские новости
Субтитры: Субтитры фильмов и телепередач, подходящих для детей
Исключение синтетических данных: Избежание использования искусственно созданного контента, такого как TinyStories

Руководство данными, ориентированное на сообщество

Сбор данных для каждого языка осуществляется исследователями, знакомыми с этим языком, что обеспечивает качество данных и культурную адаптивность.

Состав датасета

Категории данных

Данные транскрипции (Transcription)
- Речь, направленная на детей: Взаимодействие опекун-ребёнок из базы данных CHILDES
- Речь, доступная детям: Взрослые разговоры, которые дети могут случайно услышать
Образовательное содержимое (Education)
- Учебники для детей, экзаменационные материалы
- Предоставляет прямое обучение, дополняя формальные языковые модели CDS
Книги, Википедия, новости (Books, Wiki, News)
- Детские книги, статьи детской Википедии, детские новости
- Содержат более сложные синтаксические структуры и разнообразный словарный запас
Субтитры (Subtitles)
- Субтитры фильмов и телепередач, подходящих для детей
- Образовательное содержимое из корпуса QED
Дополнительные данные (Padding)
- Корпус OpenSubtitles (с фильтрацией неподходящего контента)
- Данные FineWeb-C и Википедии в качестве резервного варианта

Языковая иерархия

Первый уровень (Tier 1): 9 языков, примерно 100 миллионов английских эквивалентных слов
Второй уровень (Tier 2): 15 языков, примерно 10 миллионов английских эквивалентных слов
Третий уровень (Tier 3): 21 язык, примерно 1 миллион английских эквивалентных слов

Предварительная обработка данных

Предварительная обработка, специфичная для языка

Начальная обработка проводится ответственными за язык в соответствии с конкретными языковыми и требованиями данных.

Унифицированный конвейер обработки

Нормализация: Нормализация Unicode, пробелов и пунктуации
Обработка, специфичная для категории:
- Транскрипции диалогов: Удаление лингвистических аннотаций
- Данные субтитров: Удаление меток говорящих, музыкальных символов, сценических указаний
- Форматы книг: Удаление XML-тегов и URL-адресов
Языковая верификация: Использование GlotLID v3 для идентификации и верификации языка

Экспериментальная установка

Конфигурация моделей

Одноязычные модели: Архитектура GPT-2, 4 слоя трансформера, 8 голов внимания, скрытая размерность 512
Двуязычные модели: Комбинация данных целевого языка и английского (всего 200M слов)
Многоязычная модель: 12 слоёв, скрытая размерность 768, размер словаря 32,768, 111M параметров
Размер словаря: 8,192 (одноязычные), 32,768 (многоязычные)
Стратегия обучения: BPE токенизация, 10 эпох (одноязычные), 5 эпох (двуязычные), 1 эпоха (многоязычные)

Оценочная база

Формальные языковые способности

MonoBLiMP: Языково-специфичный минимальный контрастный эталон
MultiBLiMP: Крупномасштабный минимальный контрастный датасет на основе Universal Dependencies
CLAMS: Кросс-языковой эталон согласования подлежащего и глагола

Функциональные языковые способности

Задачи, основанные на знаниях: Global-MMLU, INCLUDE, BM-LAMA
Задачи рассуждения: XNLI, HellaSwag, Belebele, ARC, XCOPA и др.

Методы оценки

Оценка без примеров: Минимальный контрастный анализ на основе вероятностей вывода модели
Оценка с дообучением: Задачи классификации и вопросно-ответные задачи, максимум 8000 обучающих образцов, 10 эпох

Методы сравнения

Базовые модели: Случайная производительность
Сравнительные модели: Qwen3-0.6B (многоязычная модель среднего размера)
Сравнение архитектур: GPT-BERT vs GPT-2

Результаты экспериментов

Основные результаты

Производительность одноязычных моделей

Задачи MultiBLiMP: Языки первого уровня обычно превышают 80% точность, демонстрируя хорошие способности грамматического обучения
Другие эталоны: Производительность большинства задач близка к случайному уровню, отражая ограничения объёма данных
Влияние объёма данных: Первый уровень > второй уровень > третий уровень, демонстрируя важность объёма данных для производительности

Сравнение многоязычных и одноязычных моделей

MultiBLiMP: Одноязычные модели обычно превосходят многоязычные, за исключением 4 языков третьего уровня
Belebele: Обе модели близки к случайному уровню, тогда как Qwen показывает значительно лучшую производительность
Общий тренд: Qwen превосходит модели данной работы в большинстве задач, но на 8 языках многоязычная модель данной работы сильнее

Эффективность двуязычных моделей

Задачи, интенсивные по знаниям: SIB-200, BM-LAMA, XCOMPS, INCLUDE показывают последовательное улучшение производительности
Грамматические задачи: Производительность MultiBLiMP остаётся неизменной, что указывает на низкую чувствительность синтаксических способностей к двуязычному вводу
Особые случаи: Нидерландский язык показывает небольшое снижение производительности в задаче INCLUDE, возможно, из-за несоответствия предметной области

Абляционные исследования

Сравнение архитектур (GPT-2 vs GPT-BERT)

Модели GPT-2 последовательно превосходят GPT-BERT в задачах SIB-200 и MultiBLiMP
Результаты показывают, что архитектура GPT-2 более подходит для обучения на малых объёмах данных в текущей конфигурации

Анализ языкового покрытия

Языки первого уровня: Китайский, французский, болгарский и др., имеют относительно богатые развивающиеся правдоподобные данные
Языки второго уровня: Японский, сербский, кантонский и др., с умеренным объёмом данных
Языки третьего уровня: В основном языки с ограниченными ресурсами, в основном полагаются на многоязычные ресурсы для дополнения

Связанные работы

Конкурс BabyLM

Первая версия: Английский корпус объёмом 10M и 100M слов, 39% развивающихся правдоподобных данных
Вторая версия: Увеличение до 70% данных, направленных на детей
Методы оценки: Минимальный контрастный анализ без примеров и оценка с дообучением

Многоязычные расширительные усилия

Salhan et al. (2024): Обучение с учётом усвоения для французского, немецкого, японского и китайского языков
Prévot et al. (2024): Исследование спонтанной речи на английском и французском языках
Matzopoulos et al. (2025): Исследование BabyLM на языке isiXhosa, подчёркивающее проблемы языков с ограниченными ресурсами

Существующие многоязычные ресурсы

CHILDES: База данных взаимодействия ребёнка-взрослого более чем на 40 языках
MAO-CHILDES: Датасет с возрастной сортировкой на 5 языках
IPA-CHILDES: Фонемизированный корпус на 31 языке

Заключение и обсуждение

Основные выводы

Верификация осуществимости: Успешное построение развивающихся правдоподобных датасетов на 45 языках подтверждает осуществимость многоязычных исследований BabyLM
Влияние объёма данных: Больший объём развивающихся правдоподобных данных действительно улучшает способность грамматического обучения, особенно в задачах MultiBLiMP
Преимущества двуязычности: Двуязычное обучение приносит последовательное улучшение производительности в задачах, интенсивных по знаниям
Выбор архитектуры: При малых объёмах данных архитектура GPT-2 превосходит GPT-BERT

Ограничения

Неравномерное языковое покрытие: Несмотря на охват 45 языков, африканские языки и малые языки остаются недостаточно представленными
Различия в составе данных: Доля развивающихся правдоподобных данных значительно варьируется между языками, что может повлиять на кросс-языковые сравнения
Ограничения оценочных ресурсов: Отсутствие стандартизированных оценочных эталонов, охватывающих все языки
Приблизительность данных: Датасет является лишь грубым приближением реального языкового ввода для детей

Будущие направления

Расширение языкового покрытия: Особенно африканские языки и другие языки с ограниченными ресурсами
Улучшение качества данных: Сбор большего объёма высококачественных данных, направленных на детей
Стандартизация оценки: Разработка кросс-языково согласованной оценочной базы
Исследование многоязычных способностей: Углублённое изучение механизмов двуязычного и многоязычного усвоения

Глубокая оценка

Преимущества

Систематический вклад: Первое систематическое построение крупномасштабного многоязычного датасета развивающихся правдоподобных данных
Ориентация на сообщество: Установление устойчивой базы сбора данных, ориентированной на сообщество
Методологическая строгость: Использование метода байтовой премии для обеспечения сравнимости объёма данных между языками
Высокая открытость: Предоставление полных данных, кода и моделей, способствующее воспроизводимым исследованиям
Высокая практическая ценность: Предоставление важных ресурсов для многоязычного когнитивного моделирования и исследований эффективности данных

Недостатки

Неравномерное качество данных: Значительные различия в доле развивающихся правдоподобных данных между языками
Ограниченная производительность моделей: Производительность базовых моделей в большинстве задач близка к случайному уровню
Неполное покрытие оценки: Некоторые языки лишены достаточных оценочных эталонов
Недостаточный теоретический анализ: Отсутствие глубокого анализа причин лучшей производительности определённых языков или задач

Влияние

Вклад в область: Заполнение пробела в многоязычных датасетах развивающихся правдоподобных данных, содействие развитию соответствующих исследований
Практическая ценность: Предоставление важной отправной точки для исследований языковых моделей на языках с ограниченными ресурсами
Воспроизводимость: Полные открытые ресурсы обеспечивают воспроизводимость и масштабируемость исследований
Построение сообщества: Установление устойчивой совместной базы, способствующей долгосрочному развитию

Сценарии применения

Исследования когнитивной лингвистики: Изучение взаимосвязи между человеческим языковым усвоением и машинным обучением
Моделирование языков с ограниченными ресурсами: Предоставление важной отправной точки для исследований языковых моделей на языках с ограниченными ресурсами
Многоязычное образование: Поддержка исследований двуязычного и многоязычного обучения
Исследования эффективности данных: Исследование стратегий обучения моделей при ограниченном бюджете данных

Технические инновационные моменты

Инновации в сборе данных

Калибровка байтовой премии: Использование размера кодирования UTF-8 для регулировки объёма данных для разных языков, обеспечивая справедливое сравнение
Иерархическая организация данных: Разделение языков на три уровня в зависимости от доступного объёма данных, балансируя охват и качество данных
Контроль качества, ориентированный на сообщество: Каждый язык курируется носителем языка или опытным пользователем, обеспечивая культурную и языковую адаптивность

Инновации в оценочной базе

Двухрежимная оценка: Комбинирование оценки без примеров и с дообучением для комплексного тестирования способностей модели
Кросс-языковая согласованность: Использование инструментов, таких как MultiBLiMP, для обеспечения кросс-языковой сравнимости оценки
Оценка по категориям способностей: Различие между оценкой формальных и функциональных языковых способностей

Практики открытой науки

Полный выпуск ресурсов: Данные, код и модели полностью открыты
Масштабируемый дизайн: Предоставление стандартизированного конвейера для поддержки вклада сообщества
Прозрачная документация: Подробная информация об источниках данных, лицензировании и предварительной обработке

Эта работа вносит важный вклад в пересечение многоязычного моделирования языков и когнитивной лингвистики, устанавливая устойчивую исследовательскую платформу, которая, как ожидается, будет способствовать углублённому пониманию механизмов человеческого языкового усвоения.