We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
- ID статьи: 2510.13008
- Название: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- Авторы: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
- Классификация: cs.CL cs.AI
- Дата публикации: 14 октября 2025 г. (Препринт)
- Ссылка на статью: https://arxiv.org/abs/2510.13008
В данной работе предлагается комплексный набор данных для непрерывного обучения и структура тестирования CurLL, основанная на траектории человеческого развития (5-10 лет), которая позволяет систематически и детально оценивать способность модели постепенно приобретать новые навыки. CurLL охватывает пять этапов развития (0-4), поддерживаемых графом навыков, который разлагает широкие навыки на более мелкие способности, конкретные цели и измеримые показатели, одновременно фиксируя зависимости между навыками. Исследователи создали синтетический набор данных объёмом 23,4B токенов с контролируемым прогрессом навыков, сложностью словарного запаса и разнообразием форматов, включая абзацы, вопросы для понимания (CQA), вопросы для проверки навыков (CSQA) и пары инструкция-ответ (IR). Количество токенов на каждом этапе варьируется от 2,12B до 6,78B, что позволяет проводить точный анализ забывания, прямого и обратного переноса.
Основной вызов, стоящий перед большими языковыми моделями, — это проблема непрерывного обучения:
- Ограничения статических знаний: Знания и навыки существующих LLM становятся статичными после обучения и не могут развиваться непрерывно, как у людей
- Катастрофическое забывание: При обучении новым задачам модель часто забывает ранее усвоенные навыки
- Отсутствие моделирования зависимостей между навыками: Существующие методы не обеспечивают точное управление и моделирование отношений между навыками
Способность к непрерывному обучению является важной характеристикой человеческого интеллекта и имеет решающее значение для создания действительно интеллектуальных систем искусственного интеллекта:
- Люди способны интегрировать новые знания с существующим пониманием
- Сохранять предыдущие способности при овладении новыми навыками
- Достигать пожизненного обучения с исключительной выборочной эффективностью
- Неточное управление навыками: Существующие тесты не обеспечивают точное управление конкретными навыками
- Неясные отношения между знаниями: Отношения между навыками редко моделируются явно
- Недостаточное измерение забывания: Многие оценки не могут должным образом измерить катастрофическое забывание при последовательном обучении задачам
- Инновационная структура: Впервые внедрена система человеческого образовательного курса в оценку непрерывного обучения, обеспечивающая структуру навыков, основанную на психологии развития
- Крупномасштабный синтетический набор данных: Построен синтетический набор данных объёмом 23,4B токенов в различных форматах, охватывающий 5 этапов развития с контролируемой сложностью словарного запаса и прогрессом навыков
- Моделирование графа навыков: Построен явный граф зависимостей навыков, содержащий более 1300 детальных навыков, поддерживающий количественный анализ отношений предпосылок
- Система детальной оценки: Поддерживает трёхуровневую детальную оценку показателей, навыков и этапов, способная точно измерять забывание, передачу и выборочную эффективность
Задача непрерывного обучения: Учитывая серию задач обучения, организованных по этапам развития, модель должна:
- Входные данные: Последовательные многоэтапные данные обучения
- Выходные данные: Поддерживать хорошую производительность на всех этапах
- Ограничения: Минимизировать катастрофическое забывание, максимизировать прямой и обратный перенос
Четырёхуровневая структура навыков, построенная на основе двух образовательных структур:
- Skills (Навыки): Высокоуровневые области (например, математика, естественные науки)
- Sub-skills (Подмножества навыков): Специфические компоненты (например, подсчёт и кардинальность)
- Goals (Цели): Широкие утверждения ожидаемых результатов обучения
- Indicators (Показатели): Конкретные наблюдаемые поведенческие проявления
- Узлы: Более 1300 показателей (indicators)
- Рёбра: Отношения зависимостей предпосылок, вес 1-5 указывает на силу зависимости
- Валидация: Использование LLM для прогнозирования зависимостей, проверка обоснованности через распределение рёбер между этапами
Построение семян:
- Кортежи навыков (skill-tuple)
- Словарный запас, соответствующий возрасту (на основе данных Age-of-Acquisition)
- Тип примера (IR/CQA/CSQA)
- Тип шаблона
Стратегия генерации:
- Генерирование ≥15 контекстных шаблонов и IR шаблонов для каждого кортежа навыков
- Использование LLM для генерирования разнообразных примеров на основе семян
- Обеспечение соответствия возрасту и выравнивания навыков
- Управляемая психологией развития: Впервые внедрены Cambridge Primary Curriculum и ELOF структуры в оценку AI
- Многоуровневое моделирование навыков: Иерархическое разложение от абстрактных навыков к конкретным показателям
- Количественное определение отношений зависимостей: Использование взвешенного ориентированного графа для явного моделирования отношений предпосылок между навыками
- Слияние данных в различных форматах: Унифицированный шаблон чата для обработки абзацев, вопросов и ответов и ответов на инструкции
| Этап | Кол-во навыков | Кол-во подмножеств | Кол-во целей | Кол-во показателей | Кол-во CQA | Кол-во CSQA | Кол-во IR | Токены (миллиарды) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1.0M | 3.01M | 3.30M | 2.12 |
| 1 | 7 | 29 | 86 | 292 | 20.2M | 4.04M | 4.10M | 3.47 |
| 2 | 6 | 26 | 67 | 249 | 23.5M | 4.70M | 4.78M | 4.56 |
| 3 | 6 | 26 | 68 | 271 | 31.2M | 6.24M | 6.29M | 6.47 |
| 4 | 6 | 23 | 70 | 349 | 27.4M | 5.49M | 5.52M | 6.78 |
- Оценка правильности: Использование LLM для оценки ответов модели по шкале 1-5
- Анализ забывания: Разница в производительности между совместным и непрерывным обучением
- Эффект переноса: Анализ изменения производительности между этапами
- Модель: SmolLM2 с 135M параметров Transformer
- Режимы обучения:
- Independent (Независимое): Отдельное обучение на каждом этапе
- Joint (Совместное): Обучение на смешанных данных нескольких этапов
- Continual (Непрерывное): Последовательное обучение
- Гиперпараметры: Скорость обучения 5e-3, размер пакета 1536, один эпох
Из тепловой карты на Рисунке 4 видно:
- Независимое обучение (Independent):
- Наивысшая производительность на этапах обучения
- Ограниченная способность обобщения на необученные этапы
- Этап 0 показывает лучшую производительность на всех этапах тестирования (12.62→6.73)
- Совместное обучение (Joint):
- Стабильная высокая производительность на всех этапах
- Избегает катастрофического забывания
- Относительно сбалансированная производительность (12.62→9.79)
- Непрерывное обучение (Continual):
- Лучшая производительность на поздних этапах
- Явное явление забывания
- Демонстрирует лучшую способность прямого переноса
Рисунок 5 показывает разницу в производительности между совместным и непрерывным обучением:
- Прямой перенос: Непрерывное обучение показывает лучшую производительность на будущих этапах (положительные области)
- Катастрофическое забывание: Производительность непрерывного обучения снижается на ранних этапах (отрицательные области)
- Различия в форматах: Забывание задач IR наиболее серьёзно, CSQA относительно легче
Ключевые находки:
- Навыки с низкой исходящей степенью более подвержены забыванию: Такие как "восприятие, движение и физическое развитие", "цифровая грамотность"
- Влияние отношений зависимостей: Способности с меньшим количеством предпосылочных навыков более подвержены забыванию при непрерывном обучении
- Паттерны связей между этапами: Количество рёбер от низких этапов к высоким значительно превышает обратное направление
- Разнообразие: Обратная величина коэффициента сжатия gzip показывает разнообразие 30,77%-35,60%
- Коэффициент дедупликации: Коэффициент семантической дедупликации <5%, обеспечивающий уникальность содержания
- Возрастающая читаемость: Сложность текста на каждом этапе увеличивается с возрастом
Ограничения существующих тестов:
- TRACE: Задачи слишком простые или уже включены в набор обучения LLM
- MMLM-CL: Отсутствует применимость в реальном мире
- TemporalWiki: Сосредоточена в основном на обновлении фактических знаний
- SuperNI: Набор традиционных задач NLP, отсутствует моделирование зависимостей между навыками
- Skill-it: Предложен алгоритм упорядочивания навыков с возрастающей сложностью
- Методы параметрической эффективности: LoRA, адаптеры и другие технологии для снижения забывания
- Воспроизведение памяти: Использование исторических образцов для смягчения забывания
Уникальность данной работы заключается в:
- Организации навыков на основе курса человеческого развития
- Явном графе зависимостей навыков
- Крупномасштабной генерации контролируемых синтетических данных
- Важность порядка данных: Простое изменение порядка данных может значительно повлиять на забывание и обобщение
- Роль зависимостей между навыками: Навыки с низкой исходящей степенью более подвержены забыванию при непрерывном обучении
- Необходимость детальной оценки: Детальная оценка может выявить важные паттерны, скрытые макроскопическими показателями
- Ограничения синтетических данных: Полное использование синтетических данных может не отражать сценарии реального мира
- Масштаб модели: Проверка проводилась только на модели с 135M параметров, поведение больших моделей может отличаться
- Отсутствие интерактивного обучения: Статический набор данных не может моделировать истинно интерактивную среду обучения
- Парадигма языкового моделирования: Модель одновременно изучает инструкции и ответы, что не полностью соответствует человеческому обучению
- Расширение возрастного диапазона: Расширение структуры на 14 лет (больше этапов развития)
- Проверка на больших моделях: Проверка выводов на моделях с миллиардами параметров
- Интеграция реальных данных: Объединение реальных образовательных данных для проверки структуры
- Интерактивная среда: Разработка среды обучения, поддерживающей динамическое взаимодействие
- Высокая инновационность: Впервые систематически внедрена психология развития в оценку непрерывного обучения
- Большой масштаб данных: Крупномасштабный набор данных объёмом 23,4B токенов, поддерживающий достаточные эксперименты
- Детальная оценка: Многоуровневая и многомерная система оценки, обеспечивающая глубокие выводы
- Хорошая воспроизводимость: Открытые код и данные, поддерживающие последующие исследования
- Прочная теоретическая база: Основана на зрелых образовательных теоретических структурах
- Ограничения масштаба экспериментов: Проверка только на малых моделях, универсальность выводов требует дальнейшей проверки
- Смещение синтетических данных: Возможное смещение при генерации, влияющее на надёжность выводов
- Зависимость от метода оценки: Использование LLM для оценки может вносить дополнительное смещение
- Качество графа навыков: Отношения рёбер, предсказанные LLM, могут быть недостаточно точными
- Академический вклад: Предоставляет новую парадигму оценки для исследований непрерывного обучения
- Практическая ценность: Может использоваться для оценки и улучшения существующих алгоритмов непрерывного обучения
- Вдохновляющее значение: Демонстрирует ценность междисциплинарных подходов в исследованиях AI
- Ресурсы сообщества: Предоставляет ценный открытый набор данных и инструменты
- Разработка алгоритмов непрерывного обучения: Предоставляет стандартизированную платформу оценки
- Системы образовательного AI: Предоставляет справочную информацию для приложений AI в образовательных сценариях
- Исследования когнитивного моделирования: Поддерживает вычислительное моделирование процессов человеческого обучения
- Оценка способностей LLM: Детальная оценка поведения больших моделей при обучении и забывании
Статья цитирует множество важных связанных работ, включая:
- Тесты непрерывного обучения: TRACE, MMLM-CL, OCKL и др.
- Образовательные структуры: Cambridge Primary Curriculum, ELOF
- Технические методы: Skill-it, различные алгоритмы непрерывного обучения
- Инструменты оценки: Данные Age-of-Acquisition, инструменты тестирования читаемости
Общая оценка: Это высококачественная исследовательская работа, которая инновационно внедряет психологию развития человека в оценку непрерывного обучения и строит крупномасштабную структурированную структуру оценки. Несмотря на некоторые ограничения, она открывает новые направления в исследованиях непрерывного обучения и имеет важное академическое значение и практическую ценность.