2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.

We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.

academic

CurLL: Структура развития для оценки непрерывного обучения в языковых моделях

Основная информация

ID статьи: 2510.13008
Название: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
Авторы: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
Классификация: cs.CL cs.AI
Дата публикации: 14 октября 2025 г. (Препринт)
Ссылка на статью: https://arxiv.org/abs/2510.13008

Аннотация

В данной работе предлагается комплексный набор данных для непрерывного обучения и структура тестирования CurLL, основанная на траектории человеческого развития (5-10 лет), которая позволяет систематически и детально оценивать способность модели постепенно приобретать новые навыки. CurLL охватывает пять этапов развития (0-4), поддерживаемых графом навыков, который разлагает широкие навыки на более мелкие способности, конкретные цели и измеримые показатели, одновременно фиксируя зависимости между навыками. Исследователи создали синтетический набор данных объёмом 23,4B токенов с контролируемым прогрессом навыков, сложностью словарного запаса и разнообразием форматов, включая абзацы, вопросы для понимания (CQA), вопросы для проверки навыков (CSQA) и пары инструкция-ответ (IR). Количество токенов на каждом этапе варьируется от 2,12B до 6,78B, что позволяет проводить точный анализ забывания, прямого и обратного переноса.

Исследовательский контекст и мотивация

Определение проблемы

Основной вызов, стоящий перед большими языковыми моделями, — это проблема непрерывного обучения:

Ограничения статических знаний: Знания и навыки существующих LLM становятся статичными после обучения и не могут развиваться непрерывно, как у людей
Катастрофическое забывание: При обучении новым задачам модель часто забывает ранее усвоенные навыки
Отсутствие моделирования зависимостей между навыками: Существующие методы не обеспечивают точное управление и моделирование отношений между навыками

Значимость исследования

Способность к непрерывному обучению является важной характеристикой человеческого интеллекта и имеет решающее значение для создания действительно интеллектуальных систем искусственного интеллекта:

Люди способны интегрировать новые знания с существующим пониманием
Сохранять предыдущие способности при овладении новыми навыками
Достигать пожизненного обучения с исключительной выборочной эффективностью

Ограничения существующих методов

Неточное управление навыками: Существующие тесты не обеспечивают точное управление конкретными навыками
Неясные отношения между знаниями: Отношения между навыками редко моделируются явно
Недостаточное измерение забывания: Многие оценки не могут должным образом измерить катастрофическое забывание при последовательном обучении задачам

Основные вклады

Инновационная структура: Впервые внедрена система человеческого образовательного курса в оценку непрерывного обучения, обеспечивающая структуру навыков, основанную на психологии развития
Крупномасштабный синтетический набор данных: Построен синтетический набор данных объёмом 23,4B токенов в различных форматах, охватывающий 5 этапов развития с контролируемой сложностью словарного запаса и прогрессом навыков
Моделирование графа навыков: Построен явный граф зависимостей навыков, содержащий более 1300 детальных навыков, поддерживающий количественный анализ отношений предпосылок
Система детальной оценки: Поддерживает трёхуровневую детальную оценку показателей, навыков и этапов, способная точно измерять забывание, передачу и выборочную эффективность

Подробное описание методологии

Определение задачи

Задача непрерывного обучения: Учитывая серию задач обучения, организованных по этапам развития, модель должна:

Входные данные: Последовательные многоэтапные данные обучения
Выходные данные: Поддерживать хорошую производительность на всех этапах
Ограничения: Минимизировать катастрофическое забывание, максимизировать прямой и обратный перенос

Архитектура структуры

1. Система классификации навыков

Четырёхуровневая структура навыков, построенная на основе двух образовательных структур:

Skills (Навыки): Высокоуровневые области (например, математика, естественные науки)
Sub-skills (Подмножества навыков): Специфические компоненты (например, подсчёт и кардинальность)
Goals (Цели): Широкие утверждения ожидаемых результатов обучения
Indicators (Показатели): Конкретные наблюдаемые поведенческие проявления

2. Построение графа навыков

Узлы: Более 1300 показателей (indicators)
Рёбра: Отношения зависимостей предпосылок, вес 1-5 указывает на силу зависимости
Валидация: Использование LLM для прогнозирования зависимостей, проверка обоснованности через распределение рёбер между этапами

3. Процесс генерации данных

Построение семян:

Кортежи навыков (skill-tuple)
Словарный запас, соответствующий возрасту (на основе данных Age-of-Acquisition)
Тип примера (IR/CQA/CSQA)
Тип шаблона

Стратегия генерации:

Генерирование ≥15 контекстных шаблонов и IR шаблонов для каждого кортежа навыков
Использование LLM для генерирования разнообразных примеров на основе семян
Обеспечение соответствия возрасту и выравнивания навыков

Технические инновации

Управляемая психологией развития: Впервые внедрены Cambridge Primary Curriculum и ELOF структуры в оценку AI
Многоуровневое моделирование навыков: Иерархическое разложение от абстрактных навыков к конкретным показателям
Количественное определение отношений зависимостей: Использование взвешенного ориентированного графа для явного моделирования отношений предпосылок между навыками
Слияние данных в различных форматах: Унифицированный шаблон чата для обработки абзацев, вопросов и ответов и ответов на инструкции

Экспериментальная установка

Размер набора данных

Этап	Кол-во навыков	Кол-во подмножеств	Кол-во целей	Кол-во показателей	Кол-во CQA	Кол-во CSQA	Кол-во IR	Токены (миллиарды)
0	7	24	59	182	1.0M	3.01M	3.30M	2.12
1	7	29	86	292	20.2M	4.04M	4.10M	3.47
2	6	26	67	249	23.5M	4.70M	4.78M	4.56
3	6	26	68	271	31.2M	6.24M	6.29M	6.47
4	6	23	70	349	27.4M	5.49M	5.52M	6.78

Показатели оценки

Оценка правильности: Использование LLM для оценки ответов модели по шкале 1-5
Анализ забывания: Разница в производительности между совместным и непрерывным обучением
Эффект переноса: Анализ изменения производительности между этапами

Параметры обучения

Модель: SmolLM2 с 135M параметров Transformer
Режимы обучения:
- Independent (Независимое): Отдельное обучение на каждом этапе
- Joint (Совместное): Обучение на смешанных данных нескольких этапов
- Continual (Непрерывное): Последовательное обучение
Гиперпараметры: Скорость обучения 5e-3, размер пакета 1536, один эпох

Результаты экспериментов

Основные результаты

Из тепловой карты на Рисунке 4 видно:

Независимое обучение (Independent):
- Наивысшая производительность на этапах обучения
- Ограниченная способность обобщения на необученные этапы
- Этап 0 показывает лучшую производительность на всех этапах тестирования (12.62→6.73)
Совместное обучение (Joint):
- Стабильная высокая производительность на всех этапах
- Избегает катастрофического забывания
- Относительно сбалансированная производительность (12.62→9.79)
Непрерывное обучение (Continual):
- Лучшая производительность на поздних этапах
- Явное явление забывания
- Демонстрирует лучшую способность прямого переноса

Анализ забывания

Рисунок 5 показывает разницу в производительности между совместным и непрерывным обучением:

Прямой перенос: Непрерывное обучение показывает лучшую производительность на будущих этапах (положительные области)
Катастрофическое забывание: Производительность непрерывного обучения снижается на ранних этапах (отрицательные области)
Различия в форматах: Забывание задач IR наиболее серьёзно, CSQA относительно легче

Выводы из графа навыков

Ключевые находки:

Навыки с низкой исходящей степенью более подвержены забыванию: Такие как "восприятие, движение и физическое развитие", "цифровая грамотность"
Влияние отношений зависимостей: Способности с меньшим количеством предпосылочных навыков более подвержены забыванию при непрерывном обучении
Паттерны связей между этапами: Количество рёбер от низких этапов к высоким значительно превышает обратное направление

Проверка качества данных

Разнообразие: Обратная величина коэффициента сжатия gzip показывает разнообразие 30,77%-35,60%
Коэффициент дедупликации: Коэффициент семантической дедупликации <5%, обеспечивающий уникальность содержания
Возрастающая читаемость: Сложность текста на каждом этапе увеличивается с возрастом

Связанные работы

Тесты непрерывного обучения

Ограничения существующих тестов:

TRACE: Задачи слишком простые или уже включены в набор обучения LLM
MMLM-CL: Отсутствует применимость в реальном мире
TemporalWiki: Сосредоточена в основном на обновлении фактических знаний
SuperNI: Набор традиционных задач NLP, отсутствует моделирование зависимостей между навыками

Технические методы

Skill-it: Предложен алгоритм упорядочивания навыков с возрастающей сложностью
Методы параметрической эффективности: LoRA, адаптеры и другие технологии для снижения забывания
Воспроизведение памяти: Использование исторических образцов для смягчения забывания

Уникальность данной работы заключается в:

Организации навыков на основе курса человеческого развития
Явном графе зависимостей навыков
Крупномасштабной генерации контролируемых синтетических данных

Заключение и обсуждение

Основные выводы

Важность порядка данных: Простое изменение порядка данных может значительно повлиять на забывание и обобщение
Роль зависимостей между навыками: Навыки с низкой исходящей степенью более подвержены забыванию при непрерывном обучении
Необходимость детальной оценки: Детальная оценка может выявить важные паттерны, скрытые макроскопическими показателями

Ограничения

Ограничения синтетических данных: Полное использование синтетических данных может не отражать сценарии реального мира
Масштаб модели: Проверка проводилась только на модели с 135M параметров, поведение больших моделей может отличаться
Отсутствие интерактивного обучения: Статический набор данных не может моделировать истинно интерактивную среду обучения
Парадигма языкового моделирования: Модель одновременно изучает инструкции и ответы, что не полностью соответствует человеческому обучению

Направления будущих исследований

Расширение возрастного диапазона: Расширение структуры на 14 лет (больше этапов развития)
Проверка на больших моделях: Проверка выводов на моделях с миллиардами параметров
Интеграция реальных данных: Объединение реальных образовательных данных для проверки структуры
Интерактивная среда: Разработка среды обучения, поддерживающей динамическое взаимодействие

Глубокая оценка

Преимущества

Высокая инновационность: Впервые систематически внедрена психология развития в оценку непрерывного обучения
Большой масштаб данных: Крупномасштабный набор данных объёмом 23,4B токенов, поддерживающий достаточные эксперименты
Детальная оценка: Многоуровневая и многомерная система оценки, обеспечивающая глубокие выводы
Хорошая воспроизводимость: Открытые код и данные, поддерживающие последующие исследования
Прочная теоретическая база: Основана на зрелых образовательных теоретических структурах

Недостатки

Ограничения масштаба экспериментов: Проверка только на малых моделях, универсальность выводов требует дальнейшей проверки
Смещение синтетических данных: Возможное смещение при генерации, влияющее на надёжность выводов
Зависимость от метода оценки: Использование LLM для оценки может вносить дополнительное смещение
Качество графа навыков: Отношения рёбер, предсказанные LLM, могут быть недостаточно точными

Влияние

Академический вклад: Предоставляет новую парадигму оценки для исследований непрерывного обучения
Практическая ценность: Может использоваться для оценки и улучшения существующих алгоритмов непрерывного обучения
Вдохновляющее значение: Демонстрирует ценность междисциплинарных подходов в исследованиях AI
Ресурсы сообщества: Предоставляет ценный открытый набор данных и инструменты

Применимые сценарии

Разработка алгоритмов непрерывного обучения: Предоставляет стандартизированную платформу оценки
Системы образовательного AI: Предоставляет справочную информацию для приложений AI в образовательных сценариях
Исследования когнитивного моделирования: Поддерживает вычислительное моделирование процессов человеческого обучения
Оценка способностей LLM: Детальная оценка поведения больших моделей при обучении и забывании

Библиография

Статья цитирует множество важных связанных работ, включая:

Тесты непрерывного обучения: TRACE, MMLM-CL, OCKL и др.
Образовательные структуры: Cambridge Primary Curriculum, ELOF
Технические методы: Skill-it, различные алгоритмы непрерывного обучения
Инструменты оценки: Данные Age-of-Acquisition, инструменты тестирования читаемости

Общая оценка: Это высококачественная исследовательская работа, которая инновационно внедряет психологию развития человека в оценку непрерывного обучения и строит крупномасштабную структурированную структуру оценки. Несмотря на некоторые ограничения, она открывает новые направления в исследованиях непрерывного обучения и имеет важное академическое значение и практическую ценность.