2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.
We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic

CurLL: Структура развития для оценки непрерывного обучения в языковых моделях

Основная информация

  • ID статьи: 2510.13008
  • Название: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
  • Авторы: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
  • Классификация: cs.CL cs.AI
  • Дата публикации: 14 октября 2025 г. (Препринт)
  • Ссылка на статью: https://arxiv.org/abs/2510.13008

Аннотация

В данной работе предлагается комплексный набор данных для непрерывного обучения и структура тестирования CurLL, основанная на траектории человеческого развития (5-10 лет), которая позволяет систематически и детально оценивать способность модели постепенно приобретать новые навыки. CurLL охватывает пять этапов развития (0-4), поддерживаемых графом навыков, который разлагает широкие навыки на более мелкие способности, конкретные цели и измеримые показатели, одновременно фиксируя зависимости между навыками. Исследователи создали синтетический набор данных объёмом 23,4B токенов с контролируемым прогрессом навыков, сложностью словарного запаса и разнообразием форматов, включая абзацы, вопросы для понимания (CQA), вопросы для проверки навыков (CSQA) и пары инструкция-ответ (IR). Количество токенов на каждом этапе варьируется от 2,12B до 6,78B, что позволяет проводить точный анализ забывания, прямого и обратного переноса.

Исследовательский контекст и мотивация

Определение проблемы

Основной вызов, стоящий перед большими языковыми моделями, — это проблема непрерывного обучения:

  1. Ограничения статических знаний: Знания и навыки существующих LLM становятся статичными после обучения и не могут развиваться непрерывно, как у людей
  2. Катастрофическое забывание: При обучении новым задачам модель часто забывает ранее усвоенные навыки
  3. Отсутствие моделирования зависимостей между навыками: Существующие методы не обеспечивают точное управление и моделирование отношений между навыками

Значимость исследования

Способность к непрерывному обучению является важной характеристикой человеческого интеллекта и имеет решающее значение для создания действительно интеллектуальных систем искусственного интеллекта:

  • Люди способны интегрировать новые знания с существующим пониманием
  • Сохранять предыдущие способности при овладении новыми навыками
  • Достигать пожизненного обучения с исключительной выборочной эффективностью

Ограничения существующих методов

  1. Неточное управление навыками: Существующие тесты не обеспечивают точное управление конкретными навыками
  2. Неясные отношения между знаниями: Отношения между навыками редко моделируются явно
  3. Недостаточное измерение забывания: Многие оценки не могут должным образом измерить катастрофическое забывание при последовательном обучении задачам

Основные вклады

  1. Инновационная структура: Впервые внедрена система человеческого образовательного курса в оценку непрерывного обучения, обеспечивающая структуру навыков, основанную на психологии развития
  2. Крупномасштабный синтетический набор данных: Построен синтетический набор данных объёмом 23,4B токенов в различных форматах, охватывающий 5 этапов развития с контролируемой сложностью словарного запаса и прогрессом навыков
  3. Моделирование графа навыков: Построен явный граф зависимостей навыков, содержащий более 1300 детальных навыков, поддерживающий количественный анализ отношений предпосылок
  4. Система детальной оценки: Поддерживает трёхуровневую детальную оценку показателей, навыков и этапов, способная точно измерять забывание, передачу и выборочную эффективность

Подробное описание методологии

Определение задачи

Задача непрерывного обучения: Учитывая серию задач обучения, организованных по этапам развития, модель должна:

  • Входные данные: Последовательные многоэтапные данные обучения
  • Выходные данные: Поддерживать хорошую производительность на всех этапах
  • Ограничения: Минимизировать катастрофическое забывание, максимизировать прямой и обратный перенос

Архитектура структуры

1. Система классификации навыков

Четырёхуровневая структура навыков, построенная на основе двух образовательных структур:

  • Skills (Навыки): Высокоуровневые области (например, математика, естественные науки)
  • Sub-skills (Подмножества навыков): Специфические компоненты (например, подсчёт и кардинальность)
  • Goals (Цели): Широкие утверждения ожидаемых результатов обучения
  • Indicators (Показатели): Конкретные наблюдаемые поведенческие проявления

2. Построение графа навыков

  • Узлы: Более 1300 показателей (indicators)
  • Рёбра: Отношения зависимостей предпосылок, вес 1-5 указывает на силу зависимости
  • Валидация: Использование LLM для прогнозирования зависимостей, проверка обоснованности через распределение рёбер между этапами

3. Процесс генерации данных

Построение семян:

  • Кортежи навыков (skill-tuple)
  • Словарный запас, соответствующий возрасту (на основе данных Age-of-Acquisition)
  • Тип примера (IR/CQA/CSQA)
  • Тип шаблона

Стратегия генерации:

  • Генерирование ≥15 контекстных шаблонов и IR шаблонов для каждого кортежа навыков
  • Использование LLM для генерирования разнообразных примеров на основе семян
  • Обеспечение соответствия возрасту и выравнивания навыков

Технические инновации

  1. Управляемая психологией развития: Впервые внедрены Cambridge Primary Curriculum и ELOF структуры в оценку AI
  2. Многоуровневое моделирование навыков: Иерархическое разложение от абстрактных навыков к конкретным показателям
  3. Количественное определение отношений зависимостей: Использование взвешенного ориентированного графа для явного моделирования отношений предпосылок между навыками
  4. Слияние данных в различных форматах: Унифицированный шаблон чата для обработки абзацев, вопросов и ответов и ответов на инструкции

Экспериментальная установка

Размер набора данных

ЭтапКол-во навыковКол-во подмножествКол-во целейКол-во показателейКол-во CQAКол-во CSQAКол-во IRТокены (миллиарды)
0724591821.0M3.01M3.30M2.12
17298629220.2M4.04M4.10M3.47
26266724923.5M4.70M4.78M4.56
36266827131.2M6.24M6.29M6.47
46237034927.4M5.49M5.52M6.78

Показатели оценки

  • Оценка правильности: Использование LLM для оценки ответов модели по шкале 1-5
  • Анализ забывания: Разница в производительности между совместным и непрерывным обучением
  • Эффект переноса: Анализ изменения производительности между этапами

Параметры обучения

  • Модель: SmolLM2 с 135M параметров Transformer
  • Режимы обучения:
    • Independent (Независимое): Отдельное обучение на каждом этапе
    • Joint (Совместное): Обучение на смешанных данных нескольких этапов
    • Continual (Непрерывное): Последовательное обучение
  • Гиперпараметры: Скорость обучения 5e-3, размер пакета 1536, один эпох

Результаты экспериментов

Основные результаты

Из тепловой карты на Рисунке 4 видно:

  1. Независимое обучение (Independent):
    • Наивысшая производительность на этапах обучения
    • Ограниченная способность обобщения на необученные этапы
    • Этап 0 показывает лучшую производительность на всех этапах тестирования (12.62→6.73)
  2. Совместное обучение (Joint):
    • Стабильная высокая производительность на всех этапах
    • Избегает катастрофического забывания
    • Относительно сбалансированная производительность (12.62→9.79)
  3. Непрерывное обучение (Continual):
    • Лучшая производительность на поздних этапах
    • Явное явление забывания
    • Демонстрирует лучшую способность прямого переноса

Анализ забывания

Рисунок 5 показывает разницу в производительности между совместным и непрерывным обучением:

  • Прямой перенос: Непрерывное обучение показывает лучшую производительность на будущих этапах (положительные области)
  • Катастрофическое забывание: Производительность непрерывного обучения снижается на ранних этапах (отрицательные области)
  • Различия в форматах: Забывание задач IR наиболее серьёзно, CSQA относительно легче

Выводы из графа навыков

Ключевые находки:

  • Навыки с низкой исходящей степенью более подвержены забыванию: Такие как "восприятие, движение и физическое развитие", "цифровая грамотность"
  • Влияние отношений зависимостей: Способности с меньшим количеством предпосылочных навыков более подвержены забыванию при непрерывном обучении
  • Паттерны связей между этапами: Количество рёбер от низких этапов к высоким значительно превышает обратное направление

Проверка качества данных

  • Разнообразие: Обратная величина коэффициента сжатия gzip показывает разнообразие 30,77%-35,60%
  • Коэффициент дедупликации: Коэффициент семантической дедупликации <5%, обеспечивающий уникальность содержания
  • Возрастающая читаемость: Сложность текста на каждом этапе увеличивается с возрастом

Связанные работы

Тесты непрерывного обучения

Ограничения существующих тестов:

  • TRACE: Задачи слишком простые или уже включены в набор обучения LLM
  • MMLM-CL: Отсутствует применимость в реальном мире
  • TemporalWiki: Сосредоточена в основном на обновлении фактических знаний
  • SuperNI: Набор традиционных задач NLP, отсутствует моделирование зависимостей между навыками

Технические методы

  • Skill-it: Предложен алгоритм упорядочивания навыков с возрастающей сложностью
  • Методы параметрической эффективности: LoRA, адаптеры и другие технологии для снижения забывания
  • Воспроизведение памяти: Использование исторических образцов для смягчения забывания

Уникальность данной работы заключается в:

  1. Организации навыков на основе курса человеческого развития
  2. Явном графе зависимостей навыков
  3. Крупномасштабной генерации контролируемых синтетических данных

Заключение и обсуждение

Основные выводы

  1. Важность порядка данных: Простое изменение порядка данных может значительно повлиять на забывание и обобщение
  2. Роль зависимостей между навыками: Навыки с низкой исходящей степенью более подвержены забыванию при непрерывном обучении
  3. Необходимость детальной оценки: Детальная оценка может выявить важные паттерны, скрытые макроскопическими показателями

Ограничения

  1. Ограничения синтетических данных: Полное использование синтетических данных может не отражать сценарии реального мира
  2. Масштаб модели: Проверка проводилась только на модели с 135M параметров, поведение больших моделей может отличаться
  3. Отсутствие интерактивного обучения: Статический набор данных не может моделировать истинно интерактивную среду обучения
  4. Парадигма языкового моделирования: Модель одновременно изучает инструкции и ответы, что не полностью соответствует человеческому обучению

Направления будущих исследований

  1. Расширение возрастного диапазона: Расширение структуры на 14 лет (больше этапов развития)
  2. Проверка на больших моделях: Проверка выводов на моделях с миллиардами параметров
  3. Интеграция реальных данных: Объединение реальных образовательных данных для проверки структуры
  4. Интерактивная среда: Разработка среды обучения, поддерживающей динамическое взаимодействие

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые систематически внедрена психология развития в оценку непрерывного обучения
  2. Большой масштаб данных: Крупномасштабный набор данных объёмом 23,4B токенов, поддерживающий достаточные эксперименты
  3. Детальная оценка: Многоуровневая и многомерная система оценки, обеспечивающая глубокие выводы
  4. Хорошая воспроизводимость: Открытые код и данные, поддерживающие последующие исследования
  5. Прочная теоретическая база: Основана на зрелых образовательных теоретических структурах

Недостатки

  1. Ограничения масштаба экспериментов: Проверка только на малых моделях, универсальность выводов требует дальнейшей проверки
  2. Смещение синтетических данных: Возможное смещение при генерации, влияющее на надёжность выводов
  3. Зависимость от метода оценки: Использование LLM для оценки может вносить дополнительное смещение
  4. Качество графа навыков: Отношения рёбер, предсказанные LLM, могут быть недостаточно точными

Влияние

  1. Академический вклад: Предоставляет новую парадигму оценки для исследований непрерывного обучения
  2. Практическая ценность: Может использоваться для оценки и улучшения существующих алгоритмов непрерывного обучения
  3. Вдохновляющее значение: Демонстрирует ценность междисциплинарных подходов в исследованиях AI
  4. Ресурсы сообщества: Предоставляет ценный открытый набор данных и инструменты

Применимые сценарии

  1. Разработка алгоритмов непрерывного обучения: Предоставляет стандартизированную платформу оценки
  2. Системы образовательного AI: Предоставляет справочную информацию для приложений AI в образовательных сценариях
  3. Исследования когнитивного моделирования: Поддерживает вычислительное моделирование процессов человеческого обучения
  4. Оценка способностей LLM: Детальная оценка поведения больших моделей при обучении и забывании

Библиография

Статья цитирует множество важных связанных работ, включая:

  • Тесты непрерывного обучения: TRACE, MMLM-CL, OCKL и др.
  • Образовательные структуры: Cambridge Primary Curriculum, ELOF
  • Технические методы: Skill-it, различные алгоритмы непрерывного обучения
  • Инструменты оценки: Данные Age-of-Acquisition, инструменты тестирования читаемости

Общая оценка: Это высококачественная исследовательская работа, которая инновационно внедряет психологию развития человека в оценку непрерывного обучения и строит крупномасштабную структурированную структуру оценки. Несмотря на некоторые ограничения, она открывает новые направления в исследованиях непрерывного обучения и имеет важное академическое значение и практическую ценность.