2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.

We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.

academic

CurLL: 言語モデルにおける継続学習を評価するための発達的フレームワーク

基本情報

論文ID: 2510.13008
タイトル: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
著者: Pavan Kalyan (Microsoft Research)、Shubhra Mishra (KTH Royal Institute of Technology)、Satya Lokam (Microsoft Research)、Navin Goyal (Microsoft Research)
分類: cs.CL cs.AI
発表日: 2025年10月14日 (プレプリント)
論文リンク: https://arxiv.org/abs/2510.13008

要約

本論文は、人間の発達軌跡(5～10歳)に基づいた包括的な継続学習データセットおよびベンチマークフレームワークCurLLを提案している。このフレームワークは、モデルが段階的に新しいスキルを習得する能力を体系的かつ細粒度で評価することができる。CurLLは5つの発達段階(0～4)を含み、スキルグラフによって支援されており、広範なスキルをより小さな能力、具体的な目標、および測定可能な指標に分解し、同時にスキル間の依存関係を捉えている。研究者らは23.4Bトークンの合成データセットを生成し、制御可能なスキル進行、語彙複雑度、および形式多様性(段落、理解型質問応答(CQA)、スキルテスト質問応答(CSQA)、および指示応答(IR)ペア)を備えている。各段階のトークン数は2.12Bから6.78Bの範囲であり、忘却、前方転移、および後方転移の正確な分析をサポートしている。

研究背景と動機

問題定義

現在の大規模言語モデルが直面する中核的な課題は継続学習の問題である：

静的知識の制限：既存のLLMの知識とスキルは訓練後に静的となり、人間のように継続的に新しい知識を学習することができない
破滅的忘却：新しいタスクを学習する際、モデルはしばしば以前に学習したスキルを忘れてしまう
スキル依存関係のモデリング不足：既存の方法はスキル間の依存関係の正確な制御とモデリングが不足している

研究の重要性

継続学習能力は人間知能の重要な特性であり、真に知的なAIシステムの構築に不可欠である：

人間は新しい知識を既存の理解と統合することができる
新しいスキルを習得しながら以前の能力を維持する
極めて高いサンプル効率で生涯学習を実現する

既存方法の限界

スキル制御の不正確さ：既存のベンチマークは特定のスキルに対する正確な制御が不足している
知識依存関係の不明確さ：スキル間の関係がめったに明示的にモデル化されない
忘却測定の不十分さ：多くの評価は、連続学習タスク全体における破滅的忘却を適切に測定できない

核心的貢献

革新的フレームワーク：人間の教育カリキュラム体系を継続学習評価に初めて導入し、発達心理学に基づくスキル構造を提供
大規模合成データセット：23.4Bトークンの多形式合成データセットを構築し、5つの発達段階を網羅し、制御可能な語彙複雑度とスキル進行を備えている
スキルグラフのモデリング：1,300以上の細粒度スキルを含む明示的なスキル依存グラフを構築し、前提条件関係の定量分析をサポート
細粒度評価体系：指標、スキル、段階の3つのレベルでの精密な評価をサポートし、忘却、転移、およびサンプル効率を正確に測定できる

方法論の詳細

タスク定義

継続学習タスク：発達段階に従って組織された一連の学習タスクが与えられた場合、モデルは以下を必要とする：

入力：複数段階の訓練データの系列化
出力：すべての段階にわたって良好なパフォーマンスを維持
制約：破滅的忘却を最小化し、正方向および逆方向の転移を最大化

フレームワーク構造

1. スキル分類体系

2つの教育フレームワークに基づいて構築された4層のスキル構造：

Skills: 高レベルの領域(例：数学、科学)
Sub-skills: 特定のコンポーネント(例：計数と基数)
Goals: 学習期待の広範な記述
Indicators: 具体的な観察可能な行動表現

2. スキルグラフの構築

ノード：1,300以上の指標(indicators)
エッジ：前提条件依存関係、重み1～5は依存強度を表す
検証：LLMを使用して依存関係を予測し、段階間のエッジ分布を通じて合理性を検証

3. データ生成プロセス

シード構成：

スキルタプル(skill-tuple)
年齢適切な語彙(Age-of-Acquisition データに基づく)
インスタンスタイプ(IR/CQA/CSQA)
テンプレートタイプ

生成戦略：

各スキルタプルについて≥15個のコンテキストテンプレートとIRテンプレートを生成
シードに基づいてLLMを使用して多様なインスタンスを生成
年齢適切性とスキル整合性を確保

技術的革新点

発達心理学駆動：Cambridge Primary CurriculumおよびELOFフレームワークをAI評価に初めて導入
多層スキルモデリング：抽象的スキルから具体的指標への階層的分解
依存関係の定量化：加重有向グラフを使用してスキル間の前提条件関係を明示的にモデル化
多形式データ融合：段落、質問応答、指示応答を処理する統一されたチャットテンプレート

実験設定

データセット規模

段階	スキル数	サブスキル数	目標数	指標数	CQA数量	CSQA数量	IR数量	トークン数(十億)
0	7	24	59	182	1.0M	3.01M	3.30M	2.12
1	7	29	86	292	20.2M	4.04M	4.10M	3.47
2	6	26	67	249	23.5M	4.70M	4.78M	4.56
3	6	26	68	271	31.2M	6.24M	6.29M	6.47
4	6	23	70	349	27.4M	5.49M	5.52M	6.78

評価指標

正確性スコア：LLMを使用してモデル応答に1～5点のスコアを付与
忘却分析：結合訓練と継続訓練のパフォーマンス差異
転移効果：段階間のパフォーマンス変化分析

訓練設定

モデル：SmolLM2-135Mパラメータトランスフォーマー
訓練モード：
- Independent：各段階を独立して訓練
- Joint：複数段階のデータを混合して訓練
- Continual：系列化訓練
ハイパーパラメータ：学習率5e-3、バッチサイズ1536、1エポック

実験結果

主要な結果

Figure 4のヒートマップから以下が観察される：

独立訓練(Independent)：
- 訓練段階でのパフォーマンスが最高
- 未訓練段階への汎化能力が限定的
- 段階0がすべてのテスト段階で最良の性能を示す(12.62→6.73)
結合訓練(Joint)：
- すべての段階で安定した高いパフォーマンスを維持
- 破滅的忘却を回避
- 相対的にバランスの取れたパフォーマンス(12.62→9.79)
継続訓練(Continual)：
- 後期段階で最良のパフォーマンス
- 明らかな忘却現象が存在
- 最良の前方転移能力を示す