We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic- 論文ID: 2510.13008
- タイトル: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- 著者: Pavan Kalyan (Microsoft Research)、Shubhra Mishra (KTH Royal Institute of Technology)、Satya Lokam (Microsoft Research)、Navin Goyal (Microsoft Research)
- 分類: cs.CL cs.AI
- 発表日: 2025年10月14日 (プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.13008
本論文は、人間の発達軌跡(5~10歳)に基づいた包括的な継続学習データセットおよびベンチマークフレームワークCurLLを提案している。このフレームワークは、モデルが段階的に新しいスキルを習得する能力を体系的かつ細粒度で評価することができる。CurLLは5つの発達段階(0~4)を含み、スキルグラフによって支援されており、広範なスキルをより小さな能力、具体的な目標、および測定可能な指標に分解し、同時にスキル間の依存関係を捉えている。研究者らは23.4Bトークンの合成データセットを生成し、制御可能なスキル進行、語彙複雑度、および形式多様性(段落、理解型質問応答(CQA)、スキルテスト質問応答(CSQA)、および指示応答(IR)ペア)を備えている。各段階のトークン数は2.12Bから6.78Bの範囲であり、忘却、前方転移、および後方転移の正確な分析をサポートしている。
現在の大規模言語モデルが直面する中核的な課題は継続学習の問題である:
- 静的知識の制限:既存のLLMの知識とスキルは訓練後に静的となり、人間のように継続的に新しい知識を学習することができない
- 破滅的忘却:新しいタスクを学習する際、モデルはしばしば以前に学習したスキルを忘れてしまう
- スキル依存関係のモデリング不足:既存の方法はスキル間の依存関係の正確な制御とモデリングが不足している
継続学習能力は人間知能の重要な特性であり、真に知的なAIシステムの構築に不可欠である:
- 人間は新しい知識を既存の理解と統合することができる
- 新しいスキルを習得しながら以前の能力を維持する
- 極めて高いサンプル効率で生涯学習を実現する
- スキル制御の不正確さ:既存のベンチマークは特定のスキルに対する正確な制御が不足している
- 知識依存関係の不明確さ:スキル間の関係がめったに明示的にモデル化されない
- 忘却測定の不十分さ:多くの評価は、連続学習タスク全体における破滅的忘却を適切に測定できない
- 革新的フレームワーク:人間の教育カリキュラム体系を継続学習評価に初めて導入し、発達心理学に基づくスキル構造を提供
- 大規模合成データセット:23.4Bトークンの多形式合成データセットを構築し、5つの発達段階を網羅し、制御可能な語彙複雑度とスキル進行を備えている
- スキルグラフのモデリング:1,300以上の細粒度スキルを含む明示的なスキル依存グラフを構築し、前提条件関係の定量分析をサポート
- 細粒度評価体系:指標、スキル、段階の3つのレベルでの精密な評価をサポートし、忘却、転移、およびサンプル効率を正確に測定できる
継続学習タスク:発達段階に従って組織された一連の学習タスクが与えられた場合、モデルは以下を必要とする:
- 入力:複数段階の訓練データの系列化
- 出力:すべての段階にわたって良好なパフォーマンスを維持
- 制約:破滅的忘却を最小化し、正方向および逆方向の転移を最大化
2つの教育フレームワークに基づいて構築された4層のスキル構造:
- Skills: 高レベルの領域(例:数学、科学)
- Sub-skills: 特定のコンポーネント(例:計数と基数)
- Goals: 学習期待の広範な記述
- Indicators: 具体的な観察可能な行動表現
- ノード:1,300以上の指標(indicators)
- エッジ:前提条件依存関係、重み1~5は依存強度を表す
- 検証:LLMを使用して依存関係を予測し、段階間のエッジ分布を通じて合理性を検証
シード構成:
- スキルタプル(skill-tuple)
- 年齢適切な語彙(Age-of-Acquisition データに基づく)
- インスタンスタイプ(IR/CQA/CSQA)
- テンプレートタイプ
生成戦略:
- 各スキルタプルについて≥15個のコンテキストテンプレートとIRテンプレートを生成
- シードに基づいてLLMを使用して多様なインスタンスを生成
- 年齢適切性とスキル整合性を確保
- 発達心理学駆動:Cambridge Primary CurriculumおよびELOFフレームワークをAI評価に初めて導入
- 多層スキルモデリング:抽象的スキルから具体的指標への階層的分解
- 依存関係の定量化:加重有向グラフを使用してスキル間の前提条件関係を明示的にモデル化
- 多形式データ融合:段落、質問応答、指示応答を処理する統一されたチャットテンプレート
| 段階 | スキル数 | サブスキル数 | 目標数 | 指標数 | CQA数量 | CSQA数量 | IR数量 | トークン数(十億) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1.0M | 3.01M | 3.30M | 2.12 |
| 1 | 7 | 29 | 86 | 292 | 20.2M | 4.04M | 4.10M | 3.47 |
| 2 | 6 | 26 | 67 | 249 | 23.5M | 4.70M | 4.78M | 4.56 |
| 3 | 6 | 26 | 68 | 271 | 31.2M | 6.24M | 6.29M | 6.47 |
| 4 | 6 | 23 | 70 | 349 | 27.4M | 5.49M | 5.52M | 6.78 |
- 正確性スコア:LLMを使用してモデル応答に1~5点のスコアを付与
- 忘却分析:結合訓練と継続訓練のパフォーマンス差異
- 転移効果:段階間のパフォーマンス変化分析
- モデル:SmolLM2-135Mパラメータトランスフォーマー
- 訓練モード:
- Independent:各段階を独立して訓練
- Joint:複数段階のデータを混合して訓練
- Continual:系列化訓練
- ハイパーパラメータ:学習率5e-3、バッチサイズ1536、1エポック
Figure 4のヒートマップから以下が観察される:
- 独立訓練(Independent):
- 訓練段階でのパフォーマンスが最高
- 未訓練段階への汎化能力が限定的
- 段階0がすべてのテスト段階で最良の性能を示す(12.62→6.73)
- 結合訓練(Joint):
- すべての段階で安定した高いパフォーマンスを維持
- 破滅的忘却を回避
- 相対的にバランスの取れたパフォーマンス(12.62→9.79)
- 継続訓練(Continual):
- 後期段階で最良のパフォーマンス
- 明らかな忘却現象が存在
- 最良の前方転移能力を示す
Figure 5は結合訓練と継続訓練のパフォーマンス差異を示している:
- 正方向転移:継続訓練は将来の段階でより良好なパフォーマンスを示す(正の値領域)
- 破滅的忘却:継続訓練は初期段階でパフォーマンスが低下する(負の値領域)
- 形式差異:IRタスクで忘却が最も深刻であり、CSQAは相対的に軽微
重要な発見:
- 低出次数スキルはより忘却されやすい:例えば「知覚、運動、および身体発達」、「デジタルリテラシー」
- 依存関係が忘却に影響:前提スキルが少ない能力は継続学習でより忘却されやすい
- 段階間接続パターン:低段階から高段階へのエッジ数は逆方向よりも大幅に多い
- 多様性:gzip圧縮率の逆数は30.77~35.60%の多様性を示す
- 重複排除率:意味的重複排除率<5%で、コンテンツの独自性を確保
- 可読性の増加:各段階のテキスト複雑度は年齢とともに上昇
既存ベンチマークの限界:
- TRACE:タスクが過度に単純であるか、既にLLM訓練セットに含まれている
- MMLM-CL:現実世界への適用可能性が不足している
- TemporalWiki:主に事実知識の更新に焦点
- SuperNI:従来のNLPタスク集合で、スキル依存関係のモデリングが不足
- Skill-it:複雑度が増加するスキル順序付けアルゴリズムを提案
- パラメータ効率的方法:LoRA、アダプタなど忘却を減らす技術
- メモリリプレイ:履歴サンプルを使用して忘却を軽減
本研究の独自性:
- 人間発達カリキュラムに基づくスキル組織
- 明示的なスキル依存グラフ
- 大規模な制御可能な合成データ生成
- データ順序の重要性:データ順序を変更するだけで忘却と汎化に大きな影響を与える
- スキル依存関係の役割:低出次数スキルは継続学習でより忘却されやすい
- 評価粒度の必要性:細粒度評価は、マクロ指標が隠蔽する重要なパターンを明らかにできる
- 合成データの限界:完全に合成データを使用しており、現実世界のシナリオを反映していない可能性がある
- モデル規模:135Mパラメータモデルでのみ検証され、大規模モデルの動作は異なる可能性がある
- 対話的学習の欠落:静的データセットは真の対話的学習環境をシミュレートできない
- 言語モデリングパラダイム:モデルは指示と応答を同時に学習し、人間の学習パターンと完全には一致しない
- 年齢範囲の拡張:フレームワークを14歳まで拡張(より多くの発達段階)
- 大規模モデルの検証:十億パラメータレベルのモデルで発見を検証
- 実データの統合:実教育データを組み込んでフレームワークを検証
- 対話的環境:動的対話をサポートする学習環境を開発
- 革新性が高い:発達心理学を継続学習評価に体系的に導入した初の試み
- データ規模が大きい:23.4Bトークンの大規模データセットで十分な実験をサポート
- 評価が細致:多層的、多次元的な評価体系で深い洞察を提供
- 再現性が良い:コードとデータが公開され、後続研究をサポート
- 理論基盤が堅実:成熟した教育理論フレームワークに基づいている
- 実験規模の制限:小規模モデルでのみ検証され、結論の普遍性は検証が必要
- 合成データバイアス:生成バイアスが存在する可能性があり、結論の信頼性に影響
- 評価方法への依存:LLMを使用した評価は追加バイアスを導入する可能性がある
- スキルグラフの品質:LLMが予測したエッジ関係は十分に正確でない可能性がある
- 学術的貢献:継続学習研究に新しい評価パラダイムを提供
- 実用的価値:既存の継続学習アルゴリズムの評価と改善に使用可能
- 啓発的意義:AI研究における学際的アプローチの価値を示す
- コミュニティリソース:貴重なオープンソースデータセットとツールを提供
- 継続学習アルゴリズム開発:標準化された評価プラットフォームを提供
- 教育AI システム:教育シーンのAI応用に参考を提供
- 認知モデリング研究:人間の学習プロセスの計算モデリングをサポート
- LLM能力評価:大規模モデルの学習と忘却行動を細粒度で評価
論文は複数の重要な関連研究を引用している:
- 継続学習ベンチマーク:TRACE、MMLM-CL、OCKL等
- 教育フレームワーク:Cambridge Primary Curriculum、ELOF
- 技術的方法:Skill-it、各種継続学習アルゴリズム
- 評価ツール:Age-of-Acquisition データ、可読性テストツール
総合評価:これは高品質な研究成果であり、人間発達心理学を継続学習評価に革新的に導入し、大規模で構造化された評価フレームワークを構築している。いくつかの限界があるものの、継続学習研究に新しい方向性を開き、重要な学術的価値と実用的意義を有している。