2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.

We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.

academic

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

基本信息

论文ID: 2510.13008
标题: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
作者: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
分类: cs.CL cs.AI
发表时间: 2025年10月14日 (Preprint)
论文链接: https://arxiv.org/abs/2510.13008

摘要

本文提出了一个基于人类发展轨迹(5-10岁)的综合性持续学习数据集和基准测试框架CurLL，能够系统性地细粒度评估模型逐步获取新技能的能力。CurLL涵盖五个发展阶段(0-4)，由技能图谱支撑，将广泛技能分解为更小的能力、具体目标和可测量指标，同时捕获技能间的依赖关系。研究生成了23.4B token的合成数据集，具有可控的技能进展、词汇复杂度和格式多样性，包括段落、理解型问答(CQA)、技能测试问答(CSQA)和指令-响应(IR)对。各阶段token数量从2.12B到6.78B不等，支持对遗忘、前向迁移和后向迁移的精确分析。

研究背景与动机

问题定义

当前大型语言模型面临的核心挑战是持续学习问题：

静态知识限制：现有LLMs的知识和技能在训练后变为静态，无法像人类一样持续学习新知识
灾难性遗忘：在学习新任务时，模型往往会忘记之前学到的技能
缺乏技能依赖建模：现有方法缺乏对技能间依赖关系的精确控制和建模

研究重要性

持续学习能力是人类智能的重要特征，对于构建真正智能的AI系统至关重要：

人类能够整合新知识与已有理解
在掌握新技能的同时保持之前的能力
以极高的样本效率实现终身学习

现有方法局限性

技能控制不精确：现有基准缺乏对特定技能的精确控制
知识依赖关系不明确：技能间关系很少被显式建模
遗忘度量不充分：许多评估无法正确测量跨序列学习任务的灾难性遗忘

核心贡献

创新性框架：首次将人类教育课程体系引入持续学习评估，提供基于发展心理学的技能结构
大规模合成数据集：构建23.4B token的多格式合成数据集，涵盖5个发展阶段，具有可控的词汇复杂度和技能进展
技能图谱建模：构建显式的技能依赖图谱，包含1300+细粒度技能，支持前提关系的量化分析
细粒度评估体系：支持指标、技能和阶段三个层次的精细化评估，能够准确测量遗忘、迁移和样本效率

方法详解

任务定义

持续学习任务：给定一系列按发展阶段组织的学习任务，模型需要：

输入：序列化的多阶段训练数据
输出：在所有阶段上保持良好性能
约束：最小化灾难性遗忘，最大化正向和反向迁移

框架架构

1. 技能分类体系

基于两个教育框架构建四层技能结构：

Skills: 高层领域(如数学、科学)
Sub-skills: 特定组件(如计数与基数)
Goals: 学习期望的广泛陈述
Indicators: 具体可观察的行为表现

2. 技能图谱构建

节点：1300+个指标(indicators)
边：前提依赖关系，权重1-5表示依赖强度
验证：使用LLM预测依赖关系，通过阶段间边分布验证合理性

3. 数据生成流程

种子构造：

技能元组(skill-tuple)
年龄适宜词汇(基于Age-of-Acquisition数据)
实例类型(IR/CQA/CSQA)
模板类型

生成策略：

每个技能元组生成≥15个上下文模板和IR模板
使用LLM基于种子生成多样化实例
确保年龄适宜性和技能对齐

技术创新点

发展心理学驱动：首次将Cambridge Primary Curriculum和ELOF框架引入AI评估
多层次技能建模：从抽象技能到具体指标的层次化分解
依赖关系量化：使用加权有向图显式建模技能间前提关系
多格式数据融合：统一的聊天模板处理段落、问答和指令响应

实验设置

数据集规模

阶段	技能数	子技能数	目标数	指标数	CQA数量	CSQA数量	IR数量	Token数(十亿)
0	7	24	59	182	1.0M	3.01M	3.30M	2.12
1	7	29	86	292	20.2M	4.04M	4.10M	3.47
2	6	26	67	249	23.5M	4.70M	4.78M	4.56
3	6	26	68	271	31.2M	6.24M	6.29M	6.47
4	6	23	70	349	27.4M	5.49M	5.52M	6.78

评价指标

正确性评分：使用LLM对模型响应进行1-5分评分
遗忘分析：联合训练与持续训练性能差异
迁移效果：跨阶段性能变化分析

训练设置

模型：SmolLM2-135M参数Transformer
训练模式：
- Independent：每阶段独立训练
- Joint：混合多阶段数据训练
- Continual：序列化训练
超参数：学习率5e-3，batch size 1536，一个epoch

实验结果

主要结果

从Figure 4的热力图可以看出：

独立训练(Independent)：
- 对训练阶段性能最高
- 对未训练阶段泛化能力有限
- 阶段0在所有测试阶段上表现最佳(12.62→6.73)
联合训练(Joint)：
- 在所有阶段保持稳定的高性能
- 避免了灾难性遗忘
- 性能相对均衡(12.62→9.79)
持续训练(Continual)：
- 在后期阶段表现最佳
- 存在明显的遗忘现象
- 展现了最好的前向迁移能力

遗忘分析

Figure 5展示了联合训练与持续训练的性能差异：

正向迁移：持续训练在未来阶段表现更好(正值区域)
灾难性遗忘：持续训练在早期阶段性能下降(负值区域)
格式差异：IR任务遗忘最严重，CSQA相对较轻

技能图谱洞察

关键发现：

低出度技能更易遗忘：如"感知、运动和身体发展"、"数字素养"
依赖关系影响遗忘：前提技能较少的能力在持续学习中更容易被遗忘
阶段间连接模式：低阶段向高阶段的边数显著多于反向

数据质量验证

多样性：gzip压缩率倒数显示30.77%-35.60%的多样性
去重率：语义去重率<5%，确保内容独特性
可读性递增：各阶段文本复杂度随年龄增长而提升

相关工作

持续学习基准

现有基准的局限性：

TRACE：任务过于简单或已包含在LLM训练集中
MMLM-CL：缺乏现实世界适用性
TemporalWiki：主要关注事实知识更新
SuperNI：传统NLP任务集合，缺乏技能依赖建模

技术方法

Skill-it：提出复杂度递增的技能排序算法
参数效率方法：LoRA、适配器等减少遗忘的技术
记忆回放：使用历史样本减轻遗忘

本工作的独特性在于：

基于人类发展课程的技能组织
显式的技能依赖图谱
大规模可控的合成数据生成

结论与讨论

主要结论

数据顺序的重要性：仅改变数据顺序就能显著影响遗忘和泛化
技能依赖的作用：低出度技能在持续学习中更容易被遗忘
评估粒度的必要性：细粒度评估能揭示宏观指标掩盖的重要模式

局限性

合成数据局限：完全使用合成数据，可能不反映真实世界场景
模型规模：仅在135M参数模型上验证，大模型行为可能不同
交互式学习缺失：静态数据集无法模拟真正的交互式学习环境
语言建模范式：模型同时学习指令和响应，不完全符合人类学习模式

未来方向

扩展年龄范围：将框架扩展到14岁(更多发展阶段)
大模型验证：在十亿参数级模型上验证发现
真实数据集成：结合真实教育数据验证框架
交互式环境：开发支持动态交互的学习环境

深度评价

优点

创新性强：首次将发展心理学系统性引入持续学习评估
数据规模大：23.4B token的大规模数据集，支持充分实验
评估细致：多层次、多维度的评估体系，提供深入洞察
可复现性好：代码和数据公开，支持后续研究
理论基础扎实：基于成熟的教育理论框架

不足

实验规模限制：仅在小模型上验证，结论的普适性有待验证
合成数据偏差：可能存在生成偏差，影响结论可靠性
评估方法依赖：使用LLM进行评估，可能引入额外偏差
技能图谱质量：依赖LLM预测的边关系可能不够准确

影响力

学术贡献：为持续学习研究提供新的评估范式
实用价值：可用于评估和改进现有持续学习算法
启发意义：展示了跨学科方法在AI研究中的价值
社区资源：提供了宝贵的开源数据集和工具

适用场景

持续学习算法开发：提供标准化评估平台
教育AI系统：为教育场景的AI应用提供参考
认知建模研究：支持人类学习过程的计算建模
LLM能力评估：细粒度评估大模型的学习和遗忘行为

参考文献

论文引用了多个重要相关工作，包括：

持续学习基准：TRACE, MMLM-CL, OCKL等
教育框架：Cambridge Primary Curriculum, ELOF
技术方法：Skill-it, 各种持续学习算法
评估工具：Age-of-Acquisition数据, 可读性测试工具

总体评价：这是一篇高质量的研究工作，创新性地将人类发展心理学引入持续学习评估，构建了大规模、结构化的评估框架。尽管存在一些局限性，但为持续学习研究开辟了新的方向，具有重要的学术价值和实用意义。