We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic- 论文ID: 2510.13008
- 标题: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- 作者: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
- 分类: cs.CL cs.AI
- 发表时间: 2025年10月14日 (Preprint)
- 论文链接: https://arxiv.org/abs/2510.13008
本文提出了一个基于人类发展轨迹(5-10岁)的综合性持续学习数据集和基准测试框架CurLL,能够系统性地细粒度评估模型逐步获取新技能的能力。CurLL涵盖五个发展阶段(0-4),由技能图谱支撑,将广泛技能分解为更小的能力、具体目标和可测量指标,同时捕获技能间的依赖关系。研究生成了23.4B token的合成数据集,具有可控的技能进展、词汇复杂度和格式多样性,包括段落、理解型问答(CQA)、技能测试问答(CSQA)和指令-响应(IR)对。各阶段token数量从2.12B到6.78B不等,支持对遗忘、前向迁移和后向迁移的精确分析。
当前大型语言模型面临的核心挑战是持续学习问题:
- 静态知识限制:现有LLMs的知识和技能在训练后变为静态,无法像人类一样持续学习新知识
- 灾难性遗忘:在学习新任务时,模型往往会忘记之前学到的技能
- 缺乏技能依赖建模:现有方法缺乏对技能间依赖关系的精确控制和建模
持续学习能力是人类智能的重要特征,对于构建真正智能的AI系统至关重要:
- 人类能够整合新知识与已有理解
- 在掌握新技能的同时保持之前的能力
- 以极高的样本效率实现终身学习
- 技能控制不精确:现有基准缺乏对特定技能的精确控制
- 知识依赖关系不明确:技能间关系很少被显式建模
- 遗忘度量不充分:许多评估无法正确测量跨序列学习任务的灾难性遗忘
- 创新性框架:首次将人类教育课程体系引入持续学习评估,提供基于发展心理学的技能结构
- 大规模合成数据集:构建23.4B token的多格式合成数据集,涵盖5个发展阶段,具有可控的词汇复杂度和技能进展
- 技能图谱建模:构建显式的技能依赖图谱,包含1300+细粒度技能,支持前提关系的量化分析
- 细粒度评估体系:支持指标、技能和阶段三个层次的精细化评估,能够准确测量遗忘、迁移和样本效率
持续学习任务:给定一系列按发展阶段组织的学习任务,模型需要:
- 输入:序列化的多阶段训练数据
- 输出:在所有阶段上保持良好性能
- 约束:最小化灾难性遗忘,最大化正向和反向迁移
基于两个教育框架构建四层技能结构:
- Skills: 高层领域(如数学、科学)
- Sub-skills: 特定组件(如计数与基数)
- Goals: 学习期望的广泛陈述
- Indicators: 具体可观察的行为表现
- 节点:1300+个指标(indicators)
- 边:前提依赖关系,权重1-5表示依赖强度
- 验证:使用LLM预测依赖关系,通过阶段间边分布验证合理性
种子构造:
- 技能元组(skill-tuple)
- 年龄适宜词汇(基于Age-of-Acquisition数据)
- 实例类型(IR/CQA/CSQA)
- 模板类型
生成策略:
- 每个技能元组生成≥15个上下文模板和IR模板
- 使用LLM基于种子生成多样化实例
- 确保年龄适宜性和技能对齐
- 发展心理学驱动:首次将Cambridge Primary Curriculum和ELOF框架引入AI评估
- 多层次技能建模:从抽象技能到具体指标的层次化分解
- 依赖关系量化:使用加权有向图显式建模技能间前提关系
- 多格式数据融合:统一的聊天模板处理段落、问答和指令响应
| 阶段 | 技能数 | 子技能数 | 目标数 | 指标数 | CQA数量 | CSQA数量 | IR数量 | Token数(十亿) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1.0M | 3.01M | 3.30M | 2.12 |
| 1 | 7 | 29 | 86 | 292 | 20.2M | 4.04M | 4.10M | 3.47 |
| 2 | 6 | 26 | 67 | 249 | 23.5M | 4.70M | 4.78M | 4.56 |
| 3 | 6 | 26 | 68 | 271 | 31.2M | 6.24M | 6.29M | 6.47 |
| 4 | 6 | 23 | 70 | 349 | 27.4M | 5.49M | 5.52M | 6.78 |
- 正确性评分:使用LLM对模型响应进行1-5分评分
- 遗忘分析:联合训练与持续训练性能差异
- 迁移效果:跨阶段性能变化分析
- 模型:SmolLM2-135M参数Transformer
- 训练模式:
- Independent:每阶段独立训练
- Joint:混合多阶段数据训练
- Continual:序列化训练
- 超参数:学习率5e-3,batch size 1536,一个epoch
从Figure 4的热力图可以看出:
- 独立训练(Independent):
- 对训练阶段性能最高
- 对未训练阶段泛化能力有限
- 阶段0在所有测试阶段上表现最佳(12.62→6.73)
- 联合训练(Joint):
- 在所有阶段保持稳定的高性能
- 避免了灾难性遗忘
- 性能相对均衡(12.62→9.79)
- 持续训练(Continual):
- 在后期阶段表现最佳
- 存在明显的遗忘现象
- 展现了最好的前向迁移能力
Figure 5展示了联合训练与持续训练的性能差异:
- 正向迁移:持续训练在未来阶段表现更好(正值区域)
- 灾难性遗忘:持续训练在早期阶段性能下降(负值区域)
- 格式差异:IR任务遗忘最严重,CSQA相对较轻
关键发现:
- 低出度技能更易遗忘:如"感知、运动和身体发展"、"数字素养"
- 依赖关系影响遗忘:前提技能较少的能力在持续学习中更容易被遗忘
- 阶段间连接模式:低阶段向高阶段的边数显著多于反向
- 多样性:gzip压缩率倒数显示30.77%-35.60%的多样性
- 去重率:语义去重率<5%,确保内容独特性
- 可读性递增:各阶段文本复杂度随年龄增长而提升
现有基准的局限性:
- TRACE:任务过于简单或已包含在LLM训练集中
- MMLM-CL:缺乏现实世界适用性
- TemporalWiki:主要关注事实知识更新
- SuperNI:传统NLP任务集合,缺乏技能依赖建模
- Skill-it:提出复杂度递增的技能排序算法
- 参数效率方法:LoRA、适配器等减少遗忘的技术
- 记忆回放:使用历史样本减轻遗忘
本工作的独特性在于:
- 基于人类发展课程的技能组织
- 显式的技能依赖图谱
- 大规模可控的合成数据生成
- 数据顺序的重要性:仅改变数据顺序就能显著影响遗忘和泛化
- 技能依赖的作用:低出度技能在持续学习中更容易被遗忘
- 评估粒度的必要性:细粒度评估能揭示宏观指标掩盖的重要模式
- 合成数据局限:完全使用合成数据,可能不反映真实世界场景
- 模型规模:仅在135M参数模型上验证,大模型行为可能不同
- 交互式学习缺失:静态数据集无法模拟真正的交互式学习环境
- 语言建模范式:模型同时学习指令和响应,不完全符合人类学习模式
- 扩展年龄范围:将框架扩展到14岁(更多发展阶段)
- 大模型验证:在十亿参数级模型上验证发现
- 真实数据集成:结合真实教育数据验证框架
- 交互式环境:开发支持动态交互的学习环境
- 创新性强:首次将发展心理学系统性引入持续学习评估
- 数据规模大:23.4B token的大规模数据集,支持充分实验
- 评估细致:多层次、多维度的评估体系,提供深入洞察
- 可复现性好:代码和数据公开,支持后续研究
- 理论基础扎实:基于成熟的教育理论框架
- 实验规模限制:仅在小模型上验证,结论的普适性有待验证
- 合成数据偏差:可能存在生成偏差,影响结论可靠性
- 评估方法依赖:使用LLM进行评估,可能引入额外偏差
- 技能图谱质量:依赖LLM预测的边关系可能不够准确
- 学术贡献:为持续学习研究提供新的评估范式
- 实用价值:可用于评估和改进现有持续学习算法
- 启发意义:展示了跨学科方法在AI研究中的价值
- 社区资源:提供了宝贵的开源数据集和工具
- 持续学习算法开发:提供标准化评估平台
- 教育AI系统:为教育场景的AI应用提供参考
- 认知建模研究:支持人类学习过程的计算建模
- LLM能力评估:细粒度评估大模型的学习和遗忘行为
论文引用了多个重要相关工作,包括:
- 持续学习基准:TRACE, MMLM-CL, OCKL等
- 教育框架:Cambridge Primary Curriculum, ELOF
- 技术方法:Skill-it, 各种持续学习算法
- 评估工具:Age-of-Acquisition数据, 可读性测试工具
总体评价:这是一篇高质量的研究工作,创新性地将人类发展心理学引入持续学习评估,构建了大规模、结构化的评估框架。尽管存在一些局限性,但为持续学习研究开辟了新的方向,具有重要的学术价值和实用意义。