2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.
We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

基本信息

  • 论文ID: 2510.13008
  • 标题: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
  • 作者: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
  • 分类: cs.CL cs.AI
  • 发表时间: 2025年10月14日 (Preprint)
  • 论文链接: https://arxiv.org/abs/2510.13008

摘要

本文提出了一个基于人类发展轨迹(5-10岁)的综合性持续学习数据集和基准测试框架CurLL,能够系统性地细粒度评估模型逐步获取新技能的能力。CurLL涵盖五个发展阶段(0-4),由技能图谱支撑,将广泛技能分解为更小的能力、具体目标和可测量指标,同时捕获技能间的依赖关系。研究生成了23.4B token的合成数据集,具有可控的技能进展、词汇复杂度和格式多样性,包括段落、理解型问答(CQA)、技能测试问答(CSQA)和指令-响应(IR)对。各阶段token数量从2.12B到6.78B不等,支持对遗忘、前向迁移和后向迁移的精确分析。

研究背景与动机

问题定义

当前大型语言模型面临的核心挑战是持续学习问题:

  1. 静态知识限制:现有LLMs的知识和技能在训练后变为静态,无法像人类一样持续学习新知识
  2. 灾难性遗忘:在学习新任务时,模型往往会忘记之前学到的技能
  3. 缺乏技能依赖建模:现有方法缺乏对技能间依赖关系的精确控制和建模

研究重要性

持续学习能力是人类智能的重要特征,对于构建真正智能的AI系统至关重要:

  • 人类能够整合新知识与已有理解
  • 在掌握新技能的同时保持之前的能力
  • 以极高的样本效率实现终身学习

现有方法局限性

  1. 技能控制不精确:现有基准缺乏对特定技能的精确控制
  2. 知识依赖关系不明确:技能间关系很少被显式建模
  3. 遗忘度量不充分:许多评估无法正确测量跨序列学习任务的灾难性遗忘

核心贡献

  1. 创新性框架:首次将人类教育课程体系引入持续学习评估,提供基于发展心理学的技能结构
  2. 大规模合成数据集:构建23.4B token的多格式合成数据集,涵盖5个发展阶段,具有可控的词汇复杂度和技能进展
  3. 技能图谱建模:构建显式的技能依赖图谱,包含1300+细粒度技能,支持前提关系的量化分析
  4. 细粒度评估体系:支持指标、技能和阶段三个层次的精细化评估,能够准确测量遗忘、迁移和样本效率

方法详解

任务定义

持续学习任务:给定一系列按发展阶段组织的学习任务,模型需要:

  • 输入:序列化的多阶段训练数据
  • 输出:在所有阶段上保持良好性能
  • 约束:最小化灾难性遗忘,最大化正向和反向迁移

框架架构

1. 技能分类体系

基于两个教育框架构建四层技能结构:

  • Skills: 高层领域(如数学、科学)
  • Sub-skills: 特定组件(如计数与基数)
  • Goals: 学习期望的广泛陈述
  • Indicators: 具体可观察的行为表现

2. 技能图谱构建

  • 节点:1300+个指标(indicators)
  • :前提依赖关系,权重1-5表示依赖强度
  • 验证:使用LLM预测依赖关系,通过阶段间边分布验证合理性

3. 数据生成流程

种子构造

  • 技能元组(skill-tuple)
  • 年龄适宜词汇(基于Age-of-Acquisition数据)
  • 实例类型(IR/CQA/CSQA)
  • 模板类型

生成策略

  • 每个技能元组生成≥15个上下文模板和IR模板
  • 使用LLM基于种子生成多样化实例
  • 确保年龄适宜性和技能对齐

技术创新点

  1. 发展心理学驱动:首次将Cambridge Primary Curriculum和ELOF框架引入AI评估
  2. 多层次技能建模:从抽象技能到具体指标的层次化分解
  3. 依赖关系量化:使用加权有向图显式建模技能间前提关系
  4. 多格式数据融合:统一的聊天模板处理段落、问答和指令响应

实验设置

数据集规模

阶段技能数子技能数目标数指标数CQA数量CSQA数量IR数量Token数(十亿)
0724591821.0M3.01M3.30M2.12
17298629220.2M4.04M4.10M3.47
26266724923.5M4.70M4.78M4.56
36266827131.2M6.24M6.29M6.47
46237034927.4M5.49M5.52M6.78

评价指标

  • 正确性评分:使用LLM对模型响应进行1-5分评分
  • 遗忘分析:联合训练与持续训练性能差异
  • 迁移效果:跨阶段性能变化分析

训练设置

  • 模型:SmolLM2-135M参数Transformer
  • 训练模式
    • Independent:每阶段独立训练
    • Joint:混合多阶段数据训练
    • Continual:序列化训练
  • 超参数:学习率5e-3,batch size 1536,一个epoch

实验结果

主要结果

从Figure 4的热力图可以看出:

  1. 独立训练(Independent)
    • 对训练阶段性能最高
    • 对未训练阶段泛化能力有限
    • 阶段0在所有测试阶段上表现最佳(12.62→6.73)
  2. 联合训练(Joint)
    • 在所有阶段保持稳定的高性能
    • 避免了灾难性遗忘
    • 性能相对均衡(12.62→9.79)
  3. 持续训练(Continual)
    • 在后期阶段表现最佳
    • 存在明显的遗忘现象
    • 展现了最好的前向迁移能力

遗忘分析

Figure 5展示了联合训练与持续训练的性能差异:

  • 正向迁移:持续训练在未来阶段表现更好(正值区域)
  • 灾难性遗忘:持续训练在早期阶段性能下降(负值区域)
  • 格式差异:IR任务遗忘最严重,CSQA相对较轻

技能图谱洞察

关键发现:

  • 低出度技能更易遗忘:如"感知、运动和身体发展"、"数字素养"
  • 依赖关系影响遗忘:前提技能较少的能力在持续学习中更容易被遗忘
  • 阶段间连接模式:低阶段向高阶段的边数显著多于反向

数据质量验证

  • 多样性:gzip压缩率倒数显示30.77%-35.60%的多样性
  • 去重率:语义去重率<5%,确保内容独特性
  • 可读性递增:各阶段文本复杂度随年龄增长而提升

相关工作

持续学习基准

现有基准的局限性:

  • TRACE:任务过于简单或已包含在LLM训练集中
  • MMLM-CL:缺乏现实世界适用性
  • TemporalWiki:主要关注事实知识更新
  • SuperNI:传统NLP任务集合,缺乏技能依赖建模

技术方法

  • Skill-it:提出复杂度递增的技能排序算法
  • 参数效率方法:LoRA、适配器等减少遗忘的技术
  • 记忆回放:使用历史样本减轻遗忘

本工作的独特性在于:

  1. 基于人类发展课程的技能组织
  2. 显式的技能依赖图谱
  3. 大规模可控的合成数据生成

结论与讨论

主要结论

  1. 数据顺序的重要性:仅改变数据顺序就能显著影响遗忘和泛化
  2. 技能依赖的作用:低出度技能在持续学习中更容易被遗忘
  3. 评估粒度的必要性:细粒度评估能揭示宏观指标掩盖的重要模式

局限性

  1. 合成数据局限:完全使用合成数据,可能不反映真实世界场景
  2. 模型规模:仅在135M参数模型上验证,大模型行为可能不同
  3. 交互式学习缺失:静态数据集无法模拟真正的交互式学习环境
  4. 语言建模范式:模型同时学习指令和响应,不完全符合人类学习模式

未来方向

  1. 扩展年龄范围:将框架扩展到14岁(更多发展阶段)
  2. 大模型验证:在十亿参数级模型上验证发现
  3. 真实数据集成:结合真实教育数据验证框架
  4. 交互式环境:开发支持动态交互的学习环境

深度评价

优点

  1. 创新性强:首次将发展心理学系统性引入持续学习评估
  2. 数据规模大:23.4B token的大规模数据集,支持充分实验
  3. 评估细致:多层次、多维度的评估体系,提供深入洞察
  4. 可复现性好:代码和数据公开,支持后续研究
  5. 理论基础扎实:基于成熟的教育理论框架

不足

  1. 实验规模限制:仅在小模型上验证,结论的普适性有待验证
  2. 合成数据偏差:可能存在生成偏差,影响结论可靠性
  3. 评估方法依赖:使用LLM进行评估,可能引入额外偏差
  4. 技能图谱质量:依赖LLM预测的边关系可能不够准确

影响力

  1. 学术贡献:为持续学习研究提供新的评估范式
  2. 实用价值:可用于评估和改进现有持续学习算法
  3. 启发意义:展示了跨学科方法在AI研究中的价值
  4. 社区资源:提供了宝贵的开源数据集和工具

适用场景

  1. 持续学习算法开发:提供标准化评估平台
  2. 教育AI系统:为教育场景的AI应用提供参考
  3. 认知建模研究:支持人类学习过程的计算建模
  4. LLM能力评估:细粒度评估大模型的学习和遗忘行为

参考文献

论文引用了多个重要相关工作,包括:

  • 持续学习基准:TRACE, MMLM-CL, OCKL等
  • 教育框架:Cambridge Primary Curriculum, ELOF
  • 技术方法:Skill-it, 各种持续学习算法
  • 评估工具:Age-of-Acquisition数据, 可读性测试工具

总体评价:这是一篇高质量的研究工作,创新性地将人类发展心理学引入持续学习评估,构建了大规模、结构化的评估框架。尽管存在一些局限性,但为持续学习研究开辟了新的方向,具有重要的学术价值和实用意义。