2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

Continual Learning, Not Training: Online Adaptation For Agents

基本信息

  • 论文ID: 2511.01093
  • 标题: Continual Learning, Not Training: Online Adaptation For Agents
  • 作者: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • 分类: cs.LG cs.AI
  • 发表时间: November 4, 2025 (Preprint)
  • 论文链接: https://arxiv.org/abs/2511.01093

摘要

传统的持续学习(CL)方法主要通过基于梯度的重训练来缓解灾难性遗忘,但这种方法不适合需要实时适应的部署代理。本文介绍了自适应教学与学习系统(ATLAS),这是一个双代理架构,将推理(Teacher)与执行(Student)解耦,并结合了存储经验蒸馏指导的持久学习记忆。该系统在推理时动态调整操作策略,实现无梯度持续学习,将适应的重心从模型参数转移到系统级编排。在微软的ExCyTIn-Bench基准测试中,ATLAS使用GPT-5-mini作为Student实现了54.1%的成功率,比更大的GPT-5(High)高出13%,同时成本降低86%。

研究背景与动机

核心问题

  1. 实时适应需求与离线训练的矛盾:部署的语言模型代理需要在动态环境中持续适应,但其核心知识在预训练后保持静态
  2. 传统持续学习的局限性:现有CL方法过度依赖基于梯度的权重更新,需要专门的训练循环、硬件和数据积累,无法提供推理时适应

问题重要性

  • 复杂自适应系统中环境持续演化,当模型完成一种配置的离线训练时,实时系统可能已经发生变化
  • 反向传播即使在高效形式下(如LoRA)也需要专门的训练基础设施,引入重训练延迟
  • 部署约束下的资源限制使得传统方法难以实施

现有方法局限性

  1. 训练基础方法:遭受灾难性遗忘,需要计算密集的梯度更新
  2. 提示优化技术:产生部署用的静态指令,无法动态演化
  3. 检索增强系统:执行查找而非技能合成
  4. 代理记忆机制:被动存储经验,不提取可泛化知识

核心贡献

  1. 提出系统中心的持续学习范式:将适应重心从模型参数转移到系统级编排
  2. 设计ATLAS双代理架构:实现推理时无梯度适应
  3. 建立持久学习记忆(PLM):存储蒸馏的指导经验并支持跨任务转移
  4. 在ExCyTIn-Bench上验证效果:使用较小模型超越大模型性能,显著降低成本
  5. 生成因果标注轨迹:为训练显式世界模型提供有价值的数据

方法详解

任务定义

目标:实现自适应效率 - 通过推理时编排而非参数更新,最大化任务成功率同时最小化计算成本。

输入:连续的任务序列,每个任务包含状态、动作和观察 输出:改进的任务执行策略和效率提升 约束:无梯度更新,纯推理时适应

模型架构

1. 双代理设计

  • Teacher代理:通常能力更强,负责推理和指导
  • Student代理:执行任务,接受Teacher的监督和指导
  • 编排层:管理Teacher-Student交互,动态调整操作策略

2. 核心组件

持久学习记忆(PLM)

  • 存储完整执行轨迹、Teacher指导和相关得分
  • 按任务上下文索引
  • 支持轻量级蒸馏过程提取可操作指导

奖励系统

  • 双层集成评判者设计
  • 多个快速评判者独立评分
  • 当方差或不确定性超过阈值时,强仲裁者整合并给出最终判断

学习引擎

  • 编译Teacher小册子:原则、失败模式、诊断和停止条件
  • 生成Student小册子:具体动作模式、工具计划、防护和成功检查

3. 推理时学习循环

1. 任务执行:Student尝试任务,生成状态-动作-观察轨迹
2. 指导验证:Teacher观察Student轨迹,基于结果提供原则级指导
3. 学习持久化:记录完整轨迹、指导和得分到PLM
4. 适应性调整:后续相似任务中检索相关学习历史,动态调整策略

技术创新点

  1. 无梯度适应:完全在推理时进行,无需模型权重更新
  2. 记忆引导编排:使用聚合学习历史动态调整操作策略
  3. 分离架构:Teacher负责推理,Student负责执行,实现专业化分工
  4. 蒸馏经验转移(DET):将过往交互转化为可重用的学习工件

实验设置

数据集

ExCyTIn-Bench:微软的网络威胁调查基准

  • Incident #5:98个查询的一致场景
  • Incident #55:100个查询,用于跨事件转移验证
  • 提供状态感知推理评估,通过轨迹评分而非静态测试

评价指标

  1. 任务成功率:使用基准官方标准的二元成功率(≥0.4阈值)
  2. 效率:每个会话平均消耗的token数量
  3. 成本效益:基于OpenAI定价的每问题美元成本

对比方法

  1. 内部基线:无小册子或Teacher指导的GPT-5-mini
  2. 外部基线:ExCyTIn-Bench文档报告的GPT-5(Reasoning=High)性能
  3. 跨事件基线:Incident #55上的官方GPT-5-mini基线

实现细节

  • 播种阶段:GPT-5作为Teacher,GPT-5-mini作为Student
  • 评估阶段:通过语义相似性检索相关小册子初始化后续任务
  • 奖励配置:双层集成评判者,原则导向评分
  • 记忆检索:基于任务上下文的语义匹配

实验结果

主要结果

Incident #5性能

  • ATLAS成功率:54.1% (53/98任务)
  • 相比GPT-5(High)基线48.0%:+6.1个百分点
  • 相比GPT-5-mini基线33.7%:+20.4个百分点
  • 成本降低:~86% (0.024vs0.024 vs 0.174每问题)

效率提升

  • 平均token消耗:78,118 (相比Student-only的141,660减少45%)
  • 阶段性改进:
    • 阶段1 (任务1-25):100,810 tokens (-28.8%)
    • 阶段2 (任务26-60):73,980 tokens (-47.8%)
    • 阶段3 (任务61-98):67,002 tokens (-52.7%)

跨事件转移实验

Incident #55验证

  • 基线准确率:28% (28/100)
  • 使用冻结小册子:41% (41/100),提升46%
  • 输出组成变化:
    • 非推理token减少52.1%
    • 推理token增加2,135个
    • 从冗长探索转向结构化推理

消融实验

学习进展分析

  • 98任务轨迹中69个包含检索指导
  • 68个注入了原始提示文本中缺失的技能
  • 显示小册子捕获抽象程序而非任务特定模板

过程调查成本分析

  • 早期三个过程问题:平均217.7k tokens
  • 后期三个过程问题:平均48.8k tokens
  • 证明相同小册子能缩短不同过程取证任务

案例分析

Incident #5会话71示例

  • 初始失败:Student未验证答案,缺乏系统化调查策略
  • Teacher干预:提供原则级指导(枚举遥测源、优先表格、验证SID)
  • 成功重执行:系统化方法,正确提取SID,消耗更少token
  • 对比:自主执行消耗304,389 tokens未成功,展示检索小册子的价值

相关工作

训练基础方法

  • LoRA、QLoRA、DoRA等参数高效方法仍依赖梯度优化
  • "快慢"双速学习系统仍需梯度计算
  • 面临学习率与遗忘的权衡问题

提示优化

  • Prompt Tuning、DSPy、GEPA等方法优化静态提示
  • 部署后无法在环境条件变化时演化
  • ATLAS实现基于历史的动态执行策略适应

检索系统

  • RAG、Self-RAG等增强内容级知识
  • ATLAS专注战略级行为策略细化
  • 实现技能获取而非内容扩展

记忆机制

  • Reflexion、LATS、Voyager、MemGPT等被动存储经验
  • 缺乏主动压缩和泛化机制
  • ATLAS实现主动学习基质,支持程序学习

结论与讨论

主要结论

  1. 系统中心CL的可行性:证明了无梯度持续学习作为适应性、可部署AI系统的可行路径
  2. 效率与准确性的帕累托前沿:通过推理时适应实现更高准确性和更低计算成本
  3. 跨任务泛化能力:冻结小册子在新事件上显著提升性能,无需重训练
  4. 世界模型数据引擎:生成因果标注轨迹,为训练显式世界模型提供价值

局限性

  1. 架构依赖性:需要Teacher-Student双代理设置,增加系统复杂性
  2. 领域特定性:主要在网络安全调查领域验证,泛化性待进一步验证
  3. 记忆管理:随经验增长的记忆管理和检索效率问题
  4. 评估方法:静态基准测试不足以评估动态学习系统

未来方向

  1. 架构设计探索:比较多代理集成、层次记忆结构等替代设计
  2. 知识泛化:研究跨模型、跨任务的原则转移
  3. 自适应评估方法:开发与代理共同适应的动态基准
  4. 混合在线离线学习:整合世界模型训练回实时系统

深度评价

优点

  1. 范式创新:从模型中心转向系统中心的持续学习范式具有重要理论价值
  2. 实用性强:无需专门硬件或重训练,易于部署到标准推理基础设施
  3. 实验充分:在真实基准上验证,包含详细的消融实验和案例分析
  4. 成本效益显著:使用更小模型超越大模型,同时大幅降低成本
  5. 可复现性好:提供完整的数据集和实现细节

不足

  1. 评估局限:主要在单一领域(网络安全)验证,缺乏更广泛的领域验证
  2. 扩展性问题:随任务增加,记忆检索和管理的计算开销可能成为瓶颈
  3. 理论分析不足:缺乏对系统收敛性、稳定性的理论保证
  4. Teacher依赖:需要更强的Teacher模型,可能限制实际应用场景
  5. 长期学习:未充分探讨极长序列任务中的性能表现

影响力

  1. 学术贡献:为持续学习领域提供了新的研究方向和方法论
  2. 实用价值:为实际部署的AI系统提供了可行的适应方案
  3. 启发性:系统级适应的思路可能启发其他AI系统设计
  4. 数据价值:生成的因果标注数据对世界模型研究有重要价值

适用场景

  1. 资源受限环境:无法进行模型重训练的部署场景
  2. 动态任务环境:需要快速适应变化的任务类型和要求
  3. 成本敏感应用:需要在性能和成本间找到最优平衡
  4. 专业领域应用:如网络安全、故障诊断等需要专家知识的领域

参考文献

论文引用了持续学习、提示优化、检索增强和记忆机制等相关领域的重要工作,包括:

  • Kirkpatrick et al. (2017) - 克服神经网络中的灾难性遗忘
  • Hu et al. (2021) - LoRA低秩适应方法
  • Lewis et al. (2020) - 检索增强生成
  • Shinn et al. (2023) - Reflexion语言代理
  • Wu et al. (2025) - ExCyTIn-Bench基准测试

这篇论文在持续学习领域提出了重要的范式转变,从传统的模型中心转向系统中心的方法,具有重要的理论价值和实用意义。虽然在评估广度和理论分析方面还有改进空间,但其创新性和实用性使其成为该领域的重要贡献。