2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes

Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.

academic

Continual Learning, Not Training: Online Adaptation For Agents

基本信息

论文ID: 2511.01093
标题: Continual Learning, Not Training: Online Adaptation For Agents
作者: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
分类: cs.LG cs.AI
发表时间: November 4, 2025 (Preprint)
论文链接: https://arxiv.org/abs/2511.01093

摘要

传统的持续学习(CL)方法主要通过基于梯度的重训练来缓解灾难性遗忘，但这种方法不适合需要实时适应的部署代理。本文介绍了自适应教学与学习系统(ATLAS)，这是一个双代理架构，将推理(Teacher)与执行(Student)解耦，并结合了存储经验蒸馏指导的持久学习记忆。该系统在推理时动态调整操作策略，实现无梯度持续学习，将适应的重心从模型参数转移到系统级编排。在微软的ExCyTIn-Bench基准测试中，ATLAS使用GPT-5-mini作为Student实现了54.1%的成功率，比更大的GPT-5(High)高出13%，同时成本降低86%。

研究背景与动机

核心问题

实时适应需求与离线训练的矛盾：部署的语言模型代理需要在动态环境中持续适应，但其核心知识在预训练后保持静态
传统持续学习的局限性：现有CL方法过度依赖基于梯度的权重更新，需要专门的训练循环、硬件和数据积累，无法提供推理时适应

问题重要性

复杂自适应系统中环境持续演化，当模型完成一种配置的离线训练时，实时系统可能已经发生变化
反向传播即使在高效形式下(如LoRA)也需要专门的训练基础设施，引入重训练延迟
部署约束下的资源限制使得传统方法难以实施

现有方法局限性

训练基础方法：遭受灾难性遗忘，需要计算密集的梯度更新
提示优化技术：产生部署用的静态指令，无法动态演化
检索增强系统：执行查找而非技能合成
代理记忆机制：被动存储经验，不提取可泛化知识

核心贡献

提出系统中心的持续学习范式：将适应重心从模型参数转移到系统级编排
设计ATLAS双代理架构：实现推理时无梯度适应
建立持久学习记忆(PLM)：存储蒸馏的指导经验并支持跨任务转移
在ExCyTIn-Bench上验证效果：使用较小模型超越大模型性能，显著降低成本
生成因果标注轨迹：为训练显式世界模型提供有价值的数据

Teacher代理：通常能力更强，负责推理和指导
Student代理：执行任务，接受Teacher的监督和指导
编排层：管理Teacher-Student交互，动态调整操作策略

2. 核心组件

持久学习记忆(PLM)：

存储完整执行轨迹、Teacher指导和相关得分
按任务上下文索引
支持轻量级蒸馏过程提取可操作指导

奖励系统：

双层集成评判者设计
多个快速评判者独立评分
当方差或不确定性超过阈值时，强仲裁者整合并给出最终判断

学习引擎：

编译Teacher小册子：原则、失败模式、诊断和停止条件
生成Student小册子：具体动作模式、工具计划、防护和成功检查

3. 推理时学习循环

1. 任务执行：Student尝试任务，生成状态-动作-观察轨迹
2. 指导验证：Teacher观察Student轨迹，基于结果提供原则级指导
3. 学习持久化：记录完整轨迹、指导和得分到PLM
4. 适应性调整：后续相似任务中检索相关学习历史，动态调整策略

技术创新点

无梯度适应：完全在推理时进行，无需模型权重更新
记忆引导编排：使用聚合学习历史动态调整操作策略
分离架构：Teacher负责推理，Student负责执行，实现专业化分工
蒸馏经验转移(DET)：将过往交互转化为可重用的学习工件

实验设置

数据集

ExCyTIn-Bench：微软的网络威胁调查基准

Incident #5：98个查询的一致场景
Incident #55：100个查询，用于跨事件转移验证
提供状态感知推理评估，通过轨迹评分而非静态测试

评价指标

任务成功率：使用基准官方标准的二元成功率(≥0.4阈值)
效率：每个会话平均消耗的token数量
成本效益：基于OpenAI定价的每问题美元成本

对比方法

内部基线：无小册子或Teacher指导的GPT-5-mini
外部基线：ExCyTIn-Bench文档报告的GPT-5(Reasoning=High)性能
跨事件基线：Incident #55上的官方GPT-5-mini基线

实现细节

播种阶段：GPT-5作为Teacher，GPT-5-mini作为Student
评估阶段：通过语义相似性检索相关小册子初始化后续任务
奖励配置：双层集成评判者，原则导向评分
记忆检索：基于任务上下文的语义匹配

实验结果

主要结果

Incident #5性能：

ATLAS成功率：54.1% (53/98任务)
相比GPT-5(High)基线48.0%：+6.1个百分点
相比GPT-5-mini基线33.7%：+20.4个百分点
成本降低：~86% ( $0.024 vs$ 0.174每问题)

效率提升：

平均token消耗：78,118 (相比Student-only的141,660减少45%)
阶段性改进：
- 阶段1 (任务1-25)：100,810 tokens (-28.8%)
- 阶段2 (任务26-60)：73,980 tokens (-47.8%)
- 阶段3 (任务61-98)：67,002 tokens (-52.7%)