Continual Learning, Not Training: Online Adaptation For Agents
Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
기존의 지속적 학습(CL) 방법은 주로 기울기 기반 재훈련을 통해 재앙적 망각을 완화하지만, 이는 실시간 적응이 필요한 배포 에이전트에 적합하지 않습니다. 본 논문은 적응형 교수 및 학습 시스템(ATLAS)을 소개합니다. 이는 추론(Teacher)과 실행(Student)을 분리하고 저장된 경험 증류 지침으로 안내되는 지속적 학습 메모리를 결합한 이중 에이전트 아키텍처입니다. 이 시스템은 추론 시 동적으로 작동 정책을 조정하여 기울기 없는 지속적 학습을 구현하고, 적응의 초점을 모델 매개변수에서 시스템 수준 오케스트레이션으로 이동시킵니다. Microsoft의 ExCyTIn-Bench 벤치마크에서 ATLAS는 GPT-5-mini를 Student로 사용하여 54.1%의 성공률을 달성했으며, 이는 더 큰 GPT-5(High)보다 13% 높으면서 비용은 86% 낮습니다.
1. 작업 실행: Student가 작업을 시도하고 상태-동작-관찰 궤적 생성
2. 지침 검증: Teacher가 Student 궤적을 관찰하고 결과에 따라 원칙 수준 지침 제공
3. 학습 지속성: 완전한 궤적, 지침 및 점수를 PLM에 기록
4. 적응형 조정: 후속 유사 작업에서 관련 학습 이력 검색, 정책 동적 조정
논문은 지속적 학습, 프롬프트 최적화, 검색 증강 및 메모리 메커니즘 등 관련 영역의 중요한 연구를 인용하며, 다음을 포함합니다:
Kirkpatrick et al. (2017) - 신경망에서 재앙적 망각 극복
Hu et al. (2021) - LoRA 저순위 적응 방법
Lewis et al. (2020) - 검색 증강 생성
Shinn et al. (2023) - Reflexion 언어 에이전트
Wu et al. (2025) - ExCyTIn-Bench 벤치마크
이 논문은 지속적 학습 영역에서 중요한 패러다임 전환을 제안하며, 기존의 모델 중심에서 시스템 중심의 방법으로 전환하여 중요한 이론적 가치와 실용적 의미를 가집니다. 평가 광범위성과 이론 분석 측면에서 개선의 여지가 있지만, 그 혁신성과 실용성으로 인해 이 분야의 중요한 기여가 됩니다.