2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes

Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.

academic

지속적 학습, 훈련이 아닌: 에이전트를 위한 온라인 적응

기본 정보

논문 ID: 2511.01093
제목: Continual Learning, Not Training: Online Adaptation For Agents
저자: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
분류: cs.LG cs.AI
발표 시간: 2025년 11월 4일 (사전 인쇄본)
논문 링크: https://arxiv.org/abs/2511.01093

초록

기존의 지속적 학습(CL) 방법은 주로 기울기 기반 재훈련을 통해 재앙적 망각을 완화하지만, 이는 실시간 적응이 필요한 배포 에이전트에 적합하지 않습니다. 본 논문은 적응형 교수 및 학습 시스템(ATLAS)을 소개합니다. 이는 추론(Teacher)과 실행(Student)을 분리하고 저장된 경험 증류 지침으로 안내되는 지속적 학습 메모리를 결합한 이중 에이전트 아키텍처입니다. 이 시스템은 추론 시 동적으로 작동 정책을 조정하여 기울기 없는 지속적 학습을 구현하고, 적응의 초점을 모델 매개변수에서 시스템 수준 오케스트레이션으로 이동시킵니다. Microsoft의 ExCyTIn-Bench 벤치마크에서 ATLAS는 GPT-5-mini를 Student로 사용하여 54.1%의 성공률을 달성했으며, 이는 더 큰 GPT-5(High)보다 13% 높으면서 비용은 86% 낮습니다.

연구 배경 및 동기

핵심 문제

실시간 적응 필요성과 오프라인 훈련의 모순: 배포된 언어 모델 에이전트는 동적 환경에서 지속적으로 적응해야 하지만, 그 핵심 지식은 사전훈련 후 정적으로 유지됩니다.
기존 지속적 학습의 한계: 현존하는 CL 방법은 기울기 기반 가중치 업데이트에 과도하게 의존하며, 전문화된 훈련 루프, 하드웨어 및 데이터 축적이 필요하고 추론 시 적응을 제공할 수 없습니다.

문제의 중요성

복잡한 적응형 시스템에서 환경은 지속적으로 진화하며, 모델이 한 구성에 대한 오프라인 훈련을 완료할 때 실시간 시스템은 이미 변경되었을 수 있습니다.
역전파는 효율적인 형태(예: LoRA)에서도 전문화된 훈련 인프라가 필요하며, 재훈련 지연을 초래합니다.
배포 제약 조건 하의 리소스 제한으로 인해 기존 방법을 구현하기 어렵습니다.

기존 방법의 한계

훈련 기반 방법: 재앙적 망각으로 고통받으며 계산 집약적인 기울기 업데이트가 필요합니다.
프롬프트 최적화 기술: 배포용 정적 지침을 생성하며 동적으로 진화할 수 없습니다.
검색 증강 시스템: 조회를 수행하지만 기술 합성은 수행하지 않습니다.
에이전트 메모리 메커니즘: 경험을 수동으로 저장하지만 일반화 가능한 지식을 추출하지 않습니다.

핵심 기여

시스템 중심의 지속적 학습 패러다임 제안: 적응의 초점을 모델 매개변수에서 시스템 수준 오케스트레이션으로 이동
ATLAS 이중 에이전트 아키텍처 설계: 추론 시 기울기 없는 적응 구현
지속적 학습 메모리(PLM) 구축: 증류된 지침 경험을 저장하고 작업 간 전이 지원
ExCyTIn-Bench에서 효과 검증: 더 작은 모델로 큰 모델 성능 초과, 비용 대폭 절감
인과 관계 주석이 있는 궤적 생성: 명시적 세계 모델 훈련을 위한 귀중한 데이터 제공

방법 상세 설명

작업 정의

목표: 적응 효율성 달성 - 매개변수 업데이트가 아닌 추론 시 오케스트레이션을 통해 작업 성공률을 최대화하면서 계산 비용을 최소화합니다.

입력: 연속적인 작업 시퀀스, 각 작업은 상태, 동작 및 관찰 포함 출력: 개선된 작업 실행 정책 및 효율성 향상 제약: 기울기 업데이트 없음, 순수 추론 시 적응

모델 아키텍처

1. 이중 에이전트 설계

Teacher 에이전트: 일반적으로 더 강력한 능력, 추론 및 지침 담당
Student 에이전트: 작업 실행, Teacher의 감독 및 지침 수용
오케스트레이션 계층: Teacher-Student 상호작용 관리, 작동 정책 동적 조정

2. 핵심 구성 요소

지속적 학습 메모리(PLM):

완전한 실행 궤적, Teacher 지침 및 관련 점수 저장
작업 컨텍스트별 인덱싱
경량 증류 프로세스를 통해 실행 가능한 지침 추출 지원

보상 시스템:

이중 계층 통합 판정자 설계
여러 빠른 판정자가 독립적으로 점수 부여
분산 또는 불확실성이 임계값을 초과할 때 강력한 중재자가 통합하여 최종 판정

학습 엔진:

Teacher 핸드북 컴파일: 원칙, 실패 패턴, 진단 및 중지 조건
Student 핸드북 생성: 구체적 동작 패턴, 도구 계획, 보호 및 성공 확인

3. 추론 시 학습 루프

1. 작업 실행: Student가 작업을 시도하고 상태-동작-관찰 궤적 생성
2. 지침 검증: Teacher가 Student 궤적을 관찰하고 결과에 따라 원칙 수준 지침 제공
3. 학습 지속성: 완전한 궤적, 지침 및 점수를 PLM에 기록
4. 적응형 조정: 후속 유사 작업에서 관련 학습 이력 검색, 정책 동적 조정

기술 혁신 포인트

기울기 없는 적응: 완전히 추론 시 수행, 모델 가중치 업데이트 불필요
메모리 안내 오케스트레이션: 집계된 학습 이력을 사용하여 작동 정책 동적 조정
분리된 아키텍처: Teacher는 추론 담당, Student는 실행 담당, 전문화된 분업 구현
증류 경험 전이(DET): 과거 상호작용을 재사용 가능한 학습 산출물로 변환

실험 설정

데이터셋

ExCyTIn-Bench: Microsoft의 사이버 위협 조사 벤치마크

Incident #5: 98개 쿼리의 일관된 시나리오
Incident #55: 100개 쿼리, 이벤트 간 전이 검증용
정적 테스트가 아닌 궤적 점수를 통한 상태 인식 추론 평가 제공

평가 지표

작업 성공률: 벤치마크 공식 표준을 사용한 이진 성공률(≥0.4 임계값)
효율성: 각 세션당 평균 소비 토큰 수
비용 효율성: OpenAI 가격 책정 기준 문제당 미국 달러 비용

비교 방법

내부 기준선: 핸드북 또는 Teacher 지침이 없는 GPT-5-mini
외부 기준선: ExCyTIn-Bench 문서에서 보고된 GPT-5(Reasoning=High) 성능
이벤트 간 기준선: Incident #55의 공식 GPT-5-mini 기준선

구현 세부사항

시드 단계: Teacher로 GPT-5, Student로 GPT-5-mini
평가 단계: 의미론적 유사성 검색을 통해 관련 핸드북 검색 후 후속 작업 초기화
보상 구성: 이중 계층 통합 판정자, 원칙 지향 점수
메모리 검색: 작업 컨텍스트 기반 의미론적 매칭

실험 결과

주요 결과

Incident #5 성능:

ATLAS 성공률: 54.1% (98개 작업 중 53개)
GPT-5(High) 기준선 48.0% 대비: +6.1 포인트
GPT-5-mini 기준선 33.7% 대비: +20.4 포인트
비용 절감: ~86% (문제당 $0.024 vs$ 0.174)

효율성 향상:

평균 토큰 소비: 78,118 (Student 전용 141,660 대비 45% 감소)
단계별 개선:
- 단계 1 (작업 1-25): 100,810 토큰 (-28.8%)
- 단계 2 (작업 26-60): 73,980 토큰 (-47.8%)
- 단계 3 (작업 61-98): 67,002 토큰 (-52.7%)

이벤트 간 전이 실험

Incident #55 검증:

기준선 정확도: 28% (100개 중 28개)
동결된 핸드북 사용: 41% (100개 중 41개), 46% 향상
출력 구성 변화:
- 비추론 토큰 52.1% 감소
- 추론 토큰 2,135개 증가
- 장황한 탐색에서 구조화된 추론으로 전환

소거 실험

학습 진행 분석:

98개 작업 궤적 중 69개가 검색된 지침 포함
68개가 원본 프롬프트 텍스트에서 누락된 기술 주입
핸드북이 작업 특정 템플릿이 아닌 추상 프로그램을 캡처함을 보여줍니다.

프로세스 조사 비용 분석:

초기 3개 프로세스 질문: 평균 217.7k 토큰
후기 3개 프로세스 질문: 평균 48.8k 토큰
동일한 핸드북이 다양한 프로세스 포렌식 작업을 단축할 수 있음을 증명

사례 분석

Incident #5 세션 71 예시:

초기 실패: Student가 답변을 검증하지 않음, 체계적인 조사 전략 부족
Teacher 개입: 원칙 수준 지침 제공 (원격 측정 소스 열거, 테이블 우선순위, SID 검증)
성공적 재실행: 체계적 방법, 올바른 SID 추출, 더 적은 토큰 소비
대비: 자율 실행은 성공 없이 304,389 토큰 소비, 검색된 핸드북의 가치 시연

결론 및 논의

주요 결론

시스템 중심 CL의 타당성: 기울기 없는 지속적 학습이 적응형, 배포 가능한 AI 시스템의 실행 가능한 경로임을 증명
효율성과 정확성의 파레토 프론티어: 추론 시 적응을 통해 더 높은 정확성과 더 낮은 계산 비용 달성
작업 간 일반화 능력: 동결된 핸드북이 새로운 이벤트에서 성능을 크게 향상시키며, 재훈련 불필요
세계 모델 데이터 엔진: 인과 관계 주석이 있는 궤적 생성, 명시적 세계 모델 훈련에 가치 제공

한계

아키텍처 의존성: Teacher-Student 이중 에이전트 설정 필요, 시스템 복잡성 증가
영역 특이성: 주로 사이버 보안 조사 영역에서 검증, 일반화 가능성 추가 검증 필요
메모리 관리: 경험 증가에 따른 메모리 관리 및 검색 효율성 문제
평가 방법: 정적 벤치마크는 동적 학습 시스템 평가에 불충분

향후 방향

아키텍처 설계 탐색: 다중 에이전트 통합, 계층적 메모리 구조 등 대체 설계 비교
지식 일반화: 모델 간, 작업 간 원칙 전이 연구
적응형 평가 방법: 에이전트와 함께 적응하는 동적 벤치마크 개발
혼합 온라인-오프라인 학습: 세계 모델 훈련을 실시간 시스템에 통합

심층 평가

장점

패러다임 혁신: 모델 중심에서 시스템 중심의 지속적 학습 패러다임으로의 전환은 중요한 이론적 가치 보유
실용성 강함: 전문화된 하드웨어나 재훈련 불필요, 표준 추론 인프라에 쉽게 배포 가능
충분한 실험: 실제 벤치마크에서 검증, 상세한 소거 실험 및 사례 분석 포함
비용 효율성 현저함: 더 작은 모델로 큰 모델 초과, 동시에 비용 대폭 절감
재현성 우수: 완전한 데이터셋 및 구현 세부사항 제공

부족한 점

평가 한계: 주로 단일 영역(사이버 보안)에서 검증, 광범위한 영역 검증 부족
확장성 문제: 작업 증가에 따라 메모리 검색 및 관리의 계산 오버헤드가 병목이 될 수 있음
이론 분석 부족: 시스템 수렴성, 안정성에 대한 이론적 보장 부족
Teacher 의존성: 더 강력한 Teacher 모델 필요, 실제 응용 시나리오 제한 가능
장기 학습: 극도로 긴 시퀀스 작업에서의 성능 충분히 탐색되지 않음

영향력

학술 기여: 지속적 학습 영역에 새로운 연구 방향 및 방법론 제공
실용적 가치: 실제 배포된 AI 시스템에 실행 가능한 적응 방안 제공
영감 제공: 시스템 수준 적응의 사고방식이 다른 AI 시스템 설계에 영감 제공 가능
데이터 가치: 생성된 인과 관계 주석 데이터는 세계 모델 연구에 중요한 가치 보유

적용 시나리오

리소스 제한 환경: 모델 재훈련을 수행할 수 없는 배포 시나리오
동적 작업 환경: 작업 유형 및 요구사항의 변화에 빠르게 적응 필요
비용 민감 응용: 성능과 비용 간 최적 균형 필요
전문 영역 응용: 사이버 보안, 고장 진단 등 전문가 지식이 필요한 영역

참고문헌

논문은 지속적 학습, 프롬프트 최적화, 검색 증강 및 메모리 메커니즘 등 관련 영역의 중요한 연구를 인용하며, 다음을 포함합니다:

Kirkpatrick et al. (2017) - 신경망에서 재앙적 망각 극복
Hu et al. (2021) - LoRA 저순위 적응 방법
Lewis et al. (2020) - 검색 증강 생성
Shinn et al. (2023) - Reflexion 언어 에이전트
Wu et al. (2025) - ExCyTIn-Bench 벤치마크

이 논문은 지속적 학습 영역에서 중요한 패러다임 전환을 제안하며, 기존의 모델 중심에서 시스템 중심의 방법으로 전환하여 중요한 이론적 가치와 실용적 의미를 가집니다. 평가 광범위성과 이론 분석 측면에서 개선의 여지가 있지만, 그 혁신성과 실용성으로 인해 이 분야의 중요한 기여가 됩니다.