2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes

Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.

academic

継続学習、トレーニングではなく：エージェントのためのオンライン適応

基本情報

論文ID: 2511.01093
タイトル: Continual Learning, Not Training: Online Adaptation For Agents
著者: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
分類: cs.LG cs.AI
発表日: 2025年11月4日（プレプリント）
論文リンク: https://arxiv.org/abs/2511.01093

要約

従来の継続学習(CL)手法は主に勾配ベースの再トレーニングを通じて破滅的忘却を緩和していますが、このアプローチはリアルタイム適応が必要なデプロイされたエージェントには適していません。本論文では、適応型教育学習システム(ATLAS)を紹介します。これは推論(Teacher)と実行(Student)を分離する二重エージェントアーキテクチャであり、保存された経験蒸留ガイダンスを組み込んだ永続学習メモリと組み合わせています。このシステムは推論時に動的に操作戦略を調整し、勾配なしの継続学習を実現し、適応の焦点をモデルパラメータからシステムレベルのオーケストレーションに移します。マイクロソフトのExCyTIn-Benchベンチマークでは、ATLASはStudentとしてGPT-5-miniを使用して54.1%の成功率を達成し、より大きなGPT-5(High)より13%高く、コストは86%削減されています。

研究背景と動機

核心的な問題

リアルタイム適応の必要性とオフライントレーニングの矛盾：デプロイされた言語モデルエージェントは動的環境で継続的に適応する必要がありますが、その中核知識は事前トレーニング後に静的なままです
従来の継続学習の限界：既存のCL手法は勾配ベースの重み更新に過度に依存しており、専門的なトレーニングループ、ハードウェア、データ蓄積が必要で、推論時の適応を提供できません

問題の重要性

複雑な適応システムでは環境が継続的に進化し、モデルが1つの構成のオフライントレーニングを完了する時点で、リアルタイムシステムはすでに変化している可能性があります
逆伝播は効率的な形式(LoRA など)であっても専門的なトレーニングインフラストラクチャが必要で、再トレーニング遅延が生じます
デプロイ制約下のリソース制限により、従来の手法の実装が困難になります

既存手法の限界

トレーニングベースの手法：破滅的忘却に苦しみ、計算集約的な勾配更新が必要です
プロンプト最適化技術：デプロイ用の静的指示を生成し、動的に進化できません
検索増強システム：ルックアップを実行するが、スキル合成を行いません
エージェントメモリ機構：経験を受動的に保存し、一般化可能な知識を抽出しません

核心的貢献

システム中心の継続学習パラダイムの提案：適応の焦点をモデルパラメータからシステムレベルのオーケストレーションに移します
ATLASデュアルエージェントアーキテクチャの設計：推論時の勾配なし適応を実現します
永続学習メモリ(PLM)の確立：蒸留されたガイダンス経験を保存し、タスク間転移をサポートします
ExCyTIn-Benchでの効果検証：より小さいモデルで大規模モデルのパフォーマンスを超え、コストを大幅に削減します
因果注釈付き軌跡の生成：明示的な世界モデルのトレーニングに価値のあるデータを提供します

方法の詳細

タスク定義

目標：適応効率を実現する - パラメータ更新ではなく推論時のオーケストレーションを通じて、タスク成功率を最大化しながら計算コストを最小化します。

入力：連続的なタスクシーケンス、各タスクは状態、アクション、観察を含みます出力：改善されたタスク実行戦略と効率向上制約：勾配更新なし、純粋な推論時適応

モデルアーキテクチャ

1. デュアルエージェント設計

Teacherエージェント：通常より強力な能力を持ち、推論とガイダンスを担当します
Studentエージェント：タスクを実行し、Teacherの監督とガイダンスを受けます
オーケストレーション層：Teacher-Student相互作用を管理し、操作戦略を動的に調整します

2. 核心コンポーネント

永続学習メモリ(PLM)：

完全な実行軌跡、Teacherガイダンス、関連スコアを保存します
タスクコンテキストでインデックス付けされます
軽量な蒸留プロセスを通じて実行可能なガイダンスを抽出することをサポートします

報酬システム：

デュアルレイヤー統合評価者設計
複数の高速評価者が独立してスコアリングします
分散または不確実性がしきい値を超える場合、強い仲裁者が統合して最終判定を下します

学習エンジン：

Teacherハンドブックをコンパイル：原則、失敗パターン、診断、停止条件
Studentハンドブックを生成：具体的なアクションパターン、ツール計画、ガードレール、成功チェック

3. 推論時学習ループ

1. タスク実行：Studentがタスクを試行し、状態-アクション-観察軌跡を生成します
2. ガイダンス検証：TeacherがStudent軌跡を観察し、結果に基づいて原則レベルのガイダンスを提供します
3. 学習の永続化：完全な軌跡、ガイダンス、スコアをPLMに記録します
4. 適応調整：後続の類似タスクで関連する学習履歴を検索し、戦略を動的に調整します

技術的革新点

勾配なし適応：完全に推論時に実行され、モデル重みの更新は不要です
メモリガイド型オーケストレーション：集約された学習履歴を使用して操作戦略を動的に調整します
分離アーキテクチャ：Teacherは推論を担当し、Studentは実行を担当し、専門的な分業を実現します
蒸留経験転移(DET)：過去のインタラクションを再利用可能な学習成果物に変換します

実験設定

データセット

ExCyTIn-Bench：マイクロソフトのサイバー脅威調査ベンチマーク

Incident #5：98クエリの一貫したシナリオ
Incident #55：100クエリ、イベント間転移検証用
軌跡スコアリングを通じた状態認識推論評価を提供し、静的テストではありません

評価指標

タスク成功率：ベンチマーク公式基準を使用したバイナリ成功率(≥0.4閾値)
効率：セッションあたりの平均トークン消費量
費用対効果：OpenAI価格設定に基づく問題あたりのドル費用

比較手法

内部ベースライン：ハンドブックまたはTeacherガイダンスなしのGPT-5-mini
外部ベースライン：ExCyTIn-Benchドキュメントで報告されたGPT-5(Reasoning=High)パフォーマンス
イベント間ベースライン：Incident #55上の公式GPT-5-miniベースライン

実装詳細

シーディング段階：TeacherとしてのGPT-5、StudentとしてのGPT-5-mini
評価段階：意味的類似性検索を通じて関連ハンドブックを検索し、後続タスクを初期化します
報酬構成：デュアルレイヤー統合評価者、原則指向スコアリング
メモリ検索：タスクコンテキストに基づく意味的マッチング

実験結果

主要結果

Incident #5パフォーマンス：

ATLAS成功率：54.1% (98タスク中53)
GPT-5(High)ベースライン48.0%と比較：+6.1ポイント
GPT-5-miniベースライン33.7%と比較：+20.4ポイント
コスト削減：~86% ( $0.024対$ 0.174/問題)

効率向上：

平均トークン消費：78,118 (Student単独の141,660から45%削減)
段階的改善：
- ステージ1 (タスク1-25)：100,810トークン (-28.8%)
- ステージ2 (タスク26-60)：73,980トークン (-47.8%)
- ステージ3 (タスク61-98)：67,002トークン (-52.7%)