2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

継続学習、トレーニングではなく:エージェントのためのオンライン適応

基本情報

  • 論文ID: 2511.01093
  • タイトル: Continual Learning, Not Training: Online Adaptation For Agents
  • 著者: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • 分類: cs.LG cs.AI
  • 発表日: 2025年11月4日(プレプリント)
  • 論文リンク: https://arxiv.org/abs/2511.01093

要約

従来の継続学習(CL)手法は主に勾配ベースの再トレーニングを通じて破滅的忘却を緩和していますが、このアプローチはリアルタイム適応が必要なデプロイされたエージェントには適していません。本論文では、適応型教育学習システム(ATLAS)を紹介します。これは推論(Teacher)と実行(Student)を分離する二重エージェントアーキテクチャであり、保存された経験蒸留ガイダンスを組み込んだ永続学習メモリと組み合わせています。このシステムは推論時に動的に操作戦略を調整し、勾配なしの継続学習を実現し、適応の焦点をモデルパラメータからシステムレベルのオーケストレーションに移します。マイクロソフトのExCyTIn-Benchベンチマークでは、ATLASはStudentとしてGPT-5-miniを使用して54.1%の成功率を達成し、より大きなGPT-5(High)より13%高く、コストは86%削減されています。

研究背景と動機

核心的な問題

  1. リアルタイム適応の必要性とオフライントレーニングの矛盾:デプロイされた言語モデルエージェントは動的環境で継続的に適応する必要がありますが、その中核知識は事前トレーニング後に静的なままです
  2. 従来の継続学習の限界:既存のCL手法は勾配ベースの重み更新に過度に依存しており、専門的なトレーニングループ、ハードウェア、データ蓄積が必要で、推論時の適応を提供できません

問題の重要性

  • 複雑な適応システムでは環境が継続的に進化し、モデルが1つの構成のオフライントレーニングを完了する時点で、リアルタイムシステムはすでに変化している可能性があります
  • 逆伝播は効率的な形式(LoRA など)であっても専門的なトレーニングインフラストラクチャが必要で、再トレーニング遅延が生じます
  • デプロイ制約下のリソース制限により、従来の手法の実装が困難になります

既存手法の限界

  1. トレーニングベースの手法:破滅的忘却に苦しみ、計算集約的な勾配更新が必要です
  2. プロンプト最適化技術:デプロイ用の静的指示を生成し、動的に進化できません
  3. 検索増強システム:ルックアップを実行するが、スキル合成を行いません
  4. エージェントメモリ機構:経験を受動的に保存し、一般化可能な知識を抽出しません

核心的貢献

  1. システム中心の継続学習パラダイムの提案:適応の焦点をモデルパラメータからシステムレベルのオーケストレーションに移します
  2. ATLASデュアルエージェントアーキテクチャの設計:推論時の勾配なし適応を実現します
  3. 永続学習メモリ(PLM)の確立:蒸留されたガイダンス経験を保存し、タスク間転移をサポートします
  4. ExCyTIn-Benchでの効果検証:より小さいモデルで大規模モデルのパフォーマンスを超え、コストを大幅に削減します
  5. 因果注釈付き軌跡の生成:明示的な世界モデルのトレーニングに価値のあるデータを提供します

方法の詳細

タスク定義

目標:適応効率を実現する - パラメータ更新ではなく推論時のオーケストレーションを通じて、タスク成功率を最大化しながら計算コストを最小化します。

入力:連続的なタスクシーケンス、各タスクは状態、アクション、観察を含みます 出力:改善されたタスク実行戦略と効率向上 制約:勾配更新なし、純粋な推論時適応

モデルアーキテクチャ

1. デュアルエージェント設計

  • Teacherエージェント:通常より強力な能力を持ち、推論とガイダンスを担当します
  • Studentエージェント:タスクを実行し、Teacherの監督とガイダンスを受けます
  • オーケストレーション層:Teacher-Student相互作用を管理し、操作戦略を動的に調整します

2. 核心コンポーネント

永続学習メモリ(PLM)

  • 完全な実行軌跡、Teacherガイダンス、関連スコアを保存します
  • タスクコンテキストでインデックス付けされます
  • 軽量な蒸留プロセスを通じて実行可能なガイダンスを抽出することをサポートします

報酬システム

  • デュアルレイヤー統合評価者設計
  • 複数の高速評価者が独立してスコアリングします
  • 分散または不確実性がしきい値を超える場合、強い仲裁者が統合して最終判定を下します

学習エンジン

  • Teacherハンドブックをコンパイル:原則、失敗パターン、診断、停止条件
  • Studentハンドブックを生成:具体的なアクションパターン、ツール計画、ガードレール、成功チェック

3. 推論時学習ループ

1. タスク実行:Studentがタスクを試行し、状態-アクション-観察軌跡を生成します
2. ガイダンス検証:TeacherがStudent軌跡を観察し、結果に基づいて原則レベルのガイダンスを提供します
3. 学習の永続化:完全な軌跡、ガイダンス、スコアをPLMに記録します
4. 適応調整:後続の類似タスクで関連する学習履歴を検索し、戦略を動的に調整します

技術的革新点

  1. 勾配なし適応:完全に推論時に実行され、モデル重みの更新は不要です
  2. メモリガイド型オーケストレーション:集約された学習履歴を使用して操作戦略を動的に調整します
  3. 分離アーキテクチャ:Teacherは推論を担当し、Studentは実行を担当し、専門的な分業を実現します
  4. 蒸留経験転移(DET):過去のインタラクションを再利用可能な学習成果物に変換します

実験設定

データセット

ExCyTIn-Bench:マイクロソフトのサイバー脅威調査ベンチマーク

  • Incident #5:98クエリの一貫したシナリオ
  • Incident #55:100クエリ、イベント間転移検証用
  • 軌跡スコアリングを通じた状態認識推論評価を提供し、静的テストではありません

評価指標

  1. タスク成功率:ベンチマーク公式基準を使用したバイナリ成功率(≥0.4閾値)
  2. 効率:セッションあたりの平均トークン消費量
  3. 費用対効果:OpenAI価格設定に基づく問題あたりのドル費用

比較手法

  1. 内部ベースライン:ハンドブックまたはTeacherガイダンスなしのGPT-5-mini
  2. 外部ベースライン:ExCyTIn-Benchドキュメントで報告されたGPT-5(Reasoning=High)パフォーマンス
  3. イベント間ベースライン:Incident #55上の公式GPT-5-miniベースライン

実装詳細

  • シーディング段階:TeacherとしてのGPT-5、StudentとしてのGPT-5-mini
  • 評価段階:意味的類似性検索を通じて関連ハンドブックを検索し、後続タスクを初期化します
  • 報酬構成:デュアルレイヤー統合評価者、原則指向スコアリング
  • メモリ検索:タスクコンテキストに基づく意味的マッチング

実験結果

主要結果

Incident #5パフォーマンス

  • ATLAS成功率:54.1% (98タスク中53)
  • GPT-5(High)ベースライン48.0%と比較:+6.1ポイント
  • GPT-5-miniベースライン33.7%と比較:+20.4ポイント
  • コスト削減:~86% (0.0240.024対0.174/問題)

効率向上

  • 平均トークン消費:78,118 (Student単独の141,660から45%削減)
  • 段階的改善:
    • ステージ1 (タスク1-25):100,810トークン (-28.8%)
    • ステージ2 (タスク26-60):73,980トークン (-47.8%)
    • ステージ3 (タスク61-98):67,002トークン (-52.7%)

イベント間転移実験

Incident #55検証

  • ベースライン精度:28% (100中28)
  • 凍結ハンドブック使用:41% (100中41)、46%向上
  • 出力構成の変化:
    • 非推論トークン52.1%削減
    • 推論トークン2,135個増加
    • 冗長な探索から構造化推論への転換

アブレーション実験

学習進捗分析

  • 98タスク軌跡中69個が検索ガイダンスを含みます
  • 68個が元のプロンプトテキストに欠けていたスキルを注入しました
  • ハンドブックがタスク固有のテンプレートではなく抽象的なプログラムをキャプチャしていることを示します

プロセス調査コスト分析

  • 初期3つのプロセス質問:平均217.7kトークン
  • 後期3つのプロセス質問:平均48.8kトークン
  • 同じハンドブックが異なるプロセスフォレンジックタスクを短縮できることを証明します

ケーススタディ

Incident #5セッション71の例

  • 初期失敗:Studentが答えを検証せず、体系的な調査戦略が不足していました
  • Teacher介入:原則レベルのガイダンス提供(テレメトリソースの列挙、テーブルの優先順位付け、SID検証)
  • 成功した再実行:体系的なアプローチ、正しいSID抽出、トークン消費削減
  • 対比:自律実行は304,389トークンを消費しても成功せず、検索ハンドブックの価値を示します

関連研究

トレーニングベースの手法

  • LoRA、QLoRA、DoRAなどのパラメータ効率的な手法は依然として勾配最適化に依存しています
  • 「速い遅い」デュアルスピード学習システムは依然として勾配計算が必要です
  • 学習率と忘却のトレードオフに直面しています

プロンプト最適化

  • Prompt Tuning、DSPy、GEPAなどの手法は静的プロンプトを最適化します
  • デプロイ後、環境条件の変化時に進化できません
  • ATLASは履歴ベースの動的実行戦略適応を実現します

検索システム

  • RAG、Self-RAGなどはコンテンツレベルの知識を強化します
  • ATLASは戦略レベルの行動ポリシーの改善に焦点を当てます
  • スキル獲得ではなくコンテンツ拡張を実現します

メモリ機構

  • Reflexion、LATS、Voyager、MemGPTなどは経験を受動的に保存します
  • 主動的な圧縮と一般化メカニズムが不足しています
  • ATLASは主動的な学習基質を実現し、プログラム学習をサポートします

結論と考察

主要な結論

  1. システム中心CLの実現可能性:勾配なし継続学習が適応型でデプロイ可能なAIシステムの実現可能なパスであることを証明しました
  2. 効率と精度のパレート最適性:推論時適応を通じてより高い精度とより低い計算コストを実現します
  3. タスク間の一般化能力:凍結ハンドブックは新しいイベントでパフォーマンスを大幅に向上させ、再トレーニングは不要です
  4. 世界モデルデータエンジン:因果注釈付き軌跡を生成し、明示的な世界モデルのトレーニングに価値を提供します

限界

  1. アーキテクチャ依存性:Teacher-Studentデュアルエージェント設定が必要で、システムの複雑性が増します
  2. ドメイン特異性:主にサイバーセキュリティ調査ドメインで検証され、一般化性はさらなる検証が必要です
  3. メモリ管理:経験の増加に伴うメモリ管理と検索効率の問題
  4. 評価方法:静的ベンチマークテストは動的学習システムの評価には不十分です

今後の方向性

  1. アーキテクチャ設計の探索:マルチエージェント統合、階層的メモリ構造などの代替設計を比較します
  2. 知識の一般化:モデル間、タスク間の原則転移を研究します
  3. 適応的評価方法:エージェントと共に適応する動的ベンチマークを開発します
  4. ハイブリッドオンラインオフライン学習:世界モデルトレーニングをリアルタイムシステムに統合します

深い評価

利点

  1. パラダイムの革新:モデル中心からシステム中心への継続学習パラダイムの転換は重要な理論的価値を持ちます
  2. 実用性が高い:専門的なハードウェアや再トレーニングが不要で、標準推論インフラストラクチャへのデプロイが容易です
  3. 実験が充分:実際のベンチマークで検証され、詳細なアブレーション実験とケーススタディを含みます
  4. 費用対効果が顕著:より小さいモデルで大規模モデルを超え、コストを大幅に削減します
  5. 再現性が良好:完全なデータセットと実装詳細を提供します

不足

  1. 評価の限界:主に単一ドメイン(サイバーセキュリティ)で検証され、より広いドメイン検証が不足しています
  2. スケーラビリティの問題:タスク増加に伴い、メモリ検索と管理の計算オーバーヘッドがボトルネックになる可能性があります
  3. 理論分析の不足:システムの収束性、安定性に関する理論的保証が不足しています
  4. Teacher依存性:より強力なTeacherモデルが必要で、実際のアプリケーションシナリオを制限する可能性があります
  5. 長期学習:極めて長いシーケンスタスクでのパフォーマンスが十分に探索されていません

影響力

  1. 学術的貢献:継続学習分野に新しい研究方向と方法論を提供します
  2. 実用的価値:実際にデプロイされるAIシステムに実現可能な適応ソリューションを提供します
  3. 啓発性:システムレベル適応の考え方は他のAIシステム設計に影響を与える可能性があります
  4. データ価値:生成された因果注釈データは世界モデル研究に重要な価値があります

適用シーン

  1. リソース制限環境:モデル再トレーニングが実行できないデプロイシナリオ
  2. 動的タスク環境:タスクタイプと要件の変化に迅速に適応する必要があります
  3. コスト敏感なアプリケーション:パフォーマンスとコスト間の最適なバランスを見つける必要があります
  4. 専門領域アプリケーション:サイバーセキュリティ、障害診断など専門知識が必要な領域

参考文献

論文は継続学習、プロンプト最適化、検索増強、メモリ機構など関連分野の重要な研究を引用しており、以下を含みます:

  • Kirkpatrick et al. (2017) - ニューラルネットワークの破滅的忘却の克服
  • Hu et al. (2021) - LoRA低ランク適応手法
  • Lewis et al. (2020) - 検索増強生成
  • Shinn et al. (2023) - Reflexion言語エージェント
  • Wu et al. (2025) - ExCyTIn-Benchベンチマーク

本論文は継続学習分野で重要なパラダイムシフトを提案し、従来のモデル中心からシステム中心のアプローチへの転換を実現しており、重要な理論的価値と実用的意義を持ちます。評価の広さと理論分析の面でまだ改善の余地がありますが、その革新性と実用性により、この分野の重要な貢献となっています。