従来の継続学習(CL)手法は主に勾配ベースの再トレーニングを通じて破滅的忘却を緩和していますが、このアプローチはリアルタイム適応が必要なデプロイされたエージェントには適していません。本論文では、適応型教育学習システム(ATLAS)を紹介します。これは推論(Teacher)と実行(Student)を分離する二重エージェントアーキテクチャであり、保存された経験蒸留ガイダンスを組み込んだ永続学習メモリと組み合わせています。このシステムは推論時に動的に操作戦略を調整し、勾配なしの継続学習を実現し、適応の焦点をモデルパラメータからシステムレベルのオーケストレーションに移します。マイクロソフトのExCyTIn-Benchベンチマークでは、ATLASはStudentとしてGPT-5-miniを使用して54.1%の成功率を達成し、より大きなGPT-5(High)より13%高く、コストは86%削減されています。
目標:適応効率を実現する - パラメータ更新ではなく推論時のオーケストレーションを通じて、タスク成功率を最大化しながら計算コストを最小化します。
入力:連続的なタスクシーケンス、各タスクは状態、アクション、観察を含みます 出力:改善されたタスク実行戦略と効率向上 制約:勾配更新なし、純粋な推論時適応
永続学習メモリ(PLM):
報酬システム:
学習エンジン:
1. タスク実行:Studentがタスクを試行し、状態-アクション-観察軌跡を生成します
2. ガイダンス検証:TeacherがStudent軌跡を観察し、結果に基づいて原則レベルのガイダンスを提供します
3. 学習の永続化:完全な軌跡、ガイダンス、スコアをPLMに記録します
4. 適応調整:後続の類似タスクで関連する学習履歴を検索し、戦略を動的に調整します
ExCyTIn-Bench:マイクロソフトのサイバー脅威調査ベンチマーク
Incident #5パフォーマンス:
効率向上:
Incident #55検証:
学習進捗分析:
プロセス調査コスト分析:
Incident #5セッション71の例:
論文は継続学習、プロンプト最適化、検索増強、メモリ機構など関連分野の重要な研究を引用しており、以下を含みます:
本論文は継続学習分野で重要なパラダイムシフトを提案し、従来のモデル中心からシステム中心のアプローチへの転換を実現しており、重要な理論的価値と実用的意義を持ちます。評価の広さと理論分析の面でまだ改善の余地がありますが、その革新性と実用性により、この分野の重要な貢献となっています。