2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic

LM エージェントにおける後知恵軌跡書き直しを介したサンプル効率的なオンライン学習

基本情報

  • 論文ID: 2510.10304
  • タイトル: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
  • 著者: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
  • 分類: cs.LG cs.AI cs.CL
  • 発表日時: 2025年10月11日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10304
  • コードリンク: https://github.com/michahu/echo

要約

言語モデル(LM)エージェントを新しい環境に配置する際、逐次相互作用学習においてサンプル効率が低いという課題が生じている。これは、人間との相互作用や物理システムのリセットなど、相互作用コストが高い環境でのエージェントの実用性を大きく阻害している。既存のLMエージェントアーキテクチャは、様々な経験保存および反省メカニズムを組み込んでいるが、LMが直接生成または推論する完全な反事実軌跡の能力の活用は限定的である。本論文では、強化学習における後知恵経験リプレイを言語モデルエージェントに適応させるプロンプトフレームワークであるECHO(Experience Consolidation via Hindsight Optimization)を提案する。ECHOは失敗した試行で達成可能な代替目標に対して最適化された軌跡を生成し、不成功な相互作用から合成的な正例を効果的に作成する。本手法は2つのコンポーネントから構成される:言語モデル自体を使用して関連するサブ目標を特定し最適化軌跡を生成する後知恵ルール、およびメモリ内で圧縮された軌跡表現を維持する更新ルールである。

研究背景と動機

核心的課題

  1. サンプル効率の低さ:LMエージェントが新しい環境で学習する際、特に相互作用コストが高いシナリオにおいて、サンプル効率が低い
  2. 限定的な反事実推論:既存の手法は主に経験の保存または合成に焦点を当てており、LMが反事実軌跡を推論する能力を十分に活用していない
  3. 疎な報酬環境:報酬が疎な環境では、エージェントが失敗経験から学習することが困難である

問題の重要性

  • 実用的なニーズ:人間との相互作用や物理システムのリセットなど、高コストシナリオにおいてサンプル効率の向上が重要
  • 適応性の要件:エージェントは新しい環境に迅速に適応する必要があり、例えば新しい組織における対話アシスタントは情報取得と通信方法を学習する必要がある

既存手法の限界

  1. Reflexion:主に高レベルの反省を提供するが、フィードバックはしばしば過度に一般的であり、モデルのパフォーマンスを変更することが困難
  2. AWM (Agent Workflow Memory):成功した軌跡のワークフローのみを保存し、失敗経験の活用が不十分
  3. 従来の経験リプレイ:主に数値報酬と状態に焦点を当てており、柔軟な軌跡編集ができない

核心的貢献

  1. ECHOフレームワークの提案:後知恵経験リプレイ(HER)を言語モデルエージェントに適応させた最初のプロンプトフレームワーク
  2. 革新的な軌跡書き直しメカニズム:失敗した軌跡を任意に書き直す能力、目標と中間ステップの変更を含む
  3. 有状態ベンチマークの構築:探索が必要なXMiniGrid-StatefulおよびPeopleJoinQA-Statefulという2つのベンチマーク環境を作成
  4. 顕著なパフォーマンス向上:XMiniGridでReActベースラインと比較して80%の改善、次点のベースラインと比較して42%の改善

方法の詳細

タスク定義

オンライン設定を考慮する。LMエージェントは時刻t=0からTまで順序立てて問い合わせシーケンスを処理し、真の報酬関数またはデモンストレーションデータにアクセスできない。エージェントは環境との相互作用を通じて学習し、将来の意思決定の効率を向上させる必要がある。

ECHOアーキテクチャ

コアコンポーネント

ECHOは2つの主要なコンポーネントから構成される:

  1. 後知恵ルール(Hindsight Rule)
    • 与えられた軌跡から達成可能な目標を提案
    • これらの目標に対して最適化された軌跡または説明を生成
    • 目標を提案できない場合は何も実行しない
  2. 更新ルール(Update Rule)
    • 新しく生成された説明と前の説明を比較
    • より短いワークフローを保存(最小記述長原理に基づく)
    • 圧縮された軌跡表現を維持

アルゴリズムフロー

def ECHO(LM, trajectory, replay_buf={}):
    # 後知恵ルール
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # 更新ルール
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

技術的革新点

  1. 表現能力の強化:従来のHERが目標を再ラベル付けするだけなのに対し、ECHOは軌跡構造を任意に書き直すことができる
  2. 事前学習知識の活用:LMの世界知識を使用して情報ギャップを埋め、合理的な反事実情報を提案
  3. 圧縮表現:コルモゴロフ複雑性に基づき、目標達成の最短可能な説明を維持
  4. 適応的メカニズム:LMは抽象化を選択でき、無効な軌跡の追加を回避

実験設定

データセット

XMiniGrid-Stateful

  • 基本環境:プログラム生成された2D GridWorld ナビゲーションおよび計画タスク
  • 有状態化改造:エージェントが同じ環境で無作為にサンプリングされた目標を実行し、未見のオブジェクトの位置を学習できる
  • 規模:10個の独特な環境、各環境に4つの部屋と4つのオブジェクト、各環境で16回のクエリ
  • タスク:64ステップ以内にランダムにサンプリングされたオブジェクトを拾う、部分的に観測可能な環境が課題を増加させる

PeopleJoinQA-Stateful

  • 基本環境:マルチエージェント協調情報収集質問応答タスク
  • 有状態化改造:固定された組織構造、エージェントがその組織のすべての質問に回答
  • 規模:5つの組織、合計248個のクエリ、クエリあたり平均7.98メッセージ
  • タスク:ツール呼び出しを通じてシミュレートされた人員に連絡し、合成情報で質問に回答

評価指標

  1. 最終平均報酬(精度):最終パフォーマンスを測定
  2. 累積平均報酬:サンプル効率を測定
    Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
    
  3. ReActベースラインに対する相対的改善:問題難度の正規化

比較手法

  1. ReAct:推論-行動ベースラインエージェント
  2. Reflexion:言語エージェントの言語強化学習
  3. AWM:エージェントワークフローメモリ
  4. AWM++:AWM + ECHOの更新ルール

実装の詳細

  • モデル:GPT-4o
  • 温度設定:ReActは0、PeopleJoinでのオフライン推論は0.7
  • 最大トークン数:3800-4000
  • 軌跡の有効性:XMiniGridで合成軌跡の85%が実行可能

実験結果

主要な結果

XMiniGrid-Stateful

  • ReActと比較:平均報酬が80%向上
  • 次点のベースラインと比較:42%向上
  • サンプル効率:3回の相互作用後、累積報酬がReActベースラインを超える
  • 厳密に優位:Reflexionおよび AWMを含むすべての比較手法に対して

PeopleJoinQA-Stateful

  • 精度:Reflexionより4.6%低いが、ReActより優位
  • 効率:平均1.6メッセージ削減、AWMと同等
  • サンプル効率:最初のクエリ後すぐにReActベースラインを超える

軌跡の有効性分析

XMiniGridの40個のサンプル例において:

  • 85%の成功率:エージェントが合成目標の達成に成功
  • 失敗の原因:4例は実行偏差による、2例は実行不可能なステップによる
  • 結論:ECHOが生成した反事実ワークフローはほぼ正確で有効

ケース分析

失敗軌跡の例:エージェントが灰色のキーを拾うことに失敗

  • Reflexion出力:一般的なフィードバック、具体的な改善提案の欠如
  • AWM出力:失敗のため、正しくワークフローを生成しない
  • ECHO出力:エージェントが灰色の星を観察したことを特定し、灰色の星を拾う最適化軌跡を生成

組織間の変動性

PeopleJoinQAにおいて、異なる組織の最適な手法は異なる:

  • どの手法も全組織で厳密に優位ではない
  • ECHOは特定の組織(百貨店など)で最も効率的な手法となる
  • オフライン手法の堅牢性向上の必要性を示唆

関連研究

言語モデルエージェント

  • 発展状況:静的知識依存から動的環境適応への転換
  • 主要な課題:新しい環境での探索および適応能力の不足
  • 応用分野:ウェブナビゲーション、ツール使用、マルチエージェント協調、コード生成

記憶システムの分類

Sumersらの分類に従う:

  1. 意味記憶:環境事実(Reflexionの反省など)
  2. エピソード記憶:過去の行動(AWMのワークフローなど)
  • ECHOは主にエピソード記憶の構築および更新メカニズムを改善

経験リプレイ技術

  • 従来のHER:軌跡目標を再ラベル付けするが、軌跡構造は変更しない
  • 疎な報酬の利点:少数の正例から最大の学習信号を抽出
  • ECHOの拡張:目標の再ラベル付けだけでなく、軌跡の任意の側面を編集可能

結論と議論

主要な結論

  1. 有効性の検証:ECHOは2つの探索が必要な環境でサンプル効率を大幅に向上させる
  2. メカニズムの利点:失敗を合成的な成功に変換することで、過去の経験をより良く活用
  3. 適用シナリオ:報酬が疎で、ベースラインのパフォーマンスが低い環境で特に有効

限界

  1. 表現形式の制限:主に自然言語表現を使用し、コード形式の表現がより有効である可能性
  2. 更新ルールの簡略化:長さに基づくヒューリスティック更新ルールは過度に単純である可能性
  3. 環境依存性:異なる組織/環境でのパフォーマンスに変動性が存在
  4. 不完全な世界モデル:単一の軌跡後、LMは完全な環境モデルを欠く可能性

今後の方向

  1. プログラム化表現:コード形式の軌跡表現の効果を探索
  2. 複雑な更新ルール:より正確な情報融合メカニズムの設計
  3. 検索拡張:検索ベースのメモリメカニズムとの統合
  4. 堅牢性の向上:環境間の一貫したパフォーマンスの向上

深層的評価

利点

  1. 革新性が高い:HERをLMエージェントに適応させた最初の試みで、重要な理論的および実践的価値を持つ
  2. 実験が充分:2つの異なるタイプの環境で検証され、詳細なアブレーション分析を含む
  3. 実用価値が高い:LMエージェントの高コスト相互作用環境における重要な問題を解決
  4. 手法が汎用的:フレームワーク設計は良好な拡張性と適応性を持つ

不足

  1. ベンチマークの限界:2つの比較的単純な環境でのみテストされ、より複雑な現実シナリオの検証が不足
  2. 理論分析の不足:手法の収束性および理論的保証に関する深い分析が不足
  3. 計算オーバーヘッド:複数のLM呼び出しが追加の計算コストをもたらす可能性
  4. モデル能力への依存:手法の効果は基盤となるLMの推論および生成能力に大きく依存

影響力

  1. 学術的貢献:LMエージェントの経験学習に新しい研究方向を提供
  2. 実用的応用:人間-機械相互作用、ロボット制御など高コストシナリオでの応用可能性
  3. 手法的示唆:他のLMベースの学習アルゴリズムの設計に思考を提供

適用シナリオ

  1. 高コスト相互作用環境:人間-機械対話、物理システム制御
  2. 疎な報酬タスク:探索指向のナビゲーションおよび計画問題
  3. 部分的に観測可能な環境:相互作用を通じて環境構造を学習する必要があるシナリオ
  4. マルチ目標タスク:単一の経験から複数のサブスキルを学習できる環境

参考文献

  • Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
  • Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
  • Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
  • Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

総合評価:本論文で提案されたECHOフレームワークは、LMエージェントのサンプル効率的な学習において重要な進展を達成し、手法は革新的で実験結果は説得力がある。いくつかの限界は存在するが、この分野の将来の発展に対して良好な基盤を築いており、高い学術的価値と実用的応用の可能性を持つ。