2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

基本信息

论文ID: 2510.10304
标题: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
作者: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
分类: cs.LG cs.AI cs.CL
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10304
代码链接: https://github.com/michahu/echo

摘要

语言模型(LM)智能体在新环境中部署时，往往在序列交互学习中表现出较差的样本效率。这严重阻碍了此类智能体在交互成本高昂的环境中的实用性(例如与人类交互或重置物理系统时)。虽然现有的LM智能体架构结合了各种经验存储和反思机制，但它们对LM直接生成或推理完整反事实轨迹能力的利用有限。本文引入了ECHO(Experience Consolidation via Hindsight Optimization)，这是一个将强化学习中的后见经验回放适配到语言模型智能体的提示框架。ECHO为失败尝试中可能实现的替代目标生成优化轨迹，有效地从不成功的交互中创建合成正例。该方法包含两个组件：使用语言模型本身识别相关子目标并生成优化轨迹的后见规则，以及在内存中维护压缩轨迹表示的更新规则。

研究背景与动机

核心问题

样本效率低下：LM智能体在新环境中学习时表现出较差的样本效率，尤其是在交互成本高昂的场景中
有限的反事实推理：现有方法主要关注存储或合成经验，未充分利用LM推理反事实轨迹的能力
稀疏奖励环境：在奖励稀疏的环境中，智能体难以从失败经验中学习

问题重要性

实际应用需求：在与人类交互或物理系统重置等高成本场景中，提高样本效率至关重要
适应性要求：智能体需要快速适应新环境，如新组织中的对话助手需要学习信息获取和沟通方式

现有方法局限性

Reflexion：主要提供高层次的反思，但反馈往往过于通用，难以改变模型表现
AWM (Agent Workflow Memory)：仅存储成功轨迹的工作流，对失败经验利用不足
传统经验回放：主要关注数值奖励和状态，无法进行灵活的轨迹编辑

核心贡献

提出ECHO框架：首个将后见经验回放(HER)适配到语言模型智能体的提示框架
创新的轨迹重写机制：能够任意重写失败轨迹，包括改变目标和中间步骤
构建有状态基准：创建XMiniGrid-Stateful和PeopleJoinQA-Stateful两个需要探索的基准环境
显著性能提升：在XMiniGrid上相比ReAct基线提升80%，相比次优基线提升42%

方法详解

任务定义

考虑在线设置，其中LM智能体从时间t=0到T顺序处理查询序列，无法访问真实奖励函数或演示数据。智能体需要通过与环境的交互来学习并提高未来决策的效率。

ECHO架构

核心组件

ECHO包含两个主要组件：

后见规则(Hindsight Rule)：
- 从给定轨迹中提出可完成的目标
- 为这些目标生成优化轨迹或描述
- 如果无法提出目标，则不执行任何操作
更新规则(Update Rule)：
- 比较新生成的描述与前一个描述
- 保存更短的工作流(基于最小描述长度原理)
- 维护压缩的轨迹表示

算法流程

def ECHO(LM, trajectory, replay_buf={}):
    # 后见规则
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # 更新规则
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

技术创新点

表达能力增强：相比传统HER只能重新标记目标，ECHO可以任意重写轨迹结构
利用预训练知识：使用LM的世界知识填补信息空白，提出合理的反事实信息
压缩表示：基于Kolmogorov复杂度，维护最短可能的目标达成描述
自适应机制：LM可以选择抽象，避免添加无效轨迹

实验设置

数据集

XMiniGrid-Stateful

基础环境：程序生成的2D GridWorld导航和规划任务
状态化改造：智能体在相同环境中执行随机采样目标，可学习未见对象的位置
规模：10个独特环境，每个环境4个房间4个对象，每环境16次查询
任务：在64步内拾取随机采样对象，部分可观测环境增加挑战性

PeopleJoinQA-Stateful

基础环境：多智能体协作信息收集问答任务
状态化改造：固定组织结构，智能体回答该组织的所有问题
规模：5个组织，共248个查询，平均每查询需7.98条消息
任务：通过工具调用联系模拟人员，合成信息回答问题

评价指标

最终平均奖励(准确率)：衡量最终性能

累积平均奖励：衡量样本效率

Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt

相对于ReAct基线的改进：标准化问题难度

对比方法

ReAct：推理-行动基线智能体
Reflexion：语言智能体的语言强化学习
AWM：智能体工作流内存
AWM++：AWM + ECHO的更新规则

实现细节

模型：GPT-4o
温度设置：ReAct使用0，离线推理在PeopleJoin中使用0.7
最大令牌数：3800-4000
轨迹有效性：在XMiniGrid中85%的合成轨迹可执行

实验结果

主要结果

XMiniGrid-Stateful

相比ReAct：平均奖励提升80%
相比次优基线：提升42%
样本效率：3次交互后累积奖励超过ReAct基线
严格优于：所有对比方法包括Reflexion和AWM

PeopleJoinQA-Stateful

准确率：略低于Reflexion 4.6%，但仍优于ReAct
效率：平均减少1.6条消息，与AWM持平
样本效率：首次查询后即超过ReAct基线

轨迹有效性分析

在XMiniGrid的40个采样示例中：

85%成功率：智能体成功达到合成目标
失败原因：4例由于执行偏差，2例由于不可行步骤
结论：ECHO生成的反事实工作流大多正确且有效

案例分析

失败轨迹示例：智能体未能拾取灰色钥匙

Reflexion输出：通用反馈，缺乏具体改进建议
AWM输出：由于失败，正确地不生成工作流
ECHO输出：识别出智能体观察到灰色星星，生成拾取灰色星星的优化轨迹

组织间变异性

在PeopleJoinQA中，不同组织的最优方法有所不同：

无方法在所有组织上都严格占优
ECHO在某些组织(如百货商店)中成为最高效方法
表明需要提高离线方法的鲁棒性

结论与讨论

主要结论

有效性验证：ECHO在两个需要探索的环境中显著提升样本效率
机制优势：通过将失败转化为合成成功，更好地利用过去经验
适用场景：在奖励稀疏且基线表现较差的环境中特别有效

局限性

表示形式限制：主要使用自然语言表示，代码式表示可能更有效
更新规则简化：基于长度的启发式更新规则可能过于简单
环境依赖性：在不同组织/环境中的表现存在变异性
世界模型不完整：单次轨迹后LM可能缺乏完整的环境模型

未来方向

程序化表示：探索代码式轨迹表示的效果
复杂更新规则：设计更精确的信息融合机制
检索增强：结合基于检索的记忆机制
鲁棒性提升：提高跨环境的一致性表现

深度评价

优点

创新性强：首次将HER适配到LM智能体，具有重要理论和实践价值
实验充分：在两个不同类型环境中验证，包含详细的消融分析
实用价值高：解决了LM智能体在高成本交互环境中的关键问题
方法通用：框架设计具有良好的可扩展性和适应性

不足

基准局限：仅在两个相对简单的环境中测试，缺乏更复杂现实场景验证
理论分析不足：缺乏对方法收敛性和理论保证的深入分析
计算开销：多次LM调用可能带来额外的计算成本
依赖模型能力：方法效果高度依赖底层LM的推理和生成能力

影响力

学术贡献：为LM智能体的经验学习提供了新的研究方向
实际应用：在人机交互、机器人控制等高成本场景具有应用潜力
方法启发：为其他基于LM的学习算法提供设计思路

适用场景

高成本交互环境：人机对话、物理系统控制
稀疏奖励任务：探索导向的导航和规划问题
部分可观测环境：需要通过交互学习环境结构的场景
多目标任务：可以从单次经验中学习多个子技能的环境

参考文献

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

总体评价：本文提出的ECHO框架在LM智能体的样本效率学习方面取得了重要进展，方法新颖且实验结果令人信服。虽然存在一些局限性，但为该领域的未来发展奠定了良好基础，具有较高的学术价值和实际应用潜力。