2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

언어모델 에이전트에서 후견적 궤적 재작성을 통한 표본 효율적 온라인 학습

기본 정보

논문 ID: 2510.10304
제목: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
저자: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
분류: cs.LG cs.AI cs.CL
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.10304
코드 링크: https://github.com/michahu/echo

초록

언어모델(LM) 에이전트가 새로운 환경에 배포될 때, 순차적 상호작용 학습에서 낮은 표본 효율성을 보이는 경향이 있습니다. 이는 상호작용 비용이 높은 환경(예: 인간과의 상호작용 또는 물리 시스템 초기화)에서 이러한 에이전트의 실용성을 심각하게 방해합니다. 기존의 LM 에이전트 아키텍처는 다양한 경험 저장 및 반성 메커니즘을 통합하지만, LM이 완전한 반사실적 궤적을 직접 생성하거나 추론하는 능력의 활용이 제한적입니다. 본 논문은 강화학습의 후견적 경험 재생을 언어모델 에이전트에 적응시킨 프롬프팅 프레임워크인 ECHO(Experience Consolidation via Hindsight Optimization)를 소개합니다. ECHO는 실패한 시도에서 달성 가능한 대체 목표에 대한 최적화된 궤적을 생성하여, 실질적으로 성공하지 못한 상호작용에서 합성 긍정 사례를 만듭니다. 이 방법은 두 가지 구성 요소를 포함합니다: 언어모델 자체를 사용하여 관련 부분목표를 식별하고 최적화된 궤적을 생성하는 후견적 규칙, 그리고 메모리에서 압축된 궤적 표현을 유지하는 업데이트 규칙입니다.

연구 배경 및 동기

핵심 문제

낮은 표본 효율성: LM 에이전트는 새로운 환경에서 학습할 때 낮은 표본 효율성을 보이며, 특히 상호작용 비용이 높은 시나리오에서 그렇습니다
제한된 반사실적 추론: 기존 방법은 주로 경험 저장 또는 합성에 중점을 두며, LM의 반사실적 궤적 추론 능력을 충분히 활용하지 못합니다
희소 보상 환경: 보상이 희소한 환경에서 에이전트는 실패 경험에서 학습하기 어렵습니다

문제의 중요성

실제 응용 필요성: 인간과의 상호작용 또는 물리 시스템 초기화 등 높은 비용의 시나리오에서 표본 효율성 향상이 중요합니다
적응성 요구사항: 에이전트는 새로운 환경에 빠르게 적응해야 하며, 예를 들어 새로운 조직의 대화 보조원은 정보 검색 및 통신 방식을 학습해야 합니다

기존 방법의 한계

Reflexion: 주로 고수준의 반성을 제공하지만, 피드백이 종종 너무 일반적이어서 모델 성능을 변경하기 어렵습니다
AWM (Agent Workflow Memory): 성공한 궤적의 워크플로우만 저장하며, 실패 경험의 활용이 부족합니다
전통적 경험 재생: 주로 수치 보상 및 상태에 중점을 두며, 유연한 궤적 편집이 불가능합니다

핵심 기여

ECHO 프레임워크 제안: 후견적 경험 재생(HER)을 언어모델 에이전트에 적응시킨 첫 번째 프롬프팅 프레임워크
혁신적인 궤적 재작성 메커니즘: 목표 및 중간 단계 변경을 포함한 실패 궤적의 자의적 재작성 가능
상태 기반 벤치마크 구축: 탐색이 필요한 XMiniGrid-Stateful 및 PeopleJoinQA-Stateful 두 가지 벤치마크 환경 생성
현저한 성능 향상: XMiniGrid에서 ReAct 기준선 대비 80% 향상, 차선 기준선 대비 42% 향상

방법 상세 설명

작업 정의

온라인 설정을 고려하며, 여기서 LM 에이전트는 시간 t=0부터 T까지 순차적으로 쿼리 시퀀스를 처리하며, 실제 보상 함수 또는 시연 데이터에 접근할 수 없습니다. 에이전트는 환경과의 상호작용을 통해 학습하고 향후 의사결정의 효율성을 향상시켜야 합니다.

ECHO 아키텍처

핵심 구성 요소

ECHO는 두 가지 주요 구성 요소를 포함합니다:

후견적 규칙(Hindsight Rule):
- 주어진 궤적에서 달성 가능한 목표 제안
- 이러한 목표에 대한 최적화된 궤적 또는 설명 생성
- 목표를 제안할 수 없으면 아무 작업도 수행하지 않음
업데이트 규칙(Update Rule):
- 새로 생성된 설명과 이전 설명 비교
- 더 짧은 워크플로우 저장(최소 설명 길이 원리 기반)
- 압축된 궤적 표현 유지

알고리즘 흐름

def ECHO(LM, trajectory, replay_buf={}):
    # 후견적 규칙
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # 업데이트 규칙
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

기술 혁신 포인트

표현 능력 향상: 전통적 HER이 목표만 재레이블할 수 있는 것과 달리, ECHO는 궤적 구조를 자의적으로 재작성할 수 있습니다
사전학습 지식 활용: LM의 세계 지식을 사용하여 정보 공백을 채우고 합리적인 반사실적 정보를 제안합니다
압축 표현: Kolmogorov 복잡도에 기반하여 목표 달성의 가장 짧은 가능한 설명을 유지합니다
적응형 메커니즘: LM은 추상화를 선택하여 무효한 궤적 추가를 피할 수 있습니다

실험 설정

데이터셋

XMiniGrid-Stateful

기본 환경: 프로그래매틱으로 생성된 2D GridWorld 네비게이션 및 계획 작업
상태화 개조: 에이전트는 동일한 환경에서 무작위로 샘플링된 목표를 실행하며, 보이지 않은 객체의 위치를 학습할 수 있습니다
규모: 10개의 고유 환경, 각 환경당 4개 방 4개 객체, 환경당 16개 쿼리
작업: 64단계 내에 무작위로 샘플링된 객체를 집기, 부분 관찰 가능 환경이 도전을 증가시킵니다

PeopleJoinQA-Stateful

기본 환경: 다중 에이전트 협력 정보 수집 질의응답 작업
상태화 개조: 고정된 조직 구조, 에이전트가 해당 조직의 모든 질문에 답변합니다
규모: 5개 조직, 총 248개 쿼리, 쿼리당 평균 7.98개 메시지
작업: 도구 호출을 통해 시뮬레이션된 사람들과 연락하여 정보를 합성하고 질문에 답변합니다

평가 지표

최종 평균 보상(정확도): 최종 성능 측정

누적 평균 보상: 표본 효율성 측정

τ에서의 누적 평균 보상 = (1/(τ+1)) × Σ(t=0 to τ) Rt

ReAct 기준선 대비 개선: 문제 난이도 정규화

비교 방법

ReAct: 추론-행동 기준선 에이전트
Reflexion: 언어 에이전트의 언어 강화학습
AWM: 에이전트 워크플로우 메모리
AWM++: AWM + ECHO의 업데이트 규칙

구현 세부사항

모델: GPT-4o
온도 설정: ReAct는 0, PeopleJoin의 오프라인 추론은 0.7
최대 토큰 수: 3800-4000
궤적 유효성: XMiniGrid에서 85%의 합성 궤적이 실행 가능합니다

실험 결과

주요 결과

XMiniGrid-Stateful

ReAct 대비: 평균 보상 80% 향상
차선 기준선 대비: 42% 향상
표본 효율성: 3회 상호작용 후 누적 보상이 ReAct 기준선을 초과합니다
엄격한 우월성: Reflexion 및 AWM을 포함한 모든 비교 방법을 능가합니다

PeopleJoinQA-Stateful

정확도: Reflexion보다 4.6% 낮지만 여전히 ReAct를 능가합니다
효율성: 평균 1.6개 메시지 감소, AWM과 동등합니다
표본 효율성: 첫 번째 쿼리 후 ReAct 기준선을 초과합니다

궤적 유효성 분석

XMiniGrid의 40개 샘플 예제에서:

85% 성공률: 에이전트가 합성 목표를 성공적으로 달성합니다
실패 원인: 4건은 실행 편차로 인해, 2건은 불가능한 단계로 인해
결론: ECHO가 생성한 반사실적 워크플로우는 대부분 정확하고 효과적입니다

사례 분석

실패 궤적 예제: 에이전트가 회색 열쇠를 집지 못함

Reflexion 출력: 일반적인 피드백, 구체적인 개선 제안 부족
AWM 출력: 실패로 인해 올바르게 워크플로우를 생성하지 않음
ECHO 출력: 에이전트가 회색 별을 관찰했음을 식별하고, 회색 별을 집는 최적화된 궤적을 생성합니다

조직 간 변동성

PeopleJoinQA에서 다양한 조직의 최적 방법은 다양합니다:

어떤 방법도 모든 조직에서 엄격하게 우월하지 않습니다
ECHO는 특정 조직(예: 백화점)에서 가장 효율적인 방법이 됩니다
오프라인 방법의 견고성을 향상시킬 필요가 있음을 시사합니다

결론 및 논의

주요 결론

효과성 검증: ECHO는 두 개의 탐색이 필요한 환경에서 표본 효율성을 크게 향상시킵니다
메커니즘 장점: 실패를 합성 성공으로 변환하여 과거 경험을 더 잘 활용합니다
적용 시나리오: 보상이 희소하고 기준선 성능이 낮은 환경에서 특히 효과적입니다

한계

표현 형식 제한: 주로 자연어 표현을 사용하며, 코드 형식 표현이 더 효과적일 수 있습니다
업데이트 규칙 단순화: 길이 기반 휴리스틱 업데이트 규칙이 너무 단순할 수 있습니다
환경 의존성: 다양한 조직/환경에서의 성능에 변동성이 있습니다
불완전한 세계 모델: 단일 궤적 후 LM은 완전한 환경 모델이 부족할 수 있습니다

향후 방향

프로그래매틱 표현: 코드 형식 궤적 표현의 효과 탐색
복잡한 업데이트 규칙: 더 정확한 정보 융합 메커니즘 설계
검색 증강: 검색 기반 메모리 메커니즘과 결합
견고성 향상: 환경 간 일관된 성능 개선

심층 평가

장점

높은 혁신성: HER을 LM 에이전트에 처음으로 적응시키며, 중요한 이론적 및 실제 가치가 있습니다
충분한 실험: 두 가지 다른 유형의 환경에서 검증되며, 상세한 소거 분석을 포함합니다
높은 실용 가치: LM 에이전트의 높은 비용 상호작용 환경에서의 핵심 문제를 해결합니다
방법의 일반성: 프레임워크 설계는 좋은 확장성과 적응성을 가집니다

부족한 점

벤치마크 한계: 두 개의 상대적으로 단순한 환경에서만 테스트되며, 더 복잡한 현실 시나리오 검증이 부족합니다
이론적 분석 부족: 방법의 수렴성 및 이론적 보장에 대한 심층 분석이 부족합니다
계산 오버헤드: 여러 번의 LM 호출이 추가 계산 비용을 야기할 수 있습니다
모델 능력 의존성: 방법의 효과는 기본 LM의 추론 및 생성 능력에 크게 의존합니다

영향력

학술 기여: LM 에이전트의 경험 학습에 새로운 연구 방향을 제공합니다
실제 응용: 인간-기계 상호작용, 로봇 제어 등 높은 비용 시나리오에서 응용 가능성이 있습니다
방법 영감: 다른 LM 기반 학습 알고리즘에 설계 아이디어를 제공합니다

적용 시나리오

높은 비용 상호작용 환경: 인간-기계 대화, 물리 시스템 제어
희소 보상 작업: 탐색 지향 네비게이션 및 계획 문제
부분 관찰 가능 환경: 상호작용을 통해 환경 구조를 학습해야 하는 시나리오
다중 목표 작업: 단일 경험에서 여러 부분 기술을 학습할 수 있는 환경

참고문헌

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

종합 평가: 본 논문에서 제안한 ECHO 프레임워크는 LM 에이전트의 표본 효율적 학습에서 중요한 진전을 이루었으며, 방법은 혁신적이고 실험 결과는 설득력 있습니다. 일부 한계가 있지만, 이 분야의 향후 발전을 위한 견고한 기초를 마련했으며, 높은 학술 가치와 실제 응용 가능성을 가집니다.