2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic

Apprendimento Online Efficiente in Termini di Campioni negli Agenti LM tramite Riscrittura di Traiettorie Retroattive

Informazioni Fondamentali

  • ID Articolo: 2510.10304
  • Titolo: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
  • Autori: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
  • Classificazione: cs.LG cs.AI cs.CL
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10304
  • Link Codice: https://github.com/michahu/echo

Riassunto

Gli agenti basati su modelli di linguaggio (LM) distribuiti in nuovi ambienti spesso mostrano scarsa efficienza campionaria nell'apprendimento tramite interazioni sequenziali. Ciò ostacola significativamente l'utilità pratica di tali agenti in ambienti con costi di interazione elevati (ad esempio, interazione umana o ripristino di sistemi fisici). Sebbene le architetture attuali degli agenti LM incorporino vari meccanismi di memorizzazione dell'esperienza e riflessione, sfruttano limitatamente la capacità dei modelli di linguaggio di generare o ragionare direttamente su traiettorie contraffattuali complete. Questo articolo introduce ECHO (Experience Consolidation via Hindsight Optimization), un framework di prompt che adatta la riproduzione dell'esperienza retroattiva dall'apprendimento per rinforzo agli agenti basati su modelli di linguaggio. ECHO genera traiettorie ottimizzate per obiettivi alternativi potenzialmente realizzabili in tentativi falliti, creando efficacemente esempi positivi sintetici da interazioni non riuscite. Il metodo comprende due componenti: una regola retroattiva che utilizza il modello di linguaggio stesso per identificare sottobiettivi rilevanti e generare traiettorie ottimizzate, e una regola di aggiornamento che mantiene rappresentazioni di traiettorie compresse in memoria.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Bassa Efficienza Campionaria: Gli agenti LM mostrano scarsa efficienza campionaria nell'apprendimento in nuovi ambienti, specialmente in scenari con costi di interazione elevati
  2. Ragionamento Contraffattuale Limitato: I metodi esistenti si concentrano principalmente sulla memorizzazione o sintesi dell'esperienza, sfruttando insufficientemente la capacità dei modelli di linguaggio di ragionare su traiettorie contraffattuali
  3. Ambienti con Ricompense Sparse: In ambienti con ricompense sparse, gli agenti faticano ad apprendere dalle esperienze fallite

Importanza del Problema

  • Esigenze di Applicazione Pratica: Migliorare l'efficienza campionaria è cruciale in scenari ad alto costo come l'interazione umana o il ripristino di sistemi fisici
  • Requisiti di Adattabilità: Gli agenti devono adattarsi rapidamente a nuovi ambienti, come gli assistenti conversazionali in nuove organizzazioni che devono imparare modalità di recupero informazioni e comunicazione

Limitazioni dei Metodi Esistenti

  1. Reflexion: Fornisce principalmente riflessioni di alto livello, ma il feedback è spesso troppo generico per modificare le prestazioni del modello
  2. AWM (Agent Workflow Memory): Memorizza solo i flussi di lavoro delle traiettorie riuscite, sfruttando insufficientemente le esperienze fallite
  3. Riproduzione dell'Esperienza Tradizionale: Si concentra principalmente su ricompense numeriche e stati, incapace di eseguire modifiche flessibili delle traiettorie

Contributi Fondamentali

  1. Propone il Framework ECHO: Primo framework di prompt che adatta la riproduzione dell'esperienza retroattiva (HER) agli agenti basati su modelli di linguaggio
  2. Meccanismo Innovativo di Riscrittura delle Traiettorie: Capace di riscrivere arbitrariamente traiettorie fallite, inclusa la modifica di obiettivi e passaggi intermedi
  3. Costruzione di Benchmark Stateful: Crea due ambienti benchmark che richiedono esplorazione: XMiniGrid-Stateful e PeopleJoinQA-Stateful
  4. Miglioramento Significativo delle Prestazioni: Miglioramento dell'80% rispetto alla baseline ReAct su XMiniGrid, del 42% rispetto alla baseline sub-ottimale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Considera un'impostazione online in cui un agente LM elabora sequenzialmente una sequenza di query da t=0 a T, senza accesso alla vera funzione di ricompensa o ai dati di dimostrazione. L'agente deve imparare attraverso l'interazione con l'ambiente e migliorare l'efficienza delle decisioni future.

Architettura ECHO

Componenti Principali

ECHO comprende due componenti principali:

  1. Regola Retroattiva (Hindsight Rule):
    • Propone obiettivi realizzabili da una data traiettoria
    • Genera traiettorie ottimizzate o descrizioni per questi obiettivi
    • Non esegue alcuna operazione se non è possibile proporre obiettivi
  2. Regola di Aggiornamento (Update Rule):
    • Confronta le nuove descrizioni generate con la descrizione precedente
    • Salva il flusso di lavoro più breve (basato sul principio della lunghezza minima della descrizione)
    • Mantiene rappresentazioni di traiettorie compresse

Flusso Algoritmico

def ECHO(LM, trajectory, replay_buf={}):
    # Regola retroattiva
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Regola di aggiornamento
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Punti di Innovazione Tecnica

  1. Capacità Espressiva Aumentata: A differenza della HER tradizionale che può solo rietichettare obiettivi, ECHO può riscrivere arbitrariamente la struttura delle traiettorie
  2. Sfruttamento della Conoscenza Preaddestrata: Utilizza la conoscenza del mondo del modello di linguaggio per colmare lacune informative e proporre informazioni contraffattuali ragionevoli
  3. Rappresentazione Compressa: Basata sulla complessità di Kolmogorov, mantiene la descrizione più breve possibile per il raggiungimento dell'obiettivo
  4. Meccanismo Adattivo: Il modello di linguaggio può scegliere il livello di astrazione, evitando di aggiungere traiettorie non valide

Configurazione Sperimentale

Dataset

XMiniGrid-Stateful

  • Ambiente Base: Compiti di navigazione e pianificazione in GridWorld 2D generati proceduralmente
  • Modifica Stateful: L'agente esegue obiettivi campionati casualmente nello stesso ambiente, potendo imparare le posizioni di oggetti non visti
  • Scala: 10 ambienti unici, 4 stanze e 4 oggetti per ambiente, 16 query per ambiente
  • Compito: Raccogliere oggetti campionati casualmente entro 64 passi, con ambiente parzialmente osservabile che aumenta la difficoltà

PeopleJoinQA-Stateful

  • Ambiente Base: Compito di raccolta informazioni collaborativa multi-agente e risposta a domande
  • Modifica Stateful: Struttura organizzativa fissa, l'agente risponde a tutte le domande su quell'organizzazione
  • Scala: 5 organizzazioni, 248 query totali, media di 7,98 messaggi per query
  • Compito: Contattare persone simulate tramite chiamate di strumenti, sintetizzare informazioni per rispondere a domande

Metriche di Valutazione

  1. Ricompensa Media Finale (Accuratezza): Misura le prestazioni finali
  2. Ricompensa Media Cumulativa: Misura l'efficienza campionaria
    Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
    
  3. Miglioramento Relativo alla Baseline ReAct: Normalizza la difficoltà del problema

Metodi di Confronto

  1. ReAct: Agente baseline ragionamento-azione
  2. Reflexion: Apprendimento per rinforzo linguistico per agenti linguistici
  3. AWM: Memoria del Flusso di Lavoro dell'Agente
  4. AWM++: AWM + regola di aggiornamento ECHO

Dettagli di Implementazione

  • Modello: GPT-4o
  • Impostazione Temperatura: ReAct utilizza 0, inferenza offline utilizza 0,7 in PeopleJoin
  • Token Massimi: 3800-4000
  • Validità della Traiettoria: 85% delle traiettorie sintetiche sono eseguibili in XMiniGrid

Risultati Sperimentali

Risultati Principali

XMiniGrid-Stateful

  • Rispetto a ReAct: Miglioramento della ricompensa media dell'80%
  • Rispetto alla Baseline Sub-ottimale: Miglioramento del 42%
  • Efficienza Campionaria: La ricompensa cumulativa supera la baseline ReAct dopo 3 interazioni
  • Strettamente Superiore: A tutti i metodi di confronto inclusi Reflexion e AWM

PeopleJoinQA-Stateful

  • Accuratezza: Leggermente inferiore a Reflexion del 4,6%, ma comunque superiore a ReAct
  • Efficienza: Riduzione media di 1,6 messaggi, in linea con AWM
  • Efficienza Campionaria: Supera la baseline ReAct dopo la prima query

Analisi della Validità della Traiettoria

In 40 esempi campionati da XMiniGrid:

  • Tasso di Successo dell'85%: L'agente raggiunge con successo l'obiettivo sintetico
  • Cause di Fallimento: 4 casi dovuti a deviazioni di esecuzione, 2 casi dovuti a passaggi non fattibili
  • Conclusione: I flussi di lavoro contraffattuali generati da ECHO sono per lo più corretti ed efficaci

Analisi dei Casi

Esempio di Traiettoria Fallita: L'agente non riesce a raccogliere la chiave grigia

  • Output di Reflexion: Feedback generico, mancanza di suggerimenti di miglioramento specifici
  • Output di AWM: Correttamente non genera flusso di lavoro a causa del fallimento
  • Output di ECHO: Identifica che l'agente ha osservato una stella grigia, genera una traiettoria ottimizzata per raccogliere la stella grigia

Variabilità tra Organizzazioni

In PeopleJoinQA, il metodo ottimale varia tra diverse organizzazioni:

  • Nessun metodo è strettamente dominante su tutte le organizzazioni
  • ECHO diventa il metodo più efficiente in alcune organizzazioni (ad esempio, grandi magazzini)
  • Indica la necessità di migliorare la robustezza dei metodi offline

Lavori Correlati

Agenti Basati su Modelli di Linguaggio

  • Stato Attuale: Transizione dalla dipendenza da conoscenza statica all'adattamento in ambienti dinamici
  • Sfide Principali: Capacità insufficiente di esplorazione e adattamento in nuovi ambienti
  • Campi di Applicazione: Navigazione web, utilizzo di strumenti, collaborazione multi-agente, generazione di codice

Classificazione dei Sistemi di Memoria

Secondo la classificazione di Sumers et al.:

  1. Memoria Semantica: Fatti ambientali (ad esempio, riflessioni di Reflexion)
  2. Memoria Episodica: Azioni passate (ad esempio, flussi di lavoro di AWM)
  • ECHO migliora principalmente i meccanismi di costruzione e aggiornamento della memoria episodica

Tecniche di Riproduzione dell'Esperienza

  • HER Tradizionale: Rietichetta gli obiettivi delle traiettorie, ma non modifica la struttura della traiettoria
  • Vantaggi in Ambienti con Ricompense Sparse: Estrae il massimo segnale di apprendimento da pochi esempi positivi
  • Estensione ECHO: Non solo rietichetta gli obiettivi, ma può modificare arbitrariamente qualsiasi aspetto della traiettoria

Conclusioni e Discussione

Conclusioni Principali

  1. Validazione dell'Efficacia: ECHO migliora significativamente l'efficienza campionaria in due ambienti che richiedono esplorazione
  2. Vantaggi del Meccanismo: Converte i fallimenti in successi sintetici, sfruttando meglio le esperienze passate
  3. Scenari Applicabili: Particolarmente efficace in ambienti con ricompense sparse e baseline scadenti

Limitazioni

  1. Limitazioni della Forma di Rappresentazione: Utilizza principalmente rappresentazioni in linguaggio naturale, le rappresentazioni in codice potrebbero essere più efficaci
  2. Semplificazione della Regola di Aggiornamento: La regola di aggiornamento euristica basata sulla lunghezza potrebbe essere troppo semplice
  3. Dipendenza dall'Ambiente: Variabilità nelle prestazioni tra diverse organizzazioni/ambienti
  4. Modello del Mondo Incompleto: Dopo una singola traiettoria, il modello di linguaggio potrebbe mancare di un modello ambientale completo

Direzioni Future

  1. Rappresentazione Programmatica: Esplorare l'efficacia delle rappresentazioni di traiettorie in codice
  2. Regole di Aggiornamento Complesse: Progettare meccanismi di fusione informativa più precisi
  3. Memoria Aumentata da Recupero: Combinare con meccanismi di memoria basati su recupero
  4. Miglioramento della Robustezza: Aumentare la coerenza delle prestazioni tra ambienti

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo adattamento di HER agli agenti LM, con significativo valore teorico e pratico
  2. Esperimenti Completi: Validazione in due tipi diversi di ambienti, inclusa analisi di ablazione dettagliata
  3. Alto Valore Pratico: Risolve il problema critico dell'efficienza campionaria degli agenti LM in ambienti con interazioni ad alto costo
  4. Metodo Generico: Il design del framework ha buona scalabilità e adattabilità

Insufficienze

  1. Limitazioni del Benchmark: Testato solo in due ambienti relativamente semplici, mancanza di validazione in scenari reali più complessi
  2. Analisi Teorica Insufficiente: Manca analisi approfondita sulla convergenza del metodo e garanzie teoriche
  3. Overhead Computazionale: Molteplici chiamate al modello di linguaggio potrebbero comportare costi computazionali aggiuntivi
  4. Dipendenza dalle Capacità del Modello: L'efficacia del metodo dipende fortemente dalle capacità di ragionamento e generazione del modello di linguaggio sottostante

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento esperienziale degli agenti LM
  2. Applicazione Pratica: Ha potenziale di applicazione in scenari ad alto costo come interazione umana e controllo di robot
  3. Ispirazione Metodologica: Fornisce idee di design per altri algoritmi di apprendimento basati su modelli di linguaggio

Scenari Applicabili

  1. Ambienti con Interazioni ad Alto Costo: Dialogo uomo-macchina, controllo di sistemi fisici
  2. Compiti con Ricompense Sparse: Problemi di navigazione e pianificazione orientati all'esplorazione
  3. Ambienti Parzialmente Osservabili: Scenari in cui è necessario imparare la struttura dell'ambiente attraverso l'interazione
  4. Compiti Multi-Obiettivo: Ambienti in cui è possibile imparare più sottoabilità da una singola esperienza

Riferimenti Bibliografici

  • Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
  • Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
  • Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
  • Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Valutazione Complessiva: Il framework ECHO proposto in questo articolo ha raggiunto progressi importanti nell'apprendimento efficiente in termini di campioni degli agenti LM. Il metodo è innovativo e i risultati sperimentali sono convincenti. Sebbene esistano alcune limitazioni, fornisce una base solida per lo sviluppo futuro del campo, con significativo valore accademico e potenziale di applicazione pratica.