2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

Apprendimento Online Efficiente in Termini di Campioni negli Agenti LM tramite Riscrittura di Traiettorie Retroattive

Informazioni Fondamentali

ID Articolo: 2510.10304
Titolo: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Autori: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
Classificazione: cs.LG cs.AI cs.CL
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10304
Link Codice: https://github.com/michahu/echo

Riassunto

Gli agenti basati su modelli di linguaggio (LM) distribuiti in nuovi ambienti spesso mostrano scarsa efficienza campionaria nell'apprendimento tramite interazioni sequenziali. Ciò ostacola significativamente l'utilità pratica di tali agenti in ambienti con costi di interazione elevati (ad esempio, interazione umana o ripristino di sistemi fisici). Sebbene le architetture attuali degli agenti LM incorporino vari meccanismi di memorizzazione dell'esperienza e riflessione, sfruttano limitatamente la capacità dei modelli di linguaggio di generare o ragionare direttamente su traiettorie contraffattuali complete. Questo articolo introduce ECHO (Experience Consolidation via Hindsight Optimization), un framework di prompt che adatta la riproduzione dell'esperienza retroattiva dall'apprendimento per rinforzo agli agenti basati su modelli di linguaggio. ECHO genera traiettorie ottimizzate per obiettivi alternativi potenzialmente realizzabili in tentativi falliti, creando efficacemente esempi positivi sintetici da interazioni non riuscite. Il metodo comprende due componenti: una regola retroattiva che utilizza il modello di linguaggio stesso per identificare sottobiettivi rilevanti e generare traiettorie ottimizzate, e una regola di aggiornamento che mantiene rappresentazioni di traiettorie compresse in memoria.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Bassa Efficienza Campionaria: Gli agenti LM mostrano scarsa efficienza campionaria nell'apprendimento in nuovi ambienti, specialmente in scenari con costi di interazione elevati
Ragionamento Contraffattuale Limitato: I metodi esistenti si concentrano principalmente sulla memorizzazione o sintesi dell'esperienza, sfruttando insufficientemente la capacità dei modelli di linguaggio di ragionare su traiettorie contraffattuali
Ambienti con Ricompense Sparse: In ambienti con ricompense sparse, gli agenti faticano ad apprendere dalle esperienze fallite

Importanza del Problema

Esigenze di Applicazione Pratica: Migliorare l'efficienza campionaria è cruciale in scenari ad alto costo come l'interazione umana o il ripristino di sistemi fisici
Requisiti di Adattabilità: Gli agenti devono adattarsi rapidamente a nuovi ambienti, come gli assistenti conversazionali in nuove organizzazioni che devono imparare modalità di recupero informazioni e comunicazione

Limitazioni dei Metodi Esistenti

Reflexion: Fornisce principalmente riflessioni di alto livello, ma il feedback è spesso troppo generico per modificare le prestazioni del modello
AWM (Agent Workflow Memory): Memorizza solo i flussi di lavoro delle traiettorie riuscite, sfruttando insufficientemente le esperienze fallite
Riproduzione dell'Esperienza Tradizionale: Si concentra principalmente su ricompense numeriche e stati, incapace di eseguire modifiche flessibili delle traiettorie

Contributi Fondamentali

Propone il Framework ECHO: Primo framework di prompt che adatta la riproduzione dell'esperienza retroattiva (HER) agli agenti basati su modelli di linguaggio
Meccanismo Innovativo di Riscrittura delle Traiettorie: Capace di riscrivere arbitrariamente traiettorie fallite, inclusa la modifica di obiettivi e passaggi intermedi
Costruzione di Benchmark Stateful: Crea due ambienti benchmark che richiedono esplorazione: XMiniGrid-Stateful e PeopleJoinQA-Stateful
Miglioramento Significativo delle Prestazioni: Miglioramento dell'80% rispetto alla baseline ReAct su XMiniGrid, del 42% rispetto alla baseline sub-ottimale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Considera un'impostazione online in cui un agente LM elabora sequenzialmente una sequenza di query da t=0 a T, senza accesso alla vera funzione di ricompensa o ai dati di dimostrazione. L'agente deve imparare attraverso l'interazione con l'ambiente e migliorare l'efficienza delle decisioni future.

Architettura ECHO

Componenti Principali

ECHO comprende due componenti principali:

Regola Retroattiva (Hindsight Rule):
- Propone obiettivi realizzabili da una data traiettoria
- Genera traiettorie ottimizzate o descrizioni per questi obiettivi
- Non esegue alcuna operazione se non è possibile proporre obiettivi
Regola di Aggiornamento (Update Rule):
- Confronta le nuove descrizioni generate con la descrizione precedente
- Salva il flusso di lavoro più breve (basato sul principio della lunghezza minima della descrizione)
- Mantiene rappresentazioni di traiettorie compresse

Flusso Algoritmico

def ECHO(LM, trajectory, replay_buf={}):
    # Regola retroattiva
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Regola di aggiornamento
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Punti di Innovazione Tecnica

Capacità Espressiva Aumentata: A differenza della HER tradizionale che può solo rietichettare obiettivi, ECHO può riscrivere arbitrariamente la struttura delle traiettorie
Sfruttamento della Conoscenza Preaddestrata: Utilizza la conoscenza del mondo del modello di linguaggio per colmare lacune informative e proporre informazioni contraffattuali ragionevoli
Rappresentazione Compressa: Basata sulla complessità di Kolmogorov, mantiene la descrizione più breve possibile per il raggiungimento dell'obiettivo
Meccanismo Adattivo: Il modello di linguaggio può scegliere il livello di astrazione, evitando di aggiungere traiettorie non valide

Configurazione Sperimentale

Dataset

XMiniGrid-Stateful

Ambiente Base: Compiti di navigazione e pianificazione in GridWorld 2D generati proceduralmente
Modifica Stateful: L'agente esegue obiettivi campionati casualmente nello stesso ambiente, potendo imparare le posizioni di oggetti non visti
Scala: 10 ambienti unici, 4 stanze e 4 oggetti per ambiente, 16 query per ambiente
Compito: Raccogliere oggetti campionati casualmente entro 64 passi, con ambiente parzialmente osservabile che aumenta la difficoltà

PeopleJoinQA-Stateful

Ambiente Base: Compito di raccolta informazioni collaborativa multi-agente e risposta a domande
Modifica Stateful: Struttura organizzativa fissa, l'agente risponde a tutte le domande su quell'organizzazione
Scala: 5 organizzazioni, 248 query totali, media di 7,98 messaggi per query
Compito: Contattare persone simulate tramite chiamate di strumenti, sintetizzare informazioni per rispondere a domande

Metriche di Valutazione

Ricompensa Media Finale (Accuratezza): Misura le prestazioni finali

Ricompensa Media Cumulativa: Misura l'efficienza campionaria

Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt

Miglioramento Relativo alla Baseline ReAct: Normalizza la difficoltà del problema

Metodi di Confronto

ReAct: Agente baseline ragionamento-azione
Reflexion: Apprendimento per rinforzo linguistico per agenti linguistici
AWM: Memoria del Flusso di Lavoro dell'Agente
AWM++: AWM + regola di aggiornamento ECHO

Dettagli di Implementazione

Modello: GPT-4o
Impostazione Temperatura: ReAct utilizza 0, inferenza offline utilizza 0,7 in PeopleJoin
Token Massimi: 3800-4000
Validità della Traiettoria: 85% delle traiettorie sintetiche sono eseguibili in XMiniGrid

Risultati Sperimentali

Risultati Principali

XMiniGrid-Stateful

Rispetto a ReAct: Miglioramento della ricompensa media dell'80%
Rispetto alla Baseline Sub-ottimale: Miglioramento del 42%
Efficienza Campionaria: La ricompensa cumulativa supera la baseline ReAct dopo 3 interazioni
Strettamente Superiore: A tutti i metodi di confronto inclusi Reflexion e AWM

PeopleJoinQA-Stateful

Accuratezza: Leggermente inferiore a Reflexion del 4,6%, ma comunque superiore a ReAct
Efficienza: Riduzione media di 1,6 messaggi, in linea con AWM
Efficienza Campionaria: Supera la baseline ReAct dopo la prima query

Analisi della Validità della Traiettoria

In 40 esempi campionati da XMiniGrid:

Tasso di Successo dell'85%: L'agente raggiunge con successo l'obiettivo sintetico
Cause di Fallimento: 4 casi dovuti a deviazioni di esecuzione, 2 casi dovuti a passaggi non fattibili
Conclusione: I flussi di lavoro contraffattuali generati da ECHO sono per lo più corretti ed efficaci

Analisi dei Casi

Esempio di Traiettoria Fallita: L'agente non riesce a raccogliere la chiave grigia

Output di Reflexion: Feedback generico, mancanza di suggerimenti di miglioramento specifici
Output di AWM: Correttamente non genera flusso di lavoro a causa del fallimento
Output di ECHO: Identifica che l'agente ha osservato una stella grigia, genera una traiettoria ottimizzata per raccogliere la stella grigia

Variabilità tra Organizzazioni

In PeopleJoinQA, il metodo ottimale varia tra diverse organizzazioni:

Nessun metodo è strettamente dominante su tutte le organizzazioni
ECHO diventa il metodo più efficiente in alcune organizzazioni (ad esempio, grandi magazzini)
Indica la necessità di migliorare la robustezza dei metodi offline

Lavori Correlati

Agenti Basati su Modelli di Linguaggio

Stato Attuale: Transizione dalla dipendenza da conoscenza statica all'adattamento in ambienti dinamici
Sfide Principali: Capacità insufficiente di esplorazione e adattamento in nuovi ambienti
Campi di Applicazione: Navigazione web, utilizzo di strumenti, collaborazione multi-agente, generazione di codice

Classificazione dei Sistemi di Memoria

Secondo la classificazione di Sumers et al.:

Memoria Semantica: Fatti ambientali (ad esempio, riflessioni di Reflexion)
Memoria Episodica: Azioni passate (ad esempio, flussi di lavoro di AWM)

ECHO migliora principalmente i meccanismi di costruzione e aggiornamento della memoria episodica

Tecniche di Riproduzione dell'Esperienza

HER Tradizionale: Rietichetta gli obiettivi delle traiettorie, ma non modifica la struttura della traiettoria
Vantaggi in Ambienti con Ricompense Sparse: Estrae il massimo segnale di apprendimento da pochi esempi positivi
Estensione ECHO: Non solo rietichetta gli obiettivi, ma può modificare arbitrariamente qualsiasi aspetto della traiettoria

Conclusioni e Discussione

Conclusioni Principali

Validazione dell'Efficacia: ECHO migliora significativamente l'efficienza campionaria in due ambienti che richiedono esplorazione
Vantaggi del Meccanismo: Converte i fallimenti in successi sintetici, sfruttando meglio le esperienze passate
Scenari Applicabili: Particolarmente efficace in ambienti con ricompense sparse e baseline scadenti

Limitazioni

Limitazioni della Forma di Rappresentazione: Utilizza principalmente rappresentazioni in linguaggio naturale, le rappresentazioni in codice potrebbero essere più efficaci
Semplificazione della Regola di Aggiornamento: La regola di aggiornamento euristica basata sulla lunghezza potrebbe essere troppo semplice
Dipendenza dall'Ambiente: Variabilità nelle prestazioni tra diverse organizzazioni/ambienti
Modello del Mondo Incompleto: Dopo una singola traiettoria, il modello di linguaggio potrebbe mancare di un modello ambientale completo

Direzioni Future

Rappresentazione Programmatica: Esplorare l'efficacia delle rappresentazioni di traiettorie in codice
Regole di Aggiornamento Complesse: Progettare meccanismi di fusione informativa più precisi
Memoria Aumentata da Recupero: Combinare con meccanismi di memoria basati su recupero
Miglioramento della Robustezza: Aumentare la coerenza delle prestazioni tra ambienti

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo adattamento di HER agli agenti LM, con significativo valore teorico e pratico
Esperimenti Completi: Validazione in due tipi diversi di ambienti, inclusa analisi di ablazione dettagliata
Alto Valore Pratico: Risolve il problema critico dell'efficienza campionaria degli agenti LM in ambienti con interazioni ad alto costo
Metodo Generico: Il design del framework ha buona scalabilità e adattabilità

Insufficienze

Limitazioni del Benchmark: Testato solo in due ambienti relativamente semplici, mancanza di validazione in scenari reali più complessi
Analisi Teorica Insufficiente: Manca analisi approfondita sulla convergenza del metodo e garanzie teoriche
Overhead Computazionale: Molteplici chiamate al modello di linguaggio potrebbero comportare costi computazionali aggiuntivi
Dipendenza dalle Capacità del Modello: L'efficacia del metodo dipende fortemente dalle capacità di ragionamento e generazione del modello di linguaggio sottostante

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento esperienziale degli agenti LM
Applicazione Pratica: Ha potenziale di applicazione in scenari ad alto costo come interazione umana e controllo di robot
Ispirazione Metodologica: Fornisce idee di design per altri algoritmi di apprendimento basati su modelli di linguaggio

Scenari Applicabili

Ambienti con Interazioni ad Alto Costo: Dialogo uomo-macchina, controllo di sistemi fisici
Compiti con Ricompense Sparse: Problemi di navigazione e pianificazione orientati all'esplorazione
Ambienti Parzialmente Osservabili: Scenari in cui è necessario imparare la struttura dell'ambiente attraverso l'interazione
Compiti Multi-Obiettivo: Ambienti in cui è possibile imparare più sottoabilità da una singola esperienza

Riferimenti Bibliografici

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Valutazione Complessiva: Il framework ECHO proposto in questo articolo ha raggiunto progressi importanti nell'apprendimento efficiente in termini di campioni degli agenti LM. Il metodo è innovativo e i risultati sperimentali sono convincenti. Sebbene esistano alcune limitazioni, fornisce una base solida per lo sviluppo futuro del campo, con significativo valore accademico e potenziale di applicazione pratica.