Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic
Apprendimento Online Efficiente in Termini di Campioni negli Agenti LM tramite Riscrittura di Traiettorie Retroattive
Gli agenti basati su modelli di linguaggio (LM) distribuiti in nuovi ambienti spesso mostrano scarsa efficienza campionaria nell'apprendimento tramite interazioni sequenziali. Ciò ostacola significativamente l'utilità pratica di tali agenti in ambienti con costi di interazione elevati (ad esempio, interazione umana o ripristino di sistemi fisici). Sebbene le architetture attuali degli agenti LM incorporino vari meccanismi di memorizzazione dell'esperienza e riflessione, sfruttano limitatamente la capacità dei modelli di linguaggio di generare o ragionare direttamente su traiettorie contraffattuali complete. Questo articolo introduce ECHO (Experience Consolidation via Hindsight Optimization), un framework di prompt che adatta la riproduzione dell'esperienza retroattiva dall'apprendimento per rinforzo agli agenti basati su modelli di linguaggio. ECHO genera traiettorie ottimizzate per obiettivi alternativi potenzialmente realizzabili in tentativi falliti, creando efficacemente esempi positivi sintetici da interazioni non riuscite. Il metodo comprende due componenti: una regola retroattiva che utilizza il modello di linguaggio stesso per identificare sottobiettivi rilevanti e generare traiettorie ottimizzate, e una regola di aggiornamento che mantiene rappresentazioni di traiettorie compresse in memoria.
Bassa Efficienza Campionaria: Gli agenti LM mostrano scarsa efficienza campionaria nell'apprendimento in nuovi ambienti, specialmente in scenari con costi di interazione elevati
Ragionamento Contraffattuale Limitato: I metodi esistenti si concentrano principalmente sulla memorizzazione o sintesi dell'esperienza, sfruttando insufficientemente la capacità dei modelli di linguaggio di ragionare su traiettorie contraffattuali
Ambienti con Ricompense Sparse: In ambienti con ricompense sparse, gli agenti faticano ad apprendere dalle esperienze fallite
Esigenze di Applicazione Pratica: Migliorare l'efficienza campionaria è cruciale in scenari ad alto costo come l'interazione umana o il ripristino di sistemi fisici
Requisiti di Adattabilità: Gli agenti devono adattarsi rapidamente a nuovi ambienti, come gli assistenti conversazionali in nuove organizzazioni che devono imparare modalità di recupero informazioni e comunicazione
Reflexion: Fornisce principalmente riflessioni di alto livello, ma il feedback è spesso troppo generico per modificare le prestazioni del modello
AWM (Agent Workflow Memory): Memorizza solo i flussi di lavoro delle traiettorie riuscite, sfruttando insufficientemente le esperienze fallite
Riproduzione dell'Esperienza Tradizionale: Si concentra principalmente su ricompense numeriche e stati, incapace di eseguire modifiche flessibili delle traiettorie
Propone il Framework ECHO: Primo framework di prompt che adatta la riproduzione dell'esperienza retroattiva (HER) agli agenti basati su modelli di linguaggio
Meccanismo Innovativo di Riscrittura delle Traiettorie: Capace di riscrivere arbitrariamente traiettorie fallite, inclusa la modifica di obiettivi e passaggi intermedi
Costruzione di Benchmark Stateful: Crea due ambienti benchmark che richiedono esplorazione: XMiniGrid-Stateful e PeopleJoinQA-Stateful
Miglioramento Significativo delle Prestazioni: Miglioramento dell'80% rispetto alla baseline ReAct su XMiniGrid, del 42% rispetto alla baseline sub-ottimale
Considera un'impostazione online in cui un agente LM elabora sequenzialmente una sequenza di query da t=0 a T, senza accesso alla vera funzione di ricompensa o ai dati di dimostrazione. L'agente deve imparare attraverso l'interazione con l'ambiente e migliorare l'efficienza delle decisioni future.
Capacità Espressiva Aumentata: A differenza della HER tradizionale che può solo rietichettare obiettivi, ECHO può riscrivere arbitrariamente la struttura delle traiettorie
Sfruttamento della Conoscenza Preaddestrata: Utilizza la conoscenza del mondo del modello di linguaggio per colmare lacune informative e proporre informazioni contraffattuali ragionevoli
Rappresentazione Compressa: Basata sulla complessità di Kolmogorov, mantiene la descrizione più breve possibile per il raggiungimento dell'obiettivo
Meccanismo Adattivo: Il modello di linguaggio può scegliere il livello di astrazione, evitando di aggiungere traiettorie non valide
Limitazioni della Forma di Rappresentazione: Utilizza principalmente rappresentazioni in linguaggio naturale, le rappresentazioni in codice potrebbero essere più efficaci
Semplificazione della Regola di Aggiornamento: La regola di aggiornamento euristica basata sulla lunghezza potrebbe essere troppo semplice
Dipendenza dall'Ambiente: Variabilità nelle prestazioni tra diverse organizzazioni/ambienti
Modello del Mondo Incompleto: Dopo una singola traiettoria, il modello di linguaggio potrebbe mancare di un modello ambientale completo
Limitazioni del Benchmark: Testato solo in due ambienti relativamente semplici, mancanza di validazione in scenari reali più complessi
Analisi Teorica Insufficiente: Manca analisi approfondita sulla convergenza del metodo e garanzie teoriche
Overhead Computazionale: Molteplici chiamate al modello di linguaggio potrebbero comportare costi computazionali aggiuntivi
Dipendenza dalle Capacità del Modello: L'efficacia del metodo dipende fortemente dalle capacità di ragionamento e generazione del modello di linguaggio sottostante
Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.
Valutazione Complessiva: Il framework ECHO proposto in questo articolo ha raggiunto progressi importanti nell'apprendimento efficiente in termini di campioni degli agenti LM. Il metodo è innovativo e i risultati sperimentali sono convincenti. Sebbene esistano alcune limitazioni, fornisce una base solida per lo sviluppo futuro del campo, con significativo valore accademico e potenziale di applicazione pratica.