Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic
Stichprobeneffiziente Online-Lernvorgänge in LM-Agenten durch Hindsight-Trajektorienumschreibung
Sprachmodell(LM)-Agenten zeigen bei der Bereitstellung in neuen Umgebungen häufig eine schlechte Stichprobeneffizienz beim sequenziellen Interaktionslernen. Dies behindert erheblich die Praktikabilität solcher Agenten in Umgebungen mit hohen Interaktionskosten (z. B. bei der Interaktion mit Menschen oder beim Zurücksetzen physischer Systeme). Obwohl bestehende LM-Agenten-Architekturen verschiedene Erfahrungsspeicher- und Reflexionsmechanismen integrieren, ist ihre Nutzung der Fähigkeit von LMs, vollständige kontrafaktische Trajektorien direkt zu generieren oder zu begründen, begrenzt. Dieses Papier führt ECHO (Experience Consolidation via Hindsight Optimization) ein, ein Prompt-Framework, das Hindsight-Erfahrungswiedergabe aus dem Reinforcement Learning an Sprachmodell-Agenten anpasst. ECHO generiert optimierte Trajektorien für alternative Ziele, die in fehlgeschlagenen Versuchen erreichbar sind, und schafft effektiv synthetische positive Beispiele aus erfolgloser Interaktion. Die Methode umfasst zwei Komponenten: Hindsight-Regeln, die das Sprachmodell selbst verwenden, um relevante Unterziele zu identifizieren und optimierte Trajektorien zu generieren, sowie Aktualisierungsregeln, die komprimierte Trajektorienrepräsentationen im Speicher verwalten.
Geringe Stichprobeneffizienz: LM-Agenten zeigen beim Lernen in neuen Umgebungen schlechte Stichprobeneffizienz, besonders in Szenarien mit hohen Interaktionskosten
Begrenzte kontrafaktische Begründung: Bestehende Methoden konzentrieren sich hauptsächlich auf das Speichern oder Synthetisieren von Erfahrungen und nutzen nicht vollständig die Fähigkeit von LMs, kontrafaktische Trajektorien zu begründen
Spärliche Belohnungsumgebungen: In Umgebungen mit spärlichen Belohnungen haben Agenten Schwierigkeiten, aus fehlgeschlagenen Erfahrungen zu lernen
Praktische Anforderungen: In hochkostigen Szenarien wie Mensch-Computer-Interaktion oder Zurücksetzen physischer Systeme ist die Verbesserung der Stichprobeneffizienz entscheidend
Anpassungsanforderungen: Agenten müssen sich schnell an neue Umgebungen anpassen, z. B. müssen Dialogassistenten in neuen Organisationen lernen, wie man Informationen beschafft und kommuniziert
Traditionelle Erfahrungswiedergabe: Konzentriert sich hauptsächlich auf numerische Belohnungen und Zustände, kann keine flexible Trajektorienbearbeitung durchführen
Vorschlag des ECHO-Frameworks: Das erste Prompt-Framework, das Hindsight-Erfahrungswiedergabe (HER) an Sprachmodell-Agenten anpasst
Innovativer Trajektorienschreib-Mechanismus: Kann fehlgeschlagene Trajektorien beliebig umschreiben, einschließlich Änderung von Zielen und Zwischenschritten
Konstruktion zustandsbehafteter Benchmarks: Erstellt zwei Benchmark-Umgebungen XMiniGrid-Stateful und PeopleJoinQA-Stateful, die Erkundung erfordern
Signifikante Leistungsverbesserung: 80% Verbesserung gegenüber ReAct-Baseline auf XMiniGrid, 42% Verbesserung gegenüber zweitbester Baseline
Betrachten Sie eine Online-Einstellung, in der ein LM-Agent eine Abfolge von Abfragen von Zeit t=0 bis T sequenziell verarbeitet, ohne Zugriff auf die echte Belohnungsfunktion oder Demonstrationsdaten. Der Agent muss durch Interaktion mit der Umgebung lernen und die Effizienz zukünftiger Entscheidungen verbessern.
Verbesserte Ausdruckskraft: Im Gegensatz zu traditionellem HER, das nur Ziele neu kennzeichnen kann, kann ECHO Trajektorienstrukturen beliebig umschreiben
Nutzung vortrainierter Kenntnisse: Verwendet das Weltwissen des LM, um Informationslücken zu füllen und vernünftige kontrafaktische Informationen vorzuschlagen
Komprimierte Darstellung: Basierend auf der Kolmogorov-Komplexität wird die kürzestmögliche Beschreibung der Zielerreichung verwaltet
Adaptiver Mechanismus: Das LM kann Abstraktionen wählen, um zu vermeiden, dass ungültige Trajektorien hinzugefügt werden
Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.
Gesamtbewertung: Das in diesem Papier vorgeschlagene ECHO-Framework hat wichtige Fortschritte beim stichprobeneffizienten Lernen von LM-Agenten erzielt. Die Methode ist innovativ und die experimentellen Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen gibt, legt es eine gute Grundlage für die zukünftige Entwicklung dieses Bereichs und hat hohen akademischen Wert sowie praktisches Anwendungspotenzial.