2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

Stichprobeneffiziente Online-Lernvorgänge in LM-Agenten durch Hindsight-Trajektorienumschreibung

Grundlegende Informationen

Papier-ID: 2510.10304
Titel: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Autoren: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
Klassifizierung: cs.LG cs.AI cs.CL
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.10304
Codelink: https://github.com/michahu/echo

Zusammenfassung

Sprachmodell(LM)-Agenten zeigen bei der Bereitstellung in neuen Umgebungen häufig eine schlechte Stichprobeneffizienz beim sequenziellen Interaktionslernen. Dies behindert erheblich die Praktikabilität solcher Agenten in Umgebungen mit hohen Interaktionskosten (z. B. bei der Interaktion mit Menschen oder beim Zurücksetzen physischer Systeme). Obwohl bestehende LM-Agenten-Architekturen verschiedene Erfahrungsspeicher- und Reflexionsmechanismen integrieren, ist ihre Nutzung der Fähigkeit von LMs, vollständige kontrafaktische Trajektorien direkt zu generieren oder zu begründen, begrenzt. Dieses Papier führt ECHO (Experience Consolidation via Hindsight Optimization) ein, ein Prompt-Framework, das Hindsight-Erfahrungswiedergabe aus dem Reinforcement Learning an Sprachmodell-Agenten anpasst. ECHO generiert optimierte Trajektorien für alternative Ziele, die in fehlgeschlagenen Versuchen erreichbar sind, und schafft effektiv synthetische positive Beispiele aus erfolgloser Interaktion. Die Methode umfasst zwei Komponenten: Hindsight-Regeln, die das Sprachmodell selbst verwenden, um relevante Unterziele zu identifizieren und optimierte Trajektorien zu generieren, sowie Aktualisierungsregeln, die komprimierte Trajektorienrepräsentationen im Speicher verwalten.

Forschungshintergrund und Motivation

Kernprobleme

Geringe Stichprobeneffizienz: LM-Agenten zeigen beim Lernen in neuen Umgebungen schlechte Stichprobeneffizienz, besonders in Szenarien mit hohen Interaktionskosten
Begrenzte kontrafaktische Begründung: Bestehende Methoden konzentrieren sich hauptsächlich auf das Speichern oder Synthetisieren von Erfahrungen und nutzen nicht vollständig die Fähigkeit von LMs, kontrafaktische Trajektorien zu begründen
Spärliche Belohnungsumgebungen: In Umgebungen mit spärlichen Belohnungen haben Agenten Schwierigkeiten, aus fehlgeschlagenen Erfahrungen zu lernen

Bedeutung des Problems

Praktische Anforderungen: In hochkostigen Szenarien wie Mensch-Computer-Interaktion oder Zurücksetzen physischer Systeme ist die Verbesserung der Stichprobeneffizienz entscheidend
Anpassungsanforderungen: Agenten müssen sich schnell an neue Umgebungen anpassen, z. B. müssen Dialogassistenten in neuen Organisationen lernen, wie man Informationen beschafft und kommuniziert

Einschränkungen bestehender Methoden

Reflexion: Bietet hauptsächlich hochrangige Reflexion, aber Rückmeldungen sind oft zu allgemein, um die Modellleistung zu verändern
AWM (Agent Workflow Memory): Speichert nur Arbeitsabläufe erfolgreicher Trajektorien, unternutzt fehlgeschlagene Erfahrungen
Traditionelle Erfahrungswiedergabe: Konzentriert sich hauptsächlich auf numerische Belohnungen und Zustände, kann keine flexible Trajektorienbearbeitung durchführen

Kernbeiträge

Vorschlag des ECHO-Frameworks: Das erste Prompt-Framework, das Hindsight-Erfahrungswiedergabe (HER) an Sprachmodell-Agenten anpasst
Innovativer Trajektorienschreib-Mechanismus: Kann fehlgeschlagene Trajektorien beliebig umschreiben, einschließlich Änderung von Zielen und Zwischenschritten
Konstruktion zustandsbehafteter Benchmarks: Erstellt zwei Benchmark-Umgebungen XMiniGrid-Stateful und PeopleJoinQA-Stateful, die Erkundung erfordern
Signifikante Leistungsverbesserung: 80% Verbesserung gegenüber ReAct-Baseline auf XMiniGrid, 42% Verbesserung gegenüber zweitbester Baseline

Methodische Details

Aufgabendefinition

Betrachten Sie eine Online-Einstellung, in der ein LM-Agent eine Abfolge von Abfragen von Zeit t=0 bis T sequenziell verarbeitet, ohne Zugriff auf die echte Belohnungsfunktion oder Demonstrationsdaten. Der Agent muss durch Interaktion mit der Umgebung lernen und die Effizienz zukünftiger Entscheidungen verbessern.

ECHO-Architektur

Kernkomponenten

ECHO umfasst zwei Hauptkomponenten:

Hindsight-Regel:
- Schlägt erreichbare Ziele aus einer gegebenen Trajektorie vor
- Generiert optimierte Trajektorien oder Beschreibungen für diese Ziele
- Führt keine Aktion durch, wenn keine Ziele vorgeschlagen werden können
Aktualisierungsregel:
- Vergleicht neu generierte Beschreibungen mit vorherigen Beschreibungen
- Speichert kürzere Arbeitsabläufe (basierend auf dem Prinzip der minimalen Beschreibungslänge)
- Verwaltet komprimierte Trajektorienrepräsentationen

Algorithmus-Ablauf

def ECHO(LM, trajectory, replay_buf={}):
    # Hindsight-Regel
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Aktualisierungsregel
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Technische Innovationen

Verbesserte Ausdruckskraft: Im Gegensatz zu traditionellem HER, das nur Ziele neu kennzeichnen kann, kann ECHO Trajektorienstrukturen beliebig umschreiben
Nutzung vortrainierter Kenntnisse: Verwendet das Weltwissen des LM, um Informationslücken zu füllen und vernünftige kontrafaktische Informationen vorzuschlagen
Komprimierte Darstellung: Basierend auf der Kolmogorov-Komplexität wird die kürzestmögliche Beschreibung der Zielerreichung verwaltet
Adaptiver Mechanismus: Das LM kann Abstraktionen wählen, um zu vermeiden, dass ungültige Trajektorien hinzugefügt werden

Experimentelle Einrichtung

Datensätze

XMiniGrid-Stateful

Basisumgebung: Prozedural generierte 2D-GridWorld-Navigations- und Planungsaufgaben
Zustandsbehaftete Modifikation: Agent führt zufällig gesampelte Ziele in derselben Umgebung aus und kann Positionen ungesehener Objekte lernen
Umfang: 10 eindeutige Umgebungen, jede mit 4 Räumen und 4 Objekten, 16 Abfragen pro Umgebung
Aufgabe: Zufällig gesampelte Objekte innerhalb von 64 Schritten aufgreifen, teilweise beobachtbare Umgebung erhöht die Herausforderung

PeopleJoinQA-Stateful

Basisumgebung: Multi-Agent-Kollaborations-Informationsbeschaffungs-Frage-Antwort-Aufgabe
Zustandsbehaftete Modifikation: Feste Organisationsstruktur, Agent beantwortet alle Fragen dieser Organisation
Umfang: 5 Organisationen, insgesamt 248 Abfragen, durchschnittlich 7,98 Nachrichten pro Abfrage erforderlich
Aufgabe: Kontaktieren Sie simulierte Personen durch Werkzeugaufrufe, synthetisieren Sie Informationen zur Beantwortung von Fragen

Bewertungsmetriken

Endgültige durchschnittliche Belohnung (Genauigkeit): Misst die endgültige Leistung
Kumulative durchschnittliche Belohnung: Misst die Stichprobeneffizienz
```
Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
```
Verbesserung gegenüber ReAct-Baseline: Normalisiert die Aufgabenschwierigkeit

Vergleichsmethoden

ReAct: Reasoning-Acting-Baseline-Agent
Reflexion: Sprachverstärkungslernverfahren für Sprachagenten
AWM: Agent Workflow Memory
AWM++: AWM + ECHO-Aktualisierungsregel

Implementierungsdetails

Modell: GPT-4o
Temperatureinstellung: ReAct verwendet 0, Offline-Begründung in PeopleJoin verwendet 0,7
Maximale Token: 3800-4000
Trajektoriengültigkeit: 85% der synthetischen Trajektorien sind auf XMiniGrid ausführbar

Experimentelle Ergebnisse

Hauptergebnisse

XMiniGrid-Stateful

Gegenüber ReAct: Durchschnittliche Belohnungsverbesserung um 80%
Gegenüber zweitbester Baseline: Verbesserung um 42%
Stichprobeneffizienz: Nach 3 Interaktionen überschreitet kumulative Belohnung ReAct-Baseline
Streng überlegen: Alle Vergleichsmethoden einschließlich Reflexion und AWM

PeopleJoinQA-Stateful

Genauigkeit: Leicht unter Reflexion um 4,6%, aber immer noch besser als ReAct
Effizienz: Durchschnittlich 1,6 Nachrichten weniger, vergleichbar mit AWM
Stichprobeneffizienz: Überschreitet ReAct-Baseline nach der ersten Abfrage

Trajektoriengültigkeitsanalyse

In 40 Stichprobenbeispielen auf XMiniGrid:

85% Erfolgsquote: Agent erreicht erfolgreich das synthetische Ziel
Fehlerursachen: 4 Fälle aufgrund von Ausführungsabweichungen, 2 Fälle aufgrund nicht durchführbarer Schritte
Schlussfolgerung: Die von ECHO generierten kontrafaktischen Arbeitsabläufe sind größtenteils korrekt und effektiv

Fallstudienanalyse

Beispiel fehlgeschlagener Trajektorie: Agent konnte grauen Schlüssel nicht aufgreifen

Reflexion-Ausgabe: Allgemeine Rückmeldung, mangelnde spezifische Verbesserungsvorschläge
AWM-Ausgabe: Generiert aufgrund des Fehlers korrekt keinen Arbeitsablauf
ECHO-Ausgabe: Identifiziert, dass Agent grauen Stern beobachtete, generiert optimierte Trajektorie zum Aufgreifen des grauen Sterns

Organisationsübergreifende Variabilität

In PeopleJoinQA unterscheiden sich die optimalen Methoden zwischen Organisationen:

Keine Methode ist auf allen Organisationen streng überlegen
ECHO wird in einigen Organisationen (z. B. Kaufhäuser) zur effizientesten Methode
Zeigt die Notwendigkeit, die Robustheit von Offline-Methoden zu verbessern

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Wirksamkeitsvalidierung: ECHO verbessert die Stichprobeneffizienz in zwei Explorationsumgebungen erheblich
Mechanistische Vorteile: Nutzt vergangene Erfahrungen besser, indem Fehler in synthetische Erfolge umgewandelt werden
Anwendbare Szenarien: Besonders wirksam in Umgebungen mit spärlichen Belohnungen und schlechter Baseline-Leistung

Einschränkungen

Darstellungsformulierungsbeschränkungen: Verwendet hauptsächlich natürlichsprachliche Darstellung, Code-artige Darstellung könnte effektiver sein
Vereinfachte Aktualisierungsregel: Längenheuristische Aktualisierungsregel könnte zu simpel sein
Umgebungsabhängigkeit: Leistungsvariabilität zwischen verschiedenen Organisationen/Umgebungen
Unvollständiges Weltmodell: LM könnte nach einer einzelnen Trajektorie ein unvollständiges Umgebungsmodell haben

Zukünftige Richtungen

Programmatische Darstellung: Erkundung der Wirksamkeit Code-artiger Trajektorienrepräsentationen
Komplexe Aktualisierungsregeln: Entwurf präziserer Informationsfusionsmechanismen
Abruf-verstärkte Speicherung: Integration mit abrufgestützten Speichermechanismen
Robustheitsverbesserung: Verbesserung der konsistenten Leistung über Umgebungen hinweg

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erste Anpassung von HER an LM-Agenten mit wichtigem theoretischen und praktischem Wert
Umfassende Experimente: Validierung in zwei verschiedenen Umgebungstypen mit detaillierten Ablationsstudien
Hoher praktischer Wert: Löst kritische Probleme von LM-Agenten in hochkostigen Interaktionsumgebungen
Universelle Methode: Framework-Design mit guter Erweiterbarkeit und Anpassungsfähigkeit

Mängel

Benchmark-Einschränkungen: Nur in zwei relativ einfachen Umgebungen getestet, mangelnde Validierung in komplexeren realen Szenarien
Unzureichende theoretische Analyse: Mangelnde tiefgreifende Analyse der Konvergenz und theoretischen Garantien der Methode
Rechnerischer Overhead: Mehrfache LM-Aufrufe könnten zusätzliche Rechenkosten verursachen
Modellabhängigkeit: Methodeneffektivität hängt stark von der Begründungs- und Generierungsfähigkeit des zugrunde liegenden LM ab

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für Erfahrungslernverfahren von LM-Agenten
Praktische Anwendung: Hat Anwendungspotenzial in Mensch-Computer-Interaktion, Robotersteuerung und anderen hochkostigen Szenarien
Methodische Inspiration: Bietet Designideen für andere LM-basierte Lernalgorithmen

Anwendbare Szenarien

Hochkostige Interaktionsumgebungen: Mensch-Computer-Dialog, physische Systemsteuerung
Aufgaben mit spärlichen Belohnungen: Explorations-orientierte Navigations- und Planungsprobleme
Teilweise beobachtbare Umgebungen: Szenarien, in denen Umgebungsstruktur durch Interaktion gelernt werden muss
Multi-Ziel-Aufgaben: Umgebungen, in denen mehrere Unterfähigkeiten aus einer einzelnen Erfahrung gelernt werden können

Literaturverzeichnis

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Gesamtbewertung: Das in diesem Papier vorgeschlagene ECHO-Framework hat wichtige Fortschritte beim stichprobeneffizienten Lernen von LM-Agenten erzielt. Die Methode ist innovativ und die experimentellen Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen gibt, legt es eine gute Grundlage für die zukünftige Entwicklung dieses Bereichs und hat hohen akademischen Wert sowie praktisches Anwendungspotenzial.