2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic

Stichprobeneffiziente Online-Lernvorgänge in LM-Agenten durch Hindsight-Trajektorienumschreibung

Grundlegende Informationen

  • Papier-ID: 2510.10304
  • Titel: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
  • Autoren: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
  • Klassifizierung: cs.LG cs.AI cs.CL
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10304
  • Codelink: https://github.com/michahu/echo

Zusammenfassung

Sprachmodell(LM)-Agenten zeigen bei der Bereitstellung in neuen Umgebungen häufig eine schlechte Stichprobeneffizienz beim sequenziellen Interaktionslernen. Dies behindert erheblich die Praktikabilität solcher Agenten in Umgebungen mit hohen Interaktionskosten (z. B. bei der Interaktion mit Menschen oder beim Zurücksetzen physischer Systeme). Obwohl bestehende LM-Agenten-Architekturen verschiedene Erfahrungsspeicher- und Reflexionsmechanismen integrieren, ist ihre Nutzung der Fähigkeit von LMs, vollständige kontrafaktische Trajektorien direkt zu generieren oder zu begründen, begrenzt. Dieses Papier führt ECHO (Experience Consolidation via Hindsight Optimization) ein, ein Prompt-Framework, das Hindsight-Erfahrungswiedergabe aus dem Reinforcement Learning an Sprachmodell-Agenten anpasst. ECHO generiert optimierte Trajektorien für alternative Ziele, die in fehlgeschlagenen Versuchen erreichbar sind, und schafft effektiv synthetische positive Beispiele aus erfolgloser Interaktion. Die Methode umfasst zwei Komponenten: Hindsight-Regeln, die das Sprachmodell selbst verwenden, um relevante Unterziele zu identifizieren und optimierte Trajektorien zu generieren, sowie Aktualisierungsregeln, die komprimierte Trajektorienrepräsentationen im Speicher verwalten.

Forschungshintergrund und Motivation

Kernprobleme

  1. Geringe Stichprobeneffizienz: LM-Agenten zeigen beim Lernen in neuen Umgebungen schlechte Stichprobeneffizienz, besonders in Szenarien mit hohen Interaktionskosten
  2. Begrenzte kontrafaktische Begründung: Bestehende Methoden konzentrieren sich hauptsächlich auf das Speichern oder Synthetisieren von Erfahrungen und nutzen nicht vollständig die Fähigkeit von LMs, kontrafaktische Trajektorien zu begründen
  3. Spärliche Belohnungsumgebungen: In Umgebungen mit spärlichen Belohnungen haben Agenten Schwierigkeiten, aus fehlgeschlagenen Erfahrungen zu lernen

Bedeutung des Problems

  • Praktische Anforderungen: In hochkostigen Szenarien wie Mensch-Computer-Interaktion oder Zurücksetzen physischer Systeme ist die Verbesserung der Stichprobeneffizienz entscheidend
  • Anpassungsanforderungen: Agenten müssen sich schnell an neue Umgebungen anpassen, z. B. müssen Dialogassistenten in neuen Organisationen lernen, wie man Informationen beschafft und kommuniziert

Einschränkungen bestehender Methoden

  1. Reflexion: Bietet hauptsächlich hochrangige Reflexion, aber Rückmeldungen sind oft zu allgemein, um die Modellleistung zu verändern
  2. AWM (Agent Workflow Memory): Speichert nur Arbeitsabläufe erfolgreicher Trajektorien, unternutzt fehlgeschlagene Erfahrungen
  3. Traditionelle Erfahrungswiedergabe: Konzentriert sich hauptsächlich auf numerische Belohnungen und Zustände, kann keine flexible Trajektorienbearbeitung durchführen

Kernbeiträge

  1. Vorschlag des ECHO-Frameworks: Das erste Prompt-Framework, das Hindsight-Erfahrungswiedergabe (HER) an Sprachmodell-Agenten anpasst
  2. Innovativer Trajektorienschreib-Mechanismus: Kann fehlgeschlagene Trajektorien beliebig umschreiben, einschließlich Änderung von Zielen und Zwischenschritten
  3. Konstruktion zustandsbehafteter Benchmarks: Erstellt zwei Benchmark-Umgebungen XMiniGrid-Stateful und PeopleJoinQA-Stateful, die Erkundung erfordern
  4. Signifikante Leistungsverbesserung: 80% Verbesserung gegenüber ReAct-Baseline auf XMiniGrid, 42% Verbesserung gegenüber zweitbester Baseline

Methodische Details

Aufgabendefinition

Betrachten Sie eine Online-Einstellung, in der ein LM-Agent eine Abfolge von Abfragen von Zeit t=0 bis T sequenziell verarbeitet, ohne Zugriff auf die echte Belohnungsfunktion oder Demonstrationsdaten. Der Agent muss durch Interaktion mit der Umgebung lernen und die Effizienz zukünftiger Entscheidungen verbessern.

ECHO-Architektur

Kernkomponenten

ECHO umfasst zwei Hauptkomponenten:

  1. Hindsight-Regel:
    • Schlägt erreichbare Ziele aus einer gegebenen Trajektorie vor
    • Generiert optimierte Trajektorien oder Beschreibungen für diese Ziele
    • Führt keine Aktion durch, wenn keine Ziele vorgeschlagen werden können
  2. Aktualisierungsregel:
    • Vergleicht neu generierte Beschreibungen mit vorherigen Beschreibungen
    • Speichert kürzere Arbeitsabläufe (basierend auf dem Prinzip der minimalen Beschreibungslänge)
    • Verwaltet komprimierte Trajektorienrepräsentationen

Algorithmus-Ablauf

def ECHO(LM, trajectory, replay_buf={}):
    # Hindsight-Regel
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Aktualisierungsregel
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Technische Innovationen

  1. Verbesserte Ausdruckskraft: Im Gegensatz zu traditionellem HER, das nur Ziele neu kennzeichnen kann, kann ECHO Trajektorienstrukturen beliebig umschreiben
  2. Nutzung vortrainierter Kenntnisse: Verwendet das Weltwissen des LM, um Informationslücken zu füllen und vernünftige kontrafaktische Informationen vorzuschlagen
  3. Komprimierte Darstellung: Basierend auf der Kolmogorov-Komplexität wird die kürzestmögliche Beschreibung der Zielerreichung verwaltet
  4. Adaptiver Mechanismus: Das LM kann Abstraktionen wählen, um zu vermeiden, dass ungültige Trajektorien hinzugefügt werden

Experimentelle Einrichtung

Datensätze

XMiniGrid-Stateful

  • Basisumgebung: Prozedural generierte 2D-GridWorld-Navigations- und Planungsaufgaben
  • Zustandsbehaftete Modifikation: Agent führt zufällig gesampelte Ziele in derselben Umgebung aus und kann Positionen ungesehener Objekte lernen
  • Umfang: 10 eindeutige Umgebungen, jede mit 4 Räumen und 4 Objekten, 16 Abfragen pro Umgebung
  • Aufgabe: Zufällig gesampelte Objekte innerhalb von 64 Schritten aufgreifen, teilweise beobachtbare Umgebung erhöht die Herausforderung

PeopleJoinQA-Stateful

  • Basisumgebung: Multi-Agent-Kollaborations-Informationsbeschaffungs-Frage-Antwort-Aufgabe
  • Zustandsbehaftete Modifikation: Feste Organisationsstruktur, Agent beantwortet alle Fragen dieser Organisation
  • Umfang: 5 Organisationen, insgesamt 248 Abfragen, durchschnittlich 7,98 Nachrichten pro Abfrage erforderlich
  • Aufgabe: Kontaktieren Sie simulierte Personen durch Werkzeugaufrufe, synthetisieren Sie Informationen zur Beantwortung von Fragen

Bewertungsmetriken

  1. Endgültige durchschnittliche Belohnung (Genauigkeit): Misst die endgültige Leistung
  2. Kumulative durchschnittliche Belohnung: Misst die Stichprobeneffizienz
    Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
    
  3. Verbesserung gegenüber ReAct-Baseline: Normalisiert die Aufgabenschwierigkeit

Vergleichsmethoden

  1. ReAct: Reasoning-Acting-Baseline-Agent
  2. Reflexion: Sprachverstärkungslernverfahren für Sprachagenten
  3. AWM: Agent Workflow Memory
  4. AWM++: AWM + ECHO-Aktualisierungsregel

Implementierungsdetails

  • Modell: GPT-4o
  • Temperatureinstellung: ReAct verwendet 0, Offline-Begründung in PeopleJoin verwendet 0,7
  • Maximale Token: 3800-4000
  • Trajektoriengültigkeit: 85% der synthetischen Trajektorien sind auf XMiniGrid ausführbar

Experimentelle Ergebnisse

Hauptergebnisse

XMiniGrid-Stateful

  • Gegenüber ReAct: Durchschnittliche Belohnungsverbesserung um 80%
  • Gegenüber zweitbester Baseline: Verbesserung um 42%
  • Stichprobeneffizienz: Nach 3 Interaktionen überschreitet kumulative Belohnung ReAct-Baseline
  • Streng überlegen: Alle Vergleichsmethoden einschließlich Reflexion und AWM

PeopleJoinQA-Stateful

  • Genauigkeit: Leicht unter Reflexion um 4,6%, aber immer noch besser als ReAct
  • Effizienz: Durchschnittlich 1,6 Nachrichten weniger, vergleichbar mit AWM
  • Stichprobeneffizienz: Überschreitet ReAct-Baseline nach der ersten Abfrage

Trajektoriengültigkeitsanalyse

In 40 Stichprobenbeispielen auf XMiniGrid:

  • 85% Erfolgsquote: Agent erreicht erfolgreich das synthetische Ziel
  • Fehlerursachen: 4 Fälle aufgrund von Ausführungsabweichungen, 2 Fälle aufgrund nicht durchführbarer Schritte
  • Schlussfolgerung: Die von ECHO generierten kontrafaktischen Arbeitsabläufe sind größtenteils korrekt und effektiv

Fallstudienanalyse

Beispiel fehlgeschlagener Trajektorie: Agent konnte grauen Schlüssel nicht aufgreifen

  • Reflexion-Ausgabe: Allgemeine Rückmeldung, mangelnde spezifische Verbesserungsvorschläge
  • AWM-Ausgabe: Generiert aufgrund des Fehlers korrekt keinen Arbeitsablauf
  • ECHO-Ausgabe: Identifiziert, dass Agent grauen Stern beobachtete, generiert optimierte Trajektorie zum Aufgreifen des grauen Sterns

Organisationsübergreifende Variabilität

In PeopleJoinQA unterscheiden sich die optimalen Methoden zwischen Organisationen:

  • Keine Methode ist auf allen Organisationen streng überlegen
  • ECHO wird in einigen Organisationen (z. B. Kaufhäuser) zur effizientesten Methode
  • Zeigt die Notwendigkeit, die Robustheit von Offline-Methoden zu verbessern

Verwandte Arbeiten

Sprachmodell-Agenten

  • Entwicklungsstand: Übergang von statischer Wissensabhängigkeit zu dynamischer Umgebungsanpassung
  • Hauptherausforderungen: Unzureichende Explorations- und Anpassungsfähigkeiten in neuen Umgebungen
  • Anwendungsbereiche: Webnavigation, Werkzeugnutzung, Multi-Agent-Zusammenarbeit, Codegenerierung

Speichersystem-Klassifizierung

Nach der Klassifizierung von Sumers et al.:

  1. Semantisches Gedächtnis: Umgebungsfakten (z. B. Reflexionen in Reflexion)
  2. Episodisches Gedächtnis: Vergangene Handlungen (z. B. Arbeitsabläufe in AWM)
  • ECHO verbessert hauptsächlich die Konstruktion und Aktualisierungsmechanismen des episodischen Gedächtnisses

Erfahrungswiedergabe-Techniken

  • Traditionelles HER: Kennzeichnet Trajektorienziele neu, ändert aber nicht die Trajektorienstruktur
  • Vorteil bei spärlichen Belohnungen: Extrahiert maximales Lernsignal aus wenigen positiven Beispielen
  • ECHO-Erweiterung: Nicht nur Neukennzeichnung von Zielen, sondern auch Bearbeitung beliebiger Aspekte der Trajektorie

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Wirksamkeitsvalidierung: ECHO verbessert die Stichprobeneffizienz in zwei Explorationsumgebungen erheblich
  2. Mechanistische Vorteile: Nutzt vergangene Erfahrungen besser, indem Fehler in synthetische Erfolge umgewandelt werden
  3. Anwendbare Szenarien: Besonders wirksam in Umgebungen mit spärlichen Belohnungen und schlechter Baseline-Leistung

Einschränkungen

  1. Darstellungsformulierungsbeschränkungen: Verwendet hauptsächlich natürlichsprachliche Darstellung, Code-artige Darstellung könnte effektiver sein
  2. Vereinfachte Aktualisierungsregel: Längenheuristische Aktualisierungsregel könnte zu simpel sein
  3. Umgebungsabhängigkeit: Leistungsvariabilität zwischen verschiedenen Organisationen/Umgebungen
  4. Unvollständiges Weltmodell: LM könnte nach einer einzelnen Trajektorie ein unvollständiges Umgebungsmodell haben

Zukünftige Richtungen

  1. Programmatische Darstellung: Erkundung der Wirksamkeit Code-artiger Trajektorienrepräsentationen
  2. Komplexe Aktualisierungsregeln: Entwurf präziserer Informationsfusionsmechanismen
  3. Abruf-verstärkte Speicherung: Integration mit abrufgestützten Speichermechanismen
  4. Robustheitsverbesserung: Verbesserung der konsistenten Leistung über Umgebungen hinweg

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erste Anpassung von HER an LM-Agenten mit wichtigem theoretischen und praktischem Wert
  2. Umfassende Experimente: Validierung in zwei verschiedenen Umgebungstypen mit detaillierten Ablationsstudien
  3. Hoher praktischer Wert: Löst kritische Probleme von LM-Agenten in hochkostigen Interaktionsumgebungen
  4. Universelle Methode: Framework-Design mit guter Erweiterbarkeit und Anpassungsfähigkeit

Mängel

  1. Benchmark-Einschränkungen: Nur in zwei relativ einfachen Umgebungen getestet, mangelnde Validierung in komplexeren realen Szenarien
  2. Unzureichende theoretische Analyse: Mangelnde tiefgreifende Analyse der Konvergenz und theoretischen Garantien der Methode
  3. Rechnerischer Overhead: Mehrfache LM-Aufrufe könnten zusätzliche Rechenkosten verursachen
  4. Modellabhängigkeit: Methodeneffektivität hängt stark von der Begründungs- und Generierungsfähigkeit des zugrunde liegenden LM ab

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für Erfahrungslernverfahren von LM-Agenten
  2. Praktische Anwendung: Hat Anwendungspotenzial in Mensch-Computer-Interaktion, Robotersteuerung und anderen hochkostigen Szenarien
  3. Methodische Inspiration: Bietet Designideen für andere LM-basierte Lernalgorithmen

Anwendbare Szenarien

  1. Hochkostige Interaktionsumgebungen: Mensch-Computer-Dialog, physische Systemsteuerung
  2. Aufgaben mit spärlichen Belohnungen: Explorations-orientierte Navigations- und Planungsprobleme
  3. Teilweise beobachtbare Umgebungen: Szenarien, in denen Umgebungsstruktur durch Interaktion gelernt werden muss
  4. Multi-Ziel-Aufgaben: Umgebungen, in denen mehrere Unterfähigkeiten aus einer einzelnen Erfahrung gelernt werden können

Literaturverzeichnis

  • Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
  • Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
  • Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
  • Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Gesamtbewertung: Das in diesem Papier vorgeschlagene ECHO-Framework hat wichtige Fortschritte beim stichprobeneffizienten Lernen von LM-Agenten erzielt. Die Methode ist innovativ und die experimentellen Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen gibt, legt es eine gute Grundlage für die zukünftige Entwicklung dieses Bereichs und hat hohen akademischen Wert sowie praktisches Anwendungspotenzial.