Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic
Apprentissage en Ligne Efficace en Échantillons dans les Agents LM via la Réécriture de Trajectoires Rétrospectives
Les modèles de langage (LM) agents déployés dans de nouveaux environnements présentent généralement une faible efficacité d'échantillonnage dans l'apprentissage par interaction séquentielle. Cela entrave gravement l'utilité pratique de tels agents dans les environnements où les interactions sont coûteuses (par exemple, lors d'interactions avec des humains ou de réinitialisation de systèmes physiques). Bien que les architectures d'agents LM existantes intègrent divers mécanismes de stockage d'expériences et de réflexion, elles exploitent limitativement la capacité des LM à générer ou raisonner directement sur des trajectoires contrefactuelles complètes. Cet article introduit ECHO (Experience Consolidation via Hindsight Optimization), un cadre de suggestion qui adapte la relecture d'expérience rétrospective de l'apprentissage par renforcement aux agents de modèles de langage. ECHO génère des trajectoires optimisées pour des objectifs alternatifs réalisables dans les tentatives échouées, créant efficacement des exemples positifs synthétiques à partir d'interactions infructueuses. La méthode comprend deux composants : une règle rétrospective utilisant le modèle de langage lui-même pour identifier les sous-objectifs pertinents et générer des trajectoires optimisées, et une règle de mise à jour maintenant des représentations de trajectoires compressées en mémoire.
Faible efficacité d'échantillonnage : Les agents LM présentent une faible efficacité d'échantillonnage lors de l'apprentissage dans de nouveaux environnements, particulièrement dans les scénarios d'interactions coûteuses
Raisonnement contrefactuel limité : Les méthodes existantes se concentrent principalement sur le stockage ou la synthèse d'expériences, n'exploitant pas suffisamment la capacité des LM à raisonner sur des trajectoires contrefactuelles
Environnements à récompenses éparses : Dans les environnements à récompenses éparses, les agents ont du mal à apprendre à partir d'expériences échouées
Besoins d'applications pratiques : L'amélioration de l'efficacité d'échantillonnage est cruciale dans les scénarios à coûts élevés tels que l'interaction avec des humains ou la réinitialisation de systèmes physiques
Exigences d'adaptabilité : Les agents doivent s'adapter rapidement aux nouveaux environnements, comme les assistants conversationnels dans de nouvelles organisations qui doivent apprendre les méthodes de récupération d'informations et de communication
Reflexion : Fournit principalement une réflexion de haut niveau, mais les retours sont souvent trop génériques pour modifier les performances du modèle
AWM (Agent Workflow Memory) : Stocke uniquement les flux de travail des trajectoires réussies, exploitant insuffisamment les expériences échouées
Relecture d'expérience traditionnelle : Se concentre principalement sur les récompenses numériques et les états, incapable d'effectuer une édition flexible de trajectoires
Proposition du cadre ECHO : Premier cadre de suggestion adaptant la relecture d'expérience rétrospective (HER) aux agents de modèles de langage
Mécanisme innovant de réécriture de trajectoires : Capable de réécrire arbitrairement les trajectoires échouées, y compris la modification des objectifs et des étapes intermédiaires
Construction de repères avec état : Création de deux environnements de repère nécessitant l'exploration : XMiniGrid-Stateful et PeopleJoinQA-Stateful
Amélioration significative des performances : Amélioration de 80% par rapport à la ligne de base ReAct sur XMiniGrid, amélioration de 42% par rapport à la deuxième meilleure ligne de base
Considérez un paramètre en ligne où l'agent LM traite séquentiellement une séquence de requêtes de t=0 à T, sans accès à la véritable fonction de récompense ou aux données de démonstration. L'agent doit apprendre par interaction avec l'environnement et améliorer l'efficacité des décisions futures.
Capacité d'Expression Améliorée : Contrairement à HER traditionnel qui ne peut que réétiqueter les objectifs, ECHO peut réécrire arbitrairement la structure des trajectoires
Exploitation des Connaissances Préentraînées : Utilise les connaissances du monde du LM pour combler les lacunes informationnelles et proposer des informations contrefactuelles raisonnables
Représentation Compressée : Basée sur la complexité de Kolmogorov, maintient la description la plus courte possible pour atteindre un objectif
Mécanisme Adaptatif : Le LM peut choisir le niveau d'abstraction, évitant d'ajouter des trajectoires invalides
Environnement de base : Tâches de navigation et de planification en GridWorld 2D générées par programme
Modification avec état : L'agent exécute des objectifs échantillonnés aléatoirement dans le même environnement, pouvant apprendre les emplacements d'objets non vus
Échelle : 10 environnements uniques, 4 pièces et 4 objets par environnement, 16 requêtes par environnement
Tâche : Ramasser des objets échantillonnés aléatoirement en 64 étapes, l'environnement partiellement observable augmente la difficulté
Restrictions de représentation : Utilise principalement la représentation en langage naturel, les représentations en code pourraient être plus efficaces
Simplification de la règle de mise à jour : La règle de mise à jour heuristique basée sur la longueur peut être trop simple
Dépendance environnementale : Les performances varient selon les différentes organisations/environnements
Modèle du monde incomplet : Le LM peut manquer d'un modèle environnemental complet après une seule trajectoire
Limitations des repères : Testé uniquement dans deux environnements relativement simples, manquant de validation dans des scénarios réels plus complexes
Analyse théorique insuffisante : Manque d'analyse approfondie de la convergence et des garanties théoriques de la méthode
Surcharge computationnelle : Les appels LM multiples peuvent entraîner des coûts computationnels supplémentaires
Dépendance des capacités du modèle : L'efficacité de la méthode dépend fortement des capacités de raisonnement et de génération du LM sous-jacent
Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.
Évaluation Globale : Le cadre ECHO proposé dans cet article a réalisé des progrès importants dans l'apprentissage efficace en échantillons des agents LM. La méthode est novatrice et les résultats expérimentaux sont convaincants. Bien qu'il existe certaines limitations, il jette une base solide pour le développement futur du domaine, possédant une valeur académique et un potentiel d'application pratique considérables.