2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

Apprentissage en Ligne Efficace en Échantillons dans les Agents LM via la Réécriture de Trajectoires Rétrospectives

Informations Fondamentales

ID de l'article : 2510.10304
Titre : Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Auteurs : Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
Classification : cs.LG cs.AI cs.CL
Date de publication : 11 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10304
Lien du code : https://github.com/michahu/echo

Résumé

Les modèles de langage (LM) agents déployés dans de nouveaux environnements présentent généralement une faible efficacité d'échantillonnage dans l'apprentissage par interaction séquentielle. Cela entrave gravement l'utilité pratique de tels agents dans les environnements où les interactions sont coûteuses (par exemple, lors d'interactions avec des humains ou de réinitialisation de systèmes physiques). Bien que les architectures d'agents LM existantes intègrent divers mécanismes de stockage d'expériences et de réflexion, elles exploitent limitativement la capacité des LM à générer ou raisonner directement sur des trajectoires contrefactuelles complètes. Cet article introduit ECHO (Experience Consolidation via Hindsight Optimization), un cadre de suggestion qui adapte la relecture d'expérience rétrospective de l'apprentissage par renforcement aux agents de modèles de langage. ECHO génère des trajectoires optimisées pour des objectifs alternatifs réalisables dans les tentatives échouées, créant efficacement des exemples positifs synthétiques à partir d'interactions infructueuses. La méthode comprend deux composants : une règle rétrospective utilisant le modèle de langage lui-même pour identifier les sous-objectifs pertinents et générer des trajectoires optimisées, et une règle de mise à jour maintenant des représentations de trajectoires compressées en mémoire.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Faible efficacité d'échantillonnage : Les agents LM présentent une faible efficacité d'échantillonnage lors de l'apprentissage dans de nouveaux environnements, particulièrement dans les scénarios d'interactions coûteuses
Raisonnement contrefactuel limité : Les méthodes existantes se concentrent principalement sur le stockage ou la synthèse d'expériences, n'exploitant pas suffisamment la capacité des LM à raisonner sur des trajectoires contrefactuelles
Environnements à récompenses éparses : Dans les environnements à récompenses éparses, les agents ont du mal à apprendre à partir d'expériences échouées

Importance du Problème

Besoins d'applications pratiques : L'amélioration de l'efficacité d'échantillonnage est cruciale dans les scénarios à coûts élevés tels que l'interaction avec des humains ou la réinitialisation de systèmes physiques
Exigences d'adaptabilité : Les agents doivent s'adapter rapidement aux nouveaux environnements, comme les assistants conversationnels dans de nouvelles organisations qui doivent apprendre les méthodes de récupération d'informations et de communication

Limitations des Méthodes Existantes

Reflexion : Fournit principalement une réflexion de haut niveau, mais les retours sont souvent trop génériques pour modifier les performances du modèle
AWM (Agent Workflow Memory) : Stocke uniquement les flux de travail des trajectoires réussies, exploitant insuffisamment les expériences échouées
Relecture d'expérience traditionnelle : Se concentre principalement sur les récompenses numériques et les états, incapable d'effectuer une édition flexible de trajectoires

Contributions Fondamentales

Proposition du cadre ECHO : Premier cadre de suggestion adaptant la relecture d'expérience rétrospective (HER) aux agents de modèles de langage
Mécanisme innovant de réécriture de trajectoires : Capable de réécrire arbitrairement les trajectoires échouées, y compris la modification des objectifs et des étapes intermédiaires
Construction de repères avec état : Création de deux environnements de repère nécessitant l'exploration : XMiniGrid-Stateful et PeopleJoinQA-Stateful
Amélioration significative des performances : Amélioration de 80% par rapport à la ligne de base ReAct sur XMiniGrid, amélioration de 42% par rapport à la deuxième meilleure ligne de base

Explication Détaillée de la Méthode

Définition de la Tâche

Considérez un paramètre en ligne où l'agent LM traite séquentiellement une séquence de requêtes de t=0 à T, sans accès à la véritable fonction de récompense ou aux données de démonstration. L'agent doit apprendre par interaction avec l'environnement et améliorer l'efficacité des décisions futures.

Architecture ECHO

Composants Fondamentaux

ECHO comprend deux composants principaux :

Règle Rétrospective (Hindsight Rule) :
- Propose des objectifs réalisables à partir d'une trajectoire donnée
- Génère des trajectoires optimisées ou des descriptions pour ces objectifs
- N'effectue aucune opération si aucun objectif ne peut être proposé
Règle de Mise à Jour (Update Rule) :
- Compare les descriptions nouvellement générées avec les descriptions précédentes
- Conserve les flux de travail plus courts (basés sur le principe de la longueur minimale de description)
- Maintient des représentations de trajectoires compressées

Flux Algorithmique

def ECHO(LM, trajectory, replay_buf={}):
    # Règle rétrospective
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Règle de mise à jour
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Points d'Innovation Technique

Capacité d'Expression Améliorée : Contrairement à HER traditionnel qui ne peut que réétiqueter les objectifs, ECHO peut réécrire arbitrairement la structure des trajectoires
Exploitation des Connaissances Préentraînées : Utilise les connaissances du monde du LM pour combler les lacunes informationnelles et proposer des informations contrefactuelles raisonnables
Représentation Compressée : Basée sur la complexité de Kolmogorov, maintient la description la plus courte possible pour atteindre un objectif
Mécanisme Adaptatif : Le LM peut choisir le niveau d'abstraction, évitant d'ajouter des trajectoires invalides

Configuration Expérimentale

Ensembles de Données

XMiniGrid-Stateful

Environnement de base : Tâches de navigation et de planification en GridWorld 2D générées par programme
Modification avec état : L'agent exécute des objectifs échantillonnés aléatoirement dans le même environnement, pouvant apprendre les emplacements d'objets non vus
Échelle : 10 environnements uniques, 4 pièces et 4 objets par environnement, 16 requêtes par environnement
Tâche : Ramasser des objets échantillonnés aléatoirement en 64 étapes, l'environnement partiellement observable augmente la difficulté

PeopleJoinQA-Stateful

Environnement de base : Tâche de questions-réponses collaborative de collecte d'informations multi-agents
Modification avec état : Structure organisationnelle fixe, l'agent répond à toutes les questions de cette organisation
Échelle : 5 organisations, 248 requêtes au total, moyenne de 7,98 messages par requête
Tâche : Contacter des personnes simulées via des appels d'outils, synthétiser les informations pour répondre aux questions

Métriques d'Évaluation

Récompense Moyenne Finale (Précision) : Mesure la performance finale
Récompense Moyenne Cumulative : Mesure l'efficacité d'échantillonnage
```
Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
```
Amélioration par rapport à la ligne de base ReAct : Normalisation de la difficulté du problème

Méthodes de Comparaison

ReAct : Agent de ligne de base Raisonnement-Action
Reflexion : Apprentissage par renforcement linguistique pour agents linguistiques
AWM : Mémoire de flux de travail d'agent
AWM++ : AWM + règle de mise à jour ECHO

Détails d'Implémentation

Modèle : GPT-4o
Paramètre de température : 0 pour ReAct, 0,7 pour l'inférence hors ligne dans PeopleJoin
Nombre maximal de jetons : 3800-4000
Validité des trajectoires : 85% des trajectoires synthétiques sont exécutables dans XMiniGrid

Résultats Expérimentaux

Résultats Principaux

XMiniGrid-Stateful

Par rapport à ReAct : Amélioration de 80% de la récompense moyenne
Par rapport à la deuxième meilleure ligne de base : Amélioration de 42%
Efficacité d'échantillonnage : Après 3 interactions, la récompense cumulative dépasse la ligne de base ReAct
Strictement supérieur à : Toutes les méthodes de comparaison, y compris Reflexion et AWM

PeopleJoinQA-Stateful

Précision : Légèrement inférieure à Reflexion de 4,6%, mais toujours supérieure à ReAct
Efficacité : Réduction moyenne de 1,6 messages, au même niveau qu'AWM
Efficacité d'échantillonnage : Dépasse la ligne de base ReAct après la première requête

Analyse de la Validité des Trajectoires

Sur 40 exemples échantillonnés dans XMiniGrid :

Taux de réussite de 85% : L'agent atteint avec succès l'objectif synthétique
Causes d'échec : 4 cas dus à des écarts d'exécution, 2 cas dus à des étapes non réalisables
Conclusion : Les flux de travail contrefactuels générés par ECHO sont généralement corrects et efficaces

Analyse de Cas

Exemple de trajectoire échouée : L'agent n'a pas pu ramasser la clé grise

Sortie de Reflexion : Retours génériques, manquant de suggestions d'amélioration spécifiques
Sortie d'AWM : N'a pas généré de flux de travail en raison de l'échec, ce qui est correct
Sortie d'ECHO : Identifie que l'agent a observé une étoile grise, génère une trajectoire optimisée pour ramasser l'étoile grise

Variabilité Entre Organisations

Dans PeopleJoinQA, la meilleure méthode varie selon les organisations :

Aucune méthode n'est strictement dominante sur toutes les organisations
ECHO devient la méthode la plus efficace dans certaines organisations (par exemple, les grands magasins)
Indique le besoin d'améliorer la robustesse des méthodes hors ligne

Travaux Connexes

Agents de Modèles de Langage

État actuel du développement : Transition de la dépendance aux connaissances statiques vers l'adaptation aux environnements dynamiques
Défis principaux : Capacités insuffisantes d'exploration et d'adaptation dans les nouveaux environnements
Domaines d'application : Navigation web, utilisation d'outils, collaboration multi-agents, génération de code

Classification des Systèmes de Mémoire

Selon la classification de Sumers et al. :

Mémoire sémantique : Faits environnementaux (par exemple, réflexions de Reflexion)
Mémoire épisodique : Actions passées (par exemple, flux de travail d'AWM)

ECHO améliore principalement les mécanismes de construction et de mise à jour de la mémoire épisodique

Techniques de Relecture d'Expérience

HER traditionnel : Réétiquette les objectifs des trajectoires, mais ne modifie pas la structure des trajectoires
Avantage des récompenses éparses : Extrait le signal d'apprentissage maximal à partir d'un petit nombre d'exemples positifs
Extension ECHO : Non seulement réétiquette les objectifs, mais peut également éditer des aspects arbitraires des trajectoires

Conclusions et Discussion

Conclusions Principales

Validation de l'efficacité : ECHO améliore significativement l'efficacité d'échantillonnage dans deux environnements nécessitant l'exploration
Avantages des mécanismes : Mieux utilise les expériences passées en convertissant les échecs en succès synthétiques
Scénarios applicables : Particulièrement efficace dans les environnements à récompenses éparses où la ligne de base fonctionne mal

Limitations

Restrictions de représentation : Utilise principalement la représentation en langage naturel, les représentations en code pourraient être plus efficaces
Simplification de la règle de mise à jour : La règle de mise à jour heuristique basée sur la longueur peut être trop simple
Dépendance environnementale : Les performances varient selon les différentes organisations/environnements
Modèle du monde incomplet : Le LM peut manquer d'un modèle environnemental complet après une seule trajectoire

Directions Futures

Représentation programmatique : Explorer l'efficacité des représentations de trajectoires en code
Règles de mise à jour complexes : Concevoir des mécanismes de fusion d'informations plus précis
Mémoire augmentée par récupération : Combiner avec des mécanismes de mémoire basés sur la récupération
Amélioration de la robustesse : Améliorer la cohérence des performances entre les environnements

Évaluation Approfondie

Points Forts

Innovation forte : Première adaptation de HER aux agents LM, ayant une valeur théorique et pratique importante
Expériences complètes : Validation dans deux types d'environnements différents, incluant une analyse d'ablation détaillée
Valeur pratique élevée : Résout les problèmes clés des agents LM dans les environnements d'interactions coûteuses
Méthode générique : La conception du cadre possède une bonne extensibilité et adaptabilité

Insuffisances

Limitations des repères : Testé uniquement dans deux environnements relativement simples, manquant de validation dans des scénarios réels plus complexes
Analyse théorique insuffisante : Manque d'analyse approfondie de la convergence et des garanties théoriques de la méthode
Surcharge computationnelle : Les appels LM multiples peuvent entraîner des coûts computationnels supplémentaires
Dépendance des capacités du modèle : L'efficacité de la méthode dépend fortement des capacités de raisonnement et de génération du LM sous-jacent

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour l'apprentissage par expérience des agents LM
Applications pratiques : Potentiel d'application dans les scénarios d'interaction homme-machine et de contrôle de robots à coûts élevés
Inspiration méthodologique : Fournit des idées de conception pour d'autres algorithmes d'apprentissage basés sur LM

Scénarios Applicables

Environnements d'interactions coûteuses : Dialogue homme-machine, contrôle de systèmes physiques
Tâches à récompenses éparses : Problèmes de navigation et de planification orientés vers l'exploration
Environnements partiellement observables : Scénarios où les agents doivent apprendre la structure environnementale par interaction
Tâches multi-objectifs : Environnements où plusieurs sous-compétences peuvent être apprises à partir d'une seule expérience

Références

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Évaluation Globale : Le cadre ECHO proposé dans cet article a réalisé des progrès importants dans l'apprentissage efficace en échantillons des agents LM. La méthode est novatrice et les résultats expérimentaux sont convaincants. Bien qu'il existe certaines limitations, il jette une base solide pour le développement futur du domaine, possédant une valeur académique et un potentiel d'application pratique considérables.