2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic

Apprentissage en Ligne Efficace en Échantillons dans les Agents LM via la Réécriture de Trajectoires Rétrospectives

Informations Fondamentales

  • ID de l'article : 2510.10304
  • Titre : Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
  • Auteurs : Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
  • Classification : cs.LG cs.AI cs.CL
  • Date de publication : 11 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10304
  • Lien du code : https://github.com/michahu/echo

Résumé

Les modèles de langage (LM) agents déployés dans de nouveaux environnements présentent généralement une faible efficacité d'échantillonnage dans l'apprentissage par interaction séquentielle. Cela entrave gravement l'utilité pratique de tels agents dans les environnements où les interactions sont coûteuses (par exemple, lors d'interactions avec des humains ou de réinitialisation de systèmes physiques). Bien que les architectures d'agents LM existantes intègrent divers mécanismes de stockage d'expériences et de réflexion, elles exploitent limitativement la capacité des LM à générer ou raisonner directement sur des trajectoires contrefactuelles complètes. Cet article introduit ECHO (Experience Consolidation via Hindsight Optimization), un cadre de suggestion qui adapte la relecture d'expérience rétrospective de l'apprentissage par renforcement aux agents de modèles de langage. ECHO génère des trajectoires optimisées pour des objectifs alternatifs réalisables dans les tentatives échouées, créant efficacement des exemples positifs synthétiques à partir d'interactions infructueuses. La méthode comprend deux composants : une règle rétrospective utilisant le modèle de langage lui-même pour identifier les sous-objectifs pertinents et générer des trajectoires optimisées, et une règle de mise à jour maintenant des représentations de trajectoires compressées en mémoire.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Faible efficacité d'échantillonnage : Les agents LM présentent une faible efficacité d'échantillonnage lors de l'apprentissage dans de nouveaux environnements, particulièrement dans les scénarios d'interactions coûteuses
  2. Raisonnement contrefactuel limité : Les méthodes existantes se concentrent principalement sur le stockage ou la synthèse d'expériences, n'exploitant pas suffisamment la capacité des LM à raisonner sur des trajectoires contrefactuelles
  3. Environnements à récompenses éparses : Dans les environnements à récompenses éparses, les agents ont du mal à apprendre à partir d'expériences échouées

Importance du Problème

  • Besoins d'applications pratiques : L'amélioration de l'efficacité d'échantillonnage est cruciale dans les scénarios à coûts élevés tels que l'interaction avec des humains ou la réinitialisation de systèmes physiques
  • Exigences d'adaptabilité : Les agents doivent s'adapter rapidement aux nouveaux environnements, comme les assistants conversationnels dans de nouvelles organisations qui doivent apprendre les méthodes de récupération d'informations et de communication

Limitations des Méthodes Existantes

  1. Reflexion : Fournit principalement une réflexion de haut niveau, mais les retours sont souvent trop génériques pour modifier les performances du modèle
  2. AWM (Agent Workflow Memory) : Stocke uniquement les flux de travail des trajectoires réussies, exploitant insuffisamment les expériences échouées
  3. Relecture d'expérience traditionnelle : Se concentre principalement sur les récompenses numériques et les états, incapable d'effectuer une édition flexible de trajectoires

Contributions Fondamentales

  1. Proposition du cadre ECHO : Premier cadre de suggestion adaptant la relecture d'expérience rétrospective (HER) aux agents de modèles de langage
  2. Mécanisme innovant de réécriture de trajectoires : Capable de réécrire arbitrairement les trajectoires échouées, y compris la modification des objectifs et des étapes intermédiaires
  3. Construction de repères avec état : Création de deux environnements de repère nécessitant l'exploration : XMiniGrid-Stateful et PeopleJoinQA-Stateful
  4. Amélioration significative des performances : Amélioration de 80% par rapport à la ligne de base ReAct sur XMiniGrid, amélioration de 42% par rapport à la deuxième meilleure ligne de base

Explication Détaillée de la Méthode

Définition de la Tâche

Considérez un paramètre en ligne où l'agent LM traite séquentiellement une séquence de requêtes de t=0 à T, sans accès à la véritable fonction de récompense ou aux données de démonstration. L'agent doit apprendre par interaction avec l'environnement et améliorer l'efficacité des décisions futures.

Architecture ECHO

Composants Fondamentaux

ECHO comprend deux composants principaux :

  1. Règle Rétrospective (Hindsight Rule) :
    • Propose des objectifs réalisables à partir d'une trajectoire donnée
    • Génère des trajectoires optimisées ou des descriptions pour ces objectifs
    • N'effectue aucune opération si aucun objectif ne peut être proposé
  2. Règle de Mise à Jour (Update Rule) :
    • Compare les descriptions nouvellement générées avec les descriptions précédentes
    • Conserve les flux de travail plus courts (basés sur le principe de la longueur minimale de description)
    • Maintient des représentations de trajectoires compressées

Flux Algorithmique

def ECHO(LM, trajectory, replay_buf={}):
    # Règle rétrospective
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Règle de mise à jour
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Points d'Innovation Technique

  1. Capacité d'Expression Améliorée : Contrairement à HER traditionnel qui ne peut que réétiqueter les objectifs, ECHO peut réécrire arbitrairement la structure des trajectoires
  2. Exploitation des Connaissances Préentraînées : Utilise les connaissances du monde du LM pour combler les lacunes informationnelles et proposer des informations contrefactuelles raisonnables
  3. Représentation Compressée : Basée sur la complexité de Kolmogorov, maintient la description la plus courte possible pour atteindre un objectif
  4. Mécanisme Adaptatif : Le LM peut choisir le niveau d'abstraction, évitant d'ajouter des trajectoires invalides

Configuration Expérimentale

Ensembles de Données

XMiniGrid-Stateful

  • Environnement de base : Tâches de navigation et de planification en GridWorld 2D générées par programme
  • Modification avec état : L'agent exécute des objectifs échantillonnés aléatoirement dans le même environnement, pouvant apprendre les emplacements d'objets non vus
  • Échelle : 10 environnements uniques, 4 pièces et 4 objets par environnement, 16 requêtes par environnement
  • Tâche : Ramasser des objets échantillonnés aléatoirement en 64 étapes, l'environnement partiellement observable augmente la difficulté

PeopleJoinQA-Stateful

  • Environnement de base : Tâche de questions-réponses collaborative de collecte d'informations multi-agents
  • Modification avec état : Structure organisationnelle fixe, l'agent répond à toutes les questions de cette organisation
  • Échelle : 5 organisations, 248 requêtes au total, moyenne de 7,98 messages par requête
  • Tâche : Contacter des personnes simulées via des appels d'outils, synthétiser les informations pour répondre aux questions

Métriques d'Évaluation

  1. Récompense Moyenne Finale (Précision) : Mesure la performance finale
  2. Récompense Moyenne Cumulative : Mesure l'efficacité d'échantillonnage
    Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
    
  3. Amélioration par rapport à la ligne de base ReAct : Normalisation de la difficulté du problème

Méthodes de Comparaison

  1. ReAct : Agent de ligne de base Raisonnement-Action
  2. Reflexion : Apprentissage par renforcement linguistique pour agents linguistiques
  3. AWM : Mémoire de flux de travail d'agent
  4. AWM++ : AWM + règle de mise à jour ECHO

Détails d'Implémentation

  • Modèle : GPT-4o
  • Paramètre de température : 0 pour ReAct, 0,7 pour l'inférence hors ligne dans PeopleJoin
  • Nombre maximal de jetons : 3800-4000
  • Validité des trajectoires : 85% des trajectoires synthétiques sont exécutables dans XMiniGrid

Résultats Expérimentaux

Résultats Principaux

XMiniGrid-Stateful

  • Par rapport à ReAct : Amélioration de 80% de la récompense moyenne
  • Par rapport à la deuxième meilleure ligne de base : Amélioration de 42%
  • Efficacité d'échantillonnage : Après 3 interactions, la récompense cumulative dépasse la ligne de base ReAct
  • Strictement supérieur à : Toutes les méthodes de comparaison, y compris Reflexion et AWM

PeopleJoinQA-Stateful

  • Précision : Légèrement inférieure à Reflexion de 4,6%, mais toujours supérieure à ReAct
  • Efficacité : Réduction moyenne de 1,6 messages, au même niveau qu'AWM
  • Efficacité d'échantillonnage : Dépasse la ligne de base ReAct après la première requête

Analyse de la Validité des Trajectoires

Sur 40 exemples échantillonnés dans XMiniGrid :

  • Taux de réussite de 85% : L'agent atteint avec succès l'objectif synthétique
  • Causes d'échec : 4 cas dus à des écarts d'exécution, 2 cas dus à des étapes non réalisables
  • Conclusion : Les flux de travail contrefactuels générés par ECHO sont généralement corrects et efficaces

Analyse de Cas

Exemple de trajectoire échouée : L'agent n'a pas pu ramasser la clé grise

  • Sortie de Reflexion : Retours génériques, manquant de suggestions d'amélioration spécifiques
  • Sortie d'AWM : N'a pas généré de flux de travail en raison de l'échec, ce qui est correct
  • Sortie d'ECHO : Identifie que l'agent a observé une étoile grise, génère une trajectoire optimisée pour ramasser l'étoile grise

Variabilité Entre Organisations

Dans PeopleJoinQA, la meilleure méthode varie selon les organisations :

  • Aucune méthode n'est strictement dominante sur toutes les organisations
  • ECHO devient la méthode la plus efficace dans certaines organisations (par exemple, les grands magasins)
  • Indique le besoin d'améliorer la robustesse des méthodes hors ligne

Travaux Connexes

Agents de Modèles de Langage

  • État actuel du développement : Transition de la dépendance aux connaissances statiques vers l'adaptation aux environnements dynamiques
  • Défis principaux : Capacités insuffisantes d'exploration et d'adaptation dans les nouveaux environnements
  • Domaines d'application : Navigation web, utilisation d'outils, collaboration multi-agents, génération de code

Classification des Systèmes de Mémoire

Selon la classification de Sumers et al. :

  1. Mémoire sémantique : Faits environnementaux (par exemple, réflexions de Reflexion)
  2. Mémoire épisodique : Actions passées (par exemple, flux de travail d'AWM)
  • ECHO améliore principalement les mécanismes de construction et de mise à jour de la mémoire épisodique

Techniques de Relecture d'Expérience

  • HER traditionnel : Réétiquette les objectifs des trajectoires, mais ne modifie pas la structure des trajectoires
  • Avantage des récompenses éparses : Extrait le signal d'apprentissage maximal à partir d'un petit nombre d'exemples positifs
  • Extension ECHO : Non seulement réétiquette les objectifs, mais peut également éditer des aspects arbitraires des trajectoires

Conclusions et Discussion

Conclusions Principales

  1. Validation de l'efficacité : ECHO améliore significativement l'efficacité d'échantillonnage dans deux environnements nécessitant l'exploration
  2. Avantages des mécanismes : Mieux utilise les expériences passées en convertissant les échecs en succès synthétiques
  3. Scénarios applicables : Particulièrement efficace dans les environnements à récompenses éparses où la ligne de base fonctionne mal

Limitations

  1. Restrictions de représentation : Utilise principalement la représentation en langage naturel, les représentations en code pourraient être plus efficaces
  2. Simplification de la règle de mise à jour : La règle de mise à jour heuristique basée sur la longueur peut être trop simple
  3. Dépendance environnementale : Les performances varient selon les différentes organisations/environnements
  4. Modèle du monde incomplet : Le LM peut manquer d'un modèle environnemental complet après une seule trajectoire

Directions Futures

  1. Représentation programmatique : Explorer l'efficacité des représentations de trajectoires en code
  2. Règles de mise à jour complexes : Concevoir des mécanismes de fusion d'informations plus précis
  3. Mémoire augmentée par récupération : Combiner avec des mécanismes de mémoire basés sur la récupération
  4. Amélioration de la robustesse : Améliorer la cohérence des performances entre les environnements

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première adaptation de HER aux agents LM, ayant une valeur théorique et pratique importante
  2. Expériences complètes : Validation dans deux types d'environnements différents, incluant une analyse d'ablation détaillée
  3. Valeur pratique élevée : Résout les problèmes clés des agents LM dans les environnements d'interactions coûteuses
  4. Méthode générique : La conception du cadre possède une bonne extensibilité et adaptabilité

Insuffisances

  1. Limitations des repères : Testé uniquement dans deux environnements relativement simples, manquant de validation dans des scénarios réels plus complexes
  2. Analyse théorique insuffisante : Manque d'analyse approfondie de la convergence et des garanties théoriques de la méthode
  3. Surcharge computationnelle : Les appels LM multiples peuvent entraîner des coûts computationnels supplémentaires
  4. Dépendance des capacités du modèle : L'efficacité de la méthode dépend fortement des capacités de raisonnement et de génération du LM sous-jacent

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche pour l'apprentissage par expérience des agents LM
  2. Applications pratiques : Potentiel d'application dans les scénarios d'interaction homme-machine et de contrôle de robots à coûts élevés
  3. Inspiration méthodologique : Fournit des idées de conception pour d'autres algorithmes d'apprentissage basés sur LM

Scénarios Applicables

  1. Environnements d'interactions coûteuses : Dialogue homme-machine, contrôle de systèmes physiques
  2. Tâches à récompenses éparses : Problèmes de navigation et de planification orientés vers l'exploration
  3. Environnements partiellement observables : Scénarios où les agents doivent apprendre la structure environnementale par interaction
  4. Tâches multi-objectifs : Environnements où plusieurs sous-compétences peuvent être apprises à partir d'une seule expérience

Références

  • Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
  • Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
  • Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
  • Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Évaluation Globale : Le cadre ECHO proposé dans cet article a réalisé des progrès importants dans l'apprentissage efficace en échantillons des agents LM. La méthode est novatrice et les résultats expérimentaux sont convaincants. Bien qu'il existe certaines limitations, il jette une base solide pour le développement futur du domaine, possédant une valeur académique et un potentiel d'application pratique considérables.