Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic
Эффективное обучение онлайн в LM-агентах посредством переписывания траекторий с учётом результатов
Языковые модели (LM) агентов при развёртывании в новых окружениях часто демонстрируют низкую эффективность выборки при последовательном интерактивном обучении. Это серьёзно препятствует практическому применению таких агентов в окружениях с высокой стоимостью взаимодействия (например, при взаимодействии с людьми или сбросе физических систем). Хотя существующие архитектуры LM-агентов включают различные механизмы хранения опыта и рефлексии, они ограниченно используют способность LM напрямую генерировать или рассуждать о полных контрфактических траекториях. В данной работе представляется ECHO (Experience Consolidation via Hindsight Optimization) — фреймворк подсказок, адаптирующий воспроизведение опыта с учётом результатов из обучения с подкреплением к LM-агентам. ECHO генерирует оптимизированные траектории для альтернативных целей, которые могли бы быть достигнуты при неудачных попытках, эффективно создавая синтетические положительные примеры из неудачных взаимодействий. Метод включает два компонента: правила с учётом результатов, использующие саму языковую модель для определения релевантных подцелей и генерации оптимизированных траекторий, и правила обновления для поддержания сжатых представлений траекторий в памяти.
Низкая эффективность выборки: LM-агенты демонстрируют плохую эффективность выборки при обучении в новых окружениях, особенно в сценариях с высокой стоимостью взаимодействия
Ограниченное контрфактическое рассуждение: существующие методы сосредоточены на хранении или синтезе опыта, недостаточно используя способность LM рассуждать о контрфактических траекториях
Разреженные награды: в окружениях с разреженными наградами агентам сложно учиться на основе неудачного опыта
Практические требования: повышение эффективности выборки критично в сценариях с высокой стоимостью, таких как взаимодействие с людьми или сброс физических систем
Требования адаптивности: агенты должны быстро адаптироваться к новым окружениям, например диалоговые помощники в новых организациях должны научиться методам получения информации и коммуникации
Предложение фреймворка ECHO: первый фреймворк подсказок, адаптирующий воспроизведение опыта с учётом результатов (HER) к LM-агентам
Инновационный механизм переписывания траекторий: способность произвольно переписывать неудачные траектории, включая изменение целей и промежуточных шагов
Создание ориентированных на исследование эталонов: разработка окружений XMiniGrid-Stateful и PeopleJoinQA-Stateful, требующих исследования
Значительное улучшение производительности: повышение на 80% на XMiniGrid по сравнению с базовым ReAct, на 42% по сравнению со вторым лучшим методом
Рассматривается онлайн-сценарий, в котором LM-агент последовательно обрабатывает последовательность запросов от времени t=0 до T без доступа к истинной функции награды или данным демонстрации. Агент должен учиться через взаимодействие с окружением и повышать эффективность будущих решений.
def ECHO(LM, trajectory, replay_buf={}):
# Правило с учётом результатов
summary = LM.summarize(trajectory)
goals = LM.identify_goals(trajectory)
for goal in goals:
new_traj = LM.infer_traj(goal, trajectory)
# Правило обновления
old_traj = replay_buf[goal]
if old_traj and len(new_traj) < len(old_traj):
replay_buf[goal] = new_traj
return replay_buf
Повышенная выразительность: в отличие от традиционного HER, который может только переобозначать цели, ECHO может произвольно переписывать структуру траектории
Использование предварительно обученных знаний: использует мировые знания LM для заполнения информационных пробелов и предложения разумных контрфактических сценариев
Сжатое представление: на основе сложности Колмогорова поддерживает кратчайшее возможное описание достижения цели
Адаптивный механизм: LM может выбирать уровень абстракции, избегая добавления неэффективных траекторий
Академический вклад: предоставляет новое направление исследований для обучения на основе опыта LM-агентов
Практическое применение: имеет потенциал применения в взаимодействии человека с машиной, управлении робототехникой и других сценариях с высокой стоимостью
Методологическое вдохновение: предоставляет идеи проектирования для других алгоритмов обучения на основе LM
Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.
Общая оценка: Предложенный в данной работе фреймворк ECHO достигает важного прогресса в обучении LM-агентов с эффективной выборкой, метод является инновационным, а результаты экспериментов убедительны. Несмотря на некоторые ограничения, работа закладывает хорошую основу для будущего развития в этой области и обладает высокой академической ценностью и потенциалом практического применения.