2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

Эффективное обучение онлайн в LM-агентах посредством переписывания траекторий с учётом результатов

Основная информация

ID статьи: 2510.10304
Название: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Авторы: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
Классификация: cs.LG cs.AI cs.CL
Дата публикации: 11 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10304
Ссылка на код: https://github.com/michahu/echo

Аннотация

Языковые модели (LM) агентов при развёртывании в новых окружениях часто демонстрируют низкую эффективность выборки при последовательном интерактивном обучении. Это серьёзно препятствует практическому применению таких агентов в окружениях с высокой стоимостью взаимодействия (например, при взаимодействии с людьми или сбросе физических систем). Хотя существующие архитектуры LM-агентов включают различные механизмы хранения опыта и рефлексии, они ограниченно используют способность LM напрямую генерировать или рассуждать о полных контрфактических траекториях. В данной работе представляется ECHO (Experience Consolidation via Hindsight Optimization) — фреймворк подсказок, адаптирующий воспроизведение опыта с учётом результатов из обучения с подкреплением к LM-агентам. ECHO генерирует оптимизированные траектории для альтернативных целей, которые могли бы быть достигнуты при неудачных попытках, эффективно создавая синтетические положительные примеры из неудачных взаимодействий. Метод включает два компонента: правила с учётом результатов, использующие саму языковую модель для определения релевантных подцелей и генерации оптимизированных траекторий, и правила обновления для поддержания сжатых представлений траекторий в памяти.

Исследовательский контекст и мотивация

Основные проблемы

Низкая эффективность выборки: LM-агенты демонстрируют плохую эффективность выборки при обучении в новых окружениях, особенно в сценариях с высокой стоимостью взаимодействия
Ограниченное контрфактическое рассуждение: существующие методы сосредоточены на хранении или синтезе опыта, недостаточно используя способность LM рассуждать о контрфактических траекториях
Разреженные награды: в окружениях с разреженными наградами агентам сложно учиться на основе неудачного опыта

Значимость проблемы

Практические требования: повышение эффективности выборки критично в сценариях с высокой стоимостью, таких как взаимодействие с людьми или сброс физических систем
Требования адаптивности: агенты должны быстро адаптироваться к новым окружениям, например диалоговые помощники в новых организациях должны научиться методам получения информации и коммуникации

Ограничения существующих методов

Reflexion: предоставляет в основном высокоуровневую рефлексию, но обратная связь часто слишком общая для изменения поведения модели
AWM (Agent Workflow Memory): хранит только рабочие процессы успешных траекторий, недостаточно использует неудачный опыт
Традиционное воспроизведение опыта: сосредоточено на числовых наградах и состояниях, не позволяет гибко редактировать траектории

Основные вклады

Предложение фреймворка ECHO: первый фреймворк подсказок, адаптирующий воспроизведение опыта с учётом результатов (HER) к LM-агентам
Инновационный механизм переписывания траекторий: способность произвольно переписывать неудачные траектории, включая изменение целей и промежуточных шагов
Создание ориентированных на исследование эталонов: разработка окружений XMiniGrid-Stateful и PeopleJoinQA-Stateful, требующих исследования
Значительное улучшение производительности: повышение на 80% на XMiniGrid по сравнению с базовым ReAct, на 42% по сравнению со вторым лучшим методом

Детальное описание метода

Определение задачи

Рассматривается онлайн-сценарий, в котором LM-агент последовательно обрабатывает последовательность запросов от времени t=0 до T без доступа к истинной функции награды или данным демонстрации. Агент должен учиться через взаимодействие с окружением и повышать эффективность будущих решений.

Архитектура ECHO

Основные компоненты

ECHO включает два основных компонента:

Правило с учётом результатов (Hindsight Rule):
- Предлагает достижимые цели из заданной траектории
- Генерирует оптимизированные траектории или описания для этих целей
- Не выполняет никаких действий, если цели не могут быть предложены
Правило обновления (Update Rule):
- Сравнивает новое сгенерированное описание с предыдущим
- Сохраняет более короткий рабочий процесс (на основе принципа минимальной длины описания)
- Поддерживает сжатое представление траектории

Алгоритмический поток

def ECHO(LM, trajectory, replay_buf={}):
    # Правило с учётом результатов
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # Правило обновления
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

Технические инновации

Повышенная выразительность: в отличие от традиционного HER, который может только переобозначать цели, ECHO может произвольно переписывать структуру траектории
Использование предварительно обученных знаний: использует мировые знания LM для заполнения информационных пробелов и предложения разумных контрфактических сценариев
Сжатое представление: на основе сложности Колмогорова поддерживает кратчайшее возможное описание достижения цели
Адаптивный механизм: LM может выбирать уровень абстракции, избегая добавления неэффективных траекторий

Экспериментальная установка

Наборы данных

XMiniGrid-Stateful

Базовое окружение: процедурно генерируемые задачи навигации и планирования в 2D GridWorld
Модификация для состояния: агент выполняет случайно выбранные цели в одном окружении, может учиться расположению невиданных объектов
Масштаб: 10 уникальных окружений, каждое с 4 комнатами и 4 объектами, 16 запросов на окружение
Задача: собрать случайно выбранный объект в течение 64 шагов, частичная наблюдаемость повышает сложность

PeopleJoinQA-Stateful

Базовое окружение: многоагентная задача совместного сбора информации для ответов на вопросы
Модификация для состояния: фиксированная организационная структура, агент отвечает на все вопросы об этой организации
Масштаб: 5 организаций, всего 248 запросов, в среднем 7.98 сообщений на запрос
Задача: связаться с моделируемыми людьми через инструменты, синтезировать информацию для ответа на вопросы

Метрики оценки

Итоговая средняя награда (точность): измеряет финальную производительность
Кумулятивная средняя награда: измеряет эффективность выборки
```
Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
```
Улучшение относительно базового ReAct: нормализация по сложности задачи

Методы сравнения

ReAct: базовый агент рассуждение-действие
Reflexion: языковое обучение с подкреплением для языковых агентов
AWM: память рабочего процесса агента
AWM++: AWM + правило обновления ECHO

Детали реализации

Модель: GPT-4o
Параметр температуры: 0 для ReAct, 0.7 для автономного вывода в PeopleJoin
Максимальное количество токенов: 3800-4000
Валидность траектории: 85% синтетических траекторий исполняемы в XMiniGrid

Результаты экспериментов

Основные результаты

XMiniGrid-Stateful

По сравнению с ReAct: повышение средней награды на 80%
По сравнению со вторым лучшим методом: повышение на 42%
Эффективность выборки: кумулятивная награда превышает базовый ReAct после 3 взаимодействий
Строгое превосходство: над всеми методами сравнения, включая Reflexion и AWM

PeopleJoinQA-Stateful

Точность: на 4.6% ниже Reflexion, но выше ReAct
Эффективность: в среднем на 1.6 сообщения меньше, сопоставимо с AWM
Эффективность выборки: превышает базовый ReAct после первого запроса

Анализ валидности траектории

На 40 выборочных примерах из XMiniGrid:

Коэффициент успеха 85%: агент успешно достигает синтетической цели
Причины отказа: 4 примера из-за отклонений при исполнении, 2 примера из-за невозможных шагов
Вывод: контрфактические рабочие процессы, генерируемые ECHO, в основном корректны и эффективны

Анализ примеров

Пример неудачной траектории: агент не смог собрать серый ключ

Выход Reflexion: общая обратная связь, отсутствуют конкретные предложения по улучшению
Выход AWM: корректно не генерирует рабочий процесс из-за отказа
Выход ECHO: определяет, что агент наблюдал серую звезду, генерирует оптимизированную траекторию для сбора серой звезды

Вариативность между организациями

В PeopleJoinQA оптимальные методы различаются между организациями:

Ни один метод не показывает строгое превосходство на всех организациях
ECHO становится наиболее эффективным методом в некоторых организациях (например, универсальные магазины)
Указывает на необходимость повышения робастности автономных методов

Связанные работы

Языковые модели агентов

Текущее состояние: переход от статической зависимости от знаний к динамической адаптации к окружению
Основные вызовы: недостаточные способности к исследованию и адаптации в новых окружениях
Области применения: веб-навигация, использование инструментов, многоагентное сотрудничество, генерация кода

Классификация систем памяти

Согласно классификации Sumers и др.:

Семантическая память: факты об окружении (например, рефлексии в Reflexion)
Эпизодическая память: прошлые действия (например, рабочие процессы в AWM)

ECHO в основном улучшает построение и обновление эпизодической памяти

Техники воспроизведения опыта

Традиционный HER: переобозначение целей траектории, но без изменения структуры траектории
Преимущество при разреженных наградах: извлечение максимального сигнала обучения из небольшого количества положительных примеров
Расширение ECHO: не только переобозначение целей, но и редактирование произвольных аспектов траектории

Заключение и обсуждение

Основные выводы

Подтверждение эффективности: ECHO значительно повышает эффективность выборки в двух окружениях, ориентированных на исследование
Преимущества механизма: лучше использует прошлый опыт путём преобразования отказов в синтетические успехи
Применимые сценарии: особенно эффективен в окружениях с разреженными наградами и слабой производительностью базовых методов

Ограничения

Ограничения представления: в основном использует представление на естественном языке, кодовое представление может быть более эффективным
Упрощённое правило обновления: эвристика обновления на основе длины может быть слишком простой
Зависимость от окружения: производительность варьируется между различными организациями/окружениями
Неполная модель мира: LM может не иметь полной модели окружения после одной траектории

Направления будущих исследований

Программное представление: исследование эффективности кодовых представлений траекторий
Сложные правила обновления: разработка более точных механизмов слияния информации
Память, дополненная поиском: интеграция с механизмами памяти на основе поиска
Повышение робастности: улучшение согласованности производительности между окружениями

Глубокая оценка

Преимущества

Высокая инновационность: первая адаптация HER к LM-агентам, имеет важное теоретическое и практическое значение
Полные эксперименты: проверка в двух различных типах окружений с детальным анализом абляции
Высокая практическая ценность: решает ключевую проблему LM-агентов в окружениях с высокой стоимостью взаимодействия
Универсальность метода: дизайн фреймворка обладает хорошей масштабируемостью и адаптивностью

Недостатки

Ограничения эталонов: тестирование только в двух относительно простых окружениях, отсутствует проверка в более сложных реальных сценариях
Недостаточный теоретический анализ: отсутствует глубокий анализ сходимости метода и теоретических гарантий
Вычислительные затраты: множественные вызовы LM могут привести к дополнительным вычислительным расходам
Зависимость от способностей модели: эффективность метода сильно зависит от способностей рассуждения и генерации базовой LM

Влияние

Академический вклад: предоставляет новое направление исследований для обучения на основе опыта LM-агентов
Практическое применение: имеет потенциал применения в взаимодействии человека с машиной, управлении робототехникой и других сценариях с высокой стоимостью
Методологическое вдохновение: предоставляет идеи проектирования для других алгоритмов обучения на основе LM

Применимые сценарии

Окружения с высокой стоимостью взаимодействия: диалог человека с машиной, управление физическими системами
Задачи с разреженными наградами: навигация и планирование, ориентированные на исследование
Частично наблюдаемые окружения: сценарии, требующие обучения структуре окружения через взаимодействие
Многоцелевые задачи: окружения, где можно учиться нескольким подумениям из одного опыта

Библиография

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

Общая оценка: Предложенный в данной работе фреймворк ECHO достигает важного прогресса в обучении LM-агентов с эффективной выборкой, метод является инновационным, а результаты экспериментов убедительны. Несмотря на некоторые ограничения, работа закладывает хорошую основу для будущего развития в этой области и обладает высокой академической ценностью и потенциалом практического применения.