2025-11-19T05:19:13.941336

Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals

Sorstkins, Tariq, Bilal

This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.

academic

Обучение отмене: Усиленное обучение с подкатом и сигналами обратимости

Основная информация

ID статьи: 2510.14503
Название: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
Авторы: Andrejs Sorstkins¹, Omer Tariq², Muhammad Bilal¹
Классификация: cs.LG
Дата публикации: 17 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14503

Аннотация

В данной работе предложена структура обучения на основе обратимости, направленная на повышение робастности и эффективности агентов обучения с подкреплением на основе стоимости, решающая проблемы переоценки стоимости и нестабильности в частично необратимых средах. Структура включает два взаимодополняющих основных механизма: метрику обратимости переходов, управляемую опытом Φ(s,a), и операцию выборочного отката состояния. В среде CliffWalking-v0 структура снижает катастрофические падения на более чем 99,8%, повышая среднее вознаграждение за эпизод на 55%. В среде Taxi-v3 незаконные действия подавляются на ≥99,9%, совокупное вознаграждение повышается на 65,7%, при этом значительно снижается дисперсия вознаграждения в обеих средах.

Исследовательский контекст и мотивация

Основные проблемы

Проблема переоценки стоимости: Широко распространённая в глубоком обучении с подкреплением проблема переоценки функции Q приводит к тому, что агенты отдают предпочтение статистически ложным или низковероятным траекториям, вызывая колебания обновления политики и увеличение времени сходимости
Безопасность в необратимых средах: В критичных по безопасности приложениях (таких как автономное вождение, робот-хирург, планирование медицинского лечения) необратимые ошибки могут привести к катастрофическим последствиям
Ограничения существующих методов: Традиционные решения для переоценки Q-значений (такие как двойное Q-обучение, консервативное Q-обучение) обычно достигаются за счёт увеличения вычислительных затрат и сложности выборки

Исследовательская мотивация

Обратимость в архитектуре человеческого познания является основой осмотрительного принятия решений и адаптивного обучения. Люди обычно оценивают как немедленное вознаграждение за данное действие, так и степень, в которой это действие может быть отменено или компенсировано последующими шагами. В данной работе эта способность "отменять" неоптимальные решения встроена в структуру обучения с подкреплением, предоставляя решение для широкого спектра критичных по безопасности приложений.

Основные вклады

Масштабируемый оценитель обратимости без модели: Предложен онлайн-оценитель обратимости по парам состояние-действие Φ(s,a), избегающий обучения классификатора
Явная операция отката: Интеграция явной операции отката в табличное Q-обучение и обновления SARSA
Принципиальный механизм связи: Принципиальное объединение формирования Φ и выборочного отката для ограничения нижнего риска без подавления исследования
Комплексная оценка: Посредством обширной оценки, анализа чувствительности и абляционных экспериментов определены компоненты, важные для безопасности и производительности

Подробное описание методологии

Определение задачи

В марковском процессе принятия решений (S,A,P,R,γ) агент выбирает действие a∈A в состоянии s∈S, получает вознаграждение r и переходит в s'～P(·|s,a). Цель состоит в изучении оптимальной функции стоимости действия Q*(s,a) при обеспечении безопасности в частично необратимых средах.

Архитектура модели

1. Оценитель обратимости на основе опыта

Поддержание оценки обратимости через структуру FIFO:

Для каждого наблюдаемого перехода (st,at)→st+1 запись (s0,a0,d) помещается в список FIFO L
d = t+K — крайний срок для возврата в s0
Обновление таблицы обратимости с использованием экспоненциального скользящего среднего (EMA):

Φ[s0,a0] ← (1-αφ)Φ[s0,a0] + αφ·y

где y∈{0,1} указывает, был ли возврат в исходное состояние в течение K шагов.

2. TD-обучение и механизм штрафа

Формирование штрафного вознаграждения:

r' = r - λ(1 - Φ[st,at])

Модифицированная ошибка TD:

Q-обучение: δ = r' + γmax_a' Q(st+1,a') - Q(st,at)
SARSA: δ = r' + γQ(st+1,at+1) - Q(st,at)

3. Операция отката

Откат выполняется при срабатывании условия порога:

snext = {
  st,     если нарушен порог
  st+1,   иначе
}

Условие порога определяется как: целевое значение ≤ T·Q(st,at)

Технические инновации

Лёгкая оценка обратимости: Замена оценки на основе классификатора на оценку на основе опыта с FIFO, избегая переобучения, специфичного для политики
Локализованный штраф: Использование Φ по парам состояние-действие для создания локализованного штрафа вместо глобального порога
Явный механизм отмены: Предоставление действенного примитива восстановления для немедленного отката вредоносных шагов при обнаружении высокорисковых переходов
Адаптивное временное окно: Контроль временного диапазона через параметр K для захвата краткосрочной или долгосрочной обратимости без переобучения

Экспериментальная установка

Наборы данных

Использованы два классических табличных окружения "toy-text" из Gymnasium v1.2.0:

CliffWalking-v0: сетка 4×12, детерминированное окружение
- Пространство наблюдений: 48 достижимых состояний
- Пространство действий: 4 дискретных движения
- Штраф за обрыв: -100, обычный шаг: -1
Taxi-v3: сетка 5×5, задача доставки такси
- Пространство наблюдений: 500 состояний
- Пространство действий: 6 действий
- Штраф за незаконное действие: -10, успешная доставка: +20

Метрики оценки

Среднее вознаграждение за эпизод
Частота катастрофических событий (падения/незаконные действия)
Количество откатов
Дисперсия вознаграждения
Эффективность траектории (шаги/эпизод)

Методы сравнения

Базовое Q-обучение
Только откат (RollbackOnly)
Только штраф порога (ThresholdPeAgent)
Только оценка прецедента (PrecedenceOnly)
Полная модель (FullModel)

Детали реализации

Бюджет обучения: 100 000 независимых эпизодов на окружение
Параметры: α=0,1, γ=0,99, ε=0,1
Инициализация таблицы Q: Q0=-1
Настройка гиперпараметров для конкретного окружения

Экспериментальные результаты

Основные результаты

Окружение CliffWalking-v0

Улучшение производительности: среднее вознаграждение повышается с -399,77 до -179,81 (+55,0%)
Безопасность: количество падений снижается с 2,209 до 0,004 (-99,8%)
Контроль дисперсии: стандартное отклонение вознаграждения снижается с 563,78 до 160,97 (-71,4%)
Эффективность: количество шагов увеличивается только на 1,01% (181,06→182,89)

Окружение Taxi-v3

Улучшение производительности: среднее вознаграждение повышается с -1652,93 до -567,09 (+65,7%)
Безопасность: незаконные действия снижаются с 110,217 до 0,069 (-99,9%)
Контроль дисперсии: стандартное отклонение вознаграждения снижается с 652,74 до 267,00 (-59,1%)
Длина траектории: количество шагов увеличивается на 2,46% (681,85→698,65)

Абляционные эксперименты

Абляционное исследование подтверждает, что откат является основным движущим фактором:

RollbackOnly восстанавливает почти все улучшения полной модели в обоих окружениях
PrecedenceOnly показывает плохие результаты в обеих задачах
Механизм порога является вторичным, добавляя ценность в основном при сочетании с откатом

Анализ чувствительности параметров

Чувствительность гиперпараметров, специфичная для окружения:

CliffWalking-v0: K=2, λ=0,6, штраф=1,2, Φ0=0,0 (пессимистичный приоритет)
Taxi-v3: K=0, λ=0,8, штраф=1,1, Φ0=0,8 (оптимистичный приоритет)

Эти контрасты указывают на то, что обучение с подкреплением, осведомленное об обратимости, требует настройки смещения, специфичного для окружения.

Связанные работы

Решения для переоценки стоимости

Double Q-Learning: использование двух независимых оценителей для разделения выбора и оценки
TD3: подавление чрезмерного оптимизма через двойных критиков и отложенное обновление политики
Maxmin Q-Learning: интерполяция между N критиками

Методы безопасного исследования

Методы на основе ограничений: структура GSE, ActSafe и др.
Методы на основе верификации: VELM и другие методы формальной верификации
Оптимизация компромисса вознаграждение-безопасность: техники манипуляции градиентом

Позиционирование данной работы

В отличие от существующих методов, данная работа вводит перспективу, управляемую обратимостью, обеспечивающую динамическую восстанавливаемость вместо статических фильтров безопасности.

Заключение и обсуждение

Основные выводы

Значительное повышение безопасности: катастрофические отказы снижаются на >99% в обоих окружениях
Значительное улучшение производительности: совокупное вознаграждение повышается на 55-66%
Эффективный контроль дисперсии: значительное снижение дисперсии показателей вознаграждения и безопасности
Адаптивность окружения: разные окружения требуют разных оптимальных параметризаций

Ограничения

Ограничение табличными окружениями: выводы могут не распространяться напрямую на параметризованные приближения
Предположения об операции отката: требуется доступ к примитиву безопасного предыдущего состояния
Чувствительность гиперпараметров: требуется выбор гиперпараметров, осведомленный об окружении
Применение в реальных системах: откат в реальных системах может быть нетривиальным

Будущие направления

Интеграция отката в параметризованные приближения
Расширение экспериментальной области для сужения вариантов использования оценки прецедента
Разработка адаптивной настройки гиперпараметров между окружениями
Исследование реальных аналогов отката в робототехнике и системах поддержки принятия решений

Глубокая оценка

Преимущества

Высокая инновационность: впервые вводит явный механизм "отмены" в обучение с подкреплением, концепция новая и интуитивна
Достаточные эксперименты: комплексные абляционные исследования, анализ чувствительности параметров и тесты статистической значимости
Убедительные результаты: значительные и последовательные улучшения как в безопасности, так и в производительности
Прочная теоретическая база: формализация концепции обратимости из человеческого познания в алгоритмическую структуру

Недостатки

Ограничения окружения: проверка только в простых табличных окружениях, отсутствие проверки в сложных окружениях
Проблемы масштабируемости: вопросы о масштабируемости структуры FIFO и табличных методов в крупномасштабных задачах
Ограничения практичности: операция "отката" в реальном мире может быть невозможной или дорогостоящей
Недостаточный теоретический анализ: отсутствие гарантий сходимости и теоретических границ производительности

Влияние

Академический вклад: открывает новое направление исследований для безопасного обучения с подкреплением
Практическая ценность: предоставляет действенную структуру решения для критичных по безопасности приложений
Воспроизводимость: метод простой и ясный, легко воспроизводится и расширяется

Применимые сценарии

Критичные по безопасности системы: автономное вождение, медицинские устройства, промышленное управление
Игровой ИИ: стратегические игры, требующие избежания смертельных ошибок
Управление робототехникой: операционные задачи, требующие способности исправления ошибок
Финансовая торговля: автоматизированные торговые системы, требующие контроля рисков

Библиография

Статья цитирует 48 соответствующих источников, охватывающих фундаментальную теорию обучения с подкреплением, безопасное исследование, переоценку стоимости и другие ключевые области, обеспечивая прочную теоретическую базу для данного исследования.

Общая оценка: Это инновационная и практически ценная статья, которая успешно встраивает концепцию "отмены" из человеческого познания в обучение с подкреплением, достигая значительных улучшений как в безопасности, так и в производительности. Хотя в настоящее время ограничена табличными окружениями, она открывает новые направления для будущих исследований в области безопасного обучения с подкреплением.