Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
Sorstkins, Tariq, Bilal
This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.
academic
Обучение отмене: Усиленное обучение с подкатом и сигналами обратимости
В данной работе предложена структура обучения на основе обратимости, направленная на повышение робастности и эффективности агентов обучения с подкреплением на основе стоимости, решающая проблемы переоценки стоимости и нестабильности в частично необратимых средах. Структура включает два взаимодополняющих основных механизма: метрику обратимости переходов, управляемую опытом Φ(s,a), и операцию выборочного отката состояния. В среде CliffWalking-v0 структура снижает катастрофические падения на более чем 99,8%, повышая среднее вознаграждение за эпизод на 55%. В среде Taxi-v3 незаконные действия подавляются на ≥99,9%, совокупное вознаграждение повышается на 65,7%, при этом значительно снижается дисперсия вознаграждения в обеих средах.
Проблема переоценки стоимости: Широко распространённая в глубоком обучении с подкреплением проблема переоценки функции Q приводит к тому, что агенты отдают предпочтение статистически ложным или низковероятным траекториям, вызывая колебания обновления политики и увеличение времени сходимости
Безопасность в необратимых средах: В критичных по безопасности приложениях (таких как автономное вождение, робот-хирург, планирование медицинского лечения) необратимые ошибки могут привести к катастрофическим последствиям
Ограничения существующих методов: Традиционные решения для переоценки Q-значений (такие как двойное Q-обучение, консервативное Q-обучение) обычно достигаются за счёт увеличения вычислительных затрат и сложности выборки
Обратимость в архитектуре человеческого познания является основой осмотрительного принятия решений и адаптивного обучения. Люди обычно оценивают как немедленное вознаграждение за данное действие, так и степень, в которой это действие может быть отменено или компенсировано последующими шагами. В данной работе эта способность "отменять" неоптимальные решения встроена в структуру обучения с подкреплением, предоставляя решение для широкого спектра критичных по безопасности приложений.
Масштабируемый оценитель обратимости без модели: Предложен онлайн-оценитель обратимости по парам состояние-действие Φ(s,a), избегающий обучения классификатора
Явная операция отката: Интеграция явной операции отката в табличное Q-обучение и обновления SARSA
Принципиальный механизм связи: Принципиальное объединение формирования Φ и выборочного отката для ограничения нижнего риска без подавления исследования
Комплексная оценка: Посредством обширной оценки, анализа чувствительности и абляционных экспериментов определены компоненты, важные для безопасности и производительности
В марковском процессе принятия решений (S,A,P,R,γ) агент выбирает действие a∈A в состоянии s∈S, получает вознаграждение r и переходит в s'~P(·|s,a). Цель состоит в изучении оптимальной функции стоимости действия Q*(s,a) при обеспечении безопасности в частично необратимых средах.
Лёгкая оценка обратимости: Замена оценки на основе классификатора на оценку на основе опыта с FIFO, избегая переобучения, специфичного для политики
Локализованный штраф: Использование Φ по парам состояние-действие для создания локализованного штрафа вместо глобального порога
Явный механизм отмены: Предоставление действенного примитива восстановления для немедленного отката вредоносных шагов при обнаружении высокорисковых переходов
Адаптивное временное окно: Контроль временного диапазона через параметр K для захвата краткосрочной или долгосрочной обратимости без переобучения
В отличие от существующих методов, данная работа вводит перспективу, управляемую обратимостью, обеспечивающую динамическую восстанавливаемость вместо статических фильтров безопасности.
Статья цитирует 48 соответствующих источников, охватывающих фундаментальную теорию обучения с подкреплением, безопасное исследование, переоценку стоимости и другие ключевые области, обеспечивая прочную теоретическую базу для данного исследования.
Общая оценка: Это инновационная и практически ценная статья, которая успешно встраивает концепцию "отмены" из человеческого познания в обучение с подкреплением, достигая значительных улучшений как в безопасности, так и в производительности. Хотя в настоящее время ограничена табличными окружениями, она открывает новые направления для будущих исследований в области безопасного обучения с подкреплением.