Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
Sorstkins, Tariq, Bilal
This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.
본 논문은 가치 기반 강화학습 에이전트의 견고성과 효율성을 향상시키기 위한 가역성 학습 프레임워크를 제안하며, 가치 과대평가 및 부분적으로 비가역적인 환경에서의 불안정성 문제를 해결합니다. 이 프레임워크는 두 가지 상호 보완적인 핵심 메커니즘으로 구성됩니다: 경험 기반 전이 가역성 측도 Φ(s,a)와 선택적 상태 롤백 연산입니다. CliffWalking-v0 환경에서 이 프레임워크는 재앙적 낙하를 99.8% 이상 감소시키고 평균 에피소드 보상을 55% 향상시킵니다. Taxi-v3 환경에서는 불법 동작을 ≥99.9% 억제하고 누적 보상을 65.7% 향상시키면서 두 환경 모두에서 보상 분산을 크게 감소시킵니다.
인간 인지 구조에서의 가역성은 신중한 의사결정과 적응적 학습의 기초입니다. 인간은 주어진 동작의 즉각적인 보상뿐만 아니라 해당 동작이 후속 단계에 의해 역전되거나 상쇄될 정도를 습관적으로 평가합니다. 본 논문은 차선의 결정을 "실행 취소"하는 이러한 능력을 강화학습 프레임워크에 내장하여 광범위한 안전 중요 응용 분야에 대한 해결책을 제공합니다.