2025-11-19T05:19:13.941336

Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals

Sorstkins, Tariq, Bilal

This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.

academic

Apprendre à Annuler : Apprentissage par Renforcement Augmenté par Retour en Arrière avec Signaux de Réversibilité

Informations Fondamentales

ID de l'article: 2510.14503
Titre: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
Auteurs: Andrejs Sorstkins¹, Omer Tariq², Muhammad Bilal¹
Classification: cs.LG
Date de publication: 17 octobre 2025 (preprint arXiv)
Lien de l'article: https://arxiv.org/abs/2510.14503

Résumé

Cet article propose un cadre d'apprentissage réversible visant à améliorer la robustesse et l'efficacité des agents d'apprentissage par renforcement basés sur la valeur, en résolvant les problèmes de surestimation de valeur et d'instabilité dans les environnements partiellement irréversibles. Le cadre contient deux mécanismes fondamentaux complémentaires : une métrique de réversibilité de transition pilotée par l'expérience Φ(s,a) et une opération de retour en arrière d'état sélectif. Dans l'environnement CliffWalking-v0, le cadre réduit les chutes catastrophiques de plus de 99,8%, améliorant la récompense moyenne par épisode de 55%. Dans l'environnement Taxi-v3, les actions illégales sont supprimées à ≥99,9%, la récompense cumulative augmente de 65,7%, tout en réduisant significativement la variance des récompenses dans les deux environnements.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Problème de surestimation de valeur: Le problème de surestimation de la fonction Q omniprésent dans l'apprentissage par renforcement profond conduit les agents à préférer des trajectoires statistiquement fausses ou de faible probabilité, provoquant des mises à jour de politique oscillatoires et prolongeant le temps de convergence
Sécurité dans les environnements irréversibles: Dans les applications critiques pour la sécurité (comme la conduite autonome, la chirurgie robotisée, la planification de traitement médical), les erreurs irréversibles peuvent avoir des conséquences catastrophiques
Limitations des approches existantes: Les solutions traditionnelles au problème de surestimation de Q (comme l'apprentissage Q double, l'apprentissage Q conservateur) augmentent généralement le coût de calcul et la complexité d'échantillonnage

Motivation de la Recherche

La réversibilité dans l'architecture cognitive humaine est fondamentale pour la prise de décision prudente et l'apprentissage adaptatif. Les humains évaluent habituellement à la fois la récompense immédiate d'une action donnée et le degré auquel cette action peut être annulée ou compensée par les étapes suivantes. Cet article intègre cette capacité à « annuler » les décisions sous-optimales dans le cadre de l'apprentissage par renforcement, fournissant une solution pour un large éventail d'applications critiques pour la sécurité.

Contributions Principales

Estimateur de réversibilité sans modèle scalable: Propose un estimateur de réversibilité en ligne et par paire état-action Φ(s,a), évitant l'entraînement de classificateur
Opération de retour en arrière explicite: Intègre les opérations de retour en arrière explicite dans les mises à jour Q-learning et SARSA tabulaires
Mécanisme de couplage principiel: Combine principalement la mise en forme Φ et le retour en arrière sélectif pour limiter le risque baissier sans supprimer l'exploration
Évaluation complète: Par une évaluation approfondie, une analyse de sensibilité et des expériences d'ablation, identifie les composants importants pour la sécurité et les performances

Détails de la Méthode

Définition de la Tâche

Dans un processus de décision markovien (S,A,P,R,γ), l'agent sélectionne une action a∈A dans l'état s∈S, reçoit une récompense r, et se déplace vers s'～P(·|s,a). L'objectif est d'apprendre la fonction de valeur d'action optimale Q*(s,a) tout en assurant la sécurité dans les environnements partiellement irréversibles.

Architecture du Modèle

1. Estimateur de Réversibilité Empirique

Maintient l'estimation de réversibilité via une structure FIFO :

Pour chaque transition observée (st,at)→st+1, pousse l'enregistrement (s0,a0,d) dans la liste FIFO L
d = t+K est l'échéance pour retourner à s0
Utilise la moyenne mobile exponentielle (EMA) pour mettre à jour la table de réversibilité :

Φ[s0,a0] ← (1-αφ)Φ[s0,a0] + αφ·y

où y∈{0,1} indique si le retour à l'état original s'est produit dans K étapes.

2. Apprentissage TD et Mécanisme de Pénalité

Forme la récompense pénalisée :

r' = r - λ(1 - Φ[st,at])

L'erreur TD modifiée est :

Q-learning: δ = r' + γmax_a' Q(st+1,a') - Q(st,at)
SARSA: δ = r' + γQ(st+1,at+1) - Q(st,at)

3. Opération de Retour en Arrière

Exécute le retour en arrière lorsque la condition de seuil est déclenchée :

snext = {
  st,     si le seuil est violé
  st+1,   sinon
}

La condition de seuil est définie comme : valeur cible ≤ T·Q(st,at)

Points d'Innovation Technique

Estimation de réversibilité légère: Remplace l'estimation basée sur classificateur par une estimation empirique basée sur FIFO, évitant le surapprentissage spécifique à la politique
Pénalité localisée: Utilise Φ par paire état-action pour produire une pénalité localisée, plutôt que des seuils globaux
Mécanisme d'annulation explicite: Fournit une primitive de récupération opérationnelle, annulant immédiatement les étapes nuisibles lors de la détection de transitions à haut risque
Fenêtre temporelle adaptative: Contrôle la plage temporelle via le paramètre K, capturant la réversibilité à court ou long terme sans réentraînement

Configuration Expérimentale

Ensembles de Données

Utilise deux environnements classiques « toy-text » tabulaires de Gymnasium v1.2.0 :

CliffWalking-v0: Grille 4×12, environnement déterministe
- Espace d'observation : 48 états accessibles
- Espace d'action : 4 mouvements discrets
- Pénalité de falaise : -100, étape régulière : -1
Taxi-v3: Grille 5×5, tâche de transport de taxi
- Espace d'observation : 500 états
- Espace d'action : 6 actions
- Pénalité d'action illégale : -10, livraison réussie : +20

Métriques d'Évaluation

Récompense moyenne par épisode
Fréquence des événements catastrophiques (chutes/actions illégales)
Nombre de retours en arrière
Variance des récompenses
Efficacité de trajectoire (étapes/épisode)

Méthodes de Comparaison

Q-learning de base
Retour en arrière uniquement (RollbackOnly)
Pénalité de seuil uniquement (ThresholdPeAgent)
Estimation de précédence uniquement (PrecedenceOnly)
Modèle complet (FullModel)

Détails d'Implémentation

Budget d'entraînement : 100 000 épisodes indépendants par environnement
Paramètres : α=0.1, γ=0.99, ε=0.1
Initialisation de la table Q : Q0=-1
Ajustement des hyperparamètres spécifiques à l'environnement

Résultats Expérimentaux

Résultats Principaux

Environnement CliffWalking-v0

Amélioration des performances: Récompense moyenne augmente de -399,77 à -179,81 (+55,0%)
Sécurité: Nombre de chutes réduit de 2,209 à 0,004 (-99,8%)
Contrôle de la variance: Écart-type des récompenses réduit de 563,78 à 160,97 (-71,4%)
Efficacité: Nombre d'étapes augmente de seulement 1,01% (181,06→182,89)

Environnement Taxi-v3

Amélioration des performances: Récompense moyenne augmente de -1652,93 à -567,09 (+65,7%)
Sécurité: Actions illégales réduites de 110,217 à 0,069 (-99,9%)
Contrôle de la variance: Écart-type des récompenses réduit de 652,74 à 267,00 (-59,1%)
Longueur de trajectoire: Nombre d'étapes augmente de 2,46% (681,85→698,65)

Expériences d'Ablation

L'étude d'ablation confirme que le retour en arrière est le facteur moteur principal :

RollbackOnly récupère presque toutes les améliorations de récompense du modèle complet dans les deux environnements
PrecedenceOnly fonctionne mal dans les deux tâches
Le mécanisme de seuil est secondaire, ajoutant principalement de la valeur lorsqu'il est associé au retour en arrière

Analyse de Sensibilité des Paramètres

Sensibilité des hyperparamètres spécifiques à l'environnement :

CliffWalking-v0: K=2, λ=0.6, pénalité=1.2, Φ0=0.0 (a priori pessimiste)
Taxi-v3: K=0, λ=0.8, pénalité=1.1, Φ0=0.8 (a priori optimiste)

Ces contrastes indiquent que l'apprentissage par renforcement conscient de la réversibilité nécessite un ajustement des biais spécifiques à l'environnement.

Travaux Connexes

Solutions de Surestimation de Valeur

Double Q-Learning: Utilise deux estimateurs indépendants pour séparer la sélection et l'évaluation
TD3: Supprime l'optimisme excessif via des critiques doubles et des mises à jour de politique retardées
Maxmin Q-Learning: Interpole entre N critiques

Méthodes d'Exploration Sûre

Approches basées sur les contraintes: Cadre GSE, ActSafe, etc.
Approches basées sur la vérification: Méthodes de vérification formelle comme VELM
Optimisation du compromis récompense-sécurité: Techniques de manipulation de gradient

Positionnement de cet Article

Contrairement aux méthodes existantes, cet article introduit une perspective pilotée par la réversibilité, fournissant une récupérabilité dynamique plutôt que des filtres de sécurité statiques.

Conclusion et Discussion

Conclusions Principales

Amélioration significative de la sécurité: Réduction des défaillances catastrophiques >99% dans les deux environnements
Amélioration substantielle des performances: Augmentation de la récompense cumulative de 55-66%
Contrôle efficace de la variance: Réduction significative de la dispersion des métriques de récompense et de sécurité
Adaptabilité environnementale: Différents environnements nécessitent une paramétrisation optimale différente

Limitations

Limité aux environnements tabulaires: Les conclusions peuvent ne pas se généraliser directement aux paramètres d'approximation de fonction
Hypothèses d'opération de retour en arrière: Nécessite l'accès à une primitive d'état antérieur sûre
Sensibilité des hyperparamètres: Nécessite une sélection d'hyperparamètres consciente de l'environnement
Application aux systèmes réels: Le retour en arrière dans les systèmes réels peut être non trivial

Directions Futures

Intégrer le retour en arrière dans les paramètres d'approximation de fonction
Étendre le domaine expérimental pour réduire les cas d'usage de l'estimation de précédence
Développer l'ajustement adaptatif des hyperparamètres entre environnements
Étudier les analogues réalistes du retour en arrière dans la robotique et les systèmes d'aide à la décision

Évaluation Approfondie

Avantages

Innovation forte: Introduit pour la première fois un mécanisme d'« annulation » explicite dans l'apprentissage par renforcement, concept novateur et intuitif
Expérimentation complète: Études d'ablation complètes, analyse de sensibilité des paramètres et tests de signification statistique
Résultats convaincants: Améliorations significatives et cohérentes en sécurité et en performances
Fondation théorique solide: Formalise le concept de réversibilité de la cognition humaine en cadre algorithmique

Insuffisances

Limitations environnementales: Validation uniquement dans des environnements tabulaires simples, manque de validation dans des environnements complexes
Problèmes d'évolutivité: L'évolutivité de la structure FIFO et des méthodes tabulaires dans les problèmes à grande échelle est douteuse
Limitations pratiques: Les opérations de « retour en arrière » dans le monde réel peuvent être irréalisables ou coûteuses
Analyse théorique insuffisante: Manque de garanties de convergence et de limites de performance théoriques

Impact

Contribution académique: Fournit une nouvelle direction de recherche pour l'apprentissage par renforcement sûr
Valeur pratique: Fournit un cadre de solution opérationnel pour les applications critiques pour la sécurité
Reproductibilité: La méthode est simple et explicite, facile à reproduire et à étendre

Scénarios Applicables

Systèmes critiques pour la sécurité: Conduite autonome, dispositifs médicaux, contrôle industriel
IA de jeu: Stratégies de jeu nécessitant d'éviter les erreurs fatales
Contrôle robotique: Tâches opérationnelles nécessitant une capacité de correction d'erreurs
Trading financier automatisé: Systèmes de trading automatisé nécessitant un contrôle des risques

Références

L'article cite 48 références connexes, couvrant les travaux importants dans les domaines fondamentaux de la théorie de l'apprentissage par renforcement, de l'exploration sûre et de la surestimation de valeur, fournissant une base théorique solide pour cette recherche.

Évaluation Globale: Cet article est une contribution innovante et pratique qui intègre avec succès le concept d'« annulation » de la cognition humaine dans l'apprentissage par renforcement, réalisant des améliorations significatives en sécurité et en performances. Bien que actuellement limité aux environnements tabulaires, il ouvre une nouvelle direction pour la recherche future en apprentissage par renforcement sûr.