2025-11-19T05:19:13.941336

Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals

Sorstkins, Tariq, Bilal

This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.

academic

Imparare ad Annullare: Apprendimento per Rinforzo Aumentato da Rollback con Segnali di Reversibilità

Informazioni Fondamentali

ID Articolo: 2510.14503
Titolo: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
Autori: Andrejs Sorstkins¹, Omer Tariq², Muhammad Bilal¹
Classificazione: cs.LG
Data di Pubblicazione: 17 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14503

Riassunto

Questo articolo propone un framework di apprendimento reversibile volto a migliorare la robustezza e l'efficienza degli agenti di apprendimento per rinforzo basati su valori, affrontando i problemi di sovrastima dei valori e instabilità in ambienti parzialmente irreversibili. Il framework contiene due meccanismi complementari fondamentali: una metrica empirica di reversibilità delle transizioni Φ(s,a) e un'operazione selettiva di rollback dello stato. Nell'ambiente CliffWalking-v0, il framework riduce le cadute catastrofiche di oltre il 99,8%, migliorando la ricompensa media per episodio del 55%. Nell'ambiente Taxi-v3, le azioni illegittime vengono soppresse con ≥99,9%, il premio cumulativo aumenta del 65,7%, riducendo significativamente la varianza delle ricompense in entrambi gli ambienti.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Problema della Sovrastima dei Valori: Il problema universale della sovrastima della funzione Q nell'apprendimento per rinforzo profondo porta gli agenti a preferire traiettorie statisticamente spurie o a bassa probabilità, causando aggiornamenti di politica oscillatori e tempi di convergenza prolungati
Sicurezza in Ambienti Irreversibili: In applicazioni critiche per la sicurezza (come la guida autonoma, la chirurgia robotica, la pianificazione del trattamento medico), gli errori irreversibili possono avere conseguenze catastrofiche
Limitazioni dei Metodi Esistenti: Le soluzioni tradizionali alla sovrastima dei valori Q (come il Double Q-Learning, il Conservative Q-Learning) di solito comportano un aumento dei costi computazionali e della complessità campionaria

Motivazione della Ricerca

La reversibilità nell'architettura cognitiva umana è fondamentale per il processo decisionale prudente e l'apprendimento adattivo. Gli umani valutano abitualmente sia la ricompensa immediata di una data azione che il grado in cui tale azione può essere invertita o compensata da passaggi successivi. Questo articolo incorpora questa capacità di "annullare" decisioni subottimali nel framework di apprendimento per rinforzo, fornendo una soluzione per un'ampia gamma di applicazioni critiche per la sicurezza.

Contributi Fondamentali

Stimatore di Reversibilità Senza Modello Scalabile: Propone uno stimatore online di reversibilità per coppia stato-azione Φ(s,a) che evita l'addestramento di classificatori
Operazione di Rollback Esplicita: Integra operazioni di rollback esplicite negli aggiornamenti Q-Learning e SARSA tabulari
Meccanismo di Accoppiamento Principiato: Combina principialmente la modellazione Φ e il rollback selettivo per limitare il rischio al ribasso senza sopprimere l'esplorazione
Valutazione Completa: Attraverso una valutazione estesa, analisi di sensibilità e esperimenti di ablazione, identifica i componenti importanti per la sicurezza e le prestazioni

Dettagli del Metodo

Definizione del Compito

In un Processo Decisionale di Markov (S,A,P,R,γ), l'agente seleziona un'azione a∈A nello stato s∈S, riceve una ricompensa r e transita verso s'～P(·|s,a). L'obiettivo è imparare la funzione di valore dell'azione ottimale Q*(s,a) garantendo al contempo la sicurezza in ambienti parzialmente irreversibili.

Architettura del Modello

1. Stimatore di Reversibilità Empirica

Mantiene la stima della reversibilità attraverso una struttura FIFO:

Per ogni transizione osservata (st,at)→st+1, inserisce il record (s0,a0,d) nella lista FIFO L
d = t+K è la scadenza entro cui si deve tornare a s0
Aggiorna la tabella di reversibilità utilizzando la media mobile esponenziale (EMA):

Φ[s0,a0] ← (1-αφ)Φ[s0,a0] + αφ·y

dove y∈{0,1} indica se si ritorna allo stato originale entro K passi.

2. Apprendimento TD e Meccanismo di Penalità

Forma la ricompensa penalizzata:

r' = r - λ(1 - Φ[st,at])

L'errore TD modificato è:

Q-Learning: δ = r' + γmax_a' Q(st+1,a') - Q(st,at)
SARSA: δ = r' + γQ(st+1,at+1) - Q(st,at)

3. Operazione di Rollback

Esegue il rollback quando le condizioni di soglia vengono attivate:

snext = {
  st,     se la soglia viene violata
  st+1,   altrimenti
}

La condizione di soglia è definita come: valore target ≤ T·Q(st,at)

Punti di Innovazione Tecnica

Stima di Reversibilità Leggera: Sostituisce la stima precedente basata su classificatori con una stima empirica basata su FIFO, evitando l'overfitting specifico della politica
Penalità Localizzata: Utilizza Φ per coppia stato-azione per produrre penalità localizzate, piuttosto che soglie globali
Meccanismo di Annullamento Esplicito: Fornisce primitive di recupero azionabili per annullare immediatamente i passaggi dannosi quando vengono rilevate transizioni ad alto rischio
Finestra Temporale Adattiva: Controlla l'intervallo temporale attraverso il parametro K, catturando la reversibilità a breve o lungo termine senza riaddestramento

Configurazione Sperimentale

Dataset

Utilizza due ambienti classici "toy-text" tabulari da Gymnasium v1.2.0:

CliffWalking-v0: Griglia 4×12, ambiente deterministico
- Spazio di osservazione: 48 stati raggiungibili
- Spazio di azione: 4 movimenti discreti
- Penalità scogliera: -100, passaggio regolare: -1
Taxi-v3: Griglia 5×5, compito di ritiro e consegna taxi
- Spazio di osservazione: 500 stati
- Spazio di azione: 6 azioni
- Penalità azione illegittima: -10, consegna riuscita: +20

Metriche di Valutazione

Ricompensa media per episodio
Frequenza di eventi catastrofici (cadute/azioni illegittime)
Numero di rollback
Varianza della ricompensa
Efficienza della traiettoria (passi/episodio)

Metodi di Confronto

Q-Learning di base
Solo Rollback (RollbackOnly)
Solo Penalità di Soglia (ThresholdPeAgent)
Solo Stima Precedente (PrecedenceOnly)
Modello Completo (FullModel)

Dettagli di Implementazione

Budget di addestramento: 100.000 episodi indipendenti per ambiente
Impostazioni parametriche: α=0.1, γ=0.99, ε=0.1
Inizializzazione tabella Q: Q0=-1
Ottimizzazione degli iperparametri specifici dell'ambiente

Risultati Sperimentali

Risultati Principali

Ambiente CliffWalking-v0

Miglioramento delle Prestazioni: Ricompensa media da -399,77 a -179,81 (+55,0%)
Sicurezza: Cadute ridotte da 2,209 a 0,004 (-99,8%)
Controllo della Varianza: Deviazione standard della ricompensa da 563,78 a 160,97 (-71,4%)
Efficienza: Aumento dei passi solo dell'1,01% (181,06→182,89)

Ambiente Taxi-v3

Miglioramento delle Prestazioni: Ricompensa media da -1652,93 a -567,09 (+65,7%)
Sicurezza: Azioni illegittime ridotte da 110,217 a 0,069 (-99,9%)
Controllo della Varianza: Deviazione standard della ricompensa da 652,74 a 267,00 (-59,1%)
Lunghezza della Traiettoria: Aumento dei passi del 2,46% (681,85→698,65)

Esperimenti di Ablazione

Lo studio di ablazione conferma che il rollback è il fattore trainante principale:

RollbackOnly recupera quasi tutti i miglioramenti di ricompensa del modello completo in entrambi gli ambienti
PrecedenceOnly mostra prestazioni scadenti in entrambi i compiti
Il meccanismo di soglia è secondario, aggiungendo principalmente valore quando abbinato al rollback

Analisi di Sensibilità dei Parametri

Sensibilità degli Iperparametri Specifici dell'Ambiente:

CliffWalking-v0: K=2, λ=0.6, penalità=1.2, Φ0=0.0 (prior pessimista)
Taxi-v3: K=0, λ=0.8, penalità=1.1, Φ0=0.8 (prior ottimista)

Questi contrasti indicano che l'apprendimento per rinforzo consapevole della reversibilità richiede aggiustamenti di bias specifici dell'ambiente.

Lavori Correlati

Soluzioni alla Sovrastima dei Valori

Double Q-Learning: Utilizza due stimatori indipendenti per separare la selezione dalla valutazione
TD3: Sopprime l'eccessivo ottimismo attraverso doppi critici e aggiornamenti di politica ritardati
Maxmin Q-Learning: Interpola tra N critici

Metodi di Esplorazione Sicura

Metodi Basati su Vincoli: Framework GSE, ActSafe e altri
Metodi Basati su Verifica: Metodi di verifica formale come VELM
Ottimizzazione del Compromesso Ricompensa-Sicurezza: Tecniche di manipolazione del gradiente

Posizionamento di questo Articolo

A differenza dei metodi esistenti, questo articolo introduce una prospettiva guidata dalla reversibilità, fornendo recuperabilità dinamica piuttosto che filtri di sicurezza statici.

Conclusioni e Discussione

Conclusioni Principali

Miglioramento Significativo della Sicurezza: Riduzione dei guasti catastrofici >99% in entrambi gli ambienti
Miglioramento Sostanziale delle Prestazioni: Aumento della ricompensa cumulativa del 55-66%
Controllo Efficace della Varianza: Riduzione significativa della dispersione nelle metriche di ricompensa e sicurezza
Adattabilità Ambientale: Diversi ambienti richiedono parametrizzazioni ottimali diverse

Limitazioni

Limitato agli Ambienti Tabulari: Le conclusioni potrebbero non generalizzarsi direttamente alle impostazioni di approssimazione di funzioni
Ipotesi dell'Operazione di Rollback: Richiede accesso a primitive di stato precedente sicure
Sensibilità agli Iperparametri: Richiede la selezione di iperparametri consapevoli dell'ambiente
Applicazione ai Sistemi Reali: Il rollback nei sistemi reali potrebbe essere non banale

Direzioni Future

Integrare il rollback in impostazioni di approssimazione di funzioni
Estendere il dominio sperimentale per restringere i casi d'uso della stima precedente
Sviluppare ottimizzazione adattiva degli iperparametri tra ambienti
Investigare gli analoghi reali del rollback nella robotica e nei sistemi di supporto alle decisioni

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Introduce per la prima volta un meccanismo esplicito di "annullamento" nell'apprendimento per rinforzo, concettualmente nuovo e intuitivo
Esperimenti Completi: Studio di ablazione completo, analisi di sensibilità dei parametri e test di significatività statistica
Risultati Convincenti: Miglioramenti significativi e coerenti sia in sicurezza che in prestazioni
Fondamento Teorico Solido: Formalizza il concetto di reversibilità dalla cognizione umana in un framework algoritmico

Insufficienze

Limitazioni Ambientali: Verificato solo in ambienti tabulari semplici, mancano verifiche in ambienti complessi
Problemi di Scalabilità: La scalabilità della struttura FIFO e dei metodi tabulari in problemi su larga scala è discutibile
Limitazioni Pratiche: L'operazione di "rollback" nel mondo reale potrebbe non essere fattibile o potrebbe avere costi elevati
Analisi Teorica Insufficiente: Mancano garanzie di convergenza e limiti di prestazione teorici

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento per rinforzo sicuro
Valore Pratico: Fornisce un framework di soluzione operabile per applicazioni critiche per la sicurezza
Riproducibilità: Il metodo è semplice e chiaro, facile da riprodurre ed estendere

Scenari Applicabili

Sistemi Critici per la Sicurezza: Guida autonoma, dispositivi medici, controllo industriale
IA per Giochi: Giochi strategici che richiedono di evitare errori fatali
Controllo Robotico: Compiti operativi che richiedono capacità di correzione
Trading Finanziario Automatico: Sistemi di trading automatico che richiedono controllo del rischio

Riferimenti Bibliografici

L'articolo cita 48 lavori correlati, coprendo la teoria fondamentale dell'apprendimento per rinforzo, l'esplorazione sicura, la sovrastima dei valori e altri campi centrali, fornendo una base teorica solida per questa ricerca.

Valutazione Complessiva: Questo è un articolo innovativo e di valore pratico che incorpora con successo il concetto umano di "annullamento" nell'apprendimento per rinforzo, ottenendo miglioramenti significativi sia in sicurezza che in prestazioni. Sebbene attualmente limitato agli ambienti tabulari, apre una nuova direzione per la ricerca futura sull'apprendimento per rinforzo sicuro.