The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
- ID Articolo: 2510.11877
- Titolo: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
- Autori: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
- Classificazione: cs.LG cs.GT
- Data di Pubblicazione/Conferenza: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML
- Link Articolo: https://arxiv.org/abs/2510.11877
Il Transformer, in quanto architettura altamente espressiva per la modellazione di sequenze, è stato recentemente adattato per risolvere problemi di decisione sequenziale, tra cui il più noto è il Decision Transformer (DT), che apprende strategie condizionando il rendimento atteso. Tuttavia, la robustezza avversariale dei metodi di apprendimento per rinforzo basati su modellazione di sequenze rimane in gran parte inesplorata. Questo articolo introduce il Conservative Adversarially Robust Decision Transformer (CART), che è, a nostra conoscenza, il primo framework progettato per migliorare la robustezza del DT in giochi stocastici avversariali. Modelliamo l'interazione tra il protagonista e l'avversario in ogni fase come un gioco di fase, dove il payoff è definito come il valore massimo atteso dello stato successivo, incorporando così esplicitamente le transizioni di stato stocastiche. Condizionando la strategia Transformer sui valori NashQ derivati da questi giochi di fase, CART genera strategie che sono simultaneamente caratterizzate da bassa sfruttabilità (robustezza avversariale) e conservatività rispetto all'incertezza di transizione.
Il problema centrale affrontato da questa ricerca è migliorare la robustezza avversariale del Decision Transformer in ambienti di giochi stocastici. Nello specifico:
- Fragilità del Decision Transformer: Sebbene il DT mostri prestazioni eccellenti nei compiti di decisione sequenziale, è facilmente sfruttabile in ambienti avversariali, poiché apprende strategie attraverso apprendimento per imitazione, e i rendimenti elevati potrebbero essere attribuiti semplicemente alle debolezze della strategia dell'avversario piuttosto che a una vera robustezza.
- Limitazioni dei Metodi Esistenti: L'Adversarially Robust Decision Transformer (ARDT), sebbene attenui questo problema condizionando il rendimento minimax, è applicabile solo all'apprendimento per rinforzo avversariale con transizioni di stato deterministiche e potrebbe mostrare eccessivo ottimismo in giochi con transizioni di stato stocastiche.
- Sfide nella Gestione della Stocasticità: Nei giochi stocastici, le transizioni di stato sono intrinsecamente probabilistiche. L'ARDT potrebbe trascurare le probabilità di transizione condizionando solo il rendimento minimax, portando a una stima errata della probabilità di accesso ai sottogame ad alto rendimento.
L'importanza di questo problema si manifesta in:
- Praticità: I sistemi multi-agente del mondo reale spesso comportano incertezza e avversarialità
- Significato Teorico: Colma un vuoto nella ricerca sulla robustezza avversariale nella modellazione di sequenze
- Sicurezza: Migliora l'affidabilità dei sistemi di IA in ambienti avversariali
- Primo Framework di Decision Transformer Robusto per Giochi Stocastici: Proponiamo CART, il primo metodo specificamente progettato per migliorare la robustezza del DT in giochi stocastici avversariali.
- Modellazione di Giochi di Fase: Modelliamo l'interazione protagonista-avversario ad ogni passo temporale come un gioco di fase, con la funzione di payoff definita come il valore massimo atteso dello stato successivo, considerando esplicitamente le transizioni di stato stocastiche.
- Algoritmo di Stima dei Valori NashQ: Combiniamo la Regressione Expectile e l'apprendimento Temporal Difference (TD) per risolvere i valori Q minimax ottimali per tutte le fasi.
- Verifica Empirica: Verifichiamo la superiorità di CART nell'accuratezza della stima dei valori minimax e nel rendimento nel caso peggiore su molteplici giochi stocastici sintetici.
Un gioco stocastico è definito come (S,A,Aˉ,T,R), dove:
- S: spazio degli stati
- A,Aˉ: spazi di azione del protagonista e dell'avversario
- T: distribuzione di probabilità di transizione st+1∼T(⋅∣st,at,aˉt)
- R: funzione di ricompensa
L'obiettivo è apprendere una strategia del protagonista robusta rispetto agli avversari adattivi:
(π∗,πˉ∗)=maxπminπˉEτ∼ρπ,πˉ[∑trt]
Modelliamo l'interazione ad ogni passo temporale come un gioco di fase, dove:
Qˉ(s,a,aˉ)=Es′∼T(⋅∣s,a)[r+V(s′)]V(s′)=maxa′Q(s′,a′)
Qui la funzione V rappresenta il valore atteso dell'esecuzione dell'azione ottimale del protagonista nello stato della fase successiva s′.
Il valore NashQ del gioco sequenziale è definito come:
QCART(s,a)=minaˉQ(s,a,aˉ)
Poiché le operazioni dirette di min/max sono inefficienti, utilizziamo la regressione expectile per approssimare:
Passo 1: Apprendimento dei Payoff dei Giochi di FaseL(Qˉ)=E(s,a,aˉ,r,s′)∼D[Qˉ(s,a,aˉ)−V(s′)−r]
Passo 2: Stima dei Valori NashQL(Q)=E(s,a,aˉ,r,s′)∼D[LERα→0(Q(s,a)−Qˉ(s,a,aˉ))]
Passo 3: Approssimazione della Funzione di Valore di Stato OttimaleL(V)=E(s′,a′)∼D[LERα→1(V(s′)−Q(s′,a′))]
dove l'obiettivo della regressione expectile è definito come: LERα(u)=E[u∣α−1(u>0)∣⋅u2]
- Gestione Esplicita della Stocasticità: Introducendo una funzione di valore di stato aggiuntiva V, consideriamo esplicitamente la stocasticità delle transizioni di stato, evitando il problema dell'eccessivo ottimismo dell'ARDT.
- Combinazione di Regressione Expectile e Apprendimento TD: Utilizziamo innovativamente la regressione expectile per approssimare le operazioni min/max, rendendo l'apprendimento su dati di traiettoria più efficiente.
- Equilibrio tra Conservatività e Robustezza: Condizionando i valori NashQ, generiamo strategie che sono sia robuste agli attacchi avversariali che conservative rispetto all'incertezza di transizione.
Gli esperimenti vengono condotti su giochi stocastici sintetici, inclusi:
- Giochi Stocastici a Due Fasi: Esempio illustrativo principale
- Giochi Stocastici a Tre Fasi: Interazioni sequenziali più complesse
- 5 Varianti di Giochi: Test della robustezza in diverse impostazioni di stocasticità
La raccolta dei dati utilizza una strategia comportamentale uniformemente casuale, contenente 105 traiettorie che coprono tutte le possibili traiettorie.
- Rendimento nel Caso Peggiore: Prestazioni della strategia contro l'avversario ottimale
- Accuratezza della Stima dei Valori Minimax: Deviazione dai valori teorici
- Decision Transformer (DT): Trasformatore di decisione originale
- Adversarially Robust Decision Transformer (ARDT): Metodo di robustezza avversariale esistente
- L'avversario al momento del test è assunto come strategia ottimale
- Decodifica utilizzando rendimento target elevato
- Ottimizzazione alternata delle tre funzioni di perdita fino alla convergenza
Nel gioco stocastico illustrativo a due fasi:
- CART: 8.0 (rendimento nel caso peggiore)
- ARDT: 5.7
- DT: 6.0
Prestazioni medie su 5 giochi stocastici avversariali sintetici:
- CART: 8.115 ± varianza minima
- ARDT: 5.948
- DT: 6.421
- Sensibilità al Rendimento Target: CART mantiene il rendimento nel caso peggiore più elevato in diverse impostazioni di rendimento target, mentre ARDT e DT ottengono rendimenti inferiori sotto attacchi avversariali.
- Problema dell'Eccessivo Ottimismo: ARDT è facilmente fuorviato da traiettorie rare ad alto rendimento, sovrastima i valori di azione ignorando le vere probabilità di transizione, perdendo robustezza con rendimenti target elevati.
- Vantaggio della Conservatività: CART, considerando congiuntamente i payoff e la stocasticità delle transizioni di stato, si concentra su strategie fattibili che massimizzano il rendimento atteso nel caso peggiore.
Nell'esempio illustrativo della Figura 1:
- ARDT ignora la piccola probabilità di raggiungere lo stato desiderato s2′, sovrastimando i valori di stato e azione
- CART gestisce la stocasticità assegnando il valore massimo atteso, risultando in stime di valore più conservative e accurate
La risoluzione di giochi a due giocatori nell'apprendimento online è stata ampiamente studiata, attraverso l'auto-gioco online per minimizzare il pentimento e convergere all'equilibrio di Nash. Tuttavia, questo lavoro si concentra sull'impostazione di apprendimento offline.
- Conservative Q-Learning (CQL): Mitiga la sovrastima dei valori Q attraverso obiettivi pessimistici
- Implicit Q-Learning (IQL): Realizza la stabilizzazione dei valori attraverso l'apprendimento di funzioni di valore implicite tramite regressione expectile
- ARDT: Realizza la robustezza avversariale in giochi a somma zero statica attraverso la regressione expectile minimax
- Trajectory Transformer: Cattura la stocasticità delle traiettorie attraverso variabili latenti
- Online Decision Transformer: Integra apprendimento per rinforzo ibrido offline-online
- Multi-Game Decision Transformer: Supporta apprendimento per trasferimento e adattamento con pochi campioni
CART risolve con successo il problema della robustezza avversariale del DT in giochi stocastici attraverso:
- Modellazione dell'interazione come gioco di fase, considerando esplicitamente le transizioni stocastiche
- Condizionamento sui valori NashQ, generando strategie robuste e conservative
- Realizzazione di prestazioni superiori nel caso peggiore su molteplici giochi stocastici
- Scala Sperimentale: Attualmente verificato solo su giochi sintetici con orizzonti temporali brevi
- Complessità Computazionale: L'ottimizzazione alternata di tre funzioni obiettivo potrebbe aumentare il carico computazionale
- Analisi Teorica: Mancanza di garanzie teoriche sulla convergenza e robustezza
- Estensione ad Ambienti Complessi: Come varianti di poker (Kuhn e Leduc poker) e altri ambienti di competizione multi-agente più complessi
- Pianificazione a Lungo Termine: Esplorazione di giochi su larga scala e orizzonti di pianificazione più lunghi
- Completamento Teorico: Fornire analisi teorica sulla convergenza e robustezza
- Forte Innovatività: Prima introduzione della robustezza avversariale nella modellazione di sequenze per giochi stocastici, colmando un importante vuoto di ricerca
- Metodo Razionale: La combinazione di modellazione di giochi di fase e regressione expectile affronta elegantemente la doppia sfida della stocasticità e dell'avversarialità
- Esperimenti Sufficienti: Sebbene in ambienti sintetici, sono state progettate molteplici varianti per verificare l'efficacia del metodo
- Problema Importante: Il problema affrontato ha significativo valore pratico e teorico
- Limitazioni Sperimentali: Verificato solo in ambienti sintetici semplici, mancanza di validazione in applicazioni del mondo reale
- Carenza Teorica: Mancanza di analisi teorica sulla convergenza, complessità e robustezza
- Complessità del Metodo: Richiede ottimizzazione alternata di molteplici funzioni obiettivo, potenzialmente impattando l'applicabilità pratica
- Confronti Limitati: Confronto solo con ARDT e DT, mancanza di confronto con altri metodi di apprendimento per rinforzo robusto
- Contributo Accademico: Apre una nuova direzione per l'applicazione della modellazione di sequenze in ambienti avversariali
- Valore Pratico: Fornisce nuove prospettive per lo sviluppo di sistemi multi-agente più robusti
- Riproducibilità: Descrizione del metodo chiara, impostazione sperimentale semplice, facile da riprodurre
- Sistemi Multi-Agente: Ambienti con avversarialità e incertezza
- Applicazioni Critiche per la Sicurezza: Scenari che richiedono garanzie di prestazioni nel caso peggiore
- Apprendimento Offline: Ambienti dove non è possibile l'interazione online
Questo articolo cita importanti lavori nei campi dell'apprendimento per rinforzo, teoria dei giochi e modellazione di sequenze, inclusi:
- Chen et al. (2021) - Lavoro originale del Decision Transformer
- Tang et al. (2024a) - Metodo ARDT
- Hu and Wellman (2003) - Nash Q-Learning
- Vaswani et al. (2017) - Architettura Transformer
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema importante e impegnativo. Sebbene vi sia spazio per miglioramenti nella verifica sperimentale e nell'analisi teorica, la sua innovatività e la razionalità del metodo lo rendono un contributo prezioso a questo campo di ricerca.