2025-11-17T12:28:12.099327

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

Tang, Cheng, Kumar

The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.

academic

Apprendimento per Rinforzo Avversariale Robusto in Giochi Stocastici tramite Modellazione di Sequenze

Informazioni Fondamentali

ID Articolo: 2510.11877
Titolo: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
Autori: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
Classificazione: cs.LG cs.GT
Data di Pubblicazione/Conferenza: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML
Link Articolo: https://arxiv.org/abs/2510.11877

Riassunto

Il Transformer, in quanto architettura altamente espressiva per la modellazione di sequenze, è stato recentemente adattato per risolvere problemi di decisione sequenziale, tra cui il più noto è il Decision Transformer (DT), che apprende strategie condizionando il rendimento atteso. Tuttavia, la robustezza avversariale dei metodi di apprendimento per rinforzo basati su modellazione di sequenze rimane in gran parte inesplorata. Questo articolo introduce il Conservative Adversarially Robust Decision Transformer (CART), che è, a nostra conoscenza, il primo framework progettato per migliorare la robustezza del DT in giochi stocastici avversariali. Modelliamo l'interazione tra il protagonista e l'avversario in ogni fase come un gioco di fase, dove il payoff è definito come il valore massimo atteso dello stato successivo, incorporando così esplicitamente le transizioni di stato stocastiche. Condizionando la strategia Transformer sui valori NashQ derivati da questi giochi di fase, CART genera strategie che sono simultaneamente caratterizzate da bassa sfruttabilità (robustezza avversariale) e conservatività rispetto all'incertezza di transizione.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è migliorare la robustezza avversariale del Decision Transformer in ambienti di giochi stocastici. Nello specifico:

Fragilità del Decision Transformer: Sebbene il DT mostri prestazioni eccellenti nei compiti di decisione sequenziale, è facilmente sfruttabile in ambienti avversariali, poiché apprende strategie attraverso apprendimento per imitazione, e i rendimenti elevati potrebbero essere attribuiti semplicemente alle debolezze della strategia dell'avversario piuttosto che a una vera robustezza.
Limitazioni dei Metodi Esistenti: L'Adversarially Robust Decision Transformer (ARDT), sebbene attenui questo problema condizionando il rendimento minimax, è applicabile solo all'apprendimento per rinforzo avversariale con transizioni di stato deterministiche e potrebbe mostrare eccessivo ottimismo in giochi con transizioni di stato stocastiche.
Sfide nella Gestione della Stocasticità: Nei giochi stocastici, le transizioni di stato sono intrinsecamente probabilistiche. L'ARDT potrebbe trascurare le probabilità di transizione condizionando solo il rendimento minimax, portando a una stima errata della probabilità di accesso ai sottogame ad alto rendimento.

Importanza della Ricerca

L'importanza di questo problema si manifesta in:

Praticità: I sistemi multi-agente del mondo reale spesso comportano incertezza e avversarialità
Significato Teorico: Colma un vuoto nella ricerca sulla robustezza avversariale nella modellazione di sequenze
Sicurezza: Migliora l'affidabilità dei sistemi di IA in ambienti avversariali

Contributi Principali

Primo Framework di Decision Transformer Robusto per Giochi Stocastici: Proponiamo CART, il primo metodo specificamente progettato per migliorare la robustezza del DT in giochi stocastici avversariali.
Modellazione di Giochi di Fase: Modelliamo l'interazione protagonista-avversario ad ogni passo temporale come un gioco di fase, con la funzione di payoff definita come il valore massimo atteso dello stato successivo, considerando esplicitamente le transizioni di stato stocastiche.
Algoritmo di Stima dei Valori NashQ: Combiniamo la Regressione Expectile e l'apprendimento Temporal Difference (TD) per risolvere i valori Q minimax ottimali per tutte le fasi.
Verifica Empirica: Verifichiamo la superiorità di CART nell'accuratezza della stima dei valori minimax e nel rendimento nel caso peggiore su molteplici giochi stocastici sintetici.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Un gioco stocastico è definito come $(S,A,\bar{A},T,R)$ , dove:

$S$ : spazio degli stati
$A,\bar{A}$ : spazi di azione del protagonista e dell'avversario
$T$ : distribuzione di probabilità di transizione $s_{t+1} \sim T(\cdot|s_t,a_t,\bar{a}_t)$
$R$ : funzione di ricompensa

L'obiettivo è apprendere una strategia del protagonista robusta rispetto agli avversari adattivi: $(\pi^*,\bar{\pi}^*) = \max_\pi \min_{\bar{\pi}} E_{\tau\sim\rho^{\pi,\bar{\pi}}}[\sum_t r_t]$

Architettura del Modello

1. Modellazione di Giochi di Fase

Modelliamo l'interazione ad ogni passo temporale come un gioco di fase, dove: $\bar{Q}(s,a,\bar{a}) = E_{s'\sim T(\cdot|s,a)}[r + V(s')]$ $V(s') = \max_{a'} Q(s',a')$

Qui la funzione $V$ rappresenta il valore atteso dell'esecuzione dell'azione ottimale del protagonista nello stato della fase successiva $s'$ .

2. Calcolo dei Valori NashQ

Il valore NashQ del gioco sequenziale è definito come: $Q_{CART}(s,a) = \min_{\bar{a}} Q(s,a,\bar{a})$

3. Implementazione Algoritmica Pratica

Poiché le operazioni dirette di min/max sono inefficienti, utilizziamo la regressione expectile per approssimare:

Passo 1: Apprendimento dei Payoff dei Giochi di Fase $L(\bar{Q}) = E_{(s,a,\bar{a},r,s')\sim D}[\bar{Q}(s,a,\bar{a}) - V(s') - r]$

Passo 2: Stima dei Valori NashQ $L(Q) = E_{(s,a,\bar{a},r,s')\sim D}[L^{\alpha\to0}_{ER}(Q(s,a) - \bar{Q}(s,a,\bar{a}))]$

Passo 3: Approssimazione della Funzione di Valore di Stato Ottimale $L(V) = E_{(s',a')\sim D}[L^{\alpha\to1}_{ER}(V(s') - Q(s',a'))]$

dove l'obiettivo della regressione expectile è definito come: $L^\alpha_{ER}(u) = E[u|\alpha - \mathbf{1}(u>0)| \cdot u^2]$

Punti di Innovazione Tecnica

Gestione Esplicita della Stocasticità: Introducendo una funzione di valore di stato aggiuntiva $V$ , consideriamo esplicitamente la stocasticità delle transizioni di stato, evitando il problema dell'eccessivo ottimismo dell'ARDT.
Combinazione di Regressione Expectile e Apprendimento TD: Utilizziamo innovativamente la regressione expectile per approssimare le operazioni min/max, rendendo l'apprendimento su dati di traiettoria più efficiente.
Equilibrio tra Conservatività e Robustezza: Condizionando i valori NashQ, generiamo strategie che sono sia robuste agli attacchi avversariali che conservative rispetto all'incertezza di transizione.

Configurazione Sperimentale

Dataset

Gli esperimenti vengono condotti su giochi stocastici sintetici, inclusi:

Giochi Stocastici a Due Fasi: Esempio illustrativo principale
Giochi Stocastici a Tre Fasi: Interazioni sequenziali più complesse
5 Varianti di Giochi: Test della robustezza in diverse impostazioni di stocasticità

La raccolta dei dati utilizza una strategia comportamentale uniformemente casuale, contenente $10^5$ traiettorie che coprono tutte le possibili traiettorie.

Metriche di Valutazione

Rendimento nel Caso Peggiore: Prestazioni della strategia contro l'avversario ottimale
Accuratezza della Stima dei Valori Minimax: Deviazione dai valori teorici

Metodi di Confronto

Decision Transformer (DT): Trasformatore di decisione originale
Adversarially Robust Decision Transformer (ARDT): Metodo di robustezza avversariale esistente

Dettagli di Implementazione

L'avversario al momento del test è assunto come strategia ottimale
Decodifica utilizzando rendimento target elevato
Ottimizzazione alternata delle tre funzioni di perdita fino alla convergenza

Risultati Sperimentali

Risultati Principali

Risultati del Gioco Stocastico a Due Fasi

Nel gioco stocastico illustrativo a due fasi:

CART: 8.0 (rendimento nel caso peggiore)
ARDT: 5.7
DT: 6.0

Prestazioni Medie su 5 Giochi

Prestazioni medie su 5 giochi stocastici avversariali sintetici:

CART: 8.115 ± varianza minima
ARDT: 5.948
DT: 6.421

Scoperte Chiave

Sensibilità al Rendimento Target: CART mantiene il rendimento nel caso peggiore più elevato in diverse impostazioni di rendimento target, mentre ARDT e DT ottengono rendimenti inferiori sotto attacchi avversariali.
Problema dell'Eccessivo Ottimismo: ARDT è facilmente fuorviato da traiettorie rare ad alto rendimento, sovrastima i valori di azione ignorando le vere probabilità di transizione, perdendo robustezza con rendimenti target elevati.
Vantaggio della Conservatività: CART, considerando congiuntamente i payoff e la stocasticità delle transizioni di stato, si concentra su strategie fattibili che massimizzano il rendimento atteso nel caso peggiore.

Analisi di Caso

Nell'esempio illustrativo della Figura 1:

ARDT ignora la piccola probabilità di raggiungere lo stato desiderato $s'_2$ , sovrastimando i valori di stato e azione
CART gestisce la stocasticità assegnando il valore massimo atteso, risultando in stime di valore più conservative e accurate

Lavori Correlati

Risoluzione di Giochi Stocastici

La risoluzione di giochi a due giocatori nell'apprendimento online è stata ampiamente studiata, attraverso l'auto-gioco online per minimizzare il pentimento e convergere all'equilibrio di Nash. Tuttavia, questo lavoro si concentra sull'impostazione di apprendimento offline.

Apprendimento per Rinforzo Offline

Conservative Q-Learning (CQL): Mitiga la sovrastima dei valori Q attraverso obiettivi pessimistici
Implicit Q-Learning (IQL): Realizza la stabilizzazione dei valori attraverso l'apprendimento di funzioni di valore implicite tramite regressione expectile
ARDT: Realizza la robustezza avversariale in giochi a somma zero statica attraverso la regressione expectile minimax

Estensioni del Decision Transformer

Trajectory Transformer: Cattura la stocasticità delle traiettorie attraverso variabili latenti
Online Decision Transformer: Integra apprendimento per rinforzo ibrido offline-online
Multi-Game Decision Transformer: Supporta apprendimento per trasferimento e adattamento con pochi campioni

Conclusioni e Discussione

Conclusioni Principali

CART risolve con successo il problema della robustezza avversariale del DT in giochi stocastici attraverso:

Modellazione dell'interazione come gioco di fase, considerando esplicitamente le transizioni stocastiche
Condizionamento sui valori NashQ, generando strategie robuste e conservative
Realizzazione di prestazioni superiori nel caso peggiore su molteplici giochi stocastici

Limitazioni

Scala Sperimentale: Attualmente verificato solo su giochi sintetici con orizzonti temporali brevi
Complessità Computazionale: L'ottimizzazione alternata di tre funzioni obiettivo potrebbe aumentare il carico computazionale
Analisi Teorica: Mancanza di garanzie teoriche sulla convergenza e robustezza

Direzioni Future

Estensione ad Ambienti Complessi: Come varianti di poker (Kuhn e Leduc poker) e altri ambienti di competizione multi-agente più complessi
Pianificazione a Lungo Termine: Esplorazione di giochi su larga scala e orizzonti di pianificazione più lunghi
Completamento Teorico: Fornire analisi teorica sulla convergenza e robustezza

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima introduzione della robustezza avversariale nella modellazione di sequenze per giochi stocastici, colmando un importante vuoto di ricerca
Metodo Razionale: La combinazione di modellazione di giochi di fase e regressione expectile affronta elegantemente la doppia sfida della stocasticità e dell'avversarialità
Esperimenti Sufficienti: Sebbene in ambienti sintetici, sono state progettate molteplici varianti per verificare l'efficacia del metodo
Problema Importante: Il problema affrontato ha significativo valore pratico e teorico

Insufficienze

Limitazioni Sperimentali: Verificato solo in ambienti sintetici semplici, mancanza di validazione in applicazioni del mondo reale
Carenza Teorica: Mancanza di analisi teorica sulla convergenza, complessità e robustezza
Complessità del Metodo: Richiede ottimizzazione alternata di molteplici funzioni obiettivo, potenzialmente impattando l'applicabilità pratica
Confronti Limitati: Confronto solo con ARDT e DT, mancanza di confronto con altri metodi di apprendimento per rinforzo robusto

Impatto

Contributo Accademico: Apre una nuova direzione per l'applicazione della modellazione di sequenze in ambienti avversariali
Valore Pratico: Fornisce nuove prospettive per lo sviluppo di sistemi multi-agente più robusti
Riproducibilità: Descrizione del metodo chiara, impostazione sperimentale semplice, facile da riprodurre

Scenari Applicabili

Sistemi Multi-Agente: Ambienti con avversarialità e incertezza
Applicazioni Critiche per la Sicurezza: Scenari che richiedono garanzie di prestazioni nel caso peggiore
Apprendimento Offline: Ambienti dove non è possibile l'interazione online

Riferimenti Bibliografici

Questo articolo cita importanti lavori nei campi dell'apprendimento per rinforzo, teoria dei giochi e modellazione di sequenze, inclusi:

Chen et al. (2021) - Lavoro originale del Decision Transformer
Tang et al. (2024a) - Metodo ARDT
Hu and Wellman (2003) - Nash Q-Learning
Vaswani et al. (2017) - Architettura Transformer

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema importante e impegnativo. Sebbene vi sia spazio per miglioramenti nella verifica sperimentale e nell'analisi teorica, la sua innovatività e la razionalità del metodo lo rendono un contributo prezioso a questo campo di ricerca.