2025-11-17T12:28:12.099327

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

Tang, Cheng, Kumar

The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.

academic

Robuste adversarische Verstärkungslernverfahren in stochastischen Spielen mittels Sequenzmodellierung

Grundlegende Informationen

Papier-ID: 2510.11877
Titel: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
Autoren: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
Klassifizierung: cs.LG cs.GT
Veröffentlichungszeitpunkt/Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025) Workshop: Reliable ML
Papierlink: https://arxiv.org/abs/2510.11877

Zusammenfassung

Transformer als hochexpressive Architektur für Sequenzmodellierung wurden kürzlich für die Lösung von Sequenzentscheidungsproblemen adaptiert, wobei der Decision Transformer (DT) das bekannteste Beispiel ist und Strategien durch Konditionierung auf erwartete Renditen erlernt. Die adversarische Robustheit von auf Sequenzmodellierung basierenden Verstärkungslernmethoden bleibt jedoch weitgehend unerforsch. Dieses Papier stellt den Conservative Adversarially Robust Decision Transformer (CART) vor, der nach unserem Wissen der erste Rahmen ist, der darauf abzielt, die Robustheit von DT in adversarischen stochastischen Spielen zu verbessern. Wir modellieren die Interaktion zwischen Protagonist und Gegner in jeder Phase als Phasenspiel, wobei die Auszahlung als erwarteter Maximalwert nachfolgender Zustände definiert ist, wodurch stochastische Zustandsübergänge explizit berücksichtigt werden. Durch die Konditionierung der Transformer-Strategie auf NashQ-Werte, die aus diesen Phasenspielen abgeleitet sind, erzeugt CART Strategien, die gleichzeitig niedrige Ausnutzbarkeit (adversarische Robustheit) und Konservativität gegenüber Übergangsunsicherheit aufweisen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung besteht darin, die adversarische Robustheit des Decision Transformer in stochastischen Spielumgebungen zu verbessern. Konkret:

Anfälligkeit des Decision Transformer: Obwohl DT bei Sequenzentscheidungsaufgaben hervorragende Leistungen zeigt, wird es in adversarischen Umgebungen leicht ausgenutzt, da es Strategien durch Imitationslernen erlernt und hohe Renditen möglicherweise nur auf die Schwächen der Gegenstrategie zurückzuführen sind, nicht auf echte Robustheit.
Einschränkungen bestehender Methoden: Obwohl der Adversarially Robust Decision Transformer (ARDT) dieses Problem durch Konditionierung auf Minimax-Renditen mindert, ist seine Anwendbarkeit auf adversarisches Verstärkungslernen mit deterministischen Zustandsübergängen beschränkt und kann sich in Spielen mit stochastischen Zustandsübergängen übermäßig optimistisch verhalten.
Herausforderungen bei der Behandlung von Stochastizität: In stochastischen Spielen sind Zustandsübergänge von Natur aus probabilistisch. ARDT kann durch ausschließliche Konditionierung auf Minimax-Renditen Übergangswahrscheinlichkeiten ignorieren, was zu Fehlschätzungen der Zugriffswahrscheinlichkeit auf hochrendite-Unterspiele führt.

Bedeutung der Forschung

Die Bedeutung dieses Problems zeigt sich in:

Praktische Anwendbarkeit: Reale Multi-Agent-Systeme beinhalten oft Unsicherheit und Adversarität
Theoretische Bedeutung: Schließt eine Forschungslücke in der Sequenzmodellierung bezüglich adversarischer Robustheit
Sicherheit: Verbessert die Zuverlässigkeit von KI-Systemen in adversarischen Umgebungen

Kernbeiträge

Erster robuster Decision Transformer-Rahmen für stochastische Spiele: Präsentation von CART, der ersten speziell entwickelten Methode zur Verbesserung der Robustheit von DT in adversarischen stochastischen Spielen.
Phasenspielmodellierung: Modellierung der Protagonist-Gegner-Interaktion bei jedem Zeitschritt als Phasenspiel mit Auszahlungsfunktion definiert als erwarteter Maximalwert nachfolgender Zustände, wobei stochastische Zustandsübergänge explizit berücksichtigt werden.
NashQ-Wertschätzungsalgorithmus: Kombination von Expectile Regression und Temporal Difference (TD) Learning zur Lösung optimaler Minimax-Q-Werte für alle Phasen.
Empirische Validierung: Validierung von CART auf mehreren synthetischen stochastischen Spielen hinsichtlich Genauigkeit der Minimax-Wertschätzung und Worst-Case-Rendite.

Methodische Erklärung

Aufgabendefinition

Stochastisches Spiel definiert als $(S,A,\bar{A},T,R)$ , wobei:

$S$ : Zustandsraum
$A,\bar{A}$ : Aktionsräume des Protagonisten und Gegners
$T$ : Übergangwahrscheinlichkeitsverteilung $s_{t+1} \sim T(\cdot|s_t,a_t,\bar{a}_t)$
$R$ : Auszahlungsfunktion

Das Ziel besteht darin, eine Protagonisten-Strategie zu erlernen, die gegenüber adaptiven Gegnern robust ist: $(\pi^*,\bar{\pi}^*) = \max_\pi \min_{\bar{\pi}} E_{\tau\sim\rho^{\pi,\bar{\pi}}}[\sum_t r_t]$

Modellarchitektur

1. Phasenspielmodellierung

Modellierung der Interaktion bei jedem Zeitschritt als Phasenspiel, wobei: $\bar{Q}(s,a,\bar{a}) = E_{s'\sim T(\cdot|s,a)}[r + V(s')]$ $V(s') = \max_{a'} Q(s',a')$

Hier stellt die $V$ -Funktion den erwarteten Wert dar, wenn die optimale Protagonisten-Aktion im nächsten Phasenzustand $s'$ ausgeführt wird.

2. NashQ-Wertberechnung

Der NashQ-Wert des sequenziellen Spiels ist definiert als: $Q_{CART}(s,a) = \min_{\bar{a}} Q(s,a,\bar{a})$

3. Praktische Algorithmusimplementierung

Da direkte Min/Max-Operationen ineffizient sind, wird Expectile Regression zur Approximation verwendet:

Schritt 1: Erlernen der Phasenspielauszahlungen $L(\bar{Q}) = E_{(s,a,\bar{a},r,s')\sim D}[\bar{Q}(s,a,\bar{a}) - V(s') - r]$

Schritt 2: Schätzung der NashQ-Werte $L(Q) = E_{(s,a,\bar{a},r,s')\sim D}[L^{\alpha\to0}_{ER}(Q(s,a) - \bar{Q}(s,a,\bar{a}))]$

Schritt 3: Approximation der optimalen Zustandswertfunktion $L(V) = E_{(s',a')\sim D}[L^{\alpha\to1}_{ER}(V(s') - Q(s',a'))]$

wobei das Expectile Regression-Ziel definiert ist als: $L^\alpha_{ER}(u) = E[u|\alpha - \mathbf{1}(u>0)| \cdot u^2]$

Technische Innovationen

Explizite Behandlung von Stochastizität: Durch Einführung einer zusätzlichen Zustandswertfunktion $V$ wird die Stochastizität von Zustandsübergängen explizit berücksichtigt, wodurch das Übermäßig-Optimismus-Problem von ARDT vermieden wird.
Kombination von Expectile Regression und TD-Lernen: Innovative Verwendung von Expectile Regression zur Approximation von Min/Max-Operationen, was effizienteres Lernen auf Trajektoriendaten ermöglicht.
Ausgleich zwischen Konservativität und Robustheit: Durch Konditionierung auf NashQ-Werte werden Strategien erzeugt, die sowohl adversarische Robustheit als auch Konservativität gegenüber Übergangsunsicherheit aufweisen.

Experimentelle Einrichtung

Datensätze

Experimente werden auf synthetischen stochastischen Spielen durchgeführt, einschließlich:

Zweiphasige stochastische Spiele: Hauptillustrationsbeispiel
Dreiphasige stochastische Spiele: Komplexere sequenzielle Interaktionen
5 Spielvarianten: Testen der Robustheit unter verschiedenen Stochastizitätseinstellungen

Die Datenerfassung verwendet eine gleichmäßig zufällige Verhaltensrichtlinie mit $10^5$ Trajektorien, die alle möglichen Trajektorien abdecken.

Bewertungsmetriken

Worst-Case-Rendite: Leistung der Strategie gegen den optimalen Gegner
Genauigkeit der Minimax-Wertschätzung: Abweichung von theoretischen Werten

Vergleichsmethoden

Decision Transformer (DT): Ursprünglicher Decision Transformer
Adversarially Robust Decision Transformer (ARDT): Bestehende adversarische Robustheitsmethode

Implementierungsdetails

Gegner wird zur Testzeit als optimale Strategie angenommen
Dekodierung mit hoher Zielrendite
Abwechselnde Optimierung der drei Verlustfunktionen bis zur Konvergenz

Experimentelle Ergebnisse

Hauptergebnisse

Zweiphasiges stochastisches Spielergebnis

Im illustrativen zweiphasigen stochastischen Spiel:

CART: 8,0 (Worst-Case-Rendite)
ARDT: 5,7
DT: 6,0

Durchschnittliche Leistung über 5 Spiele

Durchschnittliche Leistung über 5 synthetische adversarische stochastische Spiele:

CART: 8,115 ± niedrigste Varianz
ARDT: 5,948
DT: 6,421

Wichtigste Erkenntnisse

Empfindlichkeit gegenüber Zielrendite: CART behält die höchste Worst-Case-Rendite über verschiedene Zielrendite-Einstellungen bei, während ARDT und DT unter adversarischen Angriffen niedrigere Renditen erzielen.
Übermäßig-Optimismus-Problem: ARDT wird leicht durch seltene hochrendite-Trajektorien irregeführt, überschätzt Aktionswerte und ignoriert echte Übergangswahrscheinlichkeiten, wodurch bei hohen Zielrenditen die Robustheit verloren geht.
Konservativitätsvorteil: CART behandelt Stochastizität durch gemeinsame Berücksichtigung von Auszahlungen und Zustandsübergangsstochastizität und konzentriert sich auf praktikable Strategien, die die Worst-Case-Erwartungsrendite maximieren.

Fallstudie

Im Illustrationsbeispiel in Abbildung 1:

ARDT ignoriert die geringe Wahrscheinlichkeit, den erwarteten Zustand $s'_2$ zu erreichen, und überschätzt Zustands- und Aktionswerte
CART behandelt Stochastizität durch Zuweisung erwarteter Maximalwerte, wodurch Wertschätzungen konservativer und genauer werden

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

CART löst erfolgreich das Problem der adversarischen Robustheit von DT in stochastischen Spielen durch:

Modellierung von Interaktionen als Phasenspielen mit expliziter Berücksichtigung stochastischer Übergänge
Verwendung von NashQ-Werten zur Konditionierung, um robuste und konservative Strategien zu erzeugen
Erreichung überlegener Worst-Case-Leistung über mehrere stochastische Spiele

Einschränkungen

Experimenteller Umfang: Derzeit nur auf kurzfristigen synthetischen Spielen validiert
Rechenkomplexität: Abwechselnde Optimierung von drei Zielfunktionen kann Rechenaufwand erhöhen
Theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Robustheit

Zukünftige Richtungen

Erweiterung auf komplexe Umgebungen: Wie Pokervarianten (Kuhn und Leduc Poker) und andere komplexere Multi-Agent-Wettbewerbsumgebungen
Langfristige Planung: Erforschung größerer Spiele und längerer Planungshorizonte
Theoretische Verbesserung: Bereitstellung theoretischer Analysen für Konvergenz und Robustheit

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Einführung adversarischer Robustheit in Sequenzmodellierung für stochastische Spiele, Schließung einer wichtigen Forschungslücke
Rationale Methode: Elegante Behandlung der doppelten Herausforderung von Stochastizität und Adversarität durch Phasenspielmodellierung und Expectile Regression
Umfassende Experimente: Obwohl in synthetischen Umgebungen, wurden mehrere Varianten zur Validierung der Methodeneffektivität entworfen
Wichtiges Problem: Das gelöste Problem hat bedeutende praktische und theoretische Werte

Mängel

Experimentelle Einschränkungen: Validierung nur in einfachen synthetischen Umgebungen, Mangel an Validierung in realen Anwendungen
Theoretische Lücken: Mangel an theoretischer Analyse von Konvergenz, Komplexität und Robustheit
Methodische Komplexität: Erfordert abwechselnde Optimierung mehrerer Zielfunktionen, was die Praktikabilität beeinträchtigen kann
Begrenzte Vergleiche: Nur Vergleich mit ARDT und DT, Mangel an Vergleichen mit anderen robusten Verstärkungslernmethoden

Einflussfaktor

Akademischer Beitrag: Eröffnet neue Richtungen für die Anwendung von Sequenzmodellierung in adversarischen Umgebungen
Praktischer Wert: Bietet neue Perspektiven für die Entwicklung robusterer Multi-Agent-Systeme
Reproduzierbarkeit: Klare Methodenbeschreibung und einfache experimentelle Einrichtung ermöglichen einfache Reproduktion

Anwendungsszenarien

Multi-Agent-Systeme: Umgebungen mit Adversarität und Unsicherheit
Sicherheitskritische Anwendungen: Szenarien, die Worst-Case-Leistungsgarantien erfordern
Offline-Lernen: Umgebungen, in denen Online-Interaktion nicht möglich ist

Referenzen

Dieses Papier zitiert wichtige Arbeiten aus den Bereichen Verstärkungslernen, Spieltheorie und Sequenzmodellierung, einschließlich:

Chen et al. (2021) - Originalarbeit zum Decision Transformer
Tang et al. (2024a) - ARDT-Methode
Hu and Wellman (2003) - Nash Q-Learning
Vaswani et al. (2017) - Transformer-Architektur

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein wichtiges und herausforderndes Problem löst. Obwohl es Raum für Verbesserungen in der experimentellen Validierung und theoretischen Analyse gibt, machen seine Innovativität und die Rationalität der Methode es zu einem wertvollen Beitrag in diesem Forschungsbereich.