The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
- Papier-ID: 2510.11877
- Titel: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
- Autoren: Xiaohang Tang (University College London), Zhuowen Cheng (Independent Researcher), Satyabrat Kumar (University College London)
- Klassifizierung: cs.LG cs.GT
- Veröffentlichungszeitpunkt/Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025) Workshop: Reliable ML
- Papierlink: https://arxiv.org/abs/2510.11877
Transformer als hochexpressive Architektur für Sequenzmodellierung wurden kürzlich für die Lösung von Sequenzentscheidungsproblemen adaptiert, wobei der Decision Transformer (DT) das bekannteste Beispiel ist und Strategien durch Konditionierung auf erwartete Renditen erlernt. Die adversarische Robustheit von auf Sequenzmodellierung basierenden Verstärkungslernmethoden bleibt jedoch weitgehend unerforsch. Dieses Papier stellt den Conservative Adversarially Robust Decision Transformer (CART) vor, der nach unserem Wissen der erste Rahmen ist, der darauf abzielt, die Robustheit von DT in adversarischen stochastischen Spielen zu verbessern. Wir modellieren die Interaktion zwischen Protagonist und Gegner in jeder Phase als Phasenspiel, wobei die Auszahlung als erwarteter Maximalwert nachfolgender Zustände definiert ist, wodurch stochastische Zustandsübergänge explizit berücksichtigt werden. Durch die Konditionierung der Transformer-Strategie auf NashQ-Werte, die aus diesen Phasenspielen abgeleitet sind, erzeugt CART Strategien, die gleichzeitig niedrige Ausnutzbarkeit (adversarische Robustheit) und Konservativität gegenüber Übergangsunsicherheit aufweisen.
Das Kernproblem dieser Forschung besteht darin, die adversarische Robustheit des Decision Transformer in stochastischen Spielumgebungen zu verbessern. Konkret:
- Anfälligkeit des Decision Transformer: Obwohl DT bei Sequenzentscheidungsaufgaben hervorragende Leistungen zeigt, wird es in adversarischen Umgebungen leicht ausgenutzt, da es Strategien durch Imitationslernen erlernt und hohe Renditen möglicherweise nur auf die Schwächen der Gegenstrategie zurückzuführen sind, nicht auf echte Robustheit.
- Einschränkungen bestehender Methoden: Obwohl der Adversarially Robust Decision Transformer (ARDT) dieses Problem durch Konditionierung auf Minimax-Renditen mindert, ist seine Anwendbarkeit auf adversarisches Verstärkungslernen mit deterministischen Zustandsübergängen beschränkt und kann sich in Spielen mit stochastischen Zustandsübergängen übermäßig optimistisch verhalten.
- Herausforderungen bei der Behandlung von Stochastizität: In stochastischen Spielen sind Zustandsübergänge von Natur aus probabilistisch. ARDT kann durch ausschließliche Konditionierung auf Minimax-Renditen Übergangswahrscheinlichkeiten ignorieren, was zu Fehlschätzungen der Zugriffswahrscheinlichkeit auf hochrendite-Unterspiele führt.
Die Bedeutung dieses Problems zeigt sich in:
- Praktische Anwendbarkeit: Reale Multi-Agent-Systeme beinhalten oft Unsicherheit und Adversarität
- Theoretische Bedeutung: Schließt eine Forschungslücke in der Sequenzmodellierung bezüglich adversarischer Robustheit
- Sicherheit: Verbessert die Zuverlässigkeit von KI-Systemen in adversarischen Umgebungen
- Erster robuster Decision Transformer-Rahmen für stochastische Spiele: Präsentation von CART, der ersten speziell entwickelten Methode zur Verbesserung der Robustheit von DT in adversarischen stochastischen Spielen.
- Phasenspielmodellierung: Modellierung der Protagonist-Gegner-Interaktion bei jedem Zeitschritt als Phasenspiel mit Auszahlungsfunktion definiert als erwarteter Maximalwert nachfolgender Zustände, wobei stochastische Zustandsübergänge explizit berücksichtigt werden.
- NashQ-Wertschätzungsalgorithmus: Kombination von Expectile Regression und Temporal Difference (TD) Learning zur Lösung optimaler Minimax-Q-Werte für alle Phasen.
- Empirische Validierung: Validierung von CART auf mehreren synthetischen stochastischen Spielen hinsichtlich Genauigkeit der Minimax-Wertschätzung und Worst-Case-Rendite.
Stochastisches Spiel definiert als (S,A,Aˉ,T,R), wobei:
- S: Zustandsraum
- A,Aˉ: Aktionsräume des Protagonisten und Gegners
- T: Übergangwahrscheinlichkeitsverteilung st+1∼T(⋅∣st,at,aˉt)
- R: Auszahlungsfunktion
Das Ziel besteht darin, eine Protagonisten-Strategie zu erlernen, die gegenüber adaptiven Gegnern robust ist:
(π∗,πˉ∗)=maxπminπˉEτ∼ρπ,πˉ[∑trt]
Modellierung der Interaktion bei jedem Zeitschritt als Phasenspiel, wobei:
Qˉ(s,a,aˉ)=Es′∼T(⋅∣s,a)[r+V(s′)]V(s′)=maxa′Q(s′,a′)
Hier stellt die V-Funktion den erwarteten Wert dar, wenn die optimale Protagonisten-Aktion im nächsten Phasenzustand s′ ausgeführt wird.
Der NashQ-Wert des sequenziellen Spiels ist definiert als:
QCART(s,a)=minaˉQ(s,a,aˉ)
Da direkte Min/Max-Operationen ineffizient sind, wird Expectile Regression zur Approximation verwendet:
Schritt 1: Erlernen der PhasenspielauszahlungenL(Qˉ)=E(s,a,aˉ,r,s′)∼D[Qˉ(s,a,aˉ)−V(s′)−r]
Schritt 2: Schätzung der NashQ-WerteL(Q)=E(s,a,aˉ,r,s′)∼D[LERα→0(Q(s,a)−Qˉ(s,a,aˉ))]
Schritt 3: Approximation der optimalen ZustandswertfunktionL(V)=E(s′,a′)∼D[LERα→1(V(s′)−Q(s′,a′))]
wobei das Expectile Regression-Ziel definiert ist als: LERα(u)=E[u∣α−1(u>0)∣⋅u2]
- Explizite Behandlung von Stochastizität: Durch Einführung einer zusätzlichen Zustandswertfunktion V wird die Stochastizität von Zustandsübergängen explizit berücksichtigt, wodurch das Übermäßig-Optimismus-Problem von ARDT vermieden wird.
- Kombination von Expectile Regression und TD-Lernen: Innovative Verwendung von Expectile Regression zur Approximation von Min/Max-Operationen, was effizienteres Lernen auf Trajektoriendaten ermöglicht.
- Ausgleich zwischen Konservativität und Robustheit: Durch Konditionierung auf NashQ-Werte werden Strategien erzeugt, die sowohl adversarische Robustheit als auch Konservativität gegenüber Übergangsunsicherheit aufweisen.
Experimente werden auf synthetischen stochastischen Spielen durchgeführt, einschließlich:
- Zweiphasige stochastische Spiele: Hauptillustrationsbeispiel
- Dreiphasige stochastische Spiele: Komplexere sequenzielle Interaktionen
- 5 Spielvarianten: Testen der Robustheit unter verschiedenen Stochastizitätseinstellungen
Die Datenerfassung verwendet eine gleichmäßig zufällige Verhaltensrichtlinie mit 105 Trajektorien, die alle möglichen Trajektorien abdecken.
- Worst-Case-Rendite: Leistung der Strategie gegen den optimalen Gegner
- Genauigkeit der Minimax-Wertschätzung: Abweichung von theoretischen Werten
- Decision Transformer (DT): Ursprünglicher Decision Transformer
- Adversarially Robust Decision Transformer (ARDT): Bestehende adversarische Robustheitsmethode
- Gegner wird zur Testzeit als optimale Strategie angenommen
- Dekodierung mit hoher Zielrendite
- Abwechselnde Optimierung der drei Verlustfunktionen bis zur Konvergenz
Im illustrativen zweiphasigen stochastischen Spiel:
- CART: 8,0 (Worst-Case-Rendite)
- ARDT: 5,7
- DT: 6,0
Durchschnittliche Leistung über 5 synthetische adversarische stochastische Spiele:
- CART: 8,115 ± niedrigste Varianz
- ARDT: 5,948
- DT: 6,421
- Empfindlichkeit gegenüber Zielrendite: CART behält die höchste Worst-Case-Rendite über verschiedene Zielrendite-Einstellungen bei, während ARDT und DT unter adversarischen Angriffen niedrigere Renditen erzielen.
- Übermäßig-Optimismus-Problem: ARDT wird leicht durch seltene hochrendite-Trajektorien irregeführt, überschätzt Aktionswerte und ignoriert echte Übergangswahrscheinlichkeiten, wodurch bei hohen Zielrenditen die Robustheit verloren geht.
- Konservativitätsvorteil: CART behandelt Stochastizität durch gemeinsame Berücksichtigung von Auszahlungen und Zustandsübergangsstochastizität und konzentriert sich auf praktikable Strategien, die die Worst-Case-Erwartungsrendite maximieren.
Im Illustrationsbeispiel in Abbildung 1:
- ARDT ignoriert die geringe Wahrscheinlichkeit, den erwarteten Zustand s2′ zu erreichen, und überschätzt Zustands- und Aktionswerte
- CART behandelt Stochastizität durch Zuweisung erwarteter Maximalwerte, wodurch Wertschätzungen konservativer und genauer werden
Die Lösung von Zwei-Personen-Spielen im Online-Lernen wurde umfassend erforscht, wobei Bedauernminimierung durch Online-Selbstspiel zur Konvergenz zu Nash-Gleichgewichten führt. Diese Arbeit konzentriert sich jedoch auf das Offline-Lernumfeld.
- Conservative Q-Learning (CQL): Minderung der Q-Wert-Überschätzung durch pessimistische Ziele
- Implicit Q-Learning (IQL): Stabilisierung von Werten durch Expectile Regression zur Erlernung impliziter Wertfunktionen
- ARDT: Adversarische Robustheit in statischen Nullsummenspielen durch Minimax-Expectile Regression
- Trajectory Transformer: Erfassung von Trajektorienstochastizität durch latente Variablen
- Online Decision Transformer: Integration von Hybrid-Offline-Online-Verstärkungslernen
- Multi-Game Decision Transformer: Unterstützung von Transferlernen und Few-Shot-Anpassung
CART löst erfolgreich das Problem der adversarischen Robustheit von DT in stochastischen Spielen durch:
- Modellierung von Interaktionen als Phasenspielen mit expliziter Berücksichtigung stochastischer Übergänge
- Verwendung von NashQ-Werten zur Konditionierung, um robuste und konservative Strategien zu erzeugen
- Erreichung überlegener Worst-Case-Leistung über mehrere stochastische Spiele
- Experimenteller Umfang: Derzeit nur auf kurzfristigen synthetischen Spielen validiert
- Rechenkomplexität: Abwechselnde Optimierung von drei Zielfunktionen kann Rechenaufwand erhöhen
- Theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Robustheit
- Erweiterung auf komplexe Umgebungen: Wie Pokervarianten (Kuhn und Leduc Poker) und andere komplexere Multi-Agent-Wettbewerbsumgebungen
- Langfristige Planung: Erforschung größerer Spiele und längerer Planungshorizonte
- Theoretische Verbesserung: Bereitstellung theoretischer Analysen für Konvergenz und Robustheit
- Hohe Innovativität: Erstmalige Einführung adversarischer Robustheit in Sequenzmodellierung für stochastische Spiele, Schließung einer wichtigen Forschungslücke
- Rationale Methode: Elegante Behandlung der doppelten Herausforderung von Stochastizität und Adversarität durch Phasenspielmodellierung und Expectile Regression
- Umfassende Experimente: Obwohl in synthetischen Umgebungen, wurden mehrere Varianten zur Validierung der Methodeneffektivität entworfen
- Wichtiges Problem: Das gelöste Problem hat bedeutende praktische und theoretische Werte
- Experimentelle Einschränkungen: Validierung nur in einfachen synthetischen Umgebungen, Mangel an Validierung in realen Anwendungen
- Theoretische Lücken: Mangel an theoretischer Analyse von Konvergenz, Komplexität und Robustheit
- Methodische Komplexität: Erfordert abwechselnde Optimierung mehrerer Zielfunktionen, was die Praktikabilität beeinträchtigen kann
- Begrenzte Vergleiche: Nur Vergleich mit ARDT und DT, Mangel an Vergleichen mit anderen robusten Verstärkungslernmethoden
- Akademischer Beitrag: Eröffnet neue Richtungen für die Anwendung von Sequenzmodellierung in adversarischen Umgebungen
- Praktischer Wert: Bietet neue Perspektiven für die Entwicklung robusterer Multi-Agent-Systeme
- Reproduzierbarkeit: Klare Methodenbeschreibung und einfache experimentelle Einrichtung ermöglichen einfache Reproduktion
- Multi-Agent-Systeme: Umgebungen mit Adversarität und Unsicherheit
- Sicherheitskritische Anwendungen: Szenarien, die Worst-Case-Leistungsgarantien erfordern
- Offline-Lernen: Umgebungen, in denen Online-Interaktion nicht möglich ist
Dieses Papier zitiert wichtige Arbeiten aus den Bereichen Verstärkungslernen, Spieltheorie und Sequenzmodellierung, einschließlich:
- Chen et al. (2021) - Originalarbeit zum Decision Transformer
- Tang et al. (2024a) - ARDT-Methode
- Hu and Wellman (2003) - Nash Q-Learning
- Vaswani et al. (2017) - Transformer-Architektur
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein wichtiges und herausforderndes Problem löst. Obwohl es Raum für Verbesserungen in der experimentellen Validierung und theoretischen Analyse gibt, machen seine Innovativität und die Rationalität der Methode es zu einem wertvollen Beitrag in diesem Forschungsbereich.