2025-11-18T08:49:13.884110

Perturbing Best Responses in Zero-Sum Games

Dziwoki, Horcik

This paper investigates the impact of perturbations on the best-response-based algorithms approximating Nash equilibria in zero-sum games, namely Double Oracle and Fictitious Play. More precisely, we assume that the oracle computing the best responses perturbs the utilities before selecting the best response. We show that using such an oracle reduces the number of iterations for both algorithms. For some cases, suitable perturbations ensure the expected number of iterations is logarithmic. Although the utility perturbation is computationally demanding as it requires iterating through all pure strategies, we demonstrate that one can efficiently perturb the utilities in games where pure strategies have further inner structure.

academic

Störung von Best-Response-Funktionen in Nullsummenspielen

Grundinformationen

Paper-ID: 2511.12523
Titel: Perturbing Best Responses in Zero-Sum Games
Autoren: Adam Dziwoki, Rostislav Horčík (Tschechische Technische Universität Prag)
Klassifizierung: cs.GT (Spieltheorie), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 16. November 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2511.12523
Code-Link: https://github.com/geoborek/perturbing-best-responses

Zusammenfassung

Diese Arbeit untersucht die Auswirkungen von Störungen auf Best-Response-basierte Algorithmen, die zur Approximation von Nash-Gleichgewichten in Nullsummenspielen verwendet werden, mit besonderem Fokus auf die Double-Oracle- und Fictitious-Play-Algorithmen. Die Forschung geht davon aus, dass das Orakel zur Berechnung der besten Antwort die Auszahlungen vor der Auswahl der besten Antwort stört. Die Studie zeigt, dass die Verwendung eines solchen gestörten Orakels die Anzahl der Iterationen beider Algorithmen reduzieren kann. In bestimmten Fällen kann eine angemessene Störung sicherstellen, dass die erwartete Anzahl der Iterationen logarithmisch ist. Obwohl die Auszahlungsstörung alle reinen Strategien durchlaufen muss und daher rechenintensiv ist, zeigt die Forschung, dass für Spiele mit innerer Struktur in reinen Strategien (wie teilweise beobachtbare stochastische Spiele) eine effiziente Implementierung möglich ist.

Forschungshintergrund und Motivation

Kernproblem

Die Berechnung von Nash-Gleichgewichten in großflächigen Zweipersonen-Nullsummenspielen ist ein rechenintensives Problem. Obwohl theoretisch bekannt ist, dass ε-Nash-Gleichgewichte der Größe O(log n) existieren (wobei n die Anzahl der reinen Strategien ist), benötigen traditionelle Best-Response-Orakel-basierte Algorithmen wie Fictitious Play (FP) und Double Oracle (DO) im schlimmsten Fall Ω(n) Iterationen.

Bedeutung

Theorie-Praxis-Lücke: Althöfer und Lipton haben bewiesen, dass logarithmisch große ε-NE existieren, aber praktische Algorithmen können diese Komplexität nicht erreichen
Untergrenzen-Beschränkungen: Hazan und Koren haben bewiesen, dass jeder BRO-basierte Algorithmus mindestens Ω(√n/log³n) Iterationen benötigt
Praktische Anwendungsanforderungen: Deep-Reinforcement-Learning-Algorithmen (wie Policy Space Response Oracles) hängen von diesen grundlegenden Algorithmen ab

Einschränkungen bestehender Methoden

FP und DO: Im schlimmsten Fall O(n) Iterationen erforderlich
Hazan-Koren-Algorithmus: Obwohl O(√n/ε²) Komplexität bereitgestellt wird, ist der Algorithmus komplex und bietet nur eine Quadratwurzel-Verbesserung
Regularisierungsmethoden: Wie PU und OMWU erreichen zwar O(log n) Iterationen, erfordern aber die Aufrechterhaltung von Wahrscheinlichkeitsverteilungen für alle reinen Strategien, was für großflächige Spiele ungeeignet ist

Forschungsmotivation

Durch die Einführung von Störungen in das Best-Response-Orakel, um es stärker zu machen, können die Grenzen der theoretischen Untergrenzen überwunden und logarithmische Konvergenzgeschwindigkeit erreicht werden.

Kernbeiträge

Einführung eines gestörten Best-Response-Orakels (PBRO): Vorschlag eines Mechanismus zur zufälligen Störung von Auszahlungen vor der Berechnung der besten Antwort
Theoretische Ergebnisse:
- Beweis, dass Stochastic Fictitious Play (SFP) eine erwartete Iterationskomplexität von O(log n/ε²) erreicht
- Beweis, dass Stochastic Double Oracle (SDO) für spezifische schwierige Instanzen (Beispiel von Zhang und Sandholm) O(log n) erwartete Iterationen erreicht
Effiziente Implementierungspläne: Vorschlag effizienter Störungsmethoden für Spiele mit innerer Struktur (wie POSG, Pfadplanungsspiele), ohne alle reinen Strategien durchlaufen zu müssen
Experimentelle Validierung: Validierung der Wirksamkeit der Störungsmethode auf verschiedenen Spieltypen, einschließlich Matrixspielen, stochastischen Spielen und Pfadplanungsspielen
Theoretische Werkzeuge: Verwendung des Gumbel-Max-Tricks zur Herstellung einer Verbindung zwischen SFP und stochastischen exponentiell gewichteten Vorhersagern (REWF)

Methodische Details

Aufgabendefinition

Eingabe: Matrixspiel M ∈ ℝ^(m×n), Genauigkeitsparameter ε > 0 Ausgabe: ε-Nash-Gleichgewichtsstrategie-Paar ⟨p*, q*⟩ Einschränkung: Minimierung der Iterationszahl (Orakel-Aufrufe)

Mathematische Definition der gestörten Best Response

Für den Zeilenspieler, gegeben die gemischte Strategie des Spaltenspielers q ∈ Δ_n:

B̃R_r(q) ∈ argmin_{i∈[m]} π_i(Mq - u)

wobei u ein Zufallsvektor ist, dessen Komponenten i.i.d. Zufallsvariablen sind.

Für den Spaltenspieler, gegeben die gemischte Strategie des Zeilenspielers p ∈ Δ_m:

B̃R_c(p) ∈ argmax_{j∈[n]} π_j(p^⊤M + v)

Stochastic Fictitious Play (SFP)

Algorithmus-Ablauf:

Initialisierung: t←1, p←e_k, q←e_l (initiale reine Strategien)
Berechnung der Terminierungsgrenzen: lb←BRVal_r(q), ub←BRVal_c(p)
Während ub - lb > tε:
- t←t+1
- i←B̃R_r(q), j←B̃R_c(p) (gestörte beste Antwort)
- p←p+e_i, q←q+e_j (kumulative Strategien)
- Grenzen aktualisieren
Rückgabe der durchschnittlichen Strategie: ⟨p*/t, q*/t⟩

Schlüsselinnovationen:

Verwendung eines gestörten Orakels anstelle eines deterministischen Orakels
Aufrechterhaltung kumulativer Strategievektoren, endgültige Rückgabe durchschnittlicher Strategien
Terminierungsbedingung verwendet ungefilterte Best-Response-Werte

Theoretische Grundlagen der Gumbel-Störung

Gumbel-Max-Trick (Lemma 1): Für einen Vektor x ∈ ℝ^n, wenn z Komponenten unabhängig und identisch verteilt nach Gumbel-Verteilung G(0,β) sind:

P(argmax_i π_i(x+z) = i*) = π_i*(softmax(x/β))

Dies bedeutet, dass die beste Antwort mit Gumbel-Störung äquivalent zum Sampling aus einer Softmax-Verteilung ist.

Verbindung zu REWF:

Die Strategieauswahl des Zeilenspielers in SFP ist äquivalent zu REWF-Strategie
In Runde t wird aus softmax(-η∑^{t-1} Me) gesampelt
Parameter η = 1/β steuert den Explorations-Exploitations-Kompromiss

Kernanalyse der Theorie

Theorem 3 (SFP-Komplexität): Für auf 0,1 normalisierte Matrixspiele M ∈ ℝ^(m×n), m ≤ n, setze β = (2+√(2ln n))/(ε√(8ln n)), dann findet SFP ein ε-NE in O(log n/ε²) erwarteten Iterationen.

Beweisstrategie:

Setze Iterationszahl T = ((2+√(2ln n))/ε)² ∈ O(log n/ε²)

Verwende Corollary 2 (REWF-Bedauernisgrenze), mit Wahrscheinlichkeit ≥3/4:

∑_{t=1}^T M(i_t,j_t) - min_i ∑_{t=1}^T M(i,j_t) ≤ √T(1 + √(ln n)/2)

Wende duales Ergebnis auf Spaltenspieler an (Wahrscheinlichkeit ≥3/4)
Beide Ereignisse treten gleichzeitig mit Wahrscheinlichkeit ≥1/2 auf
Kombiniere beide Ungleichungen, um ub - lb ≤ ε zu erhalten
Erwartete Laufzeit ≤2 Mal

Stochastic Double Oracle (SDO)

Algorithmus-Charakteristiken:

Aufrechterhaltung von Strategieuntermenge R ⊆ m, C ⊆ n
Berechnung des Nash-Gleichgewichts des Teilspiels MR,C in jeder Runde
Verwendung des gestörten Orakels zum Hinzufügen neuer Strategien

Analyse für spezifische Spiele:

Beispiel 1 (Matrix L):

L = [0   1   ...  1  ]
    [-1  0   ...  1  ]
    [⋮   ⋮   ⋱   ⋮  ]
    [-1  -1  ... 0  ]

Lemma 4 (Erwartung gleichmäßiger Störung): Für die k-te Zeile x = ⟨1,...,1,0,-1,...,-1⟩, unter Verwendung von U(-1/2,1/2)-Störung, ist der erwartete Index der gestörten besten Antwort EI = k/2

Theorem 6: SDO findet das NE von L in O(log n) erwarteten Iterationen

Beweistechniken:

Definition der Potentialfunktion X_t = max{r_t, c_t}, wobei r_t = min R_t, c_t = min C_t
Verwendung der Drift-Theorie zum Beweis von X_t - EX_{t+2} ≥ X_t/2
Anwendung von Corollary 17 zur Erlangung von ET ≤ 2ln n

Effiziente Störungsimplementierung

Clustering-Methode: Für Spiele mit innerer Struktur (wie stochastische Spiele):

Identifizierung von Matrixelementen, die denselben Endzustand entsprechen
Clustering von Matrixelementen in K Cluster
Anwendung desselben Zufallsstörungswerts auf jeden Cluster

Störungsformel:

B̃R_r(q) = argmin_{i∈[m]} π_i((L + ∑_{k=1}^K z_k B_k)q)

wobei B_k eine Maskenmatrix ist, die Elemente des k-ten Clusters identifiziert

Vorteile:

Nur K Zufallszahlen erforderlich (K << mn)
Beibehaltung der semantischen Spielstruktur
Anwendbar auf POSG, EFG und andere strukturierte Spiele

Experimentelle Einrichtung

Datensätze und Spieltypen

Zufällige Matrixspiele: n×n-Matrizen, Elemente gleichmäßig aus 0,1 gesampelt, 100 Instanzen pro Größe
Matrizen L und U^⊤: Schwierige Instanzen aus Beispiel 1 und 2
f-Finger-Morra-Spiel: Klassisches Spiel, Matrixgröße f²×f²
Colonel-Blotto-Spiel: 5 Schlachtfelder, unterschiedliche Einheitsbudgets
n-Bit-Zufallsspiel: Entspricht 2^n×2^n-Matrix mit Baumstruktur
Pfadplanungsspiel: n×n-Gitter, eine Seite sucht kürzesten Weg, andere wählt Kanten zur Kostensteigerung

Bewertungsmetriken

Iterationszahl: Anzahl der Orakel-Aufrufe zur Erreichung von ε-NE
ε-Wert: Auf 0,1 gesetzt
Statistiken: Mittelwert und Standardabweichung von 10 wiederholten Experimenten

Vergleichsmethoden

FP: Standard-Fictitious Play
AFP: Anticipatory Fictitious Play
SAFP: Gestörte Version von AFP
DO: Standard-Double Oracle
SDO: Gestörte Version Double Oracle

Implementierungsdetails

Programmiersprache: Python
Hardware: AMD Ryzen 7 PRO 7840U
Zufallszahlengenerierung: numpy-Bibliothek, initialer Seed 1
Initialisierung: Worst-Case-Index (k=l=n)
Tie-Breaking: Auswahl des kleinsten Index der besten Antwort
SFP-β-Parameter: Gemäß Theorem 3 gesetzt
SDO-Störungsverteilung:
- Theoretische Analyse: U(-1,1)
- Praktische Anwendung: U(-0.01,0.01) und U(-0.001,0.001)

Experimentelle Ergebnisse

Hauptergebnisse

SFP-Leistung auf verschiedenen Spielen

Zufällige 0,1-Matrixspiele:

AFP zeigt optimale Leistung, deutlich besser als andere Methoden
SFP und SAFP zeigen ähnliche Leistung, leicht besser als FP
In Zufallsspielen ist der Störungsvorteil nicht offensichtlich
Iterationszahl wächst mit der Größe nahezu linear

Matrix U^⊤:

FP und AFP zeigen O(n) Worst-Case-Komplexität
SFP und SAFP zeigen deutlich reduzierte Iterationszahl
Für n=1000 benötigt SFP etwa 10-15 Iterationen, während FP 1000 benötigt
Validiert theoretische O(log n)-Komplexität

f-Finger-Morra-Spiel:

SFP und SAFP konvergieren schnell, auch für großes f
FP und AFP Iterationszahl wächst mit f²
Bei f=10 benötigt SFP etwa 50 Iterationen, FP benötigt 200+

SDO-Leistung auf verschiedenen Spielen

Matrizen L und U^⊤ (theoretische Störung U(-1,1)):

SDO erreicht theoretisch vorhergesagte logarithmische Komplexität
Für n=2000 benötigt SDO etwa 10-15 Iterationen
DO benötigt n Iterationen (nicht in Grafik gezeigt, da Größe zu groß)
Perfekte Validierung von Theorem 6 und 7

f-Finger-Morra-Spiel:

Störung reduziert Iterationszahl deutlich
Sowohl U(-0.01,0.01) als auch U(-0.001,0.001) sind wirksam
Kleinere Störung (U(-0.001,0.001)) zeigt stabilere Leistung bei großem Maßstab

Colonel-Blotto-Spiel:

5 Schlachtfelder, Einheitsbudget 0-40
Störungsmethode übertrifft kontinuierlich ungestörte Version
U(-0.01,0.01) zeigt insgesamt optimale Leistung

Effiziente Störungsexperimente

n-Bit-Zufallsspiel (entspricht L und U^⊤):

Verwendung der Clustering-Störungsmethode
Für n=2000 (2^11-Größe) etwa 100 Iterationen erforderlich
Obwohl etwas langsamer als theoretische Störung, deutlich besser als lineare Komplexität von DO
Validiert Machbarkeit effizienter Implementierung

Pfadplanungsspiel:

Test auf n×n-Gitter
Störung reduziert Iterationszahl deutlich
Vorteil wird größer, wenn Gittergröße zunimmt
Bei n=14 benötigt gestörte Version etwa 100 Iterationen, ungestörte benötigt 200+

Ablationsstudien-Beobachtungen

Auswirkung der Störungsstärke:

Zu große Störung kann Konvergenz schädigen (in Zufallsspielen beobachtet)
U(-0.001,0.001) zeigt in den meisten Fällen stabile Leistung
U(-0.01,0.01) ist in strukturierten Spielen effektiver

Auswahl der Störungsverteilung:

Gumbel-Verteilung: Theoretisch optimal, geeignet für SFP
Gleichmäßige Verteilung: Praktisch einfacher, wirksam in SDO
Beide zeigen ähnliche Leistung in Experimenten

Wichtigste Erkenntnisse

Spieltyp-Abhängigkeit: Störung ist in strukturierten/schwierigen Instanzen wirksam, in Zufallsspielen nicht offensichtlich
Theorie-Praxis-Konsistenz: Experimentelle Ergebnisse stimmen stark mit theoretischen Vorhersagen überein
Machbarkeit effizienter Implementierung: Clustering-Methode behält Effektivität bei, während Rechenkosten deutlich gesenkt werden
Robustheit: Störungsmethode zeigt stabile Leistung über verschiedene Spieltypen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Durchbruch:
- SFP erreicht O(log n/ε²) erwartete Komplexität, erste Beweis der logarithmischen Konvergenz von PBRO-Algorithmen
- SDO erreicht O(log n) erwartete Komplexität auf spezifischen schwierigen Instanzen
Praktischer Wert:
- Störungsmethode reduziert Iterationszahl in strukturierten Spielen deutlich
- Effiziente Implementierungspläne machen Methode für großflächige Spiele geeignet
Methodologische Beiträge:
- Herstellung theoretischer Verbindung zwischen SFP und REWF
- Bereitstellung eines Frameworks zur Analyse von SDO mit Drift-Theorie

Einschränkungen

SDO-Allgemeinkomplexität ungelöst:
- Nur logarithmische Komplexität für spezifische Instanzen bewiesen
- Allgemeine Komplexität bleibt offene Frage
Leistung bei Zufallsspielen:
- Störungsvorteil in zufällig generierten Spielen nicht offensichtlich
- Möglicherweise weil Zufallsspiele selbst bereits zufällige beste Antworten haben
Auswahl von Störungsparametern:
- Theoretisch optimale Parameter (β) möglicherweise zu groß in der Praxis
- Erfordert Anpassung der Störungsstärke für spezifische Spiele
Näherung effizienter Implementierung:
- Clustering-Störung nicht vollständig äquivalent zu vollständiger Störung
- Theoretische Garantien gelten nur für vollständige Störung
Rechenkosten:
- Obwohl Iterationszahl reduziert, erfordert jede Iteration Zufallszahlengenerierung
- Für bestimmte Spiele könnten Gewinne zusätzliche Kosten nicht ausgleichen

Zukünftige Richtungen

Allgemeine Komplexitätsanalyse von SDO:
- Beweis oder Widerlegung logarithmischer Komplexität von SDO im allgemeinen Fall
- Identifizierung von Spielklassen-Charakteristiken, bei denen SDO effizient ist
Adaptive Störungsstrategien:
- Dynamische Anpassung der Störungsstärke basierend auf Konvergenzverhalten
- Erforschung theoretischer Eigenschaften verschiedener Störungsverteilungen
Deep-Reinforcement-Learning-Integration:
- Integration von PBRO in PSRO-Framework
- Untersuchung von Störungseffekten bei neuronalen Netzwerk-Approximation von BRO
Breitere Spielklassen:
- Erweiterung auf allgemeine Spiele
- Untersuchung von Störungsmechanismen in Mehrspieler-Spielen
Praktische Anwendungsvalidierung:
- Test in realen Spielszenarien (wie Poker, Strategiespiele)
- Bewertung der Leistung unter praktischen Rechenressourcen-Einschränkungen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge:
- Vollständige mathematische Beweise, vom Gumbel-Max-Trick zur Drift-Theorie
- Klare Herstellung der Verbindung zwischen SFP und klassischen Online-Learning-Algorithmen (REWF)
- Theoretische Ergebnisse stimmen stark mit Experimenten überein
Wichtige Problemauswahl:
- Adressierung der langfristigen Theorie-Praxis-Lücke im Feld
- Überwindung der Hazan-Koren-Untergrenze (durch Verstärkung des Orakels)
- Direkte Anwendbarkeit auf Deep Reinforcement Learning
Methodische Innovation:
- Einfacher und effektiver Störungsmechanismus
- Effiziente Implementierungspläne lösen Rechenengpässe
- Einheitliches Framework anwendbar auf FP- und DO-Algorithmen
Umfassende Experimente:
- Abdeckung theoretischer Instanzen, klassischer Spiele, Zufallsspiele, strukturierter Spiele
- Vergleich mehrerer Baseline-Methoden
- Ehrliche Berichterstattung negativer Ergebnisse bei Zufallsspielen
Schreibklarheit:
- Ausreichende Hintergrundeinführung, klare Motivation
- Vollständige technische Details, starke Reproduzierbarkeit
- Bereitstellung von Open-Source-Code

Mängel

Theoretische Vollständigkeit:
- SDO-Allgemeinkomplexität ungelöst, nur Spezialfallanalyse
- Fehlende theoretische Erklärung für Störungsversagen (wie bei Zufallsspielen)
- Theoretische Lücke zwischen Clustering-Störung und vollständiger Störung nicht quantifiziert
Experimentelles Design:
- Zufallsspiel-Experimente relativ kleine Größe (n≤1000)
- Fehlender direkter Vergleich mit Hazan-Koren-Algorithmus
- Keine Berichterstattung tatsächlicher Laufzeit, nur Iterationszahl
Praktische Überlegungen:
- Mangelnde universelle Anleitung zur Störungsparameterauswahl
- Fehlende Kriterien zur Bestimmung, wann Störung verwendet werden sollte
- Anwendungsbereich effizienter Implementierungspläne nicht ausreichend klar
Analysentiefe:
- Unzureichende intuitive Erklärung, warum Störungsmechanismus wirksam ist
- Fehlende tiefe Analyse der Beziehung zwischen Spielstruktur und Störungseffektivität
- Relativ einfache Ablationsstudien
Vergleichsfairness:
- AFP ruft 4 Mal pro Runde BRO auf, während FP/SFP nur 2 Mal aufrufen
- Sollte auch Vergleich der Gesamtzahl von BRO-Aufrufen berichten

Einfluss

Theoretischer Beitrag:
- Neue Richtung für BRO-Algorithmusforschung
- Beweis des Potenzials verstärkter Orakel
- Kann andere kombinatorische Optimierungsprobleme inspirieren
Praktischer Wert:
- Direkt anwendbar auf bestehende DO/FP-Frameworks
- Potenzielle Verbesserung von PSRO-Methoden in Deep RL
- Effiziente Implementierungspläne praktisch umsetzbar
Einschränkungen:
- Weitere theoretische Entwicklung erforderlich für Standardmethode
- Leistung bei Zufallsspielen begrenzt Universalität
- Rechenkosten müssen in großflächigen Anwendungen validiert werden
Reproduzierbarkeit:
- Open-Source-Code bereitgestellt, starke Reproduzierbarkeit
- Algorithmusbeschreibung klar, leicht zu implementieren
- Experimentelle Einrichtung detailliert

Anwendungsszenarien

Stark empfohlen:

Spiele mit klarer Struktur (EFG, POSG)
Spiele mit mehreren äquivalenten besten Antworten
Schwierige Instanzen, bei denen traditionelle DO/FP langsam konvergiert
Spiele mit riesigem Strategieraum aber innerer Struktur

Vorsichtig verwenden:

Vollständig zufällige Spiele
Spiele mit eindeutiger und klarer bester Antwort
Szenarien mit extrem begrenzten Rechenressourcen
Anwendungen, die deterministische Garantien erfordern

Nicht empfohlen:

Kleinflächige Spiele (direkte Lösung schneller)
Unstrukturierte allgemeine Spiele (Störungsvorteil nicht offensichtlich)
Echtzeit-Entscheidungsszenarien (Zufälligkeit möglicherweise nicht akzeptabel)

Literaturverzeichnis

Wichtige theoretische Grundlagen:

Althöfer (1994) - Existenz logarithmisch großer ε-NE
Hazan & Koren (2016) - Theoretische Grenzen von BRO-Algorithmen
Hofbauer & Sandholm (2002) - SFP-Konvergenzbeweis
Cesa-Bianchi & Lugosi (2006) - REWF-Algorithmus

Verwandte Arbeiten: 5. Zhang & Sandholm (2024) - Exponentielle Untergrenzen für DO 6. Cloud et al. (2023) - Anticipatory Fictitious Play 7. Lanctot et al. (2017) - Policy Space Response Oracles 8. Cen et al. (2024) - Regularisierte Spielalgorithmen

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit guter Kombination von Theorie und Praxis. Der Hauptbeitrag besteht darin, zu beweisen, dass Störungsmechanismen BRO-Algorithmen zu logarithmischer Komplexität führen können, was die bekannte theoretische Untergrenze überwindet (durch Verstärkung des Orakels). Die theoretischen Ergebnisse von SFP sind vollständig und streng, die Analyse von SDO, obwohl nicht vollständig, bietet wertvolle Einblicke. Das experimentelle Design ist umfassend und berichtet ehrlich über die Anwendungsgrenzen der Methode. Die Hauptmängel sind die ungelöste allgemeine Komplexität von SDO und die fehlende theoretische Erklärung für die schlechte Leistung bei Zufallsspielen. Diese Arbeit eröffnet neue Richtungen für die Spieltheorie-Algorithmusforschung und hat potenziellen Anwendungswert für Deep Reinforcement Learning und verdient weitere Forschung.