This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.
- Paper-ID: 2411.11057
- Titel: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
- Autoren: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
- Klassifizierung: cs.AI
- Veröffentlichungsdatum: November 2024 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2411.11057
Dieses Paper führt das Strategiespiel „So Long Sucker" (SLS) erstmals als neuen Benchmark in das Gebiet des Multi-Agenten-Verstärkungslernens (MARL) ein. Im Gegensatz zu traditionellen Schach- oder Videospiel-Testplattformen zeichnet sich SLS durch Koalitionsbildung, strategische Täuschung und dynamische Eliminierungsregeln aus und bietet damit eine einzigartige Herausforderungsumgebung für autonome Agenten. Die Forscher entwickelten das erste öffentlich verfügbare SLS-Rechenframework mit grafischer Benutzeroberfläche und Unterstützung für Verstärkungslern-Algorithmen-Benchmarks. Durch klassische Deep-Reinforcement-Learning-Methoden (DQN, DDQN, Dueling DQN) wurden selbstspielende Agenten trainiert, um SLS-Regeln und grundlegende Strategien zu erlernen. Die Experimentergebnisse zeigen, dass diese Agenten zwar etwa die Hälfte der maximal erreichbaren Belohnung erreichen und kontinuierlich besser als zufällige Baselines abschneiden, aber lange Trainingsphasen (etwa 2000 Spiele) benötigen und gelegentlich illegale Züge ausführen, was sowohl das Potenzial als auch die Grenzen klassischen Verstärkungslernens verdeutlicht.
Bestehende Multi-Agenten-Verstärkungslern-Benchmarks konzentrieren sich hauptsächlich auf rein kooperative Ziele (wie Koordinationsaufgaben) oder antagonistische Konkurrenz (wie Zwei-Personen-Nullsummenspiele) und ermangeln gemischter Umgebungen, die gleichzeitig Koalitionsbildungs- und Verratsdynamiken erfassen können. Obwohl Durchbrüche in Bereichen wie Go, StarCraft II und Diplomacy erzielt wurden, erfassen diese Benchmarks nicht vollständig die einzigartigen gemischten Dynamiken von Koalition und Verrat, die SLS auszeichnen.
SLS, entworfen von Hausner, Nash, Shapley und Shubik, ist ein Vier-Personen-Strategiespiel, das sich um Koalitionsbildung, vorübergehende Allianzen und unvermeidliche Verrate dreht. Der Sieg hängt nicht nur von legalen Zügen ab, sondern erfordert auch Diplomatie und Opportunismus, was es zu einer einzigartigen Testplattform für die Erforschung von Vertrauen, Verhandlung und sozialen Dilemmata macht.
- Die meisten MARL-Benchmarks ermangeln der gemischten Dynamiken von Koalition und Verrat
- Frühere Arbeiten zu sozial reichhaltigen Szenarien stützen sich typischerweise auf explizite Kommunikationskanäle oder handwerklich gefertigte Interaktionsregeln
- SLS wurde bisher nicht als Rechenstandard untersucht
Durch die Formalisierung von SLS als reproduzierbare sequenzielle Variante und das Benchmarking grundlegender DRL-Algorithmen positioniert dieses Paper SLS als Testplattform zur Förderung der MARL-Forschung mit Bewusstsein für Koalition und Verrat.
- Erstes SLS-Rechenframework: Entwurf und Veröffentlichung des ersten speziell für Verstärkungslernforschung angepassten SLS-Rechenframeworks mit GUI für Experimente
- Benchmarking klassischer DRL-Algorithmen: Benchmarking klassischer DRL-Algorithmen (DQN, DDQN, Dueling DQN) in SLS mit Analyse ihrer Fähigkeit, legale Spielkompetenz und teilweises strategisches Bewusstsein zu erwerben
- Koalitions- und Verrats-bewusster Benchmark: Etablierung von SLS als Koalitions- und Verrats-bewusster Benchmark für MARL, der zukünftige Forschung zu hybriden Methoden inspiriert, die DRL mit spieltheoretischem Denken kombinieren
Umwandlung von SLS in eine MARL-Umgebung unter Verwendung der verallgemeinerten Hofstra-Version der Nullsummen-Variante. Vier Spieler erhalten jeweils eine eindeutige Farbe und beginnen mit 5 gleichfarbigen Chips auf einem Spielfeld mit maximal 6 aktiven Stapeln. Die Siegbedingung ist, der letzte verbleibende Spieler zu sein.
Modellierung von SLS als Markov-Entscheidungsprozess (MDP):
- Zustandsraum S: Menge aller möglichen Spielzustände
- Aktionsraum A: Menge aller verfügbaren Agenten-Aktionen (diskrete legale Züge)
- Übergangsfunktion: p(s'|s,a) stellt die Wahrscheinlichkeit dar, nach Ausführung von Aktion a im Zustand s zu s' überzugehen
- Belohnungsfunktion: r(s,a,s') weist jedem Übergang einen Skalarwert zu
- Strategie: π(a|s) ist die Strategie des Agenten, Aktion a im gegebenen Zustand s zu wählen
Das Ziel besteht darin, die optimale Strategie π* zu finden, um die erwartete diskontierte Rendite zu maximieren:
Rt=∑k=0∞γkrt+k+1
Der Zustand st kodiert alle Informationen, die zur Beschreibung der Spielumgebung erforderlich sind:
st=(Board Configuration,Player Chips,Eliminated Chips,Current Player,Game Phase,Step Count)
Die Beobachtungsraumgröße beträgt:
obs_size=(nrows×nplayers×nmax_pile)+nplayers2+(2×nplayers)+4+1
Diskreter Aktionsraum A = {A₀, A₁, ..., A₉}, einschließlich:
- A₀-A₅: Stapelauswahlaktionen (gültig in der Stapelauswahlphase)
- A₆-A₉: Spieler-/Farbentscheidungsaktionen (gültig in den Phasen Chip auswählen, nächsten Spieler auswählen, Chips eliminieren)
Das Belohnungssignal zum Zeitschritt t ist definiert als:
rt=min(℘,(α/nc)⋅t℘)
wobei α ∈ (0,1] ein Hyperparameter ist, der die Abklingrate steuert, und ℘ die Belohnungsamplitude darstellt. Illegale Aktionen werden mit einer festen negativen Belohnung (-℘) bestraft, legale Aktionen erhalten positive Belohnungen bis zu +℘, die mit der Anzahl der Schritte abnehmen, um Effizienz zu fördern.
- Anzahl der Spieler: 4 Spieler
- Anfängliche Chips: 5 gleichfarbige Chips pro Spieler
- Maximale Stapelanzahl: 6 aktive Stapel
- Siegbedingung: Nullsummenspiel mit Belohnungsstruktur {0,0,0,ù}, ù ∈ ℕ⁺
Zentralisierte kumulative Lerneinrichtung, bei der alle vier Spieler-Agenten ein gemeinsames Lernetzwerk und einen gemeinsamen Wiederholungspuffer nutzen. Die Netzwerkarchitektur besteht aus zwei vollständig verbundenen verborgenen Schichten mit 64 Neuronen (ReLU-Aktivierung), gefolgt von einer linearen Ausgabeschicht.
- Diskontfaktor γ = 0,95
- Anfängliche Explorationsrate ε₀ = 1,0
- Explorations-Abklingrate ε_decay = 0,995
- Minimale Explorationsrate ε_min = 0,01
- Lernrate = 0,001
- Batch-Größe = 64
- Trainingsrunden = 10.000 Spiele
- Durchschnitt und Standardabweichung der kumulativen Belohnung
- Durchschnittliche Schritte pro Spiel
- Belohnungsbereich Minimum, Maximum
- Schrittbereich Minimum, Maximum
- DQN (Deep Q-Network)
- DDQN (Double DQN)
- Dueling DQN
- Random Baseline (Zufällige Baseline)
| Agent | Belohnung (Mittelwert±Std.abw.) | Belohnungsbereich Min,Max | Schritte (Mittelwert±Std.abw.) | Schrittbereich Min,Max |
|---|
| DQN | 103,40 ± 42,31 | -313,45, 189,24 | 61,16 ± 14,51 | 27, 162 |
| DDQN | 108,44 ± 44,95 | -279,13, 191,38 | 61,23 ± 14,18 | 28, 165 |
| Dueling DQN | 102,06 ± 49,62 | -319,76, 192,09 | 65,92 ± 15,94 | 28, 173 |
| Random | -8,78 ± 43,52 | -419,26, 94,19 | 65,24 ± 17,76 | 29, 174 |
- Leistung: Alle DRL-Agenten schneiden kontinuierlich besser als die zufällige Baseline ab und erreichen etwa die Hälfte der theoretischen maximalen Belohnung (≈200)
- Konvergenzeigenschaften: DDQN erreicht die stabilste Konvergenz und die höchste durchschnittliche Belohnung, was die Vorteile der doppelten Schätzung bei der Minderung von Q-Wert-Überschätzung in längerfristigen Spielen validiert
- Lernungsdynamiken: In der frühen Trainingsphase (<500 Spiele) zeigen Agenten hohe Belohnungsvarianz mit häufigen illegalen Aktionen; nach etwa 2000 Spielen zeigen alle DRL-Agenten glattere Konvergenz
Der Trainingsprozess lässt sich in drei Phasen unterteilen:
- Explorationsphase (0-500 Spiele): Hohe Varianz, häufige illegale Aktionen
- Lernphase (500-2000 Spiele): Schrittweise Regelbeherrschung, stetig steigende Belohnungen
- Konvergenzphase (>2000 Spiele): Belohnungen stabilisieren sich im Bereich 100-120, gelegentliche explorative Rückgänge
- Traditionelle Benchmarks: Go, StarCraft II konzentrieren sich hauptsächlich auf reine Konkurrenz oder Kooperation
- Soziale Spiele: Diplomacy und ähnliche beinhalten Verhandlung, erfordern aber explizite Kommunikation
- Spieltheoretische Anwendungen: Nash-Gleichgewichtslösung in Multi-Agenten-Systemen
- AlphaGo-Serie: Durchbrüche in Spielen mit vollständiger Information
- Multi-Agenten-Lernen: Selbstspiel-Training und Strategiediversität
- Wertfunktionsmethoden: DQN und Varianten in diskreten Aktionsräumen
Dieses Paper führt SLS erstmals als Rechenstandard ein und füllt eine Lücke in der Forschung zu Koalitionsbildungs- und Verratsdynamiken.
- Klassische wertbasierte Methoden können Kern-SLS-Regeln und teilweise Strategien erlernen und erreichen stabile, aber suboptimale Leistung
- Die hohe Belohnungsvarianz spiegelt Empfindlichkeit gegenüber Initialisierung und Exploration wider
- Kontextabhängige Aktionen offenbaren Grenzen kurzfristiger Wertschätzung
- SLS wird erfolgreich als verhandlungsbewusster MARL-Benchmark etabliert
- Strategische Grenzen: Agenten neigen zu reaktivem statt strategischem Verhalten
- Regeleinhaltung: Trotz dynamischer Aktionsmasken werden gelegentlich illegale Aktionen ausgeführt
- Langfristige Überlegungen: Schwierigkeiten bei kombinatorischen Aktionsräumen und verzögerter Belohnungsabhängigkeit
- Koalitionsdynamiken: Unzureichende Erfassung komplexer Koalitionsbildungs- und Verratstrategien
- Architekturverbesserungen: Integration von Actor-Critic- und Koalitions-bewussten Frameworks
- Strategische Verbesserungen: Verstärkung langfristiger Überlegungen und Regeleinhaltung
- Soziale Dynamiken: Entwicklung von Verhandlungs-, Koalitions- und Täuschungsfähigkeiten
- Theoretische Analyse: Kombination spieltheoretischen Denkens mit tiefem Lernen
- Innovativer Benchmark: Erstmalige Einführung von SLS in MARL, füllt wichtige Lücke in der Forschung zu Koalitions- und Verratsdynamiken
- Vollständiges Framework: Bereitstellung eines kompletten Rechenframeworks mit GUI, das reproduzierbare Forschung fördert
- Systematische Bewertung: Umfassender Benchmark mehrerer klassischer DRL-Methoden
- Theoretischer Beitrag: Klare Formalisierung der Nullsummen-Variante, behebt Unvollständigkeiten der ursprünglichen Formalisierung
- Methodische Grenzen: Nur klassische wertbasierte Methoden getestet, fortgeschrittenere MARL-Algorithmen nicht erforscht
- Vereinfachte Einrichtung: Entfernung expliziter Verhandlungsmechanismen könnte Kernmerkmale von SLS beeinträchtigen
- Leistungsengpässe: Agenten führen noch illegale Aktionen aus, offenbaren Unzulänglichkeiten grundlegender Methoden
- Unzureichende theoretische Analyse: Mangel an tiefgehender Analyse der spieltheoretischen Eigenschaften von SLS
- Akademischer Wert: Bietet der MARL-Gemeinschaft neue Forschungsrichtung und Benchmark
- Praktische Bedeutung: Open-Source-Veröffentlichung des Frameworks wird nachfolgende Forschung fördern
- Methodologischer Beitrag: Demonstriert, wie komplexe Strategiespiele in ML-freundliche Umgebungen umgewandelt werden
- Inspiriert durch Grenzen: Offenbart Unzulänglichkeiten klassischen RL in komplexen sozialen Spielen, leitet zukünftige Forschung
- MARL-Forschung: Algorithmusentwicklung für Koalitionsbildung und Verratsdynamiken
- Spieltheoretische Anwendungen: Rechenmodelle für mehrseitige Verhandlung und strategisches Denken
- Soziale KI: Modellierung von Vertrauen, Täuschung und Kooperationsverhalten
- Bildungswerkzeuge: Lehrmittel für Spieltheorie und Multi-Agenten-Systeme
- Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
- Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
- FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
- Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
Dieses Paper trägt durch die Einführung von SLS als neuer MARL-Benchmark wertvolle Erkenntnisse bei und bietet eine Plattform zur Erforschung von Koalitionsbildung und strategischer Täuschung. Obwohl aktuelle Ergebnisse die Grenzen klassischer Methoden zeigen, unterstreicht dies gerade die Herausforderung und den Forschungswert dieses Benchmarks und weist den Weg zur Entwicklung fortgeschrittenerer Multi-Agenten-Lernalgorithmen.