2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak

This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.

academic

Verstärkung konkurrierender Multi-Agenten zum Spielen von „So Long Sucker"

Grundinformationen

Paper-ID: 2411.11057
Titel: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
Autoren: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
Klassifizierung: cs.AI
Veröffentlichungsdatum: November 2024 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2411.11057

Zusammenfassung

Dieses Paper führt das Strategiespiel „So Long Sucker" (SLS) erstmals als neuen Benchmark in das Gebiet des Multi-Agenten-Verstärkungslernens (MARL) ein. Im Gegensatz zu traditionellen Schach- oder Videospiel-Testplattformen zeichnet sich SLS durch Koalitionsbildung, strategische Täuschung und dynamische Eliminierungsregeln aus und bietet damit eine einzigartige Herausforderungsumgebung für autonome Agenten. Die Forscher entwickelten das erste öffentlich verfügbare SLS-Rechenframework mit grafischer Benutzeroberfläche und Unterstützung für Verstärkungslern-Algorithmen-Benchmarks. Durch klassische Deep-Reinforcement-Learning-Methoden (DQN, DDQN, Dueling DQN) wurden selbstspielende Agenten trainiert, um SLS-Regeln und grundlegende Strategien zu erlernen. Die Experimentergebnisse zeigen, dass diese Agenten zwar etwa die Hälfte der maximal erreichbaren Belohnung erreichen und kontinuierlich besser als zufällige Baselines abschneiden, aber lange Trainingsphasen (etwa 2000 Spiele) benötigen und gelegentlich illegale Züge ausführen, was sowohl das Potenzial als auch die Grenzen klassischen Verstärkungslernens verdeutlicht.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende Multi-Agenten-Verstärkungslern-Benchmarks konzentrieren sich hauptsächlich auf rein kooperative Ziele (wie Koordinationsaufgaben) oder antagonistische Konkurrenz (wie Zwei-Personen-Nullsummenspiele) und ermangeln gemischter Umgebungen, die gleichzeitig Koalitionsbildungs- und Verratsdynamiken erfassen können. Obwohl Durchbrüche in Bereichen wie Go, StarCraft II und Diplomacy erzielt wurden, erfassen diese Benchmarks nicht vollständig die einzigartigen gemischten Dynamiken von Koalition und Verrat, die SLS auszeichnen.

Forschungsbedeutung

SLS, entworfen von Hausner, Nash, Shapley und Shubik, ist ein Vier-Personen-Strategiespiel, das sich um Koalitionsbildung, vorübergehende Allianzen und unvermeidliche Verrate dreht. Der Sieg hängt nicht nur von legalen Zügen ab, sondern erfordert auch Diplomatie und Opportunismus, was es zu einer einzigartigen Testplattform für die Erforschung von Vertrauen, Verhandlung und sozialen Dilemmata macht.

Grenzen bestehender Ansätze

Die meisten MARL-Benchmarks ermangeln der gemischten Dynamiken von Koalition und Verrat
Frühere Arbeiten zu sozial reichhaltigen Szenarien stützen sich typischerweise auf explizite Kommunikationskanäle oder handwerklich gefertigte Interaktionsregeln
SLS wurde bisher nicht als Rechenstandard untersucht

Forschungsmotivation

Durch die Formalisierung von SLS als reproduzierbare sequenzielle Variante und das Benchmarking grundlegender DRL-Algorithmen positioniert dieses Paper SLS als Testplattform zur Förderung der MARL-Forschung mit Bewusstsein für Koalition und Verrat.

Kernbeiträge

Erstes SLS-Rechenframework: Entwurf und Veröffentlichung des ersten speziell für Verstärkungslernforschung angepassten SLS-Rechenframeworks mit GUI für Experimente
Benchmarking klassischer DRL-Algorithmen: Benchmarking klassischer DRL-Algorithmen (DQN, DDQN, Dueling DQN) in SLS mit Analyse ihrer Fähigkeit, legale Spielkompetenz und teilweises strategisches Bewusstsein zu erwerben
Koalitions- und Verrats-bewusster Benchmark: Etablierung von SLS als Koalitions- und Verrats-bewusster Benchmark für MARL, der zukünftige Forschung zu hybriden Methoden inspiriert, die DRL mit spieltheoretischem Denken kombinieren

Methodische Details

Aufgabendefinition

Umwandlung von SLS in eine MARL-Umgebung unter Verwendung der verallgemeinerten Hofstra-Version der Nullsummen-Variante. Vier Spieler erhalten jeweils eine eindeutige Farbe und beginnen mit 5 gleichfarbigen Chips auf einem Spielfeld mit maximal 6 aktiven Stapeln. Die Siegbedingung ist, der letzte verbleibende Spieler zu sein.

Formalisierung des Verstärkungslernens

Modellierung von SLS als Markov-Entscheidungsprozess (MDP):

Zustandsraum S: Menge aller möglichen Spielzustände
Aktionsraum A: Menge aller verfügbaren Agenten-Aktionen (diskrete legale Züge)
Übergangsfunktion: p(s'|s,a) stellt die Wahrscheinlichkeit dar, nach Ausführung von Aktion a im Zustand s zu s' überzugehen
Belohnungsfunktion: r(s,a,s') weist jedem Übergang einen Skalarwert zu
Strategie: π(a|s) ist die Strategie des Agenten, Aktion a im gegebenen Zustand s zu wählen

Das Ziel besteht darin, die optimale Strategie π* zu finden, um die erwartete diskontierte Rendite zu maximieren: $R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

Zustandsdarstellung

Der Zustand st kodiert alle Informationen, die zur Beschreibung der Spielumgebung erforderlich sind: $s_t = (Board\ Configuration, Player\ Chips, Eliminated\ Chips, Current\ Player, Game\ Phase, Step\ Count)$

Die Beobachtungsraumgröße beträgt: $obs\_size = (n_{rows} \times n_{players} \times n_{max\_pile}) + n_{players}^2 + (2 \times n_{players}) + 4 + 1$

Aktionsraum

Diskreter Aktionsraum A = {A₀, A₁, ..., A₉}, einschließlich:

A₀-A₅: Stapelauswahlaktionen (gültig in der Stapelauswahlphase)
A₆-A₉: Spieler-/Farbentscheidungsaktionen (gültig in den Phasen Chip auswählen, nächsten Spieler auswählen, Chips eliminieren)

Belohnungsdesign

Das Belohnungssignal zum Zeitschritt t ist definiert als: $r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)$

wobei α ∈ (0,1] ein Hyperparameter ist, der die Abklingrate steuert, und ℘ die Belohnungsamplitude darstellt. Illegale Aktionen werden mit einer festen negativen Belohnung (-℘) bestraft, legale Aktionen erhalten positive Belohnungen bis zu +℘, die mit der Anzahl der Schritte abnehmen, um Effizienz zu fördern.

Experimentelle Einrichtung

Spielkonfiguration

Anzahl der Spieler: 4 Spieler
Anfängliche Chips: 5 gleichfarbige Chips pro Spieler
Maximale Stapelanzahl: 6 aktive Stapel
Siegbedingung: Nullsummenspiel mit Belohnungsstruktur {0,0,0,ù}, ù ∈ ℕ⁺

Trainingskonfiguration

Zentralisierte kumulative Lerneinrichtung, bei der alle vier Spieler-Agenten ein gemeinsames Lernetzwerk und einen gemeinsamen Wiederholungspuffer nutzen. Die Netzwerkarchitektur besteht aus zwei vollständig verbundenen verborgenen Schichten mit 64 Neuronen (ReLU-Aktivierung), gefolgt von einer linearen Ausgabeschicht.

Hyperparameter-Einstellungen

Diskontfaktor γ = 0,95
Anfängliche Explorationsrate ε₀ = 1,0
Explorations-Abklingrate ε_decay = 0,995
Minimale Explorationsrate ε_min = 0,01
Lernrate = 0,001
Batch-Größe = 64
Trainingsrunden = 10.000 Spiele

Bewertungsmetriken

Durchschnitt und Standardabweichung der kumulativen Belohnung
Durchschnittliche Schritte pro Spiel
Belohnungsbereich Minimum, Maximum
Schrittbereich Minimum, Maximum

Vergleichsmethoden

DQN (Deep Q-Network)
DDQN (Double DQN)
Dueling DQN
Random Baseline (Zufällige Baseline)

Experimentergebnisse

Hauptergebnisse

Agent	Belohnung (Mittelwert±Std.abw.)	Belohnungsbereich Min,Max	Schritte (Mittelwert±Std.abw.)	Schrittbereich Min,Max
DQN	103,40 ± 42,31	-313,45, 189,24	61,16 ± 14,51	27, 162
DDQN	108,44 ± 44,95	-279,13, 191,38	61,23 ± 14,18	28, 165
Dueling DQN	102,06 ± 49,62	-319,76, 192,09	65,92 ± 15,94	28, 173
Random	-8,78 ± 43,52	-419,26, 94,19	65,24 ± 17,76	29, 174

Wichtigste Erkenntnisse

Leistung: Alle DRL-Agenten schneiden kontinuierlich besser als die zufällige Baseline ab und erreichen etwa die Hälfte der theoretischen maximalen Belohnung (≈200)
Konvergenzeigenschaften: DDQN erreicht die stabilste Konvergenz und die höchste durchschnittliche Belohnung, was die Vorteile der doppelten Schätzung bei der Minderung von Q-Wert-Überschätzung in längerfristigen Spielen validiert
Lernungsdynamiken: In der frühen Trainingsphase (<500 Spiele) zeigen Agenten hohe Belohnungsvarianz mit häufigen illegalen Aktionen; nach etwa 2000 Spielen zeigen alle DRL-Agenten glattere Konvergenz

Lernkurvenanalyse

Der Trainingsprozess lässt sich in drei Phasen unterteilen:

Explorationsphase (0-500 Spiele): Hohe Varianz, häufige illegale Aktionen
Lernphase (500-2000 Spiele): Schrittweise Regelbeherrschung, stetig steigende Belohnungen
Konvergenzphase (>2000 Spiele): Belohnungen stabilisieren sich im Bereich 100-120, gelegentliche explorative Rückgänge

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Klassische wertbasierte Methoden können Kern-SLS-Regeln und teilweise Strategien erlernen und erreichen stabile, aber suboptimale Leistung
Die hohe Belohnungsvarianz spiegelt Empfindlichkeit gegenüber Initialisierung und Exploration wider
Kontextabhängige Aktionen offenbaren Grenzen kurzfristiger Wertschätzung
SLS wird erfolgreich als verhandlungsbewusster MARL-Benchmark etabliert

Einschränkungen

Strategische Grenzen: Agenten neigen zu reaktivem statt strategischem Verhalten
Regeleinhaltung: Trotz dynamischer Aktionsmasken werden gelegentlich illegale Aktionen ausgeführt
Langfristige Überlegungen: Schwierigkeiten bei kombinatorischen Aktionsräumen und verzögerter Belohnungsabhängigkeit
Koalitionsdynamiken: Unzureichende Erfassung komplexer Koalitionsbildungs- und Verratstrategien

Zukünftige Richtungen

Architekturverbesserungen: Integration von Actor-Critic- und Koalitions-bewussten Frameworks
Strategische Verbesserungen: Verstärkung langfristiger Überlegungen und Regeleinhaltung
Soziale Dynamiken: Entwicklung von Verhandlungs-, Koalitions- und Täuschungsfähigkeiten
Theoretische Analyse: Kombination spieltheoretischen Denkens mit tiefem Lernen

Tiefgreifende Bewertung

Stärken

Innovativer Benchmark: Erstmalige Einführung von SLS in MARL, füllt wichtige Lücke in der Forschung zu Koalitions- und Verratsdynamiken
Vollständiges Framework: Bereitstellung eines kompletten Rechenframeworks mit GUI, das reproduzierbare Forschung fördert
Systematische Bewertung: Umfassender Benchmark mehrerer klassischer DRL-Methoden
Theoretischer Beitrag: Klare Formalisierung der Nullsummen-Variante, behebt Unvollständigkeiten der ursprünglichen Formalisierung

Mängel

Methodische Grenzen: Nur klassische wertbasierte Methoden getestet, fortgeschrittenere MARL-Algorithmen nicht erforscht
Vereinfachte Einrichtung: Entfernung expliziter Verhandlungsmechanismen könnte Kernmerkmale von SLS beeinträchtigen
Leistungsengpässe: Agenten führen noch illegale Aktionen aus, offenbaren Unzulänglichkeiten grundlegender Methoden
Unzureichende theoretische Analyse: Mangel an tiefgehender Analyse der spieltheoretischen Eigenschaften von SLS

Auswirkungen

Akademischer Wert: Bietet der MARL-Gemeinschaft neue Forschungsrichtung und Benchmark
Praktische Bedeutung: Open-Source-Veröffentlichung des Frameworks wird nachfolgende Forschung fördern
Methodologischer Beitrag: Demonstriert, wie komplexe Strategiespiele in ML-freundliche Umgebungen umgewandelt werden
Inspiriert durch Grenzen: Offenbart Unzulänglichkeiten klassischen RL in komplexen sozialen Spielen, leitet zukünftige Forschung

Anwendungsszenarien

MARL-Forschung: Algorithmusentwicklung für Koalitionsbildung und Verratsdynamiken
Spieltheoretische Anwendungen: Rechenmodelle für mehrseitige Verhandlung und strategisches Denken
Soziale KI: Modellierung von Vertrauen, Täuschung und Kooperationsverhalten
Bildungswerkzeuge: Lehrmittel für Spieltheorie und Multi-Agenten-Systeme

Literaturverzeichnis

Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature

Dieses Paper trägt durch die Einführung von SLS als neuer MARL-Benchmark wertvolle Erkenntnisse bei und bietet eine Plattform zur Erforschung von Koalitionsbildung und strategischer Täuschung. Obwohl aktuelle Ergebnisse die Grenzen klassischer Methoden zeigen, unterstreicht dies gerade die Herausforderung und den Forschungswert dieses Benchmarks und weist den Weg zur Entwicklung fortgeschrittenerer Multi-Agenten-Lernalgorithmen.