This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.
- ID Articolo: 2411.11057
- Titolo: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
- Autori: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
- Classificazione: cs.AI
- Data di Pubblicazione: Novembre 2024 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2411.11057
Questo articolo introduce per la prima volta il gioco strategico "So Long Sucker" (SLS) nel campo dell'apprendimento per rinforzo multi-agente (MARL) come nuovo benchmark. A differenza delle tradizionali piattaforme di test basate su giochi da tavolo o videogiochi, SLS presenta caratteristiche quali formazione di coalizioni, inganno strategico e regole di eliminazione dinamica, offrendo un ambiente di sfida unico per gli agenti intelligenti autonomi. I ricercatori hanno costruito il primo framework computazionale pubblicamente disponibile per SLS, che include un'interfaccia grafica utente e supporto per il benchmarking di algoritmi di apprendimento per rinforzo. Attraverso metodi classici di apprendimento per rinforzo profondo (DQN, DDQN, Dueling DQN), gli agenti sono stati addestrati mediante auto-gioco per imparare le regole e le strategie di base di SLS. I risultati sperimentali dimostrano che, sebbene questi agenti raggiungano circa la metà della ricompensa massima ottenibile e superino costantemente il baseline casuale, richiedono lunghi cicli di addestramento (circa 2000 partite) e occasionalmente eseguono azioni illegittime, evidenziando sia il potenziale che i limiti dell'apprendimento per rinforzo classico.
I benchmark esistenti di apprendimento per rinforzo multi-agente si concentrano principalmente su obiettivi puramente cooperativi (come compiti di coordinamento) o competizione avversariale (come giochi a somma zero a due giocatori), mancando di ambienti misti che catturino simultaneamente la formazione di coalizioni e la dinamica di tradimento. Sebbene siano stati raggiunti progressi significativi in Go, StarCraft II e Diplomacy, questi benchmark non riflettono pienamente la dinamica mista di coalizione e tradimento peculiare a SLS.
SLS, come gioco strategico a quattro giocatori progettato da Hausner, Nash, Shapley e Shubik, ruota attorno alla formazione di coalizioni, alleanze temporanee e tradimenti inevitabili. La vittoria dipende non solo da azioni legittime, ma anche da diplomazia e opportunismo, rendendolo una piattaforma di test unica per lo studio della fiducia, della negoziazione e dei dilemmi sociali.
- La maggior parte dei benchmark MARL manca della dinamica mista di coalizione e tradimento
- I lavori precedenti su impostazioni socialmente ricche generalmente si basano su canali di comunicazione espliciti o regole di interazione costruite manualmente
- SLS non è stato precedentemente studiato come benchmark computazionale
Formalizzando SLS come una variante sequenziale riproducibile e benchmarking degli algoritmi DRL di base, questo articolo posiziona SLS come una piattaforma di test consapevole di coalizioni e tradimenti per far avanzare la ricerca MARL.
- Primo Framework Computazionale per SLS: Progettazione e rilascio del primo framework computazionale specializzato per la ricerca di apprendimento per rinforzo, dotato di GUI per la sperimentazione
- Benchmarking di Algoritmi DRL Classici: Benchmarking di algoritmi DRL classici (DQN, DDQN, Dueling DQN) in SLS, analizzando la loro capacità di acquisire competenza di gioco legittima e consapevolezza strategica parziale
- Benchmark Consapevole di Coalizioni e Tradimenti: Stabilimento di SLS come benchmark MARL consapevole di coalizioni e tradimenti, ispirando la ricerca futura su approcci ibridi che combinano DRL con ragionamento della teoria dei giochi
Conversione di SLS in un ambiente MARL, adottando la variante a somma zero della versione Hofstra generalizzata. Quattro giocatori, ciascuno assegnato a un colore unico, iniziano con 5 gettoni dello stesso colore e giocano su una plancia con un massimo di 6 pile attive. La condizione di vittoria è essere l'ultimo giocatore sopravvissuto.
Modellazione di SLS come Processo Decisionale di Markov (MDP):
- Spazio degli Stati S: Insieme di tutti i possibili stati di gioco
- Spazio delle Azioni A: Insieme di tutte le azioni disponibili per l'agente (insieme discreto di mosse valide)
- Funzione di Transizione: p(s'|s,a) rappresenta la probabilità di transizione dallo stato s allo stato s' dopo l'esecuzione dell'azione a
- Funzione di Ricompensa: r(s,a,s') assegna un valore scalare per ogni transizione
- Politica: π(a|s) è la politica dell'agente di scegliere l'azione a dato lo stato s
L'obiettivo è trovare la politica ottimale π* per massimizzare il rendimento atteso scontato:
Rt=∑k=0∞γkrt+k+1
Lo stato s_t codifica tutte le informazioni necessarie per descrivere l'ambiente di gioco:
st=(Configurazione Plancia,Gettoni Giocatore,Gettoni Eliminati,Giocatore Attuale,Fase Gioco,Conteggio Passi)
La dimensione dello spazio di osservazione è:
obs_size=(nrighe×ngiocatori×npila_max)+ngiocatori2+(2×ngiocatori)+4+1
Spazio di azioni discreto A = {A₀, A₁, ..., A₉}, che include:
- A₀-A₅: Azioni di selezione della pila (valide nella fase di selezione della pila)
- A₆-A₉: Azioni di decisione giocatore/colore (valide nelle fasi di selezione gettone, selezione giocatore successivo, eliminazione gettone)
Il segnale di ricompensa al passo temporale t è definito come:
rt=min(℘,(α/nc)⋅t℘)
dove α ∈ (0,1] è un iperparametro che controlla il tasso di decadimento e ℘ è l'ampiezza della ricompensa. Le azioni illegittime ricevono una ricompensa negativa fissa (-℘), mentre le azioni legittime ricevono una ricompensa positiva fino a +℘, valore che decade con il numero di passi per promuovere l'efficienza.
- Numero di Giocatori: 4 giocatori
- Gettoni Iniziali: 5 gettoni dello stesso colore per giocatore
- Numero Massimo di Pile: 6 pile attive
- Condizione di Vittoria: Gioco a somma zero, struttura di ricompensa {0,0,0,ù}, ù ∈ N⁺
Utilizzo di un'impostazione di apprendimento cumulativo centralizzato, dove tutti e quattro gli agenti giocatore condividono una rete di apprendimento comune e un buffer di riproduzione. L'architettura di rete consiste di due strati nascosti completamente connessi con 64 neuroni (attivazione ReLU), seguiti da uno strato di output lineare.
- Fattore di sconto γ = 0.95
- Tasso di esplorazione iniziale ε₀ = 1.0
- Tasso di decadimento dell'esplorazione ε_decay = 0.995
- Tasso di esplorazione minimo ε_min = 0.01
- Tasso di apprendimento = 0.001
- Dimensione del batch = 64
- Epoche di addestramento = 10.000 partite
- Media e deviazione standard della ricompensa cumulativa
- Numero medio di passi per partita
- Intervallo di ricompensa minimo, massimo
- Intervallo di passi minimo, massimo
- DQN (Deep Q-Network)
- DDQN (Double DQN)
- Dueling DQN
- Baseline casuale (Random baseline)
| Agente | Ricompensa (Media±Dev.Std) | Intervallo Ricompensa Min,Max | Passi (Media±Dev.Std) | Intervallo Passi Min,Max |
|---|
| DQN | 103.40 ± 42.31 | -313.45, 189.24 | 61.16 ± 14.51 | 27, 162 |
| DDQN | 108.44 ± 44.95 | -279.13, 191.38 | 61.23 ± 14.18 | 28, 165 |
| Dueling DQN | 102.06 ± 49.62 | -319.76, 192.09 | 65.92 ± 15.94 | 28, 173 |
| Random | -8.78 ± 43.52 | -419.26, 94.19 | 65.24 ± 17.76 | 29, 174 |
- Prestazioni: Tutti gli agenti DRL superano costantemente il baseline casuale, raggiungendo circa la metà della ricompensa massima teorica (≈200)
- Caratteristiche di Convergenza: DDQN raggiunge la convergenza più stabile e la ricompensa media più alta, validando i benefici della stima doppia nel mitigare la sovrastima dei valori Q nei giochi a lungo termine
- Dinamiche di Apprendimento: Nella fase iniziale di addestramento (<500 partite) gli agenti mostrano alta varianza di ricompensa e frequenti azioni illegittime; dopo circa 2000 partite tutti gli agenti DRL mostrano convergenza più fluida
Il processo di addestramento si divide in tre fasi:
- Fase di Esplorazione (0-500 partite): Alta varianza, azioni illegittime frequenti
- Fase di Apprendimento (500-2000 partite): Padronanza graduale delle regole, aumento costante della ricompensa
- Fase di Convergenza (>2000 partite): Ricompensa stabile nell'intervallo 100-120, occasionali cali esplorativi
- Benchmark Tradizionali: Go e StarCraft II si concentrano principalmente su competizione pura o cooperazione
- Giochi Sociali: Diplomacy e simili coinvolgono negoziazione ma si basano su comunicazione esplicita
- Applicazioni della Teoria dei Giochi: Applicazione della risoluzione dell'equilibrio di Nash nei sistemi multi-agente
- Serie AlphaGo: Progressi nei giochi a informazione completa
- Apprendimento Multi-Agente: Addestramento mediante auto-gioco e diversità strategica
- Metodi Basati su Funzioni di Valore: Applicazione di DQN e sue varianti negli spazi di azioni discrete
Questo articolo introduce per la prima volta SLS come benchmark computazionale, colmando il vuoto nella ricerca sulla formazione di coalizioni e sulla dinamica di tradimento.
- I metodi classici basati su valori riescono ad apprendere le regole fondamentali di SLS e strategie parziali, raggiungendo prestazioni stabili ma subottimali
- L'alta varianza della ricompensa riflette la sensibilità all'inizializzazione e all'esplorazione
- Le azioni dipendenti dal contesto espongono i limiti della stima dei valori a breve termine
- SLS si stabilisce con successo come benchmark MARL consapevole della negoziazione
- Limitazioni Strategiche: Gli agenti tendono ad adottare comportamenti reattivi piuttosto che strategici
- Rispetto delle Regole: Nonostante l'uso di mascheratura dinamica delle azioni, occasionalmente eseguono azioni illegittime
- Ragionamento a Lungo Termine: Difficoltà negli spazi di azioni combinatorie e nella dipendenza da ricompense ritardate
- Dinamiche di Coalizione: Incapacità di catturare pienamente strategie complesse di formazione di coalizioni e tradimento
- Miglioramenti Architetturali: Integrazione di framework actor-critic e consapevoli di coalizioni
- Potenziamento Strategico: Rafforzamento del ragionamento a lungo termine e del rispetto delle regole
- Dinamiche Sociali: Sviluppo di capacità di negoziazione, coalizione e inganno
- Analisi Teorica: Combinazione di ragionamento della teoria dei giochi con apprendimento profondo
- Benchmark Innovativo: Prima introduzione di SLS in MARL, colmando un importante vuoto nella ricerca sulla dinamica di coalizioni e tradimenti
- Framework Completo: Fornitura di un framework computazionale completo con GUI, promuovendo la ricerca riproducibile
- Valutazione Sistematica: Benchmarking completo di molteplici metodi DRL classici
- Contributo Teorico: Formalizzazione esplicita della variante a somma zero, risolvendo l'incompletezza della formalizzazione originale
- Limitazioni Metodologiche: Test solo di metodi classici basati su valori, senza esplorazione di algoritmi MARL più avanzati
- Impostazione Semplificata: Rimozione dei meccanismi di negoziazione esplicita, potenzialmente perdendo caratteristiche fondamentali di SLS
- Colli di Bottiglia Prestazionali: Gli agenti ancora eseguono azioni illegittime, esponendo insufficienze dei metodi di base
- Analisi Teorica Insufficiente: Mancanza di analisi approfondita delle proprietà della teoria dei giochi di SLS
- Valore Accademico: Fornitura di una nuova direzione di ricerca e benchmark per la comunità MARL
- Significato Pratico: Il rilascio open-source del framework promuoverà la ricerca successiva
- Contributo Metodologico: Dimostrazione di come convertire giochi strategici complessi in ambienti compatibili con il machine learning
- Ispirazione dalle Limitazioni: Rivelazione delle insufficienze dell'RL classico nei giochi sociali complessi, guidando le direzioni di ricerca future
- Ricerca MARL: Sviluppo di algoritmi per la formazione di coalizioni e la dinamica di tradimento
- Applicazioni della Teoria dei Giochi: Modelli computazionali per negoziazione multi-parte e ragionamento strategico
- AI Sociale: Modellazione di comportamenti di fiducia, inganno e cooperazione
- Strumenti Educativi: Dimostrazioni didattiche della teoria dei giochi e dei sistemi multi-agente
- Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
- Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
- FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
- Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
Questo articolo introduce SLS come nuovo benchmark MARL, fornendo una piattaforma preziosa per la ricerca sulla formazione di coalizioni e l'inganno strategico. Sebbene i risultati attuali mostrino i limiti dei metodi classici, ciò evidenzia proprio la natura impegnativa del benchmark e il suo valore di ricerca, indicando la direzione per lo sviluppo futuro di algoritmi di apprendimento multi-agente più avanzati.