2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak

This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.

academic

Rafforzamento di Multi-Agenti Competitivi per Giocare a 'So Long Sucker'

Informazioni Fondamentali

ID Articolo: 2411.11057
Titolo: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
Autori: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
Classificazione: cs.AI
Data di Pubblicazione: Novembre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2411.11057

Riassunto

Questo articolo introduce per la prima volta il gioco strategico "So Long Sucker" (SLS) nel campo dell'apprendimento per rinforzo multi-agente (MARL) come nuovo benchmark. A differenza delle tradizionali piattaforme di test basate su giochi da tavolo o videogiochi, SLS presenta caratteristiche quali formazione di coalizioni, inganno strategico e regole di eliminazione dinamica, offrendo un ambiente di sfida unico per gli agenti intelligenti autonomi. I ricercatori hanno costruito il primo framework computazionale pubblicamente disponibile per SLS, che include un'interfaccia grafica utente e supporto per il benchmarking di algoritmi di apprendimento per rinforzo. Attraverso metodi classici di apprendimento per rinforzo profondo (DQN, DDQN, Dueling DQN), gli agenti sono stati addestrati mediante auto-gioco per imparare le regole e le strategie di base di SLS. I risultati sperimentali dimostrano che, sebbene questi agenti raggiungano circa la metà della ricompensa massima ottenibile e superino costantemente il baseline casuale, richiedono lunghi cicli di addestramento (circa 2000 partite) e occasionalmente eseguono azioni illegittime, evidenziando sia il potenziale che i limiti dell'apprendimento per rinforzo classico.

Contesto di Ricerca e Motivazione

Definizione del Problema

I benchmark esistenti di apprendimento per rinforzo multi-agente si concentrano principalmente su obiettivi puramente cooperativi (come compiti di coordinamento) o competizione avversariale (come giochi a somma zero a due giocatori), mancando di ambienti misti che catturino simultaneamente la formazione di coalizioni e la dinamica di tradimento. Sebbene siano stati raggiunti progressi significativi in Go, StarCraft II e Diplomacy, questi benchmark non riflettono pienamente la dinamica mista di coalizione e tradimento peculiare a SLS.

Importanza della Ricerca

SLS, come gioco strategico a quattro giocatori progettato da Hausner, Nash, Shapley e Shubik, ruota attorno alla formazione di coalizioni, alleanze temporanee e tradimenti inevitabili. La vittoria dipende non solo da azioni legittime, ma anche da diplomazia e opportunismo, rendendolo una piattaforma di test unica per lo studio della fiducia, della negoziazione e dei dilemmi sociali.

Limitazioni degli Approcci Esistenti

La maggior parte dei benchmark MARL manca della dinamica mista di coalizione e tradimento
I lavori precedenti su impostazioni socialmente ricche generalmente si basano su canali di comunicazione espliciti o regole di interazione costruite manualmente
SLS non è stato precedentemente studiato come benchmark computazionale

Motivazione della Ricerca

Formalizzando SLS come una variante sequenziale riproducibile e benchmarking degli algoritmi DRL di base, questo articolo posiziona SLS come una piattaforma di test consapevole di coalizioni e tradimenti per far avanzare la ricerca MARL.

Contributi Principali

Primo Framework Computazionale per SLS: Progettazione e rilascio del primo framework computazionale specializzato per la ricerca di apprendimento per rinforzo, dotato di GUI per la sperimentazione
Benchmarking di Algoritmi DRL Classici: Benchmarking di algoritmi DRL classici (DQN, DDQN, Dueling DQN) in SLS, analizzando la loro capacità di acquisire competenza di gioco legittima e consapevolezza strategica parziale
Benchmark Consapevole di Coalizioni e Tradimenti: Stabilimento di SLS come benchmark MARL consapevole di coalizioni e tradimenti, ispirando la ricerca futura su approcci ibridi che combinano DRL con ragionamento della teoria dei giochi

Dettagli Metodologici

Definizione del Compito

Conversione di SLS in un ambiente MARL, adottando la variante a somma zero della versione Hofstra generalizzata. Quattro giocatori, ciascuno assegnato a un colore unico, iniziano con 5 gettoni dello stesso colore e giocano su una plancia con un massimo di 6 pile attive. La condizione di vittoria è essere l'ultimo giocatore sopravvissuto.

Formalizzazione dell'Apprendimento per Rinforzo

Modellazione di SLS come Processo Decisionale di Markov (MDP):

Spazio degli Stati S: Insieme di tutti i possibili stati di gioco
Spazio delle Azioni A: Insieme di tutte le azioni disponibili per l'agente (insieme discreto di mosse valide)
Funzione di Transizione: p(s'|s,a) rappresenta la probabilità di transizione dallo stato s allo stato s' dopo l'esecuzione dell'azione a
Funzione di Ricompensa: r(s,a,s') assegna un valore scalare per ogni transizione
Politica: π(a|s) è la politica dell'agente di scegliere l'azione a dato lo stato s

L'obiettivo è trovare la politica ottimale π* per massimizzare il rendimento atteso scontato: $R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

Rappresentazione dello Stato

Lo stato s_t codifica tutte le informazioni necessarie per descrivere l'ambiente di gioco: $s_t = (Configurazione\ Plancia, Gettoni\ Giocatore, Gettoni\ Eliminati, Giocatore\ Attuale, Fase\ Gioco, Conteggio\ Passi)$

La dimensione dello spazio di osservazione è: $obs\_size = (n_{righe} \times n_{giocatori} \times n_{pila\_max}) + n_{giocatori}^2 + (2 \times n_{giocatori}) + 4 + 1$

Spazio delle Azioni

Spazio di azioni discreto A = {A₀, A₁, ..., A₉}, che include:

A₀-A₅: Azioni di selezione della pila (valide nella fase di selezione della pila)
A₆-A₉: Azioni di decisione giocatore/colore (valide nelle fasi di selezione gettone, selezione giocatore successivo, eliminazione gettone)

Progettazione della Ricompensa

Il segnale di ricompensa al passo temporale t è definito come: $r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)$

dove α ∈ (0,1] è un iperparametro che controlla il tasso di decadimento e ℘ è l'ampiezza della ricompensa. Le azioni illegittime ricevono una ricompensa negativa fissa (-℘), mentre le azioni legittime ricevono una ricompensa positiva fino a +℘, valore che decade con il numero di passi per promuovere l'efficienza.

Configurazione Sperimentale

Configurazione del Gioco

Numero di Giocatori: 4 giocatori
Gettoni Iniziali: 5 gettoni dello stesso colore per giocatore
Numero Massimo di Pile: 6 pile attive
Condizione di Vittoria: Gioco a somma zero, struttura di ricompensa {0,0,0,ù}, ù ∈ N⁺

Configurazione dell'Addestramento

Utilizzo di un'impostazione di apprendimento cumulativo centralizzato, dove tutti e quattro gli agenti giocatore condividono una rete di apprendimento comune e un buffer di riproduzione. L'architettura di rete consiste di due strati nascosti completamente connessi con 64 neuroni (attivazione ReLU), seguiti da uno strato di output lineare.

Impostazione degli Iperparametri

Fattore di sconto γ = 0.95
Tasso di esplorazione iniziale ε₀ = 1.0
Tasso di decadimento dell'esplorazione ε_decay = 0.995
Tasso di esplorazione minimo ε_min = 0.01
Tasso di apprendimento = 0.001
Dimensione del batch = 64
Epoche di addestramento = 10.000 partite

Metriche di Valutazione

Media e deviazione standard della ricompensa cumulativa
Numero medio di passi per partita
Intervallo di ricompensa minimo, massimo
Intervallo di passi minimo, massimo

Metodi di Confronto

DQN (Deep Q-Network)
DDQN (Double DQN)
Dueling DQN
Baseline casuale (Random baseline)

Risultati Sperimentali

Risultati Principali

Agente	Ricompensa (Media±Dev.Std)	Intervallo Ricompensa Min,Max	Passi (Media±Dev.Std)	Intervallo Passi Min,Max
DQN	103.40 ± 42.31	-313.45, 189.24	61.16 ± 14.51	27, 162
DDQN	108.44 ± 44.95	-279.13, 191.38	61.23 ± 14.18	28, 165
Dueling DQN	102.06 ± 49.62	-319.76, 192.09	65.92 ± 15.94	28, 173
Random	-8.78 ± 43.52	-419.26, 94.19	65.24 ± 17.76	29, 174

Risultati Chiave

Prestazioni: Tutti gli agenti DRL superano costantemente il baseline casuale, raggiungendo circa la metà della ricompensa massima teorica (≈200)
Caratteristiche di Convergenza: DDQN raggiunge la convergenza più stabile e la ricompensa media più alta, validando i benefici della stima doppia nel mitigare la sovrastima dei valori Q nei giochi a lungo termine
Dinamiche di Apprendimento: Nella fase iniziale di addestramento (<500 partite) gli agenti mostrano alta varianza di ricompensa e frequenti azioni illegittime; dopo circa 2000 partite tutti gli agenti DRL mostrano convergenza più fluida

Analisi della Curva di Apprendimento

Il processo di addestramento si divide in tre fasi:

Fase di Esplorazione (0-500 partite): Alta varianza, azioni illegittime frequenti
Fase di Apprendimento (500-2000 partite): Padronanza graduale delle regole, aumento costante della ricompensa
Fase di Convergenza (>2000 partite): Ricompensa stabile nell'intervallo 100-120, occasionali cali esplorativi

Lavori Correlati

Sviluppo dei Benchmark MARL

Benchmark Tradizionali: Go e StarCraft II si concentrano principalmente su competizione pura o cooperazione
Giochi Sociali: Diplomacy e simili coinvolgono negoziazione ma si basano su comunicazione esplicita
Applicazioni della Teoria dei Giochi: Applicazione della risoluzione dell'equilibrio di Nash nei sistemi multi-agente

Applicazioni dell'Apprendimento per Rinforzo Profondo nei Giochi

Serie AlphaGo: Progressi nei giochi a informazione completa
Apprendimento Multi-Agente: Addestramento mediante auto-gioco e diversità strategica
Metodi Basati su Funzioni di Valore: Applicazione di DQN e sue varianti negli spazi di azioni discrete

Ricerca Correlata a SLS

Questo articolo introduce per la prima volta SLS come benchmark computazionale, colmando il vuoto nella ricerca sulla formazione di coalizioni e sulla dinamica di tradimento.

Conclusioni e Discussione

Conclusioni Principali

I metodi classici basati su valori riescono ad apprendere le regole fondamentali di SLS e strategie parziali, raggiungendo prestazioni stabili ma subottimali
L'alta varianza della ricompensa riflette la sensibilità all'inizializzazione e all'esplorazione
Le azioni dipendenti dal contesto espongono i limiti della stima dei valori a breve termine
SLS si stabilisce con successo come benchmark MARL consapevole della negoziazione

Limitazioni

Limitazioni Strategiche: Gli agenti tendono ad adottare comportamenti reattivi piuttosto che strategici
Rispetto delle Regole: Nonostante l'uso di mascheratura dinamica delle azioni, occasionalmente eseguono azioni illegittime
Ragionamento a Lungo Termine: Difficoltà negli spazi di azioni combinatorie e nella dipendenza da ricompense ritardate
Dinamiche di Coalizione: Incapacità di catturare pienamente strategie complesse di formazione di coalizioni e tradimento

Direzioni Future

Miglioramenti Architetturali: Integrazione di framework actor-critic e consapevoli di coalizioni
Potenziamento Strategico: Rafforzamento del ragionamento a lungo termine e del rispetto delle regole
Dinamiche Sociali: Sviluppo di capacità di negoziazione, coalizione e inganno
Analisi Teorica: Combinazione di ragionamento della teoria dei giochi con apprendimento profondo

Valutazione Approfondita

Punti di Forza

Benchmark Innovativo: Prima introduzione di SLS in MARL, colmando un importante vuoto nella ricerca sulla dinamica di coalizioni e tradimenti
Framework Completo: Fornitura di un framework computazionale completo con GUI, promuovendo la ricerca riproducibile
Valutazione Sistematica: Benchmarking completo di molteplici metodi DRL classici
Contributo Teorico: Formalizzazione esplicita della variante a somma zero, risolvendo l'incompletezza della formalizzazione originale

Carenze

Limitazioni Metodologiche: Test solo di metodi classici basati su valori, senza esplorazione di algoritmi MARL più avanzati
Impostazione Semplificata: Rimozione dei meccanismi di negoziazione esplicita, potenzialmente perdendo caratteristiche fondamentali di SLS
Colli di Bottiglia Prestazionali: Gli agenti ancora eseguono azioni illegittime, esponendo insufficienze dei metodi di base
Analisi Teorica Insufficiente: Mancanza di analisi approfondita delle proprietà della teoria dei giochi di SLS

Impatto

Valore Accademico: Fornitura di una nuova direzione di ricerca e benchmark per la comunità MARL
Significato Pratico: Il rilascio open-source del framework promuoverà la ricerca successiva
Contributo Metodologico: Dimostrazione di come convertire giochi strategici complessi in ambienti compatibili con il machine learning
Ispirazione dalle Limitazioni: Rivelazione delle insufficienze dell'RL classico nei giochi sociali complessi, guidando le direzioni di ricerca future

Scenari Applicabili

Ricerca MARL: Sviluppo di algoritmi per la formazione di coalizioni e la dinamica di tradimento
Applicazioni della Teoria dei Giochi: Modelli computazionali per negoziazione multi-parte e ragionamento strategico
AI Sociale: Modellazione di comportamenti di fiducia, inganno e cooperazione
Strumenti Educativi: Dimostrazioni didattiche della teoria dei giochi e dei sistemi multi-agente

Bibliografia

Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature

Questo articolo introduce SLS come nuovo benchmark MARL, fornendo una piattaforma preziosa per la ricerca sulla formazione di coalizioni e l'inganno strategico. Sebbene i risultati attuali mostrino i limiti dei metodi classici, ciò evidenzia proprio la natura impegnativa del benchmark e il suo valore di ricerca, indicando la direzione per lo sviluppo futuro di algoritmi di apprendimento multi-agente più avanzati.