This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.
- ID de l'article: 2411.11057
- Titre: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
- Auteurs: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
- Classification: cs.AI
- Date de publication: Novembre 2024 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2411.11057
Cet article introduit pour la première fois le jeu de stratégie « So Long Sucker » (SLS) dans le domaine de l'apprentissage par renforcement multi-agents (MARL) en tant que nouveau benchmark. Contrairement aux plateformes de test traditionnelles basées sur les jeux de plateau ou les jeux vidéo, le SLS présente des caractéristiques telles que la formation de coalitions, la tromperie stratégique et des règles d'élimination dynamiques, offrant un environnement de défi unique pour les agents intelligents autonomes. Les chercheurs ont construit le premier cadre informatique disponible publiquement pour le SLS, incluant une interface graphique utilisateur et un support de benchmarking pour les algorithmes d'apprentissage par renforcement. En entraînant des agents à s'affronter eux-mêmes à l'aide de méthodes classiques d'apprentissage profond par renforcement (DQN, DDQN, Dueling DQN), les agents apprennent les règles du SLS et les stratégies fondamentales. Les résultats expérimentaux montrent que, bien que ces agents atteignent environ la moitié de la récompense maximale possible et surpassent systématiquement la ligne de base aléatoire, ils nécessitent de longues périodes d'entraînement (environ 2000 parties) et exécutent occasionnellement des actions illégales, mettant en évidence le potentiel et les limitations de l'apprentissage par renforcement classique.
Les benchmarks existants d'apprentissage par renforcement multi-agents se concentrent principalement sur des objectifs purement coopératifs (tels que les tâches de coordination) ou sur la compétition antagoniste (tels que les jeux à deux joueurs à somme nulle), manquant d'environnements mixtes capables de capturer simultanément la formation de coalitions et les dynamiques de trahison. Bien que des percées aient été réalisées dans des domaines tels que Go, StarCraft II et Diplomacy, ces benchmarks ne reflètent pas pleinement les dynamiques mixtes de coalition et de trahison qui sont propres au SLS.
Le SLS, conçu par Hausner, Nash, Shapley et Shubik, est un jeu de stratégie à quatre joueurs qui s'articule autour de la formation de coalitions, des coalitions temporaires et de la trahison inévitable. La victoire dépend non seulement des actions légales, mais aussi de la diplomatie et de l'opportunisme, ce qui en fait une plateforme de test unique pour étudier la confiance, la négociation et les dilemmes sociaux.
- La plupart des benchmarks MARL manquent des dynamiques mixtes de coalition et de trahison
- Les travaux antérieurs sur les environnements socialement riches dépendent généralement de canaux de communication explicites ou de règles d'interaction conçues à la main
- Le SLS n'a pas été étudié auparavant en tant que benchmark informatique
En formalisant le SLS en tant que variante séquentielle reproductible et en benchmarkant les algorithmes DRL de base, cet article positionne le SLS comme une plateforme de test consciente des coalitions et des trahisons pour faire progresser la recherche en MARL.
- Premier cadre informatique SLS: Conception et publication du premier cadre informatique SLS spécialement conçu pour la recherche en apprentissage par renforcement, équipé d'une interface graphique pour l'expérimentation
- Benchmarking des algorithmes DRL classiques: Benchmarking des algorithmes DRL classiques (DQN, DDQN, Dueling DQN) dans le SLS, analyse de leur capacité à acquérir la maîtrise du jeu légal et la conscience stratégique partielle
- Benchmark conscient des coalitions et des trahisons: Établissement du SLS en tant que benchmark MARL conscient des coalitions et des trahisons, inspirant les recherches futures combinant le DRL et le raisonnement théorique des jeux
Conversion du SLS en environnement MARL, adoptant la variante à somme nulle de la version Hofstra généralisée. Quatre joueurs se voient attribuer des couleurs uniques, commençant avec 5 jetons de la même couleur, jouant sur un plateau avec au maximum 6 piles actives. La condition de victoire est d'être le dernier joueur survivant.
Modélisation du SLS en tant que processus de décision markovien (MDP):
- Espace d'état S: Ensemble de tous les états de jeu possibles
- Espace d'action A: Ensemble de toutes les actions disponibles pour l'agent (ensemble discret de mouvements valides)
- Fonction de transition: p(s'|s,a) représente la probabilité de transition vers s' après exécution de l'action a dans l'état s
- Fonction de récompense: r(s,a,s') attribue une valeur scalaire à chaque transition
- Politique: π(a|s) est la politique selon laquelle l'agent choisit l'action a dans l'état s donné
L'objectif est de trouver la politique optimale π* pour maximiser le rendement actualisé attendu:
Rt=∑k=0∞γkrt+k+1
L'état st encode toutes les informations nécessaires pour décrire l'environnement du jeu:
st=(Configuration du Plateau,Jetons des Joueurs,Jetons Eˊlimineˊs,Joueur Actuel,Phase du Jeu,Compteur d′Eˊtapes)
La taille de l'espace d'observation est:
obs_size=(nlignes×njoueurs×npile_max)+njoueurs2+(2×njoueurs)+4+1
Espace d'action discret A = {A₀, A₁, ..., A₉}, incluant:
- A₀-A₅: Actions de sélection de pile (valides lors de la phase de sélection de pile)
- A₆-A₉: Actions de décision joueur/couleur (valides lors de la sélection de jetons, sélection du joueur suivant, phases d'élimination de jetons)
Le signal de récompense à l'étape temporelle t est défini comme:
rt=min(℘,(α/nc)⋅t℘)
où α ∈ (0,1] est un hyperparamètre contrôlant le taux de décroissance, et ℘ est l'amplitude de la récompense. Les actions illégales reçoivent une récompense négative fixe (-℘), tandis que les actions légales reçoivent une récompense positive jusqu'à +℘, cette valeur diminuant avec le nombre d'étapes pour promouvoir l'efficacité.
- Nombre de joueurs: 4 joueurs
- Jetons initiaux: 5 jetons de la même couleur par joueur
- Nombre maximum de piles: 6 piles actives
- Condition de victoire: Jeu à somme nulle, structure de récompense {0,0,0,ù}, ù ∈ N⁺
Utilisation d'une configuration d'apprentissage cumulatif centralisé où les quatre agents joueurs partagent un réseau d'apprentissage commun et un tampon de relecture. L'architecture réseau comprend deux couches cachées entièrement connectées de 64 neurones (activation ReLU), suivies d'une couche de sortie linéaire.
- Facteur d'actualisation γ = 0,95
- Taux d'exploration initial ε₀ = 1,0
- Taux de décroissance de l'exploration ε_decay = 0,995
- Taux d'exploration minimum ε_min = 0,01
- Taux d'apprentissage = 0,001
- Taille du lot = 64
- Nombre d'itérations d'entraînement = 10 000 parties
- Moyenne et écart-type de la récompense cumulée
- Nombre moyen d'étapes par partie
- Plage de récompense minimum, maximum
- Plage d'étapes minimum, maximum
- DQN (Deep Q-Network)
- DDQN (Double DQN)
- Dueling DQN
- Ligne de base aléatoire (Random baseline)
| Agent | Récompense (Moyenne±Écart-type) | Plage de Récompense Min,Max | Étapes (Moyenne±Écart-type) | Plage d'Étapes Min,Max |
|---|
| DQN | 103,40 ± 42,31 | -313,45, 189,24 | 61,16 ± 14,51 | 27, 162 |
| DDQN | 108,44 ± 44,95 | -279,13, 191,38 | 61,23 ± 14,18 | 28, 165 |
| Dueling DQN | 102,06 ± 49,62 | -319,76, 192,09 | 65,92 ± 15,94 | 28, 173 |
| Aléatoire | -8,78 ± 43,52 | -419,26, 94,19 | 65,24 ± 17,76 | 29, 174 |
- Performance: Tous les agents DRL surpassent systématiquement la ligne de base aléatoire, atteignant environ la moitié de la récompense maximale théorique (≈200)
- Caractéristiques de convergence: DDQN réalise la convergence la plus stable et la récompense moyenne la plus élevée, validant les avantages de l'estimation double pour atténuer la surestimation des valeurs Q dans les jeux à long terme
- Dynamiques d'apprentissage: Au cours de la phase d'entraînement précoce (<500 parties), les agents présentent une variance de récompense importante; après environ 2000 parties, tous les agents DRL affichent une convergence plus fluide
Le processus d'entraînement se divise en trois phases:
- Phase d'exploration (0-500 parties): Variance élevée, actions illégales fréquentes
- Phase d'apprentissage (500-2000 parties): Maîtrise progressive des règles, augmentation régulière de la récompense
- Phase de convergence (>2000 parties): Récompense stable dans la plage 100-120, occasionnelles baisses exploratoires
- Benchmarks traditionnels: Go, StarCraft II se concentrent principalement sur la compétition pure ou la coopération
- Jeux sociaux: Diplomacy implique la négociation mais dépend de la communication explicite
- Applications théoriques des jeux: Application de la résolution d'équilibres de Nash dans les systèmes multi-agents
- Série AlphaGo: Percées dans les jeux à information complète
- Apprentissage multi-agents: Entraînement par auto-affrontement et diversité stratégique
- Méthodes basées sur les fonctions de valeur: Application de DQN et ses variantes dans les espaces d'action discrets
Cet article introduit pour la première fois le SLS en tant que benchmark informatique, comblant une lacune dans la recherche sur la formation de coalitions et les dynamiques de trahison.
- Les méthodes classiques basées sur les valeurs peuvent apprendre les règles fondamentales du SLS et les stratégies partielles, réalisant une performance stable mais sous-optimale
- La variance élevée des récompenses reflète la sensibilité à l'initialisation et à l'exploration
- Les actions contextuellement pertinentes exposent les limitations de l'estimation des valeurs à court terme
- Le SLS s'établit avec succès en tant que benchmark MARL conscient de la négociation
- Limitations stratégiques: Les agents ont tendance à adopter un comportement réactif plutôt que stratégique
- Respect des règles: Malgré l'utilisation d'un masquage d'action dynamique, les agents exécutent occasionnellement des actions illégales
- Raisonnement à long terme: Difficultés dans l'espace d'action combinatoire et la dépendance aux récompenses retardées
- Dynamiques de coalition: Incapacité à capturer pleinement les stratégies complexes de formation de coalitions et de trahison
- Améliorations architecturales: Intégration de cadres actor-critic et conscients des coalitions
- Amélioration stratégique: Renforcement du raisonnement à long terme et du respect des règles
- Dynamiques sociales: Développement de capacités de négociation, de coalition et de tromperie
- Analyse théorique: Combinaison du raisonnement théorique des jeux avec l'apprentissage profond
- Benchmark innovant: Introduction du SLS dans MARL pour la première fois, comblant une lacune importante dans la recherche sur les dynamiques de coalition et de trahison
- Cadre complet: Fourniture d'un cadre informatique complet incluant une interface graphique, favorisant la recherche reproductible
- Évaluation systématique: Benchmarking complet de plusieurs méthodes DRL classiques
- Contribution théorique: Clarification des règles de la variante à somme nulle, résolvant l'incomplétude de la formalisation originale
- Limitations méthodologiques: Test uniquement des méthodes classiques basées sur les valeurs, exploration insuffisante des algorithmes MARL plus avancés
- Configuration simplifiée: Suppression des mécanismes de négociation explicites, risquant de perdre les caractéristiques fondamentales du SLS
- Goulots d'étranglement de performance: Les agents exécutent toujours des actions illégales, exposant les insuffisances des méthodes de base
- Analyse théorique insuffisante: Manque d'analyse approfondie des propriétés théoriques des jeux du SLS
- Valeur académique: Fourniture d'une nouvelle direction de recherche et d'un benchmark pour la communauté MARL
- Signification pratique: La publication en source ouverte du cadre favorisera les recherches ultérieures
- Contribution méthodologique: Démonstration de la conversion de jeux de stratégie complexes en environnements compatibles avec le ML
- Inspiration par les limitations: Révélation des insuffisances du RL classique dans les jeux sociaux complexes, guidant les directions de recherche futures
- Recherche MARL: Développement d'algorithmes pour la formation de coalitions et les dynamiques de trahison
- Applications théoriques des jeux: Modèles informatiques pour la négociation multi-parties et le raisonnement stratégique
- IA sociale: Modélisation des comportements de confiance, de tromperie et de coopération
- Outils éducatifs: Démonstrations pédagogiques de la théorie des jeux et des systèmes multi-agents
- Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
- Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
- FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
- Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
Cet article, en introduisant le SLS en tant que nouveau benchmark MARL, fournit une plateforme précieuse pour la recherche sur la formation de coalitions et la tromperie stratégique. Bien que les résultats actuels révèlent les limitations des méthodes classiques, cela souligne précisément le caractère stimulant du benchmark et sa valeur de recherche, indiquant la direction pour le développement futur d'algorithmes d'apprentissage multi-agents plus avancés.