2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak

This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.

academic

Renforcement d'Agents Multi-Compétitifs pour Jouer à « So Long Sucker »

Informations Fondamentales

ID de l'article: 2411.11057
Titre: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
Auteurs: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
Classification: cs.AI
Date de publication: Novembre 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2411.11057

Résumé

Cet article introduit pour la première fois le jeu de stratégie « So Long Sucker » (SLS) dans le domaine de l'apprentissage par renforcement multi-agents (MARL) en tant que nouveau benchmark. Contrairement aux plateformes de test traditionnelles basées sur les jeux de plateau ou les jeux vidéo, le SLS présente des caractéristiques telles que la formation de coalitions, la tromperie stratégique et des règles d'élimination dynamiques, offrant un environnement de défi unique pour les agents intelligents autonomes. Les chercheurs ont construit le premier cadre informatique disponible publiquement pour le SLS, incluant une interface graphique utilisateur et un support de benchmarking pour les algorithmes d'apprentissage par renforcement. En entraînant des agents à s'affronter eux-mêmes à l'aide de méthodes classiques d'apprentissage profond par renforcement (DQN, DDQN, Dueling DQN), les agents apprennent les règles du SLS et les stratégies fondamentales. Les résultats expérimentaux montrent que, bien que ces agents atteignent environ la moitié de la récompense maximale possible et surpassent systématiquement la ligne de base aléatoire, ils nécessitent de longues périodes d'entraînement (environ 2000 parties) et exécutent occasionnellement des actions illégales, mettant en évidence le potentiel et les limitations de l'apprentissage par renforcement classique.

Contexte et Motivation de la Recherche

Définition du Problème

Les benchmarks existants d'apprentissage par renforcement multi-agents se concentrent principalement sur des objectifs purement coopératifs (tels que les tâches de coordination) ou sur la compétition antagoniste (tels que les jeux à deux joueurs à somme nulle), manquant d'environnements mixtes capables de capturer simultanément la formation de coalitions et les dynamiques de trahison. Bien que des percées aient été réalisées dans des domaines tels que Go, StarCraft II et Diplomacy, ces benchmarks ne reflètent pas pleinement les dynamiques mixtes de coalition et de trahison qui sont propres au SLS.

Importance de la Recherche

Le SLS, conçu par Hausner, Nash, Shapley et Shubik, est un jeu de stratégie à quatre joueurs qui s'articule autour de la formation de coalitions, des coalitions temporaires et de la trahison inévitable. La victoire dépend non seulement des actions légales, mais aussi de la diplomatie et de l'opportunisme, ce qui en fait une plateforme de test unique pour étudier la confiance, la négociation et les dilemmes sociaux.

Limitations des Approches Existantes

La plupart des benchmarks MARL manquent des dynamiques mixtes de coalition et de trahison
Les travaux antérieurs sur les environnements socialement riches dépendent généralement de canaux de communication explicites ou de règles d'interaction conçues à la main
Le SLS n'a pas été étudié auparavant en tant que benchmark informatique

Motivation de la Recherche

En formalisant le SLS en tant que variante séquentielle reproductible et en benchmarkant les algorithmes DRL de base, cet article positionne le SLS comme une plateforme de test consciente des coalitions et des trahisons pour faire progresser la recherche en MARL.

Contributions Principales

Premier cadre informatique SLS: Conception et publication du premier cadre informatique SLS spécialement conçu pour la recherche en apprentissage par renforcement, équipé d'une interface graphique pour l'expérimentation
Benchmarking des algorithmes DRL classiques: Benchmarking des algorithmes DRL classiques (DQN, DDQN, Dueling DQN) dans le SLS, analyse de leur capacité à acquérir la maîtrise du jeu légal et la conscience stratégique partielle
Benchmark conscient des coalitions et des trahisons: Établissement du SLS en tant que benchmark MARL conscient des coalitions et des trahisons, inspirant les recherches futures combinant le DRL et le raisonnement théorique des jeux

Explication Détaillée de la Méthode

Définition de la Tâche

Conversion du SLS en environnement MARL, adoptant la variante à somme nulle de la version Hofstra généralisée. Quatre joueurs se voient attribuer des couleurs uniques, commençant avec 5 jetons de la même couleur, jouant sur un plateau avec au maximum 6 piles actives. La condition de victoire est d'être le dernier joueur survivant.

Formalisation de l'Apprentissage par Renforcement

Modélisation du SLS en tant que processus de décision markovien (MDP):

Espace d'état S: Ensemble de tous les états de jeu possibles
Espace d'action A: Ensemble de toutes les actions disponibles pour l'agent (ensemble discret de mouvements valides)
Fonction de transition: p(s'|s,a) représente la probabilité de transition vers s' après exécution de l'action a dans l'état s
Fonction de récompense: r(s,a,s') attribue une valeur scalaire à chaque transition
Politique: π(a|s) est la politique selon laquelle l'agent choisit l'action a dans l'état s donné

L'objectif est de trouver la politique optimale π* pour maximiser le rendement actualisé attendu: $R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

Représentation de l'État

L'état st encode toutes les informations nécessaires pour décrire l'environnement du jeu: $s_t = (Configuration\ du\ Plateau, Jetons\ des\ Joueurs, Jetons\ Éliminés, Joueur\ Actuel, Phase\ du\ Jeu, Compteur\ d'Étapes)$

La taille de l'espace d'observation est: $obs\_size = (n_{lignes} \times n_{joueurs} \times n_{pile\_max}) + n_{joueurs}^2 + (2 \times n_{joueurs}) + 4 + 1$

Espace d'Action

Espace d'action discret A = {A₀, A₁, ..., A₉}, incluant:

A₀-A₅: Actions de sélection de pile (valides lors de la phase de sélection de pile)
A₆-A₉: Actions de décision joueur/couleur (valides lors de la sélection de jetons, sélection du joueur suivant, phases d'élimination de jetons)

Conception de la Récompense

Le signal de récompense à l'étape temporelle t est défini comme: $r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)$

où α ∈ (0,1] est un hyperparamètre contrôlant le taux de décroissance, et ℘ est l'amplitude de la récompense. Les actions illégales reçoivent une récompense négative fixe (-℘), tandis que les actions légales reçoivent une récompense positive jusqu'à +℘, cette valeur diminuant avec le nombre d'étapes pour promouvoir l'efficacité.

Configuration Expérimentale

Configuration du Jeu

Nombre de joueurs: 4 joueurs
Jetons initiaux: 5 jetons de la même couleur par joueur
Nombre maximum de piles: 6 piles actives
Condition de victoire: Jeu à somme nulle, structure de récompense {0,0,0,ù}, ù ∈ N⁺

Configuration d'Entraînement

Utilisation d'une configuration d'apprentissage cumulatif centralisé où les quatre agents joueurs partagent un réseau d'apprentissage commun et un tampon de relecture. L'architecture réseau comprend deux couches cachées entièrement connectées de 64 neurones (activation ReLU), suivies d'une couche de sortie linéaire.

Configuration des Hyperparamètres

Facteur d'actualisation γ = 0,95
Taux d'exploration initial ε₀ = 1,0
Taux de décroissance de l'exploration ε_decay = 0,995
Taux d'exploration minimum ε_min = 0,01
Taux d'apprentissage = 0,001
Taille du lot = 64
Nombre d'itérations d'entraînement = 10 000 parties

Métriques d'Évaluation

Moyenne et écart-type de la récompense cumulée
Nombre moyen d'étapes par partie
Plage de récompense minimum, maximum
Plage d'étapes minimum, maximum

Méthodes de Comparaison

DQN (Deep Q-Network)
DDQN (Double DQN)
Dueling DQN
Ligne de base aléatoire (Random baseline)

Résultats Expérimentaux

Résultats Principaux

Agent	Récompense (Moyenne±Écart-type)	Plage de Récompense Min,Max	Étapes (Moyenne±Écart-type)	Plage d'Étapes Min,Max
DQN	103,40 ± 42,31	-313,45, 189,24	61,16 ± 14,51	27, 162
DDQN	108,44 ± 44,95	-279,13, 191,38	61,23 ± 14,18	28, 165
Dueling DQN	102,06 ± 49,62	-319,76, 192,09	65,92 ± 15,94	28, 173
Aléatoire	-8,78 ± 43,52	-419,26, 94,19	65,24 ± 17,76	29, 174

Résultats Clés

Performance: Tous les agents DRL surpassent systématiquement la ligne de base aléatoire, atteignant environ la moitié de la récompense maximale théorique (≈200)
Caractéristiques de convergence: DDQN réalise la convergence la plus stable et la récompense moyenne la plus élevée, validant les avantages de l'estimation double pour atténuer la surestimation des valeurs Q dans les jeux à long terme
Dynamiques d'apprentissage: Au cours de la phase d'entraînement précoce (<500 parties), les agents présentent une variance de récompense importante; après environ 2000 parties, tous les agents DRL affichent une convergence plus fluide

Analyse des Courbes d'Apprentissage

Le processus d'entraînement se divise en trois phases:

Phase d'exploration (0-500 parties): Variance élevée, actions illégales fréquentes
Phase d'apprentissage (500-2000 parties): Maîtrise progressive des règles, augmentation régulière de la récompense
Phase de convergence (>2000 parties): Récompense stable dans la plage 100-120, occasionnelles baisses exploratoires

Travaux Connexes

Développement des Benchmarks MARL

Benchmarks traditionnels: Go, StarCraft II se concentrent principalement sur la compétition pure ou la coopération
Jeux sociaux: Diplomacy implique la négociation mais dépend de la communication explicite
Applications théoriques des jeux: Application de la résolution d'équilibres de Nash dans les systèmes multi-agents

Application de l'Apprentissage Profond par Renforcement dans les Jeux

Série AlphaGo: Percées dans les jeux à information complète
Apprentissage multi-agents: Entraînement par auto-affrontement et diversité stratégique
Méthodes basées sur les fonctions de valeur: Application de DQN et ses variantes dans les espaces d'action discrets

Recherche Connexe au SLS

Cet article introduit pour la première fois le SLS en tant que benchmark informatique, comblant une lacune dans la recherche sur la formation de coalitions et les dynamiques de trahison.

Conclusion et Discussion

Conclusions Principales

Les méthodes classiques basées sur les valeurs peuvent apprendre les règles fondamentales du SLS et les stratégies partielles, réalisant une performance stable mais sous-optimale
La variance élevée des récompenses reflète la sensibilité à l'initialisation et à l'exploration
Les actions contextuellement pertinentes exposent les limitations de l'estimation des valeurs à court terme
Le SLS s'établit avec succès en tant que benchmark MARL conscient de la négociation

Limitations

Limitations stratégiques: Les agents ont tendance à adopter un comportement réactif plutôt que stratégique
Respect des règles: Malgré l'utilisation d'un masquage d'action dynamique, les agents exécutent occasionnellement des actions illégales
Raisonnement à long terme: Difficultés dans l'espace d'action combinatoire et la dépendance aux récompenses retardées
Dynamiques de coalition: Incapacité à capturer pleinement les stratégies complexes de formation de coalitions et de trahison

Directions Futures

Améliorations architecturales: Intégration de cadres actor-critic et conscients des coalitions
Amélioration stratégique: Renforcement du raisonnement à long terme et du respect des règles
Dynamiques sociales: Développement de capacités de négociation, de coalition et de tromperie
Analyse théorique: Combinaison du raisonnement théorique des jeux avec l'apprentissage profond

Évaluation Approfondie

Points Forts

Benchmark innovant: Introduction du SLS dans MARL pour la première fois, comblant une lacune importante dans la recherche sur les dynamiques de coalition et de trahison
Cadre complet: Fourniture d'un cadre informatique complet incluant une interface graphique, favorisant la recherche reproductible
Évaluation systématique: Benchmarking complet de plusieurs méthodes DRL classiques
Contribution théorique: Clarification des règles de la variante à somme nulle, résolvant l'incomplétude de la formalisation originale

Insuffisances

Limitations méthodologiques: Test uniquement des méthodes classiques basées sur les valeurs, exploration insuffisante des algorithmes MARL plus avancés
Configuration simplifiée: Suppression des mécanismes de négociation explicites, risquant de perdre les caractéristiques fondamentales du SLS
Goulots d'étranglement de performance: Les agents exécutent toujours des actions illégales, exposant les insuffisances des méthodes de base
Analyse théorique insuffisante: Manque d'analyse approfondie des propriétés théoriques des jeux du SLS

Impact

Valeur académique: Fourniture d'une nouvelle direction de recherche et d'un benchmark pour la communauté MARL
Signification pratique: La publication en source ouverte du cadre favorisera les recherches ultérieures
Contribution méthodologique: Démonstration de la conversion de jeux de stratégie complexes en environnements compatibles avec le ML
Inspiration par les limitations: Révélation des insuffisances du RL classique dans les jeux sociaux complexes, guidant les directions de recherche futures

Scénarios Applicables

Recherche MARL: Développement d'algorithmes pour la formation de coalitions et les dynamiques de trahison
Applications théoriques des jeux: Modèles informatiques pour la négociation multi-parties et le raisonnement stratégique
IA sociale: Modélisation des comportements de confiance, de tromperie et de coopération
Outils éducatifs: Démonstrations pédagogiques de la théorie des jeux et des systèmes multi-agents

Références

Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature

Cet article, en introduisant le SLS en tant que nouveau benchmark MARL, fournit une plateforme précieuse pour la recherche sur la formation de coalitions et la tromperie stratégique. Bien que les résultats actuels révèlent les limitations des méthodes classiques, cela souligne précisément le caractère stimulant du benchmark et sa valeur de recherche, indiquant la direction pour le développement futur d'algorithmes d'apprentissage multi-agents plus avancés.