2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak
This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.
academic

Renforcement d'Agents Multi-Compétitifs pour Jouer à « So Long Sucker »

Informations Fondamentales

  • ID de l'article: 2411.11057
  • Titre: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
  • Auteurs: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
  • Classification: cs.AI
  • Date de publication: Novembre 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2411.11057

Résumé

Cet article introduit pour la première fois le jeu de stratégie « So Long Sucker » (SLS) dans le domaine de l'apprentissage par renforcement multi-agents (MARL) en tant que nouveau benchmark. Contrairement aux plateformes de test traditionnelles basées sur les jeux de plateau ou les jeux vidéo, le SLS présente des caractéristiques telles que la formation de coalitions, la tromperie stratégique et des règles d'élimination dynamiques, offrant un environnement de défi unique pour les agents intelligents autonomes. Les chercheurs ont construit le premier cadre informatique disponible publiquement pour le SLS, incluant une interface graphique utilisateur et un support de benchmarking pour les algorithmes d'apprentissage par renforcement. En entraînant des agents à s'affronter eux-mêmes à l'aide de méthodes classiques d'apprentissage profond par renforcement (DQN, DDQN, Dueling DQN), les agents apprennent les règles du SLS et les stratégies fondamentales. Les résultats expérimentaux montrent que, bien que ces agents atteignent environ la moitié de la récompense maximale possible et surpassent systématiquement la ligne de base aléatoire, ils nécessitent de longues périodes d'entraînement (environ 2000 parties) et exécutent occasionnellement des actions illégales, mettant en évidence le potentiel et les limitations de l'apprentissage par renforcement classique.

Contexte et Motivation de la Recherche

Définition du Problème

Les benchmarks existants d'apprentissage par renforcement multi-agents se concentrent principalement sur des objectifs purement coopératifs (tels que les tâches de coordination) ou sur la compétition antagoniste (tels que les jeux à deux joueurs à somme nulle), manquant d'environnements mixtes capables de capturer simultanément la formation de coalitions et les dynamiques de trahison. Bien que des percées aient été réalisées dans des domaines tels que Go, StarCraft II et Diplomacy, ces benchmarks ne reflètent pas pleinement les dynamiques mixtes de coalition et de trahison qui sont propres au SLS.

Importance de la Recherche

Le SLS, conçu par Hausner, Nash, Shapley et Shubik, est un jeu de stratégie à quatre joueurs qui s'articule autour de la formation de coalitions, des coalitions temporaires et de la trahison inévitable. La victoire dépend non seulement des actions légales, mais aussi de la diplomatie et de l'opportunisme, ce qui en fait une plateforme de test unique pour étudier la confiance, la négociation et les dilemmes sociaux.

Limitations des Approches Existantes

  1. La plupart des benchmarks MARL manquent des dynamiques mixtes de coalition et de trahison
  2. Les travaux antérieurs sur les environnements socialement riches dépendent généralement de canaux de communication explicites ou de règles d'interaction conçues à la main
  3. Le SLS n'a pas été étudié auparavant en tant que benchmark informatique

Motivation de la Recherche

En formalisant le SLS en tant que variante séquentielle reproductible et en benchmarkant les algorithmes DRL de base, cet article positionne le SLS comme une plateforme de test consciente des coalitions et des trahisons pour faire progresser la recherche en MARL.

Contributions Principales

  1. Premier cadre informatique SLS: Conception et publication du premier cadre informatique SLS spécialement conçu pour la recherche en apprentissage par renforcement, équipé d'une interface graphique pour l'expérimentation
  2. Benchmarking des algorithmes DRL classiques: Benchmarking des algorithmes DRL classiques (DQN, DDQN, Dueling DQN) dans le SLS, analyse de leur capacité à acquérir la maîtrise du jeu légal et la conscience stratégique partielle
  3. Benchmark conscient des coalitions et des trahisons: Établissement du SLS en tant que benchmark MARL conscient des coalitions et des trahisons, inspirant les recherches futures combinant le DRL et le raisonnement théorique des jeux

Explication Détaillée de la Méthode

Définition de la Tâche

Conversion du SLS en environnement MARL, adoptant la variante à somme nulle de la version Hofstra généralisée. Quatre joueurs se voient attribuer des couleurs uniques, commençant avec 5 jetons de la même couleur, jouant sur un plateau avec au maximum 6 piles actives. La condition de victoire est d'être le dernier joueur survivant.

Formalisation de l'Apprentissage par Renforcement

Modélisation du SLS en tant que processus de décision markovien (MDP):

  • Espace d'état S: Ensemble de tous les états de jeu possibles
  • Espace d'action A: Ensemble de toutes les actions disponibles pour l'agent (ensemble discret de mouvements valides)
  • Fonction de transition: p(s'|s,a) représente la probabilité de transition vers s' après exécution de l'action a dans l'état s
  • Fonction de récompense: r(s,a,s') attribue une valeur scalaire à chaque transition
  • Politique: π(a|s) est la politique selon laquelle l'agent choisit l'action a dans l'état s donné

L'objectif est de trouver la politique optimale π* pour maximiser le rendement actualisé attendu: Rt=k=0γkrt+k+1R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

Représentation de l'État

L'état st encode toutes les informations nécessaires pour décrire l'environnement du jeu: st=(Configuration du Plateau,Jetons des Joueurs,Jetons Eˊlimineˊs,Joueur Actuel,Phase du Jeu,Compteur dEˊtapes)s_t = (Configuration\ du\ Plateau, Jetons\ des\ Joueurs, Jetons\ Éliminés, Joueur\ Actuel, Phase\ du\ Jeu, Compteur\ d'Étapes)

La taille de l'espace d'observation est: obs_size=(nlignes×njoueurs×npile_max)+njoueurs2+(2×njoueurs)+4+1obs\_size = (n_{lignes} \times n_{joueurs} \times n_{pile\_max}) + n_{joueurs}^2 + (2 \times n_{joueurs}) + 4 + 1

Espace d'Action

Espace d'action discret A = {A₀, A₁, ..., A₉}, incluant:

  • A₀-A₅: Actions de sélection de pile (valides lors de la phase de sélection de pile)
  • A₆-A₉: Actions de décision joueur/couleur (valides lors de la sélection de jetons, sélection du joueur suivant, phases d'élimination de jetons)

Conception de la Récompense

Le signal de récompense à l'étape temporelle t est défini comme: rt=min(,(α/nc)t)r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)

où α ∈ (0,1] est un hyperparamètre contrôlant le taux de décroissance, et ℘ est l'amplitude de la récompense. Les actions illégales reçoivent une récompense négative fixe (-℘), tandis que les actions légales reçoivent une récompense positive jusqu'à +℘, cette valeur diminuant avec le nombre d'étapes pour promouvoir l'efficacité.

Configuration Expérimentale

Configuration du Jeu

  • Nombre de joueurs: 4 joueurs
  • Jetons initiaux: 5 jetons de la même couleur par joueur
  • Nombre maximum de piles: 6 piles actives
  • Condition de victoire: Jeu à somme nulle, structure de récompense {0,0,0,ù}, ù ∈ N⁺

Configuration d'Entraînement

Utilisation d'une configuration d'apprentissage cumulatif centralisé où les quatre agents joueurs partagent un réseau d'apprentissage commun et un tampon de relecture. L'architecture réseau comprend deux couches cachées entièrement connectées de 64 neurones (activation ReLU), suivies d'une couche de sortie linéaire.

Configuration des Hyperparamètres

  • Facteur d'actualisation γ = 0,95
  • Taux d'exploration initial ε₀ = 1,0
  • Taux de décroissance de l'exploration ε_decay = 0,995
  • Taux d'exploration minimum ε_min = 0,01
  • Taux d'apprentissage = 0,001
  • Taille du lot = 64
  • Nombre d'itérations d'entraînement = 10 000 parties

Métriques d'Évaluation

  • Moyenne et écart-type de la récompense cumulée
  • Nombre moyen d'étapes par partie
  • Plage de récompense minimum, maximum
  • Plage d'étapes minimum, maximum

Méthodes de Comparaison

  • DQN (Deep Q-Network)
  • DDQN (Double DQN)
  • Dueling DQN
  • Ligne de base aléatoire (Random baseline)

Résultats Expérimentaux

Résultats Principaux

AgentRécompense (Moyenne±Écart-type)Plage de Récompense Min,MaxÉtapes (Moyenne±Écart-type)Plage d'Étapes Min,Max
DQN103,40 ± 42,31-313,45, 189,2461,16 ± 14,5127, 162
DDQN108,44 ± 44,95-279,13, 191,3861,23 ± 14,1828, 165
Dueling DQN102,06 ± 49,62-319,76, 192,0965,92 ± 15,9428, 173
Aléatoire-8,78 ± 43,52-419,26, 94,1965,24 ± 17,7629, 174

Résultats Clés

  1. Performance: Tous les agents DRL surpassent systématiquement la ligne de base aléatoire, atteignant environ la moitié de la récompense maximale théorique (≈200)
  2. Caractéristiques de convergence: DDQN réalise la convergence la plus stable et la récompense moyenne la plus élevée, validant les avantages de l'estimation double pour atténuer la surestimation des valeurs Q dans les jeux à long terme
  3. Dynamiques d'apprentissage: Au cours de la phase d'entraînement précoce (<500 parties), les agents présentent une variance de récompense importante; après environ 2000 parties, tous les agents DRL affichent une convergence plus fluide

Analyse des Courbes d'Apprentissage

Le processus d'entraînement se divise en trois phases:

  • Phase d'exploration (0-500 parties): Variance élevée, actions illégales fréquentes
  • Phase d'apprentissage (500-2000 parties): Maîtrise progressive des règles, augmentation régulière de la récompense
  • Phase de convergence (>2000 parties): Récompense stable dans la plage 100-120, occasionnelles baisses exploratoires

Travaux Connexes

Développement des Benchmarks MARL

  • Benchmarks traditionnels: Go, StarCraft II se concentrent principalement sur la compétition pure ou la coopération
  • Jeux sociaux: Diplomacy implique la négociation mais dépend de la communication explicite
  • Applications théoriques des jeux: Application de la résolution d'équilibres de Nash dans les systèmes multi-agents

Application de l'Apprentissage Profond par Renforcement dans les Jeux

  • Série AlphaGo: Percées dans les jeux à information complète
  • Apprentissage multi-agents: Entraînement par auto-affrontement et diversité stratégique
  • Méthodes basées sur les fonctions de valeur: Application de DQN et ses variantes dans les espaces d'action discrets

Recherche Connexe au SLS

Cet article introduit pour la première fois le SLS en tant que benchmark informatique, comblant une lacune dans la recherche sur la formation de coalitions et les dynamiques de trahison.

Conclusion et Discussion

Conclusions Principales

  1. Les méthodes classiques basées sur les valeurs peuvent apprendre les règles fondamentales du SLS et les stratégies partielles, réalisant une performance stable mais sous-optimale
  2. La variance élevée des récompenses reflète la sensibilité à l'initialisation et à l'exploration
  3. Les actions contextuellement pertinentes exposent les limitations de l'estimation des valeurs à court terme
  4. Le SLS s'établit avec succès en tant que benchmark MARL conscient de la négociation

Limitations

  1. Limitations stratégiques: Les agents ont tendance à adopter un comportement réactif plutôt que stratégique
  2. Respect des règles: Malgré l'utilisation d'un masquage d'action dynamique, les agents exécutent occasionnellement des actions illégales
  3. Raisonnement à long terme: Difficultés dans l'espace d'action combinatoire et la dépendance aux récompenses retardées
  4. Dynamiques de coalition: Incapacité à capturer pleinement les stratégies complexes de formation de coalitions et de trahison

Directions Futures

  1. Améliorations architecturales: Intégration de cadres actor-critic et conscients des coalitions
  2. Amélioration stratégique: Renforcement du raisonnement à long terme et du respect des règles
  3. Dynamiques sociales: Développement de capacités de négociation, de coalition et de tromperie
  4. Analyse théorique: Combinaison du raisonnement théorique des jeux avec l'apprentissage profond

Évaluation Approfondie

Points Forts

  1. Benchmark innovant: Introduction du SLS dans MARL pour la première fois, comblant une lacune importante dans la recherche sur les dynamiques de coalition et de trahison
  2. Cadre complet: Fourniture d'un cadre informatique complet incluant une interface graphique, favorisant la recherche reproductible
  3. Évaluation systématique: Benchmarking complet de plusieurs méthodes DRL classiques
  4. Contribution théorique: Clarification des règles de la variante à somme nulle, résolvant l'incomplétude de la formalisation originale

Insuffisances

  1. Limitations méthodologiques: Test uniquement des méthodes classiques basées sur les valeurs, exploration insuffisante des algorithmes MARL plus avancés
  2. Configuration simplifiée: Suppression des mécanismes de négociation explicites, risquant de perdre les caractéristiques fondamentales du SLS
  3. Goulots d'étranglement de performance: Les agents exécutent toujours des actions illégales, exposant les insuffisances des méthodes de base
  4. Analyse théorique insuffisante: Manque d'analyse approfondie des propriétés théoriques des jeux du SLS

Impact

  1. Valeur académique: Fourniture d'une nouvelle direction de recherche et d'un benchmark pour la communauté MARL
  2. Signification pratique: La publication en source ouverte du cadre favorisera les recherches ultérieures
  3. Contribution méthodologique: Démonstration de la conversion de jeux de stratégie complexes en environnements compatibles avec le ML
  4. Inspiration par les limitations: Révélation des insuffisances du RL classique dans les jeux sociaux complexes, guidant les directions de recherche futures

Scénarios Applicables

  1. Recherche MARL: Développement d'algorithmes pour la formation de coalitions et les dynamiques de trahison
  2. Applications théoriques des jeux: Modèles informatiques pour la négociation multi-parties et le raisonnement stratégique
  3. IA sociale: Modélisation des comportements de confiance, de tromperie et de coopération
  4. Outils éducatifs: Démonstrations pédagogiques de la théorie des jeux et des systèmes multi-agents

Références

  1. Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
  2. Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
  3. FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
  4. Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature

Cet article, en introduisant le SLS en tant que nouveau benchmark MARL, fournit une plateforme précieuse pour la recherche sur la formation de coalitions et la tromperie stratégique. Bien que les résultats actuels révèlent les limitations des méthodes classiques, cela souligne précisément le caractère stimulant du benchmark et sa valeur de recherche, indiquant la direction pour le développement futur d'algorithmes d'apprentissage multi-agents plus avancés.