2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak

This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.

academic

Reforzando Agentes Multi-Competitivos para Jugar 'So Long Sucker'

Información Básica

ID del Artículo: 2411.11057
Título: Reforzando Agentes Multi-Competitivos para Jugar 'So Long Sucker'
Autores: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
Clasificación: cs.AI
Fecha de Publicación: Noviembre de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2411.11057

Resumen

Este artículo introduce por primera vez el juego estratégico "So Long Sucker" (SLS) al campo del aprendizaje por refuerzo multi-agente (MARL) como un nuevo punto de referencia. A diferencia de las plataformas de prueba tradicionales de juegos de mesa o videojuegos, SLS presenta características como formación de coaliciones, engaño estratégico y reglas de eliminación dinámica, proporcionando un entorno de desafío único para agentes inteligentes autónomos. Los investigadores construyeron el primer marco computacional de SLS disponible públicamente, que incluye una interfaz gráfica de usuario y soporte para pruebas de algoritmos de aprendizaje por refuerzo. Mediante métodos clásicos de aprendizaje por refuerzo profundo (DQN, DDQN, Dueling DQN), se entrenaron agentes de auto-juego para aprender las reglas de SLS y estrategias básicas. Los resultados experimentales demuestran que, aunque estos agentes alcanzan aproximadamente la mitad de la recompensa máxima disponible y superan consistentemente la línea base aleatoria, requieren ciclos de entrenamiento prolongados (aproximadamente 2000 juegos) y aún ejecutan ocasionalmente acciones ilegales, lo que destaca el potencial y las limitaciones del aprendizaje por refuerzo clásico.

Antecedentes de Investigación y Motivación

Definición del Problema

Los puntos de referencia existentes de aprendizaje por refuerzo multi-agente se concentran principalmente en objetivos puramente cooperativos (como tareas de coordinación) o competencia adversarial (como juegos de suma cero entre dos jugadores), careciendo de entornos mixtos que capturen simultáneamente la formación de coaliciones y dinámicas de traición. Aunque se han logrado avances en dominios como Go, StarCraft II y Diplomacy, estos puntos de referencia no reflejan completamente las dinámicas mixtas de coalición y traición únicas de SLS.

Importancia de la Investigación

SLS, como juego estratégico de cuatro jugadores diseñado por Hausner, Nash, Shapley y Shubik, se centra en la formación de coaliciones, alianzas temporales y traiciones inevitables. La victoria no solo depende de acciones legales, sino que también requiere diplomacia y oportunismo, lo que lo convierte en una plataforma de prueba única para estudiar confianza, negociación y dilemas sociales.

Limitaciones de Métodos Existentes

La mayoría de los puntos de referencia de MARL carecen de dinámicas mixtas de coalición y traición
Los trabajos previos en configuraciones socialmente ricas generalmente dependen de canales de comunicación explícitos o reglas de interacción diseñadas manualmente
SLS no ha sido estudiado previamente como punto de referencia computacional

Motivación de la Investigación

Al formalizar SLS como una variante secuencial reproducible y realizar pruebas de algoritmos DRL de referencia, este artículo posiciona a SLS como una plataforma de prueba consciente de coaliciones y traiciones para avanzar en la investigación de MARL.

Contribuciones Principales

Primer Marco Computacional de SLS: Se diseñó y lanzó el primer marco computacional de SLS personalizado específicamente para investigación en aprendizaje por refuerzo, equipado con GUI para experimentación
Pruebas de Algoritmos DRL Clásicos: Se realizaron pruebas de algoritmos DRL clásicos (DQN, DDQN, Dueling DQN) en SLS, analizando su capacidad para adquirir competencia en juego legal y conciencia estratégica parcial
Punto de Referencia Consciente de Coaliciones y Traiciones: Se estableció a SLS como un punto de referencia de MARL consciente de coaliciones y traiciones, inspirando futuras investigaciones de métodos híbridos que combinen DRL con razonamiento de teoría de juegos

Explicación Detallada del Método

Definición de la Tarea

Se convierte SLS a un entorno de MARL, adoptando la variante de suma cero de la versión generalizada de Hofstra. Cuatro jugadores, cada uno asignado a un color único, comienzan con 5 fichas del mismo color y juegan en un tablero con un máximo de 6 pilas activas. La condición de victoria es ser el último jugador que sobrevive.

Formalización del Aprendizaje por Refuerzo

Se modela SLS como un Proceso de Decisión de Markov (MDP):

Espacio de Estados S: Conjunto de todos los estados de juego posibles
Espacio de Acciones A: Conjunto de todas las acciones disponibles para los agentes (movimientos válidos discretos)
Función de Transición: p(s'|s,a) representa la probabilidad de transición al estado s' después de ejecutar la acción a en el estado s
Función de Recompensa: r(s,a,s') asigna un valor escalar a cada transición
Política: π(a|s) es la política del agente para seleccionar la acción a dado el estado s

El objetivo es encontrar la política óptima π* para maximizar el retorno esperado descontado: $R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

Representación del Estado

El estado st codifica toda la información necesaria para describir el entorno del juego: $s_t = (Configuración\ del\ Tablero, Fichas\ del\ Jugador, Fichas\ Eliminadas, Jugador\ Actual, Fase\ del\ Juego, Contador\ de\ Pasos)$

El tamaño del espacio de observación es: $tamaño\_obs = (n_{filas} \times n_{jugadores} \times n_{pila\_máx}) + n_{jugadores}^2 + (2 \times n_{jugadores}) + 4 + 1$

Espacio de Acciones

Espacio de acciones discreto A = {A₀, A₁, ..., A₉}, que incluye:

A₀-A₅: Acciones de selección de pila (válidas en la fase de selección de pila)
A₆-A₉: Acciones de decisión de jugador/color (válidas en fases de selección de fichas, selección del siguiente jugador y eliminación de fichas)

Diseño de Recompensas

La señal de recompensa en el paso de tiempo t se define como: $r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)$

donde α ∈ (0,1] es un hiperparámetro que controla la tasa de decaimiento, y ℘ es la magnitud de la recompensa. Las acciones ilegales reciben una penalización de recompensa negativa fija (-℘), mientras que las acciones legales reciben una recompensa positiva de hasta +℘, cuyo valor disminuye con el número de pasos para promover eficiencia.

Configuración Experimental

Configuración del Juego

Número de Jugadores: 4 jugadores
Fichas Iniciales: 5 fichas del mismo color por jugador
Número Máximo de Pilas: 6 pilas activas
Condición de Victoria: Juego de suma cero, estructura de recompensas {0,0,0,ù}, ù ∈ N⁺

Configuración de Entrenamiento

Se adoptó una configuración de aprendizaje acumulativo centralizado donde los cuatro agentes jugadores comparten una red de aprendizaje común y un búfer de reproducción. La arquitectura de red consta de dos capas ocultas completamente conectadas de 64 neuronas (activación ReLU), seguidas de una capa de salida lineal.

Configuración de Hiperparámetros

Factor de descuento γ = 0.95
Tasa de exploración inicial ε₀ = 1.0
Tasa de decaimiento de exploración ε_decay = 0.995
Tasa de exploración mínima ε_min = 0.01
Tasa de aprendizaje = 0.001
Tamaño de lote = 64
Épocas de entrenamiento = 10,000 juegos

Métricas de Evaluación

Media y desviación estándar de recompensa acumulada
Promedio de pasos por juego
Rango de recompensas mínimo, máximo
Rango de pasos mínimo, máximo

Métodos de Comparación

DQN (Deep Q-Network)
DDQN (Double DQN)
Dueling DQN
Línea base aleatoria (Random baseline)

Resultados Experimentales

Resultados Principales

Agente	Recompensa (Media±Desv. Est.)	Rango de Recompensas Mín, Máx	Pasos (Media±Desv. Est.)	Rango de Pasos Mín, Máx
DQN	103.40 ± 42.31	-313.45, 189.24	61.16 ± 14.51	27, 162
DDQN	108.44 ± 44.95	-279.13, 191.38	61.23 ± 14.18	28, 165
Dueling DQN	102.06 ± 49.62	-319.76, 192.09	65.92 ± 15.94	28, 173
Aleatorio	-8.78 ± 43.52	-419.26, 94.19	65.24 ± 17.76	29, 174

Hallazgos Clave

Rendimiento: Todos los agentes de DRL superan consistentemente la línea base aleatoria, alcanzando aproximadamente la mitad de la recompensa teórica máxima (≈200)
Características de Convergencia: DDQN logra la convergencia más estable y la recompensa promedio más alta, validando los beneficios de la estimación dual para mitigar la sobreestimación de valores Q en juegos a largo plazo
Dinámicas de Aprendizaje: En la fase de entrenamiento temprano (<500 juegos), los agentes muestran una varianza de recompensa significativa; después de aproximadamente 2000 juegos, todos los agentes de DRL muestran una convergencia más suave

Análisis de Curvas de Aprendizaje

El proceso de entrenamiento se divide en tres etapas:

Etapa de Exploración (0-500 juegos): Alta varianza, acciones ilegales frecuentes
Etapa de Aprendizaje (500-2000 juegos): Dominio gradual de reglas, aumento constante de recompensas
Etapa de Convergencia (>2000 juegos): Recompensas estables en el rango 100-120, con ocasionales descensos exploratorios

Trabajo Relacionado

Desarrollo de Puntos de Referencia de MARL

Puntos de Referencia Tradicionales: Go y StarCraft II se centran principalmente en competencia pura o cooperación
Juegos Sociales: Diplomacy y similares implican negociación pero dependen de comunicación explícita
Aplicaciones de Teoría de Juegos: Aplicación de resolución de equilibrio de Nash en sistemas multi-agente

Aplicación de Aprendizaje por Refuerzo Profundo en Juegos

Serie AlphaGo: Avances en juegos de información perfecta
Aprendizaje Multi-Agente: Entrenamiento de auto-juego y diversidad de estrategias
Métodos Basados en Funciones de Valor: Aplicación de DQN y sus variantes en espacios de acciones discretas

Investigación Relacionada con SLS

Este artículo introduce por primera vez a SLS como punto de referencia computacional, llenando un vacío en la investigación de dinámicas de formación de coaliciones y traiciones.

Conclusiones y Discusión

Conclusiones Principales

Los métodos clásicos basados en valores pueden aprender las reglas centrales de SLS y estrategias parciales, logrando un rendimiento estable pero subóptimo
La alta varianza en recompensas refleja sensibilidad a la inicialización y exploración
Las acciones dependientes del contexto exponen limitaciones en la estimación de valores a corto plazo
SLS se establece exitosamente como un punto de referencia de MARL consciente de negociación

Limitaciones

Limitaciones Estratégicas: Los agentes tienden a adoptar comportamientos reactivos en lugar de estratégicos
Cumplimiento de Reglas: A pesar del enmascaramiento dinámico de acciones, aún ejecutan ocasionalmente acciones ilegales
Razonamiento a Largo Plazo: Dificultades con espacios de acciones combinatorios y dependencias de recompensas retrasadas
Dinámicas de Coalición: Incapacidad para capturar completamente estrategias complejas de formación de coaliciones y traiciones

Direcciones Futuras

Mejoras Arquitectónicas: Integración de marcos actor-crítico y conscientes de coaliciones
Mejora Estratégica: Fortalecimiento del razonamiento a largo plazo y cumplimiento de reglas
Dinámicas Sociales: Desarrollo de capacidades de negociación, coalición y engaño
Análisis Teórico: Combinación de razonamiento de teoría de juegos con aprendizaje profundo

Evaluación Profunda

Fortalezas

Punto de Referencia Innovador: Primera introducción de SLS a MARL, llenando un vacío importante en la investigación de dinámicas de coalición y traición
Marco Completo: Proporciona un marco computacional completo con GUI, promoviendo investigación reproducible
Evaluación Sistemática: Pruebas exhaustivas de múltiples métodos DRL clásicos
Contribución Teórica: Formalización clara de la variante de suma cero, resolviendo incompletitudes en la formalización original

Deficiencias

Limitaciones Metodológicas: Solo prueba métodos clásicos basados en valores, sin exploración de algoritmos MARL más avanzados
Configuración Simplificada: Eliminación de mecanismos de negociación explícita, potencialmente perdiendo características centrales de SLS
Cuellos de Botella de Rendimiento: Los agentes aún ejecutan acciones ilegales, exponiendo insuficiencias de métodos fundamentales
Análisis Teórico Insuficiente: Falta de análisis profundo de propiedades de teoría de juegos de SLS

Impacto

Valor Académico: Proporciona nuevas direcciones de investigación y punto de referencia para la comunidad de MARL
Significado Práctico: El lanzamiento de código abierto del marco promoverá investigación posterior
Contribución Metodológica: Demuestra cómo convertir juegos estratégicos complejos en entornos amigables con ML
Inspiración de Limitaciones: Revela insuficiencias del RL clásico en juegos sociales complejos, guiando futuras investigaciones

Escenarios Aplicables

Investigación de MARL: Desarrollo de algoritmos para dinámicas de formación de coaliciones y traiciones
Aplicaciones de Teoría de Juegos: Modelos computacionales para negociación multi-parte y razonamiento estratégico
IA Social: Modelado de comportamientos de confianza, engaño y cooperación
Herramienta Educativa: Demostración pedagógica de teoría de juegos y sistemas multi-agente

Referencias

Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature

Este artículo, al introducir SLS como nuevo punto de referencia de MARL, proporciona una plataforma valiosa para investigar la formación de coaliciones y engaño estratégico. Aunque los resultados actuales demuestran las limitaciones de los métodos clásicos, esto precisamente destaca el carácter desafiante y el valor investigativo de este punto de referencia, señalando la dirección para el desarrollo futuro de algoritmos de aprendizaje multi-agente más avanzados.