This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.
Reforzando Agentes Multi-Competitivos para Jugar 'So Long Sucker'
- ID del Artículo: 2411.11057
- Título: Reforzando Agentes Multi-Competitivos para Jugar 'So Long Sucker'
- Autores: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
- Clasificación: cs.AI
- Fecha de Publicación: Noviembre de 2024 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2411.11057
Este artículo introduce por primera vez el juego estratégico "So Long Sucker" (SLS) al campo del aprendizaje por refuerzo multi-agente (MARL) como un nuevo punto de referencia. A diferencia de las plataformas de prueba tradicionales de juegos de mesa o videojuegos, SLS presenta características como formación de coaliciones, engaño estratégico y reglas de eliminación dinámica, proporcionando un entorno de desafío único para agentes inteligentes autónomos. Los investigadores construyeron el primer marco computacional de SLS disponible públicamente, que incluye una interfaz gráfica de usuario y soporte para pruebas de algoritmos de aprendizaje por refuerzo. Mediante métodos clásicos de aprendizaje por refuerzo profundo (DQN, DDQN, Dueling DQN), se entrenaron agentes de auto-juego para aprender las reglas de SLS y estrategias básicas. Los resultados experimentales demuestran que, aunque estos agentes alcanzan aproximadamente la mitad de la recompensa máxima disponible y superan consistentemente la línea base aleatoria, requieren ciclos de entrenamiento prolongados (aproximadamente 2000 juegos) y aún ejecutan ocasionalmente acciones ilegales, lo que destaca el potencial y las limitaciones del aprendizaje por refuerzo clásico.
Los puntos de referencia existentes de aprendizaje por refuerzo multi-agente se concentran principalmente en objetivos puramente cooperativos (como tareas de coordinación) o competencia adversarial (como juegos de suma cero entre dos jugadores), careciendo de entornos mixtos que capturen simultáneamente la formación de coaliciones y dinámicas de traición. Aunque se han logrado avances en dominios como Go, StarCraft II y Diplomacy, estos puntos de referencia no reflejan completamente las dinámicas mixtas de coalición y traición únicas de SLS.
SLS, como juego estratégico de cuatro jugadores diseñado por Hausner, Nash, Shapley y Shubik, se centra en la formación de coaliciones, alianzas temporales y traiciones inevitables. La victoria no solo depende de acciones legales, sino que también requiere diplomacia y oportunismo, lo que lo convierte en una plataforma de prueba única para estudiar confianza, negociación y dilemas sociales.
- La mayoría de los puntos de referencia de MARL carecen de dinámicas mixtas de coalición y traición
- Los trabajos previos en configuraciones socialmente ricas generalmente dependen de canales de comunicación explícitos o reglas de interacción diseñadas manualmente
- SLS no ha sido estudiado previamente como punto de referencia computacional
Al formalizar SLS como una variante secuencial reproducible y realizar pruebas de algoritmos DRL de referencia, este artículo posiciona a SLS como una plataforma de prueba consciente de coaliciones y traiciones para avanzar en la investigación de MARL.
- Primer Marco Computacional de SLS: Se diseñó y lanzó el primer marco computacional de SLS personalizado específicamente para investigación en aprendizaje por refuerzo, equipado con GUI para experimentación
- Pruebas de Algoritmos DRL Clásicos: Se realizaron pruebas de algoritmos DRL clásicos (DQN, DDQN, Dueling DQN) en SLS, analizando su capacidad para adquirir competencia en juego legal y conciencia estratégica parcial
- Punto de Referencia Consciente de Coaliciones y Traiciones: Se estableció a SLS como un punto de referencia de MARL consciente de coaliciones y traiciones, inspirando futuras investigaciones de métodos híbridos que combinen DRL con razonamiento de teoría de juegos
Se convierte SLS a un entorno de MARL, adoptando la variante de suma cero de la versión generalizada de Hofstra. Cuatro jugadores, cada uno asignado a un color único, comienzan con 5 fichas del mismo color y juegan en un tablero con un máximo de 6 pilas activas. La condición de victoria es ser el último jugador que sobrevive.
Se modela SLS como un Proceso de Decisión de Markov (MDP):
- Espacio de Estados S: Conjunto de todos los estados de juego posibles
- Espacio de Acciones A: Conjunto de todas las acciones disponibles para los agentes (movimientos válidos discretos)
- Función de Transición: p(s'|s,a) representa la probabilidad de transición al estado s' después de ejecutar la acción a en el estado s
- Función de Recompensa: r(s,a,s') asigna un valor escalar a cada transición
- Política: π(a|s) es la política del agente para seleccionar la acción a dado el estado s
El objetivo es encontrar la política óptima π* para maximizar el retorno esperado descontado:
Rt=∑k=0∞γkrt+k+1
El estado st codifica toda la información necesaria para describir el entorno del juego:
st=(Configuracioˊn del Tablero,Fichas del Jugador,Fichas Eliminadas,Jugador Actual,Fase del Juego,Contador de Pasos)
El tamaño del espacio de observación es:
taman~o_obs=(nfilas×njugadores×npila_maˊx)+njugadores2+(2×njugadores)+4+1
Espacio de acciones discreto A = {A₀, A₁, ..., A₉}, que incluye:
- A₀-A₅: Acciones de selección de pila (válidas en la fase de selección de pila)
- A₆-A₉: Acciones de decisión de jugador/color (válidas en fases de selección de fichas, selección del siguiente jugador y eliminación de fichas)
La señal de recompensa en el paso de tiempo t se define como:
rt=min(℘,(α/nc)⋅t℘)
donde α ∈ (0,1] es un hiperparámetro que controla la tasa de decaimiento, y ℘ es la magnitud de la recompensa. Las acciones ilegales reciben una penalización de recompensa negativa fija (-℘), mientras que las acciones legales reciben una recompensa positiva de hasta +℘, cuyo valor disminuye con el número de pasos para promover eficiencia.
- Número de Jugadores: 4 jugadores
- Fichas Iniciales: 5 fichas del mismo color por jugador
- Número Máximo de Pilas: 6 pilas activas
- Condición de Victoria: Juego de suma cero, estructura de recompensas {0,0,0,ù}, ù ∈ N⁺
Se adoptó una configuración de aprendizaje acumulativo centralizado donde los cuatro agentes jugadores comparten una red de aprendizaje común y un búfer de reproducción. La arquitectura de red consta de dos capas ocultas completamente conectadas de 64 neuronas (activación ReLU), seguidas de una capa de salida lineal.
- Factor de descuento γ = 0.95
- Tasa de exploración inicial ε₀ = 1.0
- Tasa de decaimiento de exploración ε_decay = 0.995
- Tasa de exploración mínima ε_min = 0.01
- Tasa de aprendizaje = 0.001
- Tamaño de lote = 64
- Épocas de entrenamiento = 10,000 juegos
- Media y desviación estándar de recompensa acumulada
- Promedio de pasos por juego
- Rango de recompensas mínimo, máximo
- Rango de pasos mínimo, máximo
- DQN (Deep Q-Network)
- DDQN (Double DQN)
- Dueling DQN
- Línea base aleatoria (Random baseline)
| Agente | Recompensa (Media±Desv. Est.) | Rango de Recompensas Mín, Máx | Pasos (Media±Desv. Est.) | Rango de Pasos Mín, Máx |
|---|
| DQN | 103.40 ± 42.31 | -313.45, 189.24 | 61.16 ± 14.51 | 27, 162 |
| DDQN | 108.44 ± 44.95 | -279.13, 191.38 | 61.23 ± 14.18 | 28, 165 |
| Dueling DQN | 102.06 ± 49.62 | -319.76, 192.09 | 65.92 ± 15.94 | 28, 173 |
| Aleatorio | -8.78 ± 43.52 | -419.26, 94.19 | 65.24 ± 17.76 | 29, 174 |
- Rendimiento: Todos los agentes de DRL superan consistentemente la línea base aleatoria, alcanzando aproximadamente la mitad de la recompensa teórica máxima (≈200)
- Características de Convergencia: DDQN logra la convergencia más estable y la recompensa promedio más alta, validando los beneficios de la estimación dual para mitigar la sobreestimación de valores Q en juegos a largo plazo
- Dinámicas de Aprendizaje: En la fase de entrenamiento temprano (<500 juegos), los agentes muestran una varianza de recompensa significativa; después de aproximadamente 2000 juegos, todos los agentes de DRL muestran una convergencia más suave
El proceso de entrenamiento se divide en tres etapas:
- Etapa de Exploración (0-500 juegos): Alta varianza, acciones ilegales frecuentes
- Etapa de Aprendizaje (500-2000 juegos): Dominio gradual de reglas, aumento constante de recompensas
- Etapa de Convergencia (>2000 juegos): Recompensas estables en el rango 100-120, con ocasionales descensos exploratorios
- Puntos de Referencia Tradicionales: Go y StarCraft II se centran principalmente en competencia pura o cooperación
- Juegos Sociales: Diplomacy y similares implican negociación pero dependen de comunicación explícita
- Aplicaciones de Teoría de Juegos: Aplicación de resolución de equilibrio de Nash en sistemas multi-agente
- Serie AlphaGo: Avances en juegos de información perfecta
- Aprendizaje Multi-Agente: Entrenamiento de auto-juego y diversidad de estrategias
- Métodos Basados en Funciones de Valor: Aplicación de DQN y sus variantes en espacios de acciones discretas
Este artículo introduce por primera vez a SLS como punto de referencia computacional, llenando un vacío en la investigación de dinámicas de formación de coaliciones y traiciones.
- Los métodos clásicos basados en valores pueden aprender las reglas centrales de SLS y estrategias parciales, logrando un rendimiento estable pero subóptimo
- La alta varianza en recompensas refleja sensibilidad a la inicialización y exploración
- Las acciones dependientes del contexto exponen limitaciones en la estimación de valores a corto plazo
- SLS se establece exitosamente como un punto de referencia de MARL consciente de negociación
- Limitaciones Estratégicas: Los agentes tienden a adoptar comportamientos reactivos en lugar de estratégicos
- Cumplimiento de Reglas: A pesar del enmascaramiento dinámico de acciones, aún ejecutan ocasionalmente acciones ilegales
- Razonamiento a Largo Plazo: Dificultades con espacios de acciones combinatorios y dependencias de recompensas retrasadas
- Dinámicas de Coalición: Incapacidad para capturar completamente estrategias complejas de formación de coaliciones y traiciones
- Mejoras Arquitectónicas: Integración de marcos actor-crítico y conscientes de coaliciones
- Mejora Estratégica: Fortalecimiento del razonamiento a largo plazo y cumplimiento de reglas
- Dinámicas Sociales: Desarrollo de capacidades de negociación, coalición y engaño
- Análisis Teórico: Combinación de razonamiento de teoría de juegos con aprendizaje profundo
- Punto de Referencia Innovador: Primera introducción de SLS a MARL, llenando un vacío importante en la investigación de dinámicas de coalición y traición
- Marco Completo: Proporciona un marco computacional completo con GUI, promoviendo investigación reproducible
- Evaluación Sistemática: Pruebas exhaustivas de múltiples métodos DRL clásicos
- Contribución Teórica: Formalización clara de la variante de suma cero, resolviendo incompletitudes en la formalización original
- Limitaciones Metodológicas: Solo prueba métodos clásicos basados en valores, sin exploración de algoritmos MARL más avanzados
- Configuración Simplificada: Eliminación de mecanismos de negociación explícita, potencialmente perdiendo características centrales de SLS
- Cuellos de Botella de Rendimiento: Los agentes aún ejecutan acciones ilegales, exponiendo insuficiencias de métodos fundamentales
- Análisis Teórico Insuficiente: Falta de análisis profundo de propiedades de teoría de juegos de SLS
- Valor Académico: Proporciona nuevas direcciones de investigación y punto de referencia para la comunidad de MARL
- Significado Práctico: El lanzamiento de código abierto del marco promoverá investigación posterior
- Contribución Metodológica: Demuestra cómo convertir juegos estratégicos complejos en entornos amigables con ML
- Inspiración de Limitaciones: Revela insuficiencias del RL clásico en juegos sociales complejos, guiando futuras investigaciones
- Investigación de MARL: Desarrollo de algoritmos para dinámicas de formación de coaliciones y traiciones
- Aplicaciones de Teoría de Juegos: Modelos computacionales para negociación multi-parte y razonamiento estratégico
- IA Social: Modelado de comportamientos de confianza, engaño y cooperación
- Herramienta Educativa: Demostración pedagógica de teoría de juegos y sistemas multi-agente
- Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
- Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
- FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
- Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature
Este artículo, al introducir SLS como nuevo punto de referencia de MARL, proporciona una plataforma valiosa para investigar la formación de coaliciones y engaño estratégico. Aunque los resultados actuales demuestran las limitaciones de los métodos clásicos, esto precisamente destaca el carácter desafiante y el valor investigativo de este punto de referencia, señalando la dirección para el desarrollo futuro de algoritmos de aprendizaje multi-agente más avanzados.