2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.
Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic

¿Pueden los Grandes Modelos de Lenguaje Dominar Juegos de Cartas Complejos?

Información Básica

  • ID del Artículo: 2509.01328
  • Título: Can Large Language Models Master Complex Card Games?
  • Autores: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
  • Clasificación: cs.CL
  • Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2509.01328
  • Enlace del Código: https://github.com/THUDM/LLM4CardGame

Resumen

Los juegos complejos han sido durante mucho tiempo un punto de referencia importante para evaluar el progreso de los algoritmos de inteligencia artificial. AlphaGo, AlphaZero y MuZero derrotaron a los mejores jugadores humanos en ajedrez y Go, generando una amplia atención social sobre la IA. Simultáneamente, los grandes modelos de lenguaje (LLMs) han demostrado capacidades excepcionales en diversas tareas, lo que plantea la pregunta de si los LLMs pueden lograr un éxito similar en juegos complejos. Este artículo explora el potencial de los LLMs para dominar juegos de cartas complejos. La investigación evalúa sistemáticamente la capacidad de aprendizaje de los LLMs en ocho juegos de cartas diferentes, evalúa el impacto del ajuste fino en datos de juegos de alta calidad, y examina la capacidad del modelo para mantener habilidades generales mientras domina estos juegos.

Contexto e Motivación de la Investigación

Definición del Problema

La pregunta central que esta investigación busca responder es: ¿Pueden los grandes modelos de lenguaje dominar juegos de cartas complejos de la misma manera que las IA especializadas en juegos?

Importancia

  1. Exploración de los Límites de la IA: Los juegos complejos son escenarios importantes para probar los límites de los algoritmos de IA, como lo demuestran Deep Blue y la serie AlphaGo
  2. Evaluación de la Inteligencia General: En comparación con las IA especializadas en juegos, la capacidad de los LLMs como aprendices generales para dominar juegos tiene un valor investigativo más significativo
  3. Capacidad de Aprendizaje Multitarea: Evaluar si los LLMs pueden dominar simultáneamente múltiples juegos complejos sin requerir arquitecturas de red especialmente diseñadas

Limitaciones de los Métodos Existentes

  1. Evaluación Insuficiente: La investigación existente utiliza principalmente métodos basados en indicaciones, sin evaluar completamente la capacidad de aprendizaje de los LLMs
  2. Complejidad de Tareas Insuficiente: Los juegos evaluados tienen una complejidad relativamente baja, lo que no permite probar completamente los límites de aprendizaje de los LLMs
  3. Limitaciones de Juegos Individuales: Falta investigación sistemática sobre la capacidad de los LLMs para dominar simultáneamente múltiples juegos complejos

Motivación de la Investigación

Inspirados por el éxito de la serie AlphaGo, exploramos si los LLMs pueden dominar juegos de cartas complejos mediante el aprendizaje de datos de trayectorias de juegos de alta calidad, y evaluamos sus ventajas como aprendices generales.

Contribuciones Principales

  1. Propuesta por primera vez de un marco de evaluación integral para la capacidad de aprendizaje de los LLMs en múltiples juegos de alta complejidad
  2. Construcción de un conjunto de datos de entrenamiento de gran escala y alta calidad que contiene ocho juegos de cartas complejos, evitando el alto costo computacional del aprendizaje desde cero
  3. Evaluación sistemática del desempeño de los LLMs en tres dimensiones clave: capacidad de dominio de juegos individuales, capacidad de aprendizaje simultáneo de múltiples juegos, capacidad de mantenimiento de habilidades generales
  4. Demostración de que los LLMs poseen una fuerte capacidad de aprendizaje y versatilidad, pudiendo dominar simultáneamente múltiples juegos complejos sin cambiar la estructura del modelo

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Información del estado del juego (cartas en mano, acciones históricas, acciones legales, etc.) Salida: Decisión de acción de juego en formato JSON Restricciones: La acción debe seleccionarse del conjunto de acciones legales

Selección de Juegos y Preparación de Datos

Criterios de Selección de Juegos

Se seleccionaron ocho juegos de cartas basándose en tres dimensiones:

  1. Popularidad: Grado de popularidad del juego
  2. Complejidad: Medida por la cantidad de conjuntos de información y el tamaño promedio del conjunto de información
  3. Disponibilidad de Datos: Disponibilidad de modelos de IA fuertes o datos de alta calidad

Juegos Seleccionados

  • Juegos de Alta Complejidad: Dou Dizhu, Guan Dan, Mahjong Japonés
  • Juegos de Complejidad Media: UNO, Gin Rummy
  • Juegos de Póker: Leduc Hold'em, Límite Texas Hold'em, Texas Hold'em Sin Límite

Flujo de Generación de Datos

Generación de Trayectorias

  1. Modelo Maestro: Utilización de IA de juegos fuertes (como DouZero, DanZero) o datos de expertos
  2. Modelo Oponente: Modelos basados en reglas, modelos aleatorios u otros modelos de IA
  3. Cantidad de Juegos: Ajustada según la complejidad del juego, variando de 6k a 400k partidas

Filtrado de Datos

  1. Filtrado de Ganadores: Se conservan solo los pares observación-acción del lado ganador
  2. Filtrado Selectivo: Se conservan solo muestras donde el número de acciones legales es mayor que 1

Generación de Datos de Instrucciones

Se diseñaron plantillas de indicaciones específicas del juego, que incluyen:

  • Introducción del Juego: Reglas y objetivos
  • Datos de Estado: Cartas en mano, cartas comunitarias, acciones históricas, acciones legales
  • Formato de Salida: Requisitos de formato JSON

Estrategia de Entrenamiento del Modelo

Selección de Modelos

  • Modelos de Múltiples Tipos: Qwen2.5, Llama3.1, GLM4
  • Modelos de Múltiples Escalas: De 0.5B a 14B parámetros

Configuración de Entrenamiento

  • Método de Ajuste Fino: Ajuste fino LoRA (rank=8, alpha=16)
  • Tasa de Aprendizaje: Pico de 1e-4, programación de coseno
  • Tamaño de Lote: 128
  • Épocas de Entrenamiento: 1 época

Configuración Experimental

Escala de Datos

JuegoNúmero de JugadoresModelo MaestroPartidasPasos PromedioDatos de Entrenamiento
Dou Dizhu3DouZero200k37.311,000k
Guan Dan4DanZero6k311.251,000k
Mahjong Japonés4Datos de Expertos7k656.921,000k
UNO2Modelo Basado en Reglas50k42.33400k
Gin Rummy2Modelo Basado en Reglas50k52.14400k

Métricas de Evaluación

  • Dou Dizhu: Tasa de victoria
  • Guan Dan: Tasa de victoria por ronda
  • Otros Juegos: Puntuación de recompensa (basada en clasificación o marco RLCard)

Diseño Experimental

  1. RQ1: Evaluación de la capacidad de dominio de juegos individuales
  2. RQ2: Evaluación de la capacidad de aprendizaje simultáneo de múltiples juegos
  3. RQ3: Evaluación del mantenimiento de habilidades generales

Resultados Experimentales

Resultados Principales

RQ1: Capacidad de Dominio de Juegos Individuales

  • Dou Dizhu: Qwen2.5-7B alcanzó una tasa de victoria del 80.6%, cercana al desempeño de DouZero
  • Guan Dan: Los tres tipos de modelos alcanzaron aproximadamente el 63% de tasa de victoria por ronda, cercana a DanZero
  • Mahjong Japonés: Alcanzó un desempeño comparable al de la IA fuerte Mortal

Impacto del Tamaño del Modelo

  • 0.5B a 7B: El desempeño mejora con el aumento de parámetros
  • Anomalía del Modelo de 14B: El desempeño en Dou Dizhu disminuyó, análisis reveló que fue causado por desequilibrio en el aprendizaje de roles

RQ2: Aprendizaje Simultáneo de Múltiples Juegos

Comparación de Modelos API:

  • DeepSeek-R1 mostró el mejor desempeño, obteniendo la puntuación más alta en 3 juegos
  • Los modelos ajustados finamente superaron significativamente a los modelos API en juegos complejos (Dou Dizhu, Guan Dan, Mahjong)

Influencia Mutua Entre Juegos:

  • Transferencia Positiva: Juegos con reglas similares (Dou Dizhu ↔ Guan Dan, entre los tres juegos de póker)
  • Interferencia Negativa: Conflicto entre juegos con diferencias de reglas significativas

RQ3: Mantenimiento de Habilidades Generales

Disminución de Capacidades:

  • MMLU-Pro: 47.95→44.74 (Llama3.1)
  • Math-500: 46.60→35.20 (Llama3.1)
  • HumanEval: 70.73→60.98 (Llama3.1)

Recuperación de Capacidades: Mediante ajuste fino adicional con 20k datos de conocimiento, 20k datos matemáticos, 20k datos de programación y 8k datos de juegos:

  • MMLU-Pro: 44.74→45.18
  • Math-500: 35.20→47.20
  • HumanEval: 60.98→65.24

Experimentos de Ablación

Impacto de la Cantidad de Datos

Con el aumento de datos de entrenamiento, el desempeño del modelo en juegos complejos mejora continuamente, demostrando que los datos de alta calidad son cruciales para que los LLMs dominen juegos complejos.

Comparación de Tipos de Modelos

  • Qwen2.5 y Llama3.1 mostraron desempeño similar en la mayoría de juegos
  • GLM4 mostró desempeño inferior en Dou Dizhu, principalmente debido a desequilibrio en el aprendizaje de roles

Análisis de Casos

Aprendizaje de Roles en Dou Dizhu

Se descubrió que GLM4 y el modelo de 14B mostraron un desempeño excepcional en el rol de terrateniente, pero un desempeño significativamente inferior en el rol de campesino, con análisis de causas:

  1. Problemas de Calidad de Datos: Cuando los campesinos ganan, se conservan los datos de ambos campesinos, pero la victoria puede ser principalmente contribuida por un campesino
  2. Desequilibrio de Aprendizaje: El modelo enfatiza más el aprendizaje del rol de terrateniente

Trabajo Relacionado

Desarrollo de IA en Juegos

  • Métodos Tradicionales: Desde Deep Blue hasta la serie AlphaGo, demostrando avances de la IA en juegos complejos
  • Aprendizaje por Refuerzo: AlphaZero, MuZero y otros alcanzan niveles sobrehumanos mediante auto-juego

Investigación de Capacidades de Juego de LLM

  • Investigación Existente: Principalmente enfocada en evaluación de métodos de indicación en juegos como póker y blackjack
  • Limitaciones: Falta de evaluación profunda de la capacidad de aprendizaje de los LLMs, complejidad de juegos insuficiente

Ventajas de Este Artículo

  1. Mayor Complejidad: Los juegos seleccionados poseen espacios de estado y acción más grandes
  2. Evaluación de Capacidad de Aprendizaje: Evaluación de capacidad de aprendizaje real mediante ajuste fino en lugar de depender solo del conocimiento preentrenado
  3. Investigación Sistemática: Evaluación integral de múltiples juegos y múltiples dimensiones

Conclusiones y Discusión

Conclusiones Principales

  1. Los LLMs poseen la capacidad de dominar juegos de cartas complejos: Mediante ajuste fino con datos de alta calidad pueden acercarse al desempeño de las IA especializadas en juegos
  2. Existen patrones en el aprendizaje de múltiples juegos: Existe transferencia positiva entre juegos con reglas similares e interferencia negativa entre juegos con diferencias significativas
  3. Las habilidades generales pueden recuperarse: Aunque el ajuste fino para juegos daña las habilidades generales, esto puede mitigarse mediante entrenamiento mixto

Limitaciones

  1. Velocidad de Inferencia: El tiempo de inferencia de los LLMs es mayor que el de las IA especializadas en juegos
  2. Dependencia de Datos: Requiere grandes cantidades de datos de juegos de alta calidad
  3. Equilibrio de Roles: Existe problema de desequilibrio de aprendizaje en juegos con múltiples roles
  4. Recursos Computacionales: El entrenamiento e inferencia requieren grandes recursos de GPU

Direcciones Futuras

  1. Optimización de Eficiencia: Investigación de métodos de ajuste fino e inferencia más eficientes
  2. Auto-Juego: Exploración de la capacidad de auto-juego de los LLMs
  3. Más Juegos: Extensión a más tipos de juegos complejos
  4. Análisis Teórico: Comprensión profunda de los mecanismos de transferencia de conocimiento entre juegos

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: La investigación de la capacidad de los LLMs en juegos complejos tiene valor teórico y práctico significativo
  2. Integralidad Experimental: Evaluación sistemática de ocho juegos, tres preguntas de investigación, múltiples modelos
  3. Innovación Metodológica: El enfoque de evitar entrenamiento desde cero utilizando datos de alta calidad generados por IA fuerte es novedoso
  4. Convincencia de Resultados: Alcanzó desempeño cercano al de las IA especializadas en múltiples juegos complejos
  5. Análisis Profundo: Análisis profundo de fenómenos anómalos (como desempeño inferior del modelo de 14B)

Insuficiencias

  1. Limitación de Tipos de Juegos: Limitado a juegos de cartas, sin cubrir otros tipos de juegos complejos
  2. Análisis Teórico Insuficiente: Falta de explicación teórica sobre por qué los LLMs pueden dominar juegos complejos
  3. Análisis de Costo Computacional: Aunque se menciona el costo de recursos, falta comparación detallada con IA especializada
  4. Capacidad de Generalización: No se probó el desempeño en variantes de juegos no vistos

Impacto

  1. Contribución Académica: Proporciona evidencia importante para la aplicación de LLMs en tareas de decisión compleja
  2. Valor Práctico: Demuestra el potencial de los LLMs como IA de juegos universal
  3. Reproducibilidad: Proporciona código y datos completos, facilitando investigación posterior
  4. Significado Inspirador: Proporciona referencia para la aplicación de LLMs en otros campos de decisión compleja

Escenarios Aplicables

  1. Desarrollo de IA para Juegos: Proporciona nuevas ideas para escenarios que requieren desarrollo rápido de IA para múltiples juegos
  2. Aprendizaje Multitarea: Proporciona punto de referencia para investigación de capacidad de aprendizaje multitarea de LLMs
  3. Sistemas de Decisión: Proporciona referencia metodológica para desarrollo de sistemas de decisión compleja
  4. Evaluación de Capacidades de IA: Proporciona nueva herramienta para evaluar la capacidad de razonamiento complejo de sistemas de IA universal

Referencias

Este artículo cita 46 referencias importantes, cubriendo el desarrollo histórico de IA en juegos, investigación de grandes modelos de lenguaje, métodos de aprendizaje por refuerzo y otros campos importantes, proporcionando una base teórica sólida para la investigación.