2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame

academic

¿Pueden los Grandes Modelos de Lenguaje Dominar Juegos de Cartas Complejos?

Información Básica

ID del Artículo: 2509.01328
Título: Can Large Language Models Master Complex Card Games?
Autores: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
Clasificación: cs.CL
Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2509.01328
Enlace del Código: https://github.com/THUDM/LLM4CardGame

Resumen

Los juegos complejos han sido durante mucho tiempo un punto de referencia importante para evaluar el progreso de los algoritmos de inteligencia artificial. AlphaGo, AlphaZero y MuZero derrotaron a los mejores jugadores humanos en ajedrez y Go, generando una amplia atención social sobre la IA. Simultáneamente, los grandes modelos de lenguaje (LLMs) han demostrado capacidades excepcionales en diversas tareas, lo que plantea la pregunta de si los LLMs pueden lograr un éxito similar en juegos complejos. Este artículo explora el potencial de los LLMs para dominar juegos de cartas complejos. La investigación evalúa sistemáticamente la capacidad de aprendizaje de los LLMs en ocho juegos de cartas diferentes, evalúa el impacto del ajuste fino en datos de juegos de alta calidad, y examina la capacidad del modelo para mantener habilidades generales mientras domina estos juegos.

Contexto e Motivación de la Investigación

Definición del Problema

La pregunta central que esta investigación busca responder es: ¿Pueden los grandes modelos de lenguaje dominar juegos de cartas complejos de la misma manera que las IA especializadas en juegos?

Importancia

Exploración de los Límites de la IA: Los juegos complejos son escenarios importantes para probar los límites de los algoritmos de IA, como lo demuestran Deep Blue y la serie AlphaGo
Evaluación de la Inteligencia General: En comparación con las IA especializadas en juegos, la capacidad de los LLMs como aprendices generales para dominar juegos tiene un valor investigativo más significativo
Capacidad de Aprendizaje Multitarea: Evaluar si los LLMs pueden dominar simultáneamente múltiples juegos complejos sin requerir arquitecturas de red especialmente diseñadas

Limitaciones de los Métodos Existentes

Evaluación Insuficiente: La investigación existente utiliza principalmente métodos basados en indicaciones, sin evaluar completamente la capacidad de aprendizaje de los LLMs
Complejidad de Tareas Insuficiente: Los juegos evaluados tienen una complejidad relativamente baja, lo que no permite probar completamente los límites de aprendizaje de los LLMs
Limitaciones de Juegos Individuales: Falta investigación sistemática sobre la capacidad de los LLMs para dominar simultáneamente múltiples juegos complejos

Motivación de la Investigación

Inspirados por el éxito de la serie AlphaGo, exploramos si los LLMs pueden dominar juegos de cartas complejos mediante el aprendizaje de datos de trayectorias de juegos de alta calidad, y evaluamos sus ventajas como aprendices generales.

Contribuciones Principales

Propuesta por primera vez de un marco de evaluación integral para la capacidad de aprendizaje de los LLMs en múltiples juegos de alta complejidad
Construcción de un conjunto de datos de entrenamiento de gran escala y alta calidad que contiene ocho juegos de cartas complejos, evitando el alto costo computacional del aprendizaje desde cero
Evaluación sistemática del desempeño de los LLMs en tres dimensiones clave: capacidad de dominio de juegos individuales, capacidad de aprendizaje simultáneo de múltiples juegos, capacidad de mantenimiento de habilidades generales
Demostración de que los LLMs poseen una fuerte capacidad de aprendizaje y versatilidad, pudiendo dominar simultáneamente múltiples juegos complejos sin cambiar la estructura del modelo

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Información del estado del juego (cartas en mano, acciones históricas, acciones legales, etc.) Salida: Decisión de acción de juego en formato JSON Restricciones: La acción debe seleccionarse del conjunto de acciones legales

Selección de Juegos y Preparación de Datos

Criterios de Selección de Juegos

Se seleccionaron ocho juegos de cartas basándose en tres dimensiones:

Popularidad: Grado de popularidad del juego
Complejidad: Medida por la cantidad de conjuntos de información y el tamaño promedio del conjunto de información
Disponibilidad de Datos: Disponibilidad de modelos de IA fuertes o datos de alta calidad

Juegos Seleccionados

Juegos de Alta Complejidad: Dou Dizhu, Guan Dan, Mahjong Japonés
Juegos de Complejidad Media: UNO, Gin Rummy
Juegos de Póker: Leduc Hold'em, Límite Texas Hold'em, Texas Hold'em Sin Límite

Flujo de Generación de Datos

Generación de Trayectorias

Modelo Maestro: Utilización de IA de juegos fuertes (como DouZero, DanZero) o datos de expertos
Modelo Oponente: Modelos basados en reglas, modelos aleatorios u otros modelos de IA
Cantidad de Juegos: Ajustada según la complejidad del juego, variando de 6k a 400k partidas

Filtrado de Datos

Filtrado de Ganadores: Se conservan solo los pares observación-acción del lado ganador
Filtrado Selectivo: Se conservan solo muestras donde el número de acciones legales es mayor que 1

Generación de Datos de Instrucciones

Se diseñaron plantillas de indicaciones específicas del juego, que incluyen:

Introducción del Juego: Reglas y objetivos
Datos de Estado: Cartas en mano, cartas comunitarias, acciones históricas, acciones legales
Formato de Salida: Requisitos de formato JSON

Estrategia de Entrenamiento del Modelo

Selección de Modelos

Modelos de Múltiples Tipos: Qwen2.5, Llama3.1, GLM4
Modelos de Múltiples Escalas: De 0.5B a 14B parámetros

Configuración de Entrenamiento

Método de Ajuste Fino: Ajuste fino LoRA (rank=8, alpha=16)
Tasa de Aprendizaje: Pico de 1e-4, programación de coseno
Tamaño de Lote: 128
Épocas de Entrenamiento: 1 época

Configuración Experimental

Escala de Datos

Juego	Número de Jugadores	Modelo Maestro	Partidas	Pasos Promedio	Datos de Entrenamiento
Dou Dizhu	3	DouZero	200k	37.31	1,000k
Guan Dan	4	DanZero	6k	311.25	1,000k
Mahjong Japonés	4	Datos de Expertos	7k	656.92	1,000k
UNO	2	Modelo Basado en Reglas	50k	42.33	400k
Gin Rummy	2	Modelo Basado en Reglas	50k	52.14	400k

Métricas de Evaluación

Dou Dizhu: Tasa de victoria
Guan Dan: Tasa de victoria por ronda
Otros Juegos: Puntuación de recompensa (basada en clasificación o marco RLCard)

Diseño Experimental

RQ1: Evaluación de la capacidad de dominio de juegos individuales
RQ2: Evaluación de la capacidad de aprendizaje simultáneo de múltiples juegos
RQ3: Evaluación del mantenimiento de habilidades generales

Resultados Experimentales

Resultados Principales

RQ1: Capacidad de Dominio de Juegos Individuales

Dou Dizhu: Qwen2.5-7B alcanzó una tasa de victoria del 80.6%, cercana al desempeño de DouZero
Guan Dan: Los tres tipos de modelos alcanzaron aproximadamente el 63% de tasa de victoria por ronda, cercana a DanZero
Mahjong Japonés: Alcanzó un desempeño comparable al de la IA fuerte Mortal

Impacto del Tamaño del Modelo

0.5B a 7B: El desempeño mejora con el aumento de parámetros
Anomalía del Modelo de 14B: El desempeño en Dou Dizhu disminuyó, análisis reveló que fue causado por desequilibrio en el aprendizaje de roles

RQ2: Aprendizaje Simultáneo de Múltiples Juegos

Comparación de Modelos API:

DeepSeek-R1 mostró el mejor desempeño, obteniendo la puntuación más alta en 3 juegos
Los modelos ajustados finamente superaron significativamente a los modelos API en juegos complejos (Dou Dizhu, Guan Dan, Mahjong)

Influencia Mutua Entre Juegos:

Transferencia Positiva: Juegos con reglas similares (Dou Dizhu ↔ Guan Dan, entre los tres juegos de póker)
Interferencia Negativa: Conflicto entre juegos con diferencias de reglas significativas

RQ3: Mantenimiento de Habilidades Generales

Disminución de Capacidades:

MMLU-Pro: 47.95→44.74 (Llama3.1)
Math-500: 46.60→35.20 (Llama3.1)
HumanEval: 70.73→60.98 (Llama3.1)

Recuperación de Capacidades: Mediante ajuste fino adicional con 20k datos de conocimiento, 20k datos matemáticos, 20k datos de programación y 8k datos de juegos:

MMLU-Pro: 44.74→45.18
Math-500: 35.20→47.20
HumanEval: 60.98→65.24

Experimentos de Ablación

Impacto de la Cantidad de Datos

Con el aumento de datos de entrenamiento, el desempeño del modelo en juegos complejos mejora continuamente, demostrando que los datos de alta calidad son cruciales para que los LLMs dominen juegos complejos.

Comparación de Tipos de Modelos

Qwen2.5 y Llama3.1 mostraron desempeño similar en la mayoría de juegos
GLM4 mostró desempeño inferior en Dou Dizhu, principalmente debido a desequilibrio en el aprendizaje de roles

Análisis de Casos

Aprendizaje de Roles en Dou Dizhu

Se descubrió que GLM4 y el modelo de 14B mostraron un desempeño excepcional en el rol de terrateniente, pero un desempeño significativamente inferior en el rol de campesino, con análisis de causas:

Problemas de Calidad de Datos: Cuando los campesinos ganan, se conservan los datos de ambos campesinos, pero la victoria puede ser principalmente contribuida por un campesino
Desequilibrio de Aprendizaje: El modelo enfatiza más el aprendizaje del rol de terrateniente

Trabajo Relacionado

Desarrollo de IA en Juegos

Métodos Tradicionales: Desde Deep Blue hasta la serie AlphaGo, demostrando avances de la IA en juegos complejos
Aprendizaje por Refuerzo: AlphaZero, MuZero y otros alcanzan niveles sobrehumanos mediante auto-juego

Investigación de Capacidades de Juego de LLM

Investigación Existente: Principalmente enfocada en evaluación de métodos de indicación en juegos como póker y blackjack
Limitaciones: Falta de evaluación profunda de la capacidad de aprendizaje de los LLMs, complejidad de juegos insuficiente

Ventajas de Este Artículo

Mayor Complejidad: Los juegos seleccionados poseen espacios de estado y acción más grandes
Evaluación de Capacidad de Aprendizaje: Evaluación de capacidad de aprendizaje real mediante ajuste fino en lugar de depender solo del conocimiento preentrenado
Investigación Sistemática: Evaluación integral de múltiples juegos y múltiples dimensiones

Conclusiones y Discusión

Conclusiones Principales

Los LLMs poseen la capacidad de dominar juegos de cartas complejos: Mediante ajuste fino con datos de alta calidad pueden acercarse al desempeño de las IA especializadas en juegos
Existen patrones en el aprendizaje de múltiples juegos: Existe transferencia positiva entre juegos con reglas similares e interferencia negativa entre juegos con diferencias significativas
Las habilidades generales pueden recuperarse: Aunque el ajuste fino para juegos daña las habilidades generales, esto puede mitigarse mediante entrenamiento mixto

Limitaciones

Velocidad de Inferencia: El tiempo de inferencia de los LLMs es mayor que el de las IA especializadas en juegos
Dependencia de Datos: Requiere grandes cantidades de datos de juegos de alta calidad
Equilibrio de Roles: Existe problema de desequilibrio de aprendizaje en juegos con múltiples roles
Recursos Computacionales: El entrenamiento e inferencia requieren grandes recursos de GPU

Direcciones Futuras

Optimización de Eficiencia: Investigación de métodos de ajuste fino e inferencia más eficientes
Auto-Juego: Exploración de la capacidad de auto-juego de los LLMs
Más Juegos: Extensión a más tipos de juegos complejos
Análisis Teórico: Comprensión profunda de los mecanismos de transferencia de conocimiento entre juegos

Evaluación Profunda

Fortalezas

Importancia del Problema: La investigación de la capacidad de los LLMs en juegos complejos tiene valor teórico y práctico significativo
Integralidad Experimental: Evaluación sistemática de ocho juegos, tres preguntas de investigación, múltiples modelos
Innovación Metodológica: El enfoque de evitar entrenamiento desde cero utilizando datos de alta calidad generados por IA fuerte es novedoso
Convincencia de Resultados: Alcanzó desempeño cercano al de las IA especializadas en múltiples juegos complejos
Análisis Profundo: Análisis profundo de fenómenos anómalos (como desempeño inferior del modelo de 14B)

Insuficiencias

Limitación de Tipos de Juegos: Limitado a juegos de cartas, sin cubrir otros tipos de juegos complejos
Análisis Teórico Insuficiente: Falta de explicación teórica sobre por qué los LLMs pueden dominar juegos complejos
Análisis de Costo Computacional: Aunque se menciona el costo de recursos, falta comparación detallada con IA especializada
Capacidad de Generalización: No se probó el desempeño en variantes de juegos no vistos

Impacto

Contribución Académica: Proporciona evidencia importante para la aplicación de LLMs en tareas de decisión compleja
Valor Práctico: Demuestra el potencial de los LLMs como IA de juegos universal
Reproducibilidad: Proporciona código y datos completos, facilitando investigación posterior
Significado Inspirador: Proporciona referencia para la aplicación de LLMs en otros campos de decisión compleja

Escenarios Aplicables

Desarrollo de IA para Juegos: Proporciona nuevas ideas para escenarios que requieren desarrollo rápido de IA para múltiples juegos
Aprendizaje Multitarea: Proporciona punto de referencia para investigación de capacidad de aprendizaje multitarea de LLMs
Sistemas de Decisión: Proporciona referencia metodológica para desarrollo de sistemas de decisión compleja
Evaluación de Capacidades de IA: Proporciona nueva herramienta para evaluar la capacidad de razonamiento complejo de sistemas de IA universal

Referencias

Este artículo cita 46 referencias importantes, cubriendo el desarrollo histórico de IA en juegos, investigación de grandes modelos de lenguaje, métodos de aprendizaje por refuerzo y otros campos importantes, proporcionando una base teórica sólida para la investigación.