2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame

academic

Les grands modèles de langage peuvent-ils maîtriser les jeux de cartes complexes ?

Informations de base

ID de l'article : 2509.01328
Titre : Can Large Language Models Master Complex Card Games?
Auteurs : Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
Classification : cs.CL
Conférence de publication : NeurIPS 2025 (39e Conférence sur les systèmes de traitement de l'information neuronale)
Lien de l'article : https://arxiv.org/abs/2509.01328
Lien du code : https://github.com/THUDM/LLM4CardGame

Résumé

Les jeux complexes ont longtemps servi de référence importante pour tester les progrès des algorithmes d'intelligence artificielle. AlphaGo, AlphaZero et MuZero ont vaincu les meilleurs joueurs humains aux échecs et au jeu de go, suscitant une attention sociétale considérable envers l'IA. Parallèlement, les grands modèles de langage (LLMs) ont démontré des capacités exceptionnelles dans diverses tâches, ce qui soulève la question de savoir si les LLMs peuvent réussir de manière similaire dans les jeux complexes. Cet article explore le potentiel des LLMs à maîtriser les jeux de cartes complexes. L'étude évalue systématiquement la capacité d'apprentissage des LLMs dans huit jeux de cartes différents, évalue l'impact de l'ajustement fin sur des données de jeu de haute qualité, et teste la capacité des modèles à maîtriser ces jeux tout en conservant leurs capacités générales.

Contexte et motivation de la recherche

Définition du problème

La question centrale que cette recherche vise à résoudre est : Les grands modèles de langage peuvent-ils maîtriser les jeux de cartes complexes comme le feraient les IA spécialisées dans les jeux ?

Importance

Exploration des limites des capacités de l'IA : Les jeux complexes constituent un scénario important pour tester les limites des algorithmes d'IA, comme l'ont démontré Deep Blue et la série AlphaGo
Évaluation de l'intelligence générale : Comparée aux IA spécialisées dans les jeux, la capacité des LLMs en tant qu'apprenants généraux à maîtriser les jeux présente une valeur de recherche plus importante
Capacité d'apprentissage multitâche : Évaluer si les LLMs peuvent maîtriser simultanément plusieurs jeux complexes sans nécessiter d'architectures réseau spécialisées

Limitations des approches existantes

Évaluation insuffisante : Les recherches existantes adoptent principalement des méthodes basées sur les invites, sans évaluer pleinement les capacités d'apprentissage des LLMs
Complexité insuffisante des tâches : Les jeux évalués présentent une complexité relativement faible, incapable de tester complètement les limites d'apprentissage des LLMs
Limitation aux jeux uniques : Absence de recherche systématique sur la capacité des LLMs à maîtriser simultanément plusieurs jeux complexes

Motivation de la recherche

Inspirée par le succès de la série AlphaGo, cette recherche explore si les LLMs peuvent maîtriser les jeux de cartes complexes en apprenant à partir de données de trajectoires de jeu de haute qualité, et évalue les avantages des LLMs en tant qu'apprenants généraux.

Contributions principales

Première proposition d'un cadre d'évaluation complet de la capacité d'apprentissage des LLMs dans plusieurs jeux de complexité élevée
Construction d'un ensemble de données d'entraînement de grande taille et de haute qualité contenant huit jeux de cartes complexes, évitant les coûts de calcul élevés de l'apprentissage à partir de zéro
Évaluation systématique de la performance des LLMs selon trois dimensions clés : capacité de maîtrise d'un seul jeu, capacité d'apprentissage simultané de plusieurs jeux, capacité de conservation des capacités générales
Démonstration que les LLMs possèdent des capacités d'apprentissage et une polyvalence puissantes, pouvant maîtriser simultanément plusieurs jeux complexes sans modifier la structure du modèle

Explication détaillée de la méthode

Définition de la tâche

Entrée : Informations d'état du jeu (cartes en main, historique des actions, actions légales, etc.) Sortie : Décision d'action de jeu au format JSON Contraintes : L'action doit être sélectionnée parmi l'ensemble des actions légales

Sélection des jeux et préparation des données

Critères de sélection des jeux

Huit jeux de cartes sont sélectionnés selon trois dimensions :

Popularité : Degré de popularité du jeu
Complexité : Mesurée par le nombre d'ensembles d'information et la taille moyenne des ensembles d'information
Disponibilité des données : Existence de modèles d'IA puissants ou de données de haute qualité

Jeux sélectionnés

Jeux de complexité élevée : Dou Dizhu, Guandian, Mahjong japonais
Jeux de complexité moyenne : UNO, Gin Rummy
Jeux de poker : Leduc Hold'em, Texas Hold'em en limite, Texas Hold'em sans limite

Processus de génération de données

Génération de trajectoires

Modèle enseignant : Utilisation d'IA de jeu puissante (comme DouZero, DanZero) ou de données d'experts
Modèle adverse : Modèle basé sur des règles, modèle aléatoire ou autres modèles d'IA
Nombre de jeux : Ajusté selon la complexité du jeu, variant de 6k à 400k parties

Filtrage des données

Filtrage des gagnants : Conservation uniquement des paires observation-action du côté gagnant
Filtrage sélectif : Conservation uniquement des échantillons où le nombre d'actions légales est supérieur à 1

Génération de données d'instruction

Conception de modèles d'invite spécifiques au jeu, incluant :

Introduction au jeu : Règles et objectifs
Données d'état : Cartes en main, cartes communes, historique des actions, actions légales
Format de sortie : Exigences de format JSON

Stratégie d'entraînement du modèle

Sélection du modèle

Modèles de types multiples : Qwen2.5, Llama3.1, GLM4
Modèles multi-échelles : De 0,5B à 14B paramètres

Configuration d'entraînement

Méthode d'ajustement fin : Ajustement fin LoRA (rank=8, alpha=16)
Taux d'apprentissage : Pic de 1e-4, planification en cosinus
Taille du lot : 128
Nombre d'épochs : 1 epoch

Configuration expérimentale

Échelle des données

Jeu	Nombre de joueurs	Modèle enseignant	Nombre de parties	Nombre moyen d'étapes	Données d'entraînement
Dou Dizhu	3	DouZero	200k	37,31	1 000k
Guandian	4	DanZero	6k	311,25	1 000k
Mahjong japonais	4	Données d'experts	7k	656,92	1 000k
UNO	2	Modèle basé sur des règles	50k	42,33	400k
Gin Rummy	2	Modèle basé sur des règles	50k	52,14	400k

Métriques d'évaluation

Dou Dizhu : Taux de victoire
Guandian : Taux de victoire par tour
Autres jeux : Score de récompense (basé sur le classement ou le cadre RLCard)

Conception expérimentale

RQ1 : Évaluation de la capacité de maîtrise d'un seul jeu
RQ2 : Évaluation de la capacité d'apprentissage simultané de plusieurs jeux
RQ3 : Évaluation de la conservation des capacités générales

Résultats expérimentaux

Résultats principaux

RQ1 : Capacité de maîtrise d'un seul jeu

Dou Dizhu : Qwen2.5-7B atteint un taux de victoire de 80,6 %, proche de la performance de DouZero
Guandian : Les trois modèles atteignent environ 63 % de taux de victoire par tour, proche de DanZero
Mahjong japonais : Atteint une performance comparable à celle de l'IA puissante Mortal

Impact de la taille du modèle

0,5B à 7B : Les performances s'améliorent avec l'augmentation du nombre de paramètres
Anomalie du modèle 14B : Les performances diminuent en fait dans Dou Dizhu, l'analyse révèle un déséquilibre dans l'apprentissage des rôles

RQ2 : Apprentissage simultané de plusieurs jeux

Comparaison des modèles API :

DeepSeek-R1 affiche les meilleures performances, avec les scores les plus élevés dans 3 jeux
Les modèles ajustés fins surpassent significativement les modèles API dans les jeux complexes (Dou Dizhu, Guandian, Mahjong)

Influence mutuelle entre jeux :

Transfert positif : Jeux aux règles similaires (Dou Dizhu ↔ Guandian, entre les trois jeux de poker)
Interférence négative : Conflit entre jeux aux règles très différentes

RQ3 : Conservation des capacités générales

Diminution des capacités :

MMLU-Pro : 47,95 → 44,74 (Llama3.1)
Math-500 : 46,60 → 35,20 (Llama3.1)
HumanEval : 70,73 → 60,98 (Llama3.1)

Récupération des capacités : Ajustement fin supplémentaire avec 20k données de connaissances, 20k données mathématiques, 20k données de programmation et 8k données de jeu :

MMLU-Pro : 44,74 → 45,18
Math-500 : 35,20 → 47,20
HumanEval : 60,98 → 65,24

Expériences d'ablation

Impact de la quantité de données

Avec l'augmentation des données d'entraînement, la performance du modèle s'améliore continuellement dans les jeux complexes, indiquant que les données de haute qualité sont essentielles pour que les LLMs maîtrisent les jeux complexes.

Comparaison des types de modèles

Qwen2.5 et Llama3.1 affichent des performances similaires dans la plupart des jeux
GLM4 affiche des performances médiocres dans Dou Dizhu, principalement en raison d'un déséquilibre dans l'apprentissage des rôles

Analyse de cas

Apprentissage des rôles dans Dou Dizhu

Découverte que GLM4 et le modèle 14B affichent d'excellentes performances dans le rôle de propriétaire, mais une performance significativement réduite dans le rôle de paysan, analyse des raisons :

Problèmes de qualité des données : Lorsque les paysans gagnent, les données des deux paysans sont conservées, mais la victoire peut être principalement attribuée à un seul paysan
Déséquilibre d'apprentissage : Le modèle se concentre davantage sur l'apprentissage du rôle de propriétaire

Travaux connexes

Développement de l'IA dans les jeux

Méthodes traditionnelles : De Deep Blue à la série AlphaGo, démontrant les percées de l'IA dans les jeux complexes
Apprentissage par renforcement : AlphaZero, MuZero et autres atteignant des niveaux surhumains par auto-jeu

Recherche sur les capacités de jeu des LLM

Recherches existantes : Principalement concentrées sur l'évaluation des méthodes d'invite pour le poker et le blackjack
Limitations : Absence d'évaluation approfondie des capacités d'apprentissage des LLMs, complexité insuffisante des jeux

Avantages de cet article

Complexité plus élevée : Les jeux sélectionnés possèdent des espaces d'état et d'action plus importants
Évaluation des capacités d'apprentissage : Évaluation des véritables capacités d'apprentissage par ajustement fin plutôt que dépendance aux connaissances pré-entraînées
Recherche systématique : Évaluation complète multi-jeux et multi-dimensions

Conclusions et discussion

Conclusions principales

Les LLMs possèdent la capacité de maîtriser les jeux de cartes complexes : L'ajustement fin sur des données de haute qualité peut approcher la performance des IA spécialisées dans les jeux
L'apprentissage multi-jeux suit des régularités : Transfert positif entre jeux aux règles similaires, interférence négative entre jeux très différents
Les capacités générales peuvent être récupérées : Bien que l'ajustement fin pour les jeux endommage les capacités générales, cela peut être atténué par l'entraînement mixte

Limitations

Vitesse d'inférence : Le temps d'inférence des LLMs est plus long que celui des IA spécialisées dans les jeux
Dépendance aux données : Nécessite une grande quantité de données de jeu de haute qualité
Équilibre des rôles : Existence de problèmes de déséquilibre d'apprentissage dans les jeux multi-rôles
Ressources de calcul : L'entraînement et l'inférence nécessitent des ressources GPU importantes

Directions futures

Optimisation de l'efficacité : Recherche de méthodes d'ajustement fin et d'inférence plus efficaces
Auto-jeu : Exploration de la capacité d'auto-jeu des LLMs
Plus de jeux : Extension à plus de types de jeux complexes
Analyse théorique : Compréhension approfondie des mécanismes de transfert de connaissances entre jeux

Évaluation approfondie

Points forts

Importance du problème : L'étude des capacités des LLMs dans les jeux complexes possède une valeur théorique et pratique importante
Complétude expérimentale : Évaluation systématique de huit jeux, trois questions de recherche, et modèles multiples
Innovativité de la méthode : L'approche d'éviter l'entraînement à partir de zéro en utilisant des données de haute qualité générées par des IA puissantes est novatrice
Pouvoir de conviction des résultats : Atteinte de performances proches des IA spécialisées dans plusieurs jeux complexes
Analyse approfondie : Analyse détaillée des phénomènes anormaux (par exemple, performance inférieure du modèle 14B)

Insuffisances

Limitation des types de jeux : Limité aux jeux de cartes, ne couvrant pas d'autres types de jeux complexes
Analyse théorique insuffisante : Absence d'explication théorique sur les raisons pour lesquelles les LLMs peuvent maîtriser les jeux complexes
Analyse des coûts de calcul : Bien que les ressources de calcul soient mentionnées, manque de comparaison détaillée avec les IA spécialisées
Capacité de généralisation : Absence de test de performance sur des variantes de jeux non vues

Impact

Contribution académique : Fournit des preuves importantes pour l'application des LLMs dans les tâches de décision complexe
Valeur pratique : Démontre le potentiel des LLMs en tant qu'IA générale pour les jeux
Reproductibilité : Fourniture de code et de données complets, facilitant les recherches ultérieures
Signification inspirante : Fournit une référence pour l'application des LLMs dans d'autres domaines de décision complexe

Scénarios applicables

Développement d'IA pour jeux : Fournit une nouvelle approche pour les scénarios nécessitant un développement rapide d'IA pour plusieurs jeux
Apprentissage multitâche : Fournit une référence pour l'étude de la capacité d'apprentissage multitâche des LLMs
Systèmes de décision : Fournit une référence méthodologique pour le développement de systèmes de décision complexe
Évaluation des capacités de l'IA : Fournit un nouvel outil pour évaluer la capacité de raisonnement complexe des systèmes d'IA généraux

Références

Cet article cite 46 références importantes couvrant l'évolution de l'IA dans les jeux, la recherche sur les grands modèles de langage, les méthodes d'apprentissage par renforcement et d'autres domaines importants, fournissant une base théorique solide pour la recherche.