2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.
Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic

Les grands modèles de langage peuvent-ils maîtriser les jeux de cartes complexes ?

Informations de base

  • ID de l'article : 2509.01328
  • Titre : Can Large Language Models Master Complex Card Games?
  • Auteurs : Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
  • Classification : cs.CL
  • Conférence de publication : NeurIPS 2025 (39e Conférence sur les systèmes de traitement de l'information neuronale)
  • Lien de l'article : https://arxiv.org/abs/2509.01328
  • Lien du code : https://github.com/THUDM/LLM4CardGame

Résumé

Les jeux complexes ont longtemps servi de référence importante pour tester les progrès des algorithmes d'intelligence artificielle. AlphaGo, AlphaZero et MuZero ont vaincu les meilleurs joueurs humains aux échecs et au jeu de go, suscitant une attention sociétale considérable envers l'IA. Parallèlement, les grands modèles de langage (LLMs) ont démontré des capacités exceptionnelles dans diverses tâches, ce qui soulève la question de savoir si les LLMs peuvent réussir de manière similaire dans les jeux complexes. Cet article explore le potentiel des LLMs à maîtriser les jeux de cartes complexes. L'étude évalue systématiquement la capacité d'apprentissage des LLMs dans huit jeux de cartes différents, évalue l'impact de l'ajustement fin sur des données de jeu de haute qualité, et teste la capacité des modèles à maîtriser ces jeux tout en conservant leurs capacités générales.

Contexte et motivation de la recherche

Définition du problème

La question centrale que cette recherche vise à résoudre est : Les grands modèles de langage peuvent-ils maîtriser les jeux de cartes complexes comme le feraient les IA spécialisées dans les jeux ?

Importance

  1. Exploration des limites des capacités de l'IA : Les jeux complexes constituent un scénario important pour tester les limites des algorithmes d'IA, comme l'ont démontré Deep Blue et la série AlphaGo
  2. Évaluation de l'intelligence générale : Comparée aux IA spécialisées dans les jeux, la capacité des LLMs en tant qu'apprenants généraux à maîtriser les jeux présente une valeur de recherche plus importante
  3. Capacité d'apprentissage multitâche : Évaluer si les LLMs peuvent maîtriser simultanément plusieurs jeux complexes sans nécessiter d'architectures réseau spécialisées

Limitations des approches existantes

  1. Évaluation insuffisante : Les recherches existantes adoptent principalement des méthodes basées sur les invites, sans évaluer pleinement les capacités d'apprentissage des LLMs
  2. Complexité insuffisante des tâches : Les jeux évalués présentent une complexité relativement faible, incapable de tester complètement les limites d'apprentissage des LLMs
  3. Limitation aux jeux uniques : Absence de recherche systématique sur la capacité des LLMs à maîtriser simultanément plusieurs jeux complexes

Motivation de la recherche

Inspirée par le succès de la série AlphaGo, cette recherche explore si les LLMs peuvent maîtriser les jeux de cartes complexes en apprenant à partir de données de trajectoires de jeu de haute qualité, et évalue les avantages des LLMs en tant qu'apprenants généraux.

Contributions principales

  1. Première proposition d'un cadre d'évaluation complet de la capacité d'apprentissage des LLMs dans plusieurs jeux de complexité élevée
  2. Construction d'un ensemble de données d'entraînement de grande taille et de haute qualité contenant huit jeux de cartes complexes, évitant les coûts de calcul élevés de l'apprentissage à partir de zéro
  3. Évaluation systématique de la performance des LLMs selon trois dimensions clés : capacité de maîtrise d'un seul jeu, capacité d'apprentissage simultané de plusieurs jeux, capacité de conservation des capacités générales
  4. Démonstration que les LLMs possèdent des capacités d'apprentissage et une polyvalence puissantes, pouvant maîtriser simultanément plusieurs jeux complexes sans modifier la structure du modèle

Explication détaillée de la méthode

Définition de la tâche

Entrée : Informations d'état du jeu (cartes en main, historique des actions, actions légales, etc.) Sortie : Décision d'action de jeu au format JSON Contraintes : L'action doit être sélectionnée parmi l'ensemble des actions légales

Sélection des jeux et préparation des données

Critères de sélection des jeux

Huit jeux de cartes sont sélectionnés selon trois dimensions :

  1. Popularité : Degré de popularité du jeu
  2. Complexité : Mesurée par le nombre d'ensembles d'information et la taille moyenne des ensembles d'information
  3. Disponibilité des données : Existence de modèles d'IA puissants ou de données de haute qualité

Jeux sélectionnés

  • Jeux de complexité élevée : Dou Dizhu, Guandian, Mahjong japonais
  • Jeux de complexité moyenne : UNO, Gin Rummy
  • Jeux de poker : Leduc Hold'em, Texas Hold'em en limite, Texas Hold'em sans limite

Processus de génération de données

Génération de trajectoires

  1. Modèle enseignant : Utilisation d'IA de jeu puissante (comme DouZero, DanZero) ou de données d'experts
  2. Modèle adverse : Modèle basé sur des règles, modèle aléatoire ou autres modèles d'IA
  3. Nombre de jeux : Ajusté selon la complexité du jeu, variant de 6k à 400k parties

Filtrage des données

  1. Filtrage des gagnants : Conservation uniquement des paires observation-action du côté gagnant
  2. Filtrage sélectif : Conservation uniquement des échantillons où le nombre d'actions légales est supérieur à 1

Génération de données d'instruction

Conception de modèles d'invite spécifiques au jeu, incluant :

  • Introduction au jeu : Règles et objectifs
  • Données d'état : Cartes en main, cartes communes, historique des actions, actions légales
  • Format de sortie : Exigences de format JSON

Stratégie d'entraînement du modèle

Sélection du modèle

  • Modèles de types multiples : Qwen2.5, Llama3.1, GLM4
  • Modèles multi-échelles : De 0,5B à 14B paramètres

Configuration d'entraînement

  • Méthode d'ajustement fin : Ajustement fin LoRA (rank=8, alpha=16)
  • Taux d'apprentissage : Pic de 1e-4, planification en cosinus
  • Taille du lot : 128
  • Nombre d'épochs : 1 epoch

Configuration expérimentale

Échelle des données

JeuNombre de joueursModèle enseignantNombre de partiesNombre moyen d'étapesDonnées d'entraînement
Dou Dizhu3DouZero200k37,311 000k
Guandian4DanZero6k311,251 000k
Mahjong japonais4Données d'experts7k656,921 000k
UNO2Modèle basé sur des règles50k42,33400k
Gin Rummy2Modèle basé sur des règles50k52,14400k

Métriques d'évaluation

  • Dou Dizhu : Taux de victoire
  • Guandian : Taux de victoire par tour
  • Autres jeux : Score de récompense (basé sur le classement ou le cadre RLCard)

Conception expérimentale

  1. RQ1 : Évaluation de la capacité de maîtrise d'un seul jeu
  2. RQ2 : Évaluation de la capacité d'apprentissage simultané de plusieurs jeux
  3. RQ3 : Évaluation de la conservation des capacités générales

Résultats expérimentaux

Résultats principaux

RQ1 : Capacité de maîtrise d'un seul jeu

  • Dou Dizhu : Qwen2.5-7B atteint un taux de victoire de 80,6 %, proche de la performance de DouZero
  • Guandian : Les trois modèles atteignent environ 63 % de taux de victoire par tour, proche de DanZero
  • Mahjong japonais : Atteint une performance comparable à celle de l'IA puissante Mortal

Impact de la taille du modèle

  • 0,5B à 7B : Les performances s'améliorent avec l'augmentation du nombre de paramètres
  • Anomalie du modèle 14B : Les performances diminuent en fait dans Dou Dizhu, l'analyse révèle un déséquilibre dans l'apprentissage des rôles

RQ2 : Apprentissage simultané de plusieurs jeux

Comparaison des modèles API :

  • DeepSeek-R1 affiche les meilleures performances, avec les scores les plus élevés dans 3 jeux
  • Les modèles ajustés fins surpassent significativement les modèles API dans les jeux complexes (Dou Dizhu, Guandian, Mahjong)

Influence mutuelle entre jeux :

  • Transfert positif : Jeux aux règles similaires (Dou Dizhu ↔ Guandian, entre les trois jeux de poker)
  • Interférence négative : Conflit entre jeux aux règles très différentes

RQ3 : Conservation des capacités générales

Diminution des capacités :

  • MMLU-Pro : 47,95 → 44,74 (Llama3.1)
  • Math-500 : 46,60 → 35,20 (Llama3.1)
  • HumanEval : 70,73 → 60,98 (Llama3.1)

Récupération des capacités : Ajustement fin supplémentaire avec 20k données de connaissances, 20k données mathématiques, 20k données de programmation et 8k données de jeu :

  • MMLU-Pro : 44,74 → 45,18
  • Math-500 : 35,20 → 47,20
  • HumanEval : 60,98 → 65,24

Expériences d'ablation

Impact de la quantité de données

Avec l'augmentation des données d'entraînement, la performance du modèle s'améliore continuellement dans les jeux complexes, indiquant que les données de haute qualité sont essentielles pour que les LLMs maîtrisent les jeux complexes.

Comparaison des types de modèles

  • Qwen2.5 et Llama3.1 affichent des performances similaires dans la plupart des jeux
  • GLM4 affiche des performances médiocres dans Dou Dizhu, principalement en raison d'un déséquilibre dans l'apprentissage des rôles

Analyse de cas

Apprentissage des rôles dans Dou Dizhu

Découverte que GLM4 et le modèle 14B affichent d'excellentes performances dans le rôle de propriétaire, mais une performance significativement réduite dans le rôle de paysan, analyse des raisons :

  1. Problèmes de qualité des données : Lorsque les paysans gagnent, les données des deux paysans sont conservées, mais la victoire peut être principalement attribuée à un seul paysan
  2. Déséquilibre d'apprentissage : Le modèle se concentre davantage sur l'apprentissage du rôle de propriétaire

Travaux connexes

Développement de l'IA dans les jeux

  • Méthodes traditionnelles : De Deep Blue à la série AlphaGo, démontrant les percées de l'IA dans les jeux complexes
  • Apprentissage par renforcement : AlphaZero, MuZero et autres atteignant des niveaux surhumains par auto-jeu

Recherche sur les capacités de jeu des LLM

  • Recherches existantes : Principalement concentrées sur l'évaluation des méthodes d'invite pour le poker et le blackjack
  • Limitations : Absence d'évaluation approfondie des capacités d'apprentissage des LLMs, complexité insuffisante des jeux

Avantages de cet article

  1. Complexité plus élevée : Les jeux sélectionnés possèdent des espaces d'état et d'action plus importants
  2. Évaluation des capacités d'apprentissage : Évaluation des véritables capacités d'apprentissage par ajustement fin plutôt que dépendance aux connaissances pré-entraînées
  3. Recherche systématique : Évaluation complète multi-jeux et multi-dimensions

Conclusions et discussion

Conclusions principales

  1. Les LLMs possèdent la capacité de maîtriser les jeux de cartes complexes : L'ajustement fin sur des données de haute qualité peut approcher la performance des IA spécialisées dans les jeux
  2. L'apprentissage multi-jeux suit des régularités : Transfert positif entre jeux aux règles similaires, interférence négative entre jeux très différents
  3. Les capacités générales peuvent être récupérées : Bien que l'ajustement fin pour les jeux endommage les capacités générales, cela peut être atténué par l'entraînement mixte

Limitations

  1. Vitesse d'inférence : Le temps d'inférence des LLMs est plus long que celui des IA spécialisées dans les jeux
  2. Dépendance aux données : Nécessite une grande quantité de données de jeu de haute qualité
  3. Équilibre des rôles : Existence de problèmes de déséquilibre d'apprentissage dans les jeux multi-rôles
  4. Ressources de calcul : L'entraînement et l'inférence nécessitent des ressources GPU importantes

Directions futures

  1. Optimisation de l'efficacité : Recherche de méthodes d'ajustement fin et d'inférence plus efficaces
  2. Auto-jeu : Exploration de la capacité d'auto-jeu des LLMs
  3. Plus de jeux : Extension à plus de types de jeux complexes
  4. Analyse théorique : Compréhension approfondie des mécanismes de transfert de connaissances entre jeux

Évaluation approfondie

Points forts

  1. Importance du problème : L'étude des capacités des LLMs dans les jeux complexes possède une valeur théorique et pratique importante
  2. Complétude expérimentale : Évaluation systématique de huit jeux, trois questions de recherche, et modèles multiples
  3. Innovativité de la méthode : L'approche d'éviter l'entraînement à partir de zéro en utilisant des données de haute qualité générées par des IA puissantes est novatrice
  4. Pouvoir de conviction des résultats : Atteinte de performances proches des IA spécialisées dans plusieurs jeux complexes
  5. Analyse approfondie : Analyse détaillée des phénomènes anormaux (par exemple, performance inférieure du modèle 14B)

Insuffisances

  1. Limitation des types de jeux : Limité aux jeux de cartes, ne couvrant pas d'autres types de jeux complexes
  2. Analyse théorique insuffisante : Absence d'explication théorique sur les raisons pour lesquelles les LLMs peuvent maîtriser les jeux complexes
  3. Analyse des coûts de calcul : Bien que les ressources de calcul soient mentionnées, manque de comparaison détaillée avec les IA spécialisées
  4. Capacité de généralisation : Absence de test de performance sur des variantes de jeux non vues

Impact

  1. Contribution académique : Fournit des preuves importantes pour l'application des LLMs dans les tâches de décision complexe
  2. Valeur pratique : Démontre le potentiel des LLMs en tant qu'IA générale pour les jeux
  3. Reproductibilité : Fourniture de code et de données complets, facilitant les recherches ultérieures
  4. Signification inspirante : Fournit une référence pour l'application des LLMs dans d'autres domaines de décision complexe

Scénarios applicables

  1. Développement d'IA pour jeux : Fournit une nouvelle approche pour les scénarios nécessitant un développement rapide d'IA pour plusieurs jeux
  2. Apprentissage multitâche : Fournit une référence pour l'étude de la capacité d'apprentissage multitâche des LLMs
  3. Systèmes de décision : Fournit une référence méthodologique pour le développement de systèmes de décision complexe
  4. Évaluation des capacités de l'IA : Fournit un nouvel outil pour évaluer la capacité de raisonnement complexe des systèmes d'IA généraux

Références

Cet article cite 46 références importantes couvrant l'évolution de l'IA dans les jeux, la recherche sur les grands modèles de langage, les méthodes d'apprentissage par renforcement et d'autres domaines importants, fournissant une base théorique solide pour la recherche.