2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame

academic

I Grandi Modelli Linguistici Possono Padroneggiare Giochi di Carte Complessi?

Informazioni Fondamentali

ID Articolo: 2509.01328
Titolo: Can Large Language Models Master Complex Card Games?
Autori: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
Classificazione: cs.CL
Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione delle Informazioni Neurali)
Link Articolo: https://arxiv.org/abs/2509.01328
Link Codice: https://github.com/THUDM/LLM4CardGame

Riassunto

I giochi complessi sono stati a lungo un importante benchmark per testare i progressi degli algoritmi di intelligenza artificiale. AlphaGo, AlphaZero e MuZero hanno sconfitto i migliori giocatori umani negli scacchi e nel Go, suscitando ampia attenzione sociale sull'IA. Contemporaneamente, i grandi modelli linguistici (LLM) hanno dimostrato capacità straordinarie in vari compiti, sollevando la questione se gli LLM possano ottenere successi simili nei giochi complessi. Questo articolo esplora il potenziale dei modelli linguistici nel padroneggiare giochi di carte complessi. Lo studio valuta sistematicamente la capacità di apprendimento degli LLM in otto diversi giochi di carte, valuta l'impatto del fine-tuning su dati di gioco di alta qualità e verifica la capacità del modello di mantenere le capacità generali mentre padroneggia questi giochi.

Contesto di Ricerca e Motivazione

Definizione del Problema

La questione centrale che questa ricerca affronta è: I grandi modelli linguistici possono padroneggiare giochi di carte complessi come gli AI specializzati per i giochi?

Importanza

Esplorazione dei Confini delle Capacità dell'IA: I giochi complessi sono scenari importanti per testare i limiti degli algoritmi di IA, come dimostrato da Deep Blue fino alla serie AlphaGo
Valutazione dell'Intelligenza Generale: Rispetto agli AI specializzati per i giochi, la capacità di padroneggiare i giochi degli LLM come apprendisti generali ha maggiore valore di ricerca
Capacità di Apprendimento Multitask: Valutare se gli LLM possono padroneggiare simultaneamente più giochi complessi senza richiedere architetture di rete appositamente progettate

Limitazioni dei Metodi Esistenti

Valutazione Insufficiente: La ricerca esistente utilizza principalmente metodi basati su prompt, senza valutare adeguatamente le capacità di apprendimento degli LLM
Complessità dei Compiti Insufficiente: I giochi valutati hanno complessità relativamente bassa, incapaci di testare completamente i limiti di apprendimento degli LLM
Limitazioni di Gioco Singolo: Manca una ricerca sistematica sulla capacità degli LLM di padroneggiare simultaneamente più giochi complessi

Motivazione della Ricerca

Ispirato dal successo della serie AlphaGo, esplorare se gli LLM possono padroneggiare giochi di carte complessi attraverso l'apprendimento da dati di traiettorie di gioco di alta qualità, e valutare i vantaggi degli LLM come apprendisti generali.

Contributi Fondamentali

Prima proposta di un framework di valutazione completo per la capacità di apprendimento degli LLM in più giochi ad alta complessità
Costruzione di un ampio dataset di dati di addestramento di alta qualità contenente otto giochi di carte complessi, evitando l'elevato costo computazionale dell'apprendimento da zero
Valutazione sistematica delle prestazioni degli LLM in tre dimensioni chiave: capacità di padroneggiare singoli giochi, capacità di apprendimento simultaneo di più giochi, capacità di mantenere le capacità generali
Dimostrazione che gli LLM possiedono forti capacità di apprendimento e versatilità, potendo padroneggiare simultaneamente più giochi complessi senza modificare la struttura del modello

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Informazioni sullo stato del gioco (carte in mano, azioni storiche, azioni legali, ecc.) Output: Decisioni di azione di gioco in formato JSON Vincoli: L'azione deve essere selezionata dall'insieme di azioni legali

Selezione dei Giochi e Preparazione dei Dati

Criteri di Selezione dei Giochi

Otto giochi di carte selezionati sulla base di tre dimensioni:

Popolarità: Il grado di popolarità del gioco
Complessità: Misurata dal numero di insiemi informativi e dalla dimensione media dell'insieme informativo
Disponibilità dei Dati: Disponibilità di modelli AI forti o dati di alta qualità

Giochi Selezionati

Giochi ad Alta Complessità: Dou Dizhu, Guan Dan, Mahjong Giapponese
Giochi a Complessità Media: UNO, Gin Rummy
Giochi di Poker: Leduc Hold'em, Limit Texas Hold'em, No-Limit Texas Hold'em

Flusso di Generazione dei Dati

Generazione di Traiettorie

Modello Insegnante: Utilizzo di AI di gioco forte (come DouZero, DanZero) o dati di esperti
Modello Avversario: Modello basato su regole, modello casuale o altri modelli AI
Numero di Giochi: Regolato in base alla complessità del gioco, da 6k a 400k partite

Filtraggio dei Dati

Filtraggio dei Vincitori: Conservazione solo delle coppie osservazione-azione della parte vincente
Filtraggio Selettivo: Conservazione solo dei campioni con più di un'azione legale

Generazione di Dati di Istruzioni

Progettazione di template di prompt specifici per il gioco, contenenti:

Introduzione al Gioco: Regole e obiettivi
Dati di Stato: Carte in mano, carte pubbliche, azioni storiche, azioni legali
Formato di Output: Requisiti del formato JSON

Strategia di Addestramento del Modello

Selezione del Modello

Modelli di Tipo Multiplo: Qwen2.5, Llama3.1, GLM4
Modelli di Scala Multipla: Da 0.5B a 14B parametri

Configurazione di Addestramento

Metodo di Fine-tuning: Fine-tuning LoRA (rank=8, alpha=16)
Tasso di Apprendimento: Picco 1e-4, pianificazione cosinusoidale
Dimensione del Batch: 128
Epoche di Addestramento: 1 epoca

Configurazione Sperimentale

Scala dei Dati

Gioco	Numero di Giocatori	Modello Insegnante	Partite	Passi Medi	Dati di Addestramento
Dou Dizhu	3	DouZero	200k	37.31	1,000k
Guan Dan	4	DanZero	6k	311.25	1,000k
Mahjong Giapponese	4	Dati di Esperti	7k	656.92	1,000k
UNO	2	Modello Basato su Regole	50k	42.33	400k
Gin Rummy	2	Modello Basato su Regole	50k	52.14	400k

Metriche di Valutazione

Dou Dizhu: Tasso di vittoria
Guan Dan: Tasso di vittoria per round
Altri Giochi: Punteggio di Ricompensa (basato su ranking o framework RLCard)

Progettazione Sperimentale

RQ1: Valutazione della capacità di padroneggiare singoli giochi
RQ2: Valutazione della capacità di apprendimento simultaneo di più giochi
RQ3: Valutazione del mantenimento delle capacità generali

Risultati Sperimentali

Risultati Principali

RQ1: Capacità di Padroneggiare Singoli Giochi

Dou Dizhu: Qwen2.5-7B raggiunge un tasso di vittoria del 80.6%, vicino alle prestazioni di DouZero
Guan Dan: Tutti e tre i modelli raggiungono circa il 63% di tasso di vittoria per round, vicino a DanZero
Mahjong Giapponese: Raggiunge prestazioni comparabili all'AI forte Mortal

Impatto della Dimensione del Modello

Da 0.5B a 7B: Le prestazioni migliorano con l'aumento dei parametri
Anomalia del Modello 14B: Le prestazioni in Dou Dizhu diminuiscono effettivamente, l'analisi rivela uno squilibrio nell'apprendimento dei ruoli

RQ2: Apprendimento Simultaneo di Più Giochi

Confronto con Modelli API:

DeepSeek-R1 mostra le migliori prestazioni, con i punteggi più alti in 3 giochi
I modelli fine-tuned superano significativamente i modelli API nei giochi complessi (Dou Dizhu, Guan Dan, Mahjong)

Interazioni tra Giochi:

Trasferimento Positivo: Giochi con regole simili (Dou Dizhu ↔ Guan Dan, tra i tre giochi di poker)
Interferenza Negativa: Conflitto tra giochi con differenze di regole significative

RQ3: Mantenimento delle Capacità Generali

Diminuzione delle Capacità:

MMLU-Pro: 47.95→44.74 (Llama3.1)
Math-500: 46.60→35.20 (Llama3.1)
HumanEval: 70.73→60.98 (Llama3.1)

Recupero delle Capacità: Attraverso ulteriore fine-tuning con dati misti: 20k dati di conoscenza, 20k dati matematici, 20k dati di programmazione e 8k dati di gioco:

MMLU-Pro: 44.74→45.18
Math-500: 35.20→47.20
HumanEval: 60.98→65.24

Esperimenti di Ablazione

Impatto della Quantità di Dati

Con l'aumento dei dati di addestramento, le prestazioni del modello nei giochi complessi migliorano continuamente, indicando che i dati di alta qualità sono cruciali per gli LLM nel padroneggiare giochi complessi.

Confronto dei Tipi di Modello

Qwen2.5 e Llama3.1 mostrano prestazioni simili nella maggior parte dei giochi
GLM4 mostra prestazioni inferiori in Dou Dizhu, principalmente dovuto a squilibrio nell'apprendimento dei ruoli

Analisi di Casi

Apprendimento dei Ruoli in Dou Dizhu

Scoperta che GLM4 e il modello 14B mostrano prestazioni eccellenti nel ruolo di "landlord", ma prestazioni significativamente inferiori nel ruolo di "peasant", analizzando le cause:

Problemi di Qualità dei Dati: Quando i contadini vincono, i dati di entrambi i contadini vengono conservati, ma la vittoria potrebbe essere principalmente dovuta a un contadino
Squilibrio nell'Apprendimento: Il modello si concentra maggiormente sull'apprendimento del ruolo di landlord

Lavori Correlati

Sviluppo dell'IA nei Giochi

Metodi Tradizionali: Da Deep Blue alla serie AlphaGo, dimostrando i progressi dell'IA nei giochi complessi
Apprendimento per Rinforzo: AlphaZero, MuZero e altri raggiungono livelli sovrumani attraverso l'auto-gioco

Ricerca sulle Capacità di Gioco degli LLM

Ricerca Esistente: Principalmente concentrata sulla valutazione di metodi basati su prompt in giochi come il Texas Hold'em e il Blackjack
Limitazioni: Mancanza di valutazione approfondita delle capacità di apprendimento degli LLM, complessità di gioco insufficiente

Vantaggi di Questo Articolo

Complessità Superiore: I giochi selezionati hanno spazi di stato e di azione più grandi
Valutazione delle Capacità di Apprendimento: Valutazione delle vere capacità di apprendimento attraverso fine-tuning piuttosto che dipendenza dalla sola conoscenza pre-addestrata
Ricerca Sistematica: Valutazione completa su più giochi e dimensioni

Conclusioni e Discussione

Conclusioni Principali

Gli LLM Possiedono la Capacità di Padroneggiare Giochi di Carte Complessi: Attraverso il fine-tuning su dati di alta qualità, possono avvicinarsi alle prestazioni degli AI specializzati per i giochi
L'Apprendimento di Più Giochi Segue Regolarità: Esiste trasferimento positivo tra giochi con regole simili, e interferenza negativa tra giochi con differenze significative
Le Capacità Generali Possono Essere Recuperate: Sebbene il fine-tuning per i giochi danneggi le capacità generali, questo può essere mitigato attraverso l'addestramento misto

Limitazioni

Velocità di Inferenza: Il tempo di inferenza degli LLM è più lungo rispetto agli AI specializzati per i giochi
Dipendenza dai Dati: Richiede una grande quantità di dati di gioco di alta qualità
Equilibrio dei Ruoli: Esiste un problema di squilibrio nell'apprendimento nei giochi con più ruoli
Risorse Computazionali: L'addestramento e l'inferenza richiedono risorse GPU significative

Direzioni Future

Ottimizzazione dell'Efficienza: Ricerca di metodi di fine-tuning e inferenza più efficienti
Auto-Gioco: Esplorazione della capacità di auto-gioco degli LLM
Più Giochi: Estensione a più tipi di giochi complessi
Analisi Teorica: Comprensione più profonda dei meccanismi di trasferimento di conoscenza tra giochi

Valutazione Approfondita

Punti di Forza

Importanza del Problema: La ricerca sulla capacità degli LLM nei giochi complessi ha importante valore teorico e pratico
Completezza Sperimentale: Valutazione sistematica su otto giochi, tre domande di ricerca, e modelli multipli
Innovazione del Metodo: L'idea di evitare l'addestramento da zero utilizzando dati di alta qualità generati da AI forte è innovativa
Convincenza dei Risultati: Raggiungimento di prestazioni vicine agli AI specializzati in più giochi complessi
Analisi Approfondita: Analisi dettagliata di fenomeni anomali (come le prestazioni inferiori del modello 14B)

Insufficienze

Limitazione dei Tipi di Gioco: Limitato ai giochi di carte, non copre altri tipi di giochi complessi
Analisi Teorica Insufficiente: Manca spiegazione teorica del perché gli LLM possono padroneggiare giochi complessi
Analisi dei Costi Computazionali: Sebbene menzioni le risorse computazionali, manca un confronto dettagliato con gli AI specializzati
Capacità di Generalizzazione: Non testata la prestazione su varianti di giochi non viste

Impatto

Contributo Accademico: Fornisce prove importanti per l'applicazione degli LLM in compiti di decisione complessa
Valore Pratico: Dimostra il potenziale degli LLM come AI di gioco universale
Riproducibilità: Fornisce codice e dati completi, facilitando la ricerca successiva
Significato Ispiratore: Fornisce riferimenti per l'applicazione degli LLM in altri campi di decisione complessa

Scenari Applicabili

Sviluppo di AI per Giochi: Fornisce nuove idee per scenari che richiedono lo sviluppo rapido di AI per più giochi
Apprendimento Multitask: Fornisce benchmark per la ricerca sulla capacità di apprendimento multitask degli LLM
Sistemi Decisionali: Fornisce riferimenti metodologici per lo sviluppo di sistemi decisionali complessi
Valutazione delle Capacità dell'IA: Fornisce nuovi strumenti per valutare le capacità di ragionamento complesso dei sistemi AI generali

Riferimenti Bibliografici

Questo articolo cita 46 importanti riferimenti, coprendo la storia dello sviluppo dell'IA nei giochi, la ricerca sui grandi modelli linguistici, i metodi di apprendimento per rinforzo e altri campi importanti, fornendo una base teorica solida per la ricerca.