Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
I Grandi Modelli Linguistici Possono Padroneggiare Giochi di Carte Complessi?
- ID Articolo: 2509.01328
- Titolo: Can Large Language Models Master Complex Card Games?
- Autori: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- Classificazione: cs.CL
- Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione delle Informazioni Neurali)
- Link Articolo: https://arxiv.org/abs/2509.01328
- Link Codice: https://github.com/THUDM/LLM4CardGame
I giochi complessi sono stati a lungo un importante benchmark per testare i progressi degli algoritmi di intelligenza artificiale. AlphaGo, AlphaZero e MuZero hanno sconfitto i migliori giocatori umani negli scacchi e nel Go, suscitando ampia attenzione sociale sull'IA. Contemporaneamente, i grandi modelli linguistici (LLM) hanno dimostrato capacità straordinarie in vari compiti, sollevando la questione se gli LLM possano ottenere successi simili nei giochi complessi. Questo articolo esplora il potenziale dei modelli linguistici nel padroneggiare giochi di carte complessi. Lo studio valuta sistematicamente la capacità di apprendimento degli LLM in otto diversi giochi di carte, valuta l'impatto del fine-tuning su dati di gioco di alta qualità e verifica la capacità del modello di mantenere le capacità generali mentre padroneggia questi giochi.
La questione centrale che questa ricerca affronta è: I grandi modelli linguistici possono padroneggiare giochi di carte complessi come gli AI specializzati per i giochi?
- Esplorazione dei Confini delle Capacità dell'IA: I giochi complessi sono scenari importanti per testare i limiti degli algoritmi di IA, come dimostrato da Deep Blue fino alla serie AlphaGo
- Valutazione dell'Intelligenza Generale: Rispetto agli AI specializzati per i giochi, la capacità di padroneggiare i giochi degli LLM come apprendisti generali ha maggiore valore di ricerca
- Capacità di Apprendimento Multitask: Valutare se gli LLM possono padroneggiare simultaneamente più giochi complessi senza richiedere architetture di rete appositamente progettate
- Valutazione Insufficiente: La ricerca esistente utilizza principalmente metodi basati su prompt, senza valutare adeguatamente le capacità di apprendimento degli LLM
- Complessità dei Compiti Insufficiente: I giochi valutati hanno complessità relativamente bassa, incapaci di testare completamente i limiti di apprendimento degli LLM
- Limitazioni di Gioco Singolo: Manca una ricerca sistematica sulla capacità degli LLM di padroneggiare simultaneamente più giochi complessi
Ispirato dal successo della serie AlphaGo, esplorare se gli LLM possono padroneggiare giochi di carte complessi attraverso l'apprendimento da dati di traiettorie di gioco di alta qualità, e valutare i vantaggi degli LLM come apprendisti generali.
- Prima proposta di un framework di valutazione completo per la capacità di apprendimento degli LLM in più giochi ad alta complessità
- Costruzione di un ampio dataset di dati di addestramento di alta qualità contenente otto giochi di carte complessi, evitando l'elevato costo computazionale dell'apprendimento da zero
- Valutazione sistematica delle prestazioni degli LLM in tre dimensioni chiave: capacità di padroneggiare singoli giochi, capacità di apprendimento simultaneo di più giochi, capacità di mantenere le capacità generali
- Dimostrazione che gli LLM possiedono forti capacità di apprendimento e versatilità, potendo padroneggiare simultaneamente più giochi complessi senza modificare la struttura del modello
Input: Informazioni sullo stato del gioco (carte in mano, azioni storiche, azioni legali, ecc.)
Output: Decisioni di azione di gioco in formato JSON
Vincoli: L'azione deve essere selezionata dall'insieme di azioni legali
Otto giochi di carte selezionati sulla base di tre dimensioni:
- Popolarità: Il grado di popolarità del gioco
- Complessità: Misurata dal numero di insiemi informativi e dalla dimensione media dell'insieme informativo
- Disponibilità dei Dati: Disponibilità di modelli AI forti o dati di alta qualità
- Giochi ad Alta Complessità: Dou Dizhu, Guan Dan, Mahjong Giapponese
- Giochi a Complessità Media: UNO, Gin Rummy
- Giochi di Poker: Leduc Hold'em, Limit Texas Hold'em, No-Limit Texas Hold'em
- Modello Insegnante: Utilizzo di AI di gioco forte (come DouZero, DanZero) o dati di esperti
- Modello Avversario: Modello basato su regole, modello casuale o altri modelli AI
- Numero di Giochi: Regolato in base alla complessità del gioco, da 6k a 400k partite
- Filtraggio dei Vincitori: Conservazione solo delle coppie osservazione-azione della parte vincente
- Filtraggio Selettivo: Conservazione solo dei campioni con più di un'azione legale
Progettazione di template di prompt specifici per il gioco, contenenti:
- Introduzione al Gioco: Regole e obiettivi
- Dati di Stato: Carte in mano, carte pubbliche, azioni storiche, azioni legali
- Formato di Output: Requisiti del formato JSON
- Modelli di Tipo Multiplo: Qwen2.5, Llama3.1, GLM4
- Modelli di Scala Multipla: Da 0.5B a 14B parametri
- Metodo di Fine-tuning: Fine-tuning LoRA (rank=8, alpha=16)
- Tasso di Apprendimento: Picco 1e-4, pianificazione cosinusoidale
- Dimensione del Batch: 128
- Epoche di Addestramento: 1 epoca
| Gioco | Numero di Giocatori | Modello Insegnante | Partite | Passi Medi | Dati di Addestramento |
|---|
| Dou Dizhu | 3 | DouZero | 200k | 37.31 | 1,000k |
| Guan Dan | 4 | DanZero | 6k | 311.25 | 1,000k |
| Mahjong Giapponese | 4 | Dati di Esperti | 7k | 656.92 | 1,000k |
| UNO | 2 | Modello Basato su Regole | 50k | 42.33 | 400k |
| Gin Rummy | 2 | Modello Basato su Regole | 50k | 52.14 | 400k |
- Dou Dizhu: Tasso di vittoria
- Guan Dan: Tasso di vittoria per round
- Altri Giochi: Punteggio di Ricompensa (basato su ranking o framework RLCard)
- RQ1: Valutazione della capacità di padroneggiare singoli giochi
- RQ2: Valutazione della capacità di apprendimento simultaneo di più giochi
- RQ3: Valutazione del mantenimento delle capacità generali
- Dou Dizhu: Qwen2.5-7B raggiunge un tasso di vittoria del 80.6%, vicino alle prestazioni di DouZero
- Guan Dan: Tutti e tre i modelli raggiungono circa il 63% di tasso di vittoria per round, vicino a DanZero
- Mahjong Giapponese: Raggiunge prestazioni comparabili all'AI forte Mortal
- Da 0.5B a 7B: Le prestazioni migliorano con l'aumento dei parametri
- Anomalia del Modello 14B: Le prestazioni in Dou Dizhu diminuiscono effettivamente, l'analisi rivela uno squilibrio nell'apprendimento dei ruoli
Confronto con Modelli API:
- DeepSeek-R1 mostra le migliori prestazioni, con i punteggi più alti in 3 giochi
- I modelli fine-tuned superano significativamente i modelli API nei giochi complessi (Dou Dizhu, Guan Dan, Mahjong)
Interazioni tra Giochi:
- Trasferimento Positivo: Giochi con regole simili (Dou Dizhu ↔ Guan Dan, tra i tre giochi di poker)
- Interferenza Negativa: Conflitto tra giochi con differenze di regole significative
Diminuzione delle Capacità:
- MMLU-Pro: 47.95→44.74 (Llama3.1)
- Math-500: 46.60→35.20 (Llama3.1)
- HumanEval: 70.73→60.98 (Llama3.1)
Recupero delle Capacità:
Attraverso ulteriore fine-tuning con dati misti: 20k dati di conoscenza, 20k dati matematici, 20k dati di programmazione e 8k dati di gioco:
- MMLU-Pro: 44.74→45.18
- Math-500: 35.20→47.20
- HumanEval: 60.98→65.24
Con l'aumento dei dati di addestramento, le prestazioni del modello nei giochi complessi migliorano continuamente, indicando che i dati di alta qualità sono cruciali per gli LLM nel padroneggiare giochi complessi.
- Qwen2.5 e Llama3.1 mostrano prestazioni simili nella maggior parte dei giochi
- GLM4 mostra prestazioni inferiori in Dou Dizhu, principalmente dovuto a squilibrio nell'apprendimento dei ruoli
Scoperta che GLM4 e il modello 14B mostrano prestazioni eccellenti nel ruolo di "landlord", ma prestazioni significativamente inferiori nel ruolo di "peasant", analizzando le cause:
- Problemi di Qualità dei Dati: Quando i contadini vincono, i dati di entrambi i contadini vengono conservati, ma la vittoria potrebbe essere principalmente dovuta a un contadino
- Squilibrio nell'Apprendimento: Il modello si concentra maggiormente sull'apprendimento del ruolo di landlord
- Metodi Tradizionali: Da Deep Blue alla serie AlphaGo, dimostrando i progressi dell'IA nei giochi complessi
- Apprendimento per Rinforzo: AlphaZero, MuZero e altri raggiungono livelli sovrumani attraverso l'auto-gioco
- Ricerca Esistente: Principalmente concentrata sulla valutazione di metodi basati su prompt in giochi come il Texas Hold'em e il Blackjack
- Limitazioni: Mancanza di valutazione approfondita delle capacità di apprendimento degli LLM, complessità di gioco insufficiente
- Complessità Superiore: I giochi selezionati hanno spazi di stato e di azione più grandi
- Valutazione delle Capacità di Apprendimento: Valutazione delle vere capacità di apprendimento attraverso fine-tuning piuttosto che dipendenza dalla sola conoscenza pre-addestrata
- Ricerca Sistematica: Valutazione completa su più giochi e dimensioni
- Gli LLM Possiedono la Capacità di Padroneggiare Giochi di Carte Complessi: Attraverso il fine-tuning su dati di alta qualità, possono avvicinarsi alle prestazioni degli AI specializzati per i giochi
- L'Apprendimento di Più Giochi Segue Regolarità: Esiste trasferimento positivo tra giochi con regole simili, e interferenza negativa tra giochi con differenze significative
- Le Capacità Generali Possono Essere Recuperate: Sebbene il fine-tuning per i giochi danneggi le capacità generali, questo può essere mitigato attraverso l'addestramento misto
- Velocità di Inferenza: Il tempo di inferenza degli LLM è più lungo rispetto agli AI specializzati per i giochi
- Dipendenza dai Dati: Richiede una grande quantità di dati di gioco di alta qualità
- Equilibrio dei Ruoli: Esiste un problema di squilibrio nell'apprendimento nei giochi con più ruoli
- Risorse Computazionali: L'addestramento e l'inferenza richiedono risorse GPU significative
- Ottimizzazione dell'Efficienza: Ricerca di metodi di fine-tuning e inferenza più efficienti
- Auto-Gioco: Esplorazione della capacità di auto-gioco degli LLM
- Più Giochi: Estensione a più tipi di giochi complessi
- Analisi Teorica: Comprensione più profonda dei meccanismi di trasferimento di conoscenza tra giochi
- Importanza del Problema: La ricerca sulla capacità degli LLM nei giochi complessi ha importante valore teorico e pratico
- Completezza Sperimentale: Valutazione sistematica su otto giochi, tre domande di ricerca, e modelli multipli
- Innovazione del Metodo: L'idea di evitare l'addestramento da zero utilizzando dati di alta qualità generati da AI forte è innovativa
- Convincenza dei Risultati: Raggiungimento di prestazioni vicine agli AI specializzati in più giochi complessi
- Analisi Approfondita: Analisi dettagliata di fenomeni anomali (come le prestazioni inferiori del modello 14B)
- Limitazione dei Tipi di Gioco: Limitato ai giochi di carte, non copre altri tipi di giochi complessi
- Analisi Teorica Insufficiente: Manca spiegazione teorica del perché gli LLM possono padroneggiare giochi complessi
- Analisi dei Costi Computazionali: Sebbene menzioni le risorse computazionali, manca un confronto dettagliato con gli AI specializzati
- Capacità di Generalizzazione: Non testata la prestazione su varianti di giochi non viste
- Contributo Accademico: Fornisce prove importanti per l'applicazione degli LLM in compiti di decisione complessa
- Valore Pratico: Dimostra il potenziale degli LLM come AI di gioco universale
- Riproducibilità: Fornisce codice e dati completi, facilitando la ricerca successiva
- Significato Ispiratore: Fornisce riferimenti per l'applicazione degli LLM in altri campi di decisione complessa
- Sviluppo di AI per Giochi: Fornisce nuove idee per scenari che richiedono lo sviluppo rapido di AI per più giochi
- Apprendimento Multitask: Fornisce benchmark per la ricerca sulla capacità di apprendimento multitask degli LLM
- Sistemi Decisionali: Fornisce riferimenti metodologici per lo sviluppo di sistemi decisionali complessi
- Valutazione delle Capacità dell'IA: Fornisce nuovi strumenti per valutare le capacità di ragionamento complesso dei sistemi AI generali
Questo articolo cita 46 importanti riferimenti, coprendo la storia dello sviluppo dell'IA nei giochi, la ricerca sui grandi modelli linguistici, i metodi di apprendimento per rinforzo e altri campi importanti, fornendo una base teorica solida per la ricerca.