Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
- पेपर ID: 2509.01328
- शीर्षक: क्या बड़े भाषा मॉडल जटिल कार्ड गेम में महारत हासिल कर सकते हैं?
- लेखक: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- वर्गीकरण: cs.CL
- प्रकाशन सम्मेलन: NeurIPS 2025 (39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन)
- पेपर लिंक: https://arxiv.org/abs/2509.01328
- कोड लिंक: https://github.com/THUDM/LLM4CardGame
जटिल गेम लंबे समय से कृत्रिम बुद्धिमत्ता एल्गोरिदम की प्रगति का परीक्षण करने के लिए महत्वपूर्ण बेंचमार्क रहे हैं। AlphaGo, AlphaZero और MuZero ने शतरंज और गो में शीर्ष मानव खिलाड़ियों को हराया है, जिससे कृत्रिम बुद्धिमत्ता के प्रति समाज में व्यापक ध्यान आकर्षित हुआ है। इसी समय, बड़े भाषा मॉडल (LLMs) विभिन्न कार्यों में असाधारण क्षमता प्रदर्शित कर रहे हैं, जिससे यह प्रश्न उठता है कि क्या LLMs जटिल गेम में समान सफलता प्राप्त कर सकते हैं। यह पेपर LLMs द्वारा जटिल कार्ड गेम में महारत हासिल करने की संभावना की खोज करता है। अनुसंधान आठ विभिन्न कार्ड गेम में LLMs की सीखने की क्षमता का व्यवस्थित रूप से मूल्यांकन करता है, उच्च-गुणवत्ता वाले गेम डेटा पर सूक्ष्म-ट्यूनिंग के प्रभाव का मूल्यांकन करता है, और इन गेम में महारत हासिल करते हुए सामान्य क्षमता को बनाए रखने की मॉडल की क्षमता की जांच करता है।
इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या है: क्या बड़े भाषा मॉडल विशेष गेम AI की तरह जटिल कार्ड गेम में महारत हासिल कर सकते हैं?
- AI क्षमता सीमा की खोज: जटिल गेम AI एल्गोरिदम की सीमा का परीक्षण करने के लिए महत्वपूर्ण परिदृश्य हैं, Deep Blue से AlphaGo श्रृंखला तक यह सिद्ध हुआ है
- सामान्य बुद्धिमत्ता का मूल्यांकन: विशेष गेम AI की तुलना में, सामान्य शिक्षार्थी के रूप में LLMs की गेम महारत क्षमता अधिक अनुसंधान मूल्य रखती है
- बहु-कार्य सीखने की क्षमता: यह मूल्यांकन करना कि क्या LLMs विशेष रूप से डिज़ाइन किए गए नेटवर्क आर्किटेक्चर की आवश्यकता के बिना एक साथ कई जटिल गेम में महारत हासिल कर सकते हैं
- अपर्याप्त मूल्यांकन: मौजूदा अनुसंधान मुख्य रूप से प्रॉम्प्ट-आधारित विधियों का उपयोग करते हैं, LLMs की सीखने की क्षमता का पूर्ण मूल्यांकन नहीं करते हैं
- कार्य जटिलता अपर्याप्त: मूल्यांकन किए गए गेम की जटिलता कम है, LLMs की सीखने की सीमा का व्यापक परीक्षण नहीं कर सकते हैं
- एकल गेम सीमा: LLMs द्वारा एक साथ कई जटिल गेम में महारत हासिल करने की क्षमता का व्यवस्थित अनुसंधान अभाव है
AlphaGo श्रृंखला की सफलता से प्रेरित होकर, यह खोज करना कि क्या LLMs उच्च-गुणवत्ता वाले गेम ट्रैजेक्टरी डेटा सीखकर जटिल कार्ड गेम में महारत हासिल कर सकते हैं, और सामान्य शिक्षार्थी के रूप में इसके लाभों का मूल्यांकन करना।
- पहली बार प्रस्तावित किया गया कि कई उच्च-जटिलता वाले गेम में LLMs की सीखने की क्षमता का व्यापक मूल्यांकन ढांचा
- निर्मित आठ जटिल कार्ड गेम वाला बड़े पैमाने पर उच्च-गुणवत्ता वाला प्रशिक्षण डेटा सेट, जो शून्य से शुरुआत करने की उच्च कम्प्यूटेशनल लागत से बचता है
- व्यवस्थित रूप से मूल्यांकन किया गया LLMs का तीन महत्वपूर्ण आयामों में प्रदर्शन: एकल-गेम महारत क्षमता, बहु-गेम समवर्ती सीखने की क्षमता, सामान्य क्षमता संरक्षण क्षमता
- सिद्ध किया कि LLMs में शक्तिशाली सीखने की क्षमता और सामान्यता है, मॉडल संरचना को बदले बिना एक साथ कई जटिल गेम में महारत हासिल कर सकते हैं
इनपुट: गेम स्थिति जानकारी (हाथ के कार्ड, ऐतिहासिक कार्य, वैध कार्य आदि)
आउटपुट: JSON प्रारूप में गेम कार्य निर्णय
बाधा: कार्य को वैध कार्य सेट से चुना जाना चाहिए
तीन आयामों के आधार पर आठ कार्ड गेम का चयन:
- लोकप्रियता: गेम की लोकप्रियता
- जटिलता: सूचना सेट की संख्या और औसत सूचना सेट आकार द्वारा मापी गई
- डेटा उपलब्धता: क्या मजबूत AI मॉडल या उच्च-गुणवत्ता वाला डेटा है
- उच्च जटिलता गेम: डाउ डी जू, ग्वान डान, जापानी महजोंग
- मध्यम जटिलता गेम: UNO, जिन रामी
- पोकर प्रकार के गेम: Leduc Hold'em, सीमित टेक्सास होल्डम, असीमित टेक्सास होल्डम
- शिक्षक मॉडल: मजबूत गेम AI (जैसे DouZero, DanZero) या विशेषज्ञ डेटा का उपयोग
- विरोधी मॉडल: नियम मॉडल, यादृच्छिक मॉडल या अन्य AI मॉडल
- गेम संख्या: गेम जटिलता के अनुसार समायोजित, 6k से 400k तक
- विजेता फ़िल्टरिंग: केवल विजेता पक्ष के अवलोकन-कार्य जोड़े को संरक्षित करें
- चयनात्मक फ़िल्टरिंग: केवल वैध कार्य संख्या 1 से अधिक वाले नमूने को संरक्षित करें
गेम-विशिष्ट प्रॉम्प्ट टेम्पलेट डिज़ाइन करें, जिसमें शामिल हैं:
- गेम परिचय: नियम और उद्देश्य
- स्थिति डेटा: हाथ के कार्ड, सार्वजनिक कार्ड, ऐतिहासिक कार्य, वैध कार्य
- आउटपुट प्रारूप: JSON प्रारूप आवश्यकताएं
- बहु-प्रकार मॉडल: Qwen2.5, Llama3.1, GLM4
- बहु-पैमाने मॉडल: 0.5B से 14B पैरामीटर
- सूक्ष्म-ट्यूनिंग विधि: LoRA सूक्ष्म-ट्यूनिंग (rank=8, alpha=16)
- सीखने की दर: शिखर 1e-4, कोसाइन शेड्यूल
- बैच आकार: 128
- प्रशिक्षण एपोक: 1 epoch
| गेम | खिलाड़ी संख्या | शिक्षक मॉडल | गेम संख्या | औसत कदम | प्रशिक्षण डेटा |
|---|
| डाउ डी जू | 3 | DouZero | 200k | 37.31 | 1,000k |
| ग्वान डान | 4 | DanZero | 6k | 311.25 | 1,000k |
| जापानी महजोंग | 4 | विशेषज्ञ डेटा | 7k | 656.92 | 1,000k |
| UNO | 2 | नियम मॉडल | 50k | 42.33 | 400k |
| जिन रामी | 2 | नियम मॉडल | 50k | 52.14 | 400k |
- डाउ डी जू: जीत की दर
- ग्वान डान: राउंड जीत की दर
- अन्य गेम: पुरस्कार स्कोर (रैंकिंग या RLCard ढांचे पर आधारित)
- RQ1: एकल-गेम महारत क्षमता मूल्यांकन
- RQ2: बहु-गेम समवर्ती सीखने की क्षमता मूल्यांकन
- RQ3: सामान्य क्षमता संरक्षण मूल्यांकन
- डाउ डी जू: Qwen2.5-7B 80.6% जीत की दर तक पहुंचा, DouZero के प्रदर्शन के करीब
- ग्वान डान: तीनों मॉडल लगभग 63% राउंड जीत की दर तक पहुंचे, DanZero के करीब
- जापानी महजोंग: मजबूत AI Mortal के बराबर प्रदर्शन तक पहुंचा
- 0.5B से 7B: पैरामीटर मात्रा बढ़ने के साथ प्रदर्शन में सुधार
- 14B मॉडल विसंगति: डाउ डी जू में प्रदर्शन में गिरावट, विश्लेषण से पता चलता है कि भूमिका सीखने में असंतुलन के कारण
API मॉडल तुलना:
- DeepSeek-R1 सर्वश्रेष्ठ प्रदर्शन, 3 गेम में सर्वोच्च स्कोर
- सूक्ष्म-ट्यून किए गए मॉडल जटिल गेम (डाउ डी जू, ग्वान डान, महजोंग) में API मॉडल से काफी बेहतर
गेम के बीच पारस्परिक प्रभाव:
- सकारात्मक स्थानांतरण: समान नियमों वाले गेम (डाउ डी जू↔ग्वान डान, तीन पोकर गेम के बीच)
- नकारात्मक हस्तक्षेप: नियमों में बड़े अंतर वाले गेम के बीच संघर्ष
क्षमता में गिरावट:
- MMLU-Pro: 47.95→44.74 (Llama3.1)
- Math-500: 46.60→35.20 (Llama3.1)
- HumanEval: 70.73→60.98 (Llama3.1)
क्षमता पुनरुद्धार:
20k ज्ञान डेटा, 20k गणित डेटा, 20k प्रोग्रामिंग डेटा और 8k गेम डेटा के साथ आगे सूक्ष्म-ट्यूनिंग के माध्यम से:
- MMLU-Pro: 44.74→45.18
- Math-500: 35.20→47.20
- HumanEval: 60.98→65.24
प्रशिक्षण डेटा बढ़ने के साथ, मॉडल प्रदर्शन जटिल गेम में लगातार सुधार होता है, जो दर्शाता है कि उच्च-गुणवत्ता वाला डेटा LLMs द्वारा जटिल गेम में महारत हासिल करने के लिए महत्वपूर्ण है।
- Qwen2.5 और Llama3.1 अधिकांश गेम में समान प्रदर्शन
- GLM4 डाउ डी जू में कमजोर प्रदर्शन, मुख्य रूप से भूमिका सीखने में असंतुलन के कारण
GLM4 और 14B मॉडल जमींदार भूमिका पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन किसान भूमिका पर प्रदर्शन में महत्वपूर्ण गिरावट, विश्लेषण कारण:
- डेटा गुणवत्ता समस्या: किसान जीतने पर दोनों किसान डेटा संरक्षित होते हैं, लेकिन जीत मुख्य रूप से एक किसान द्वारा योगदान दी जा सकती है
- सीखने में असंतुलन: मॉडल जमींदार भूमिका की सीखने पर अधिक ध्यान देता है
- पारंपरिक विधि: Deep Blue से AlphaGo श्रृंखला तक, जटिल गेम में AI की सफलता प्रदर्शित करता है
- सुदृढ़ीकरण सीखना: AlphaZero, MuZero आदि आत्म-खेल के माध्यम से अलौकिक स्तर तक पहुंचते हैं
- मौजूदा अनुसंधान: मुख्य रूप से टेक्सास होल्डम, 21 जैसे गेम में प्रॉम्प्ट विधि मूल्यांकन पर केंद्रित
- सीमाएं: LLMs की सीखने की क्षमता का गहन मूल्यांकन अभाव, गेम जटिलता अपर्याप्त
- उच्च जटिलता: चयनित गेम में बड़ी स्थिति स्पेस और कार्य स्पेस है
- सीखने की क्षमता मूल्यांकन: सूक्ष्म-ट्यूनिंग के माध्यम से वास्तविक सीखने की क्षमता का मूल्यांकन, केवल पूर्व-प्रशिक्षण ज्ञान पर निर्भर नहीं
- व्यवस्थित अनुसंधान: बहु-गेम, बहु-आयामी व्यापक मूल्यांकन
- LLMs में जटिल कार्ड गेम में महारत हासिल करने की क्षमता है: उच्च-गुणवत्ता वाले डेटा सूक्ष्म-ट्यूनिंग के माध्यम से विशेष गेम AI के प्रदर्शन के करीब पहुंच सकते हैं
- बहु-गेम सीखने में नियम हैं: समान नियमों वाले गेम के बीच सकारात्मक स्थानांतरण, बड़े अंतर वाले गेम के बीच नकारात्मक हस्तक्षेप
- सामान्य क्षमता पुनरुद्धार की जा सकती है: हालांकि गेम सूक्ष्म-ट्यूनिंग सामान्य क्षमता को नुकसान पहुंचाता है, लेकिन मिश्रित प्रशिक्षण के माध्यम से कम किया जा सकता है
- अनुमान गति: LLMs की अनुमान समय विशेष गेम AI से अधिक लंबा है
- डेटा निर्भरता: बड़ी मात्रा में उच्च-गुणवत्ता वाले गेम डेटा की आवश्यकता
- भूमिका संतुलन: बहु-भूमिका गेम में सीखने में असंतुलन समस्या
- कम्प्यूटेशनल संसाधन: प्रशिक्षण और अनुमान के लिए बड़ी मात्रा में GPU संसाधन की आवश्यकता
- दक्षता अनुकूलन: अधिक कुशल सूक्ष्म-ट्यूनिंग और अनुमान विधियों का अनुसंधान
- आत्म-खेल: LLMs की आत्म-खेल सीखने की क्षमता की खोज
- अधिक गेम: अधिक प्रकार के जटिल गेम तक विस्तार
- सैद्धांतिक विश्लेषण: गेम के बीच ज्ञान स्थानांतरण के तंत्र को गहराई से समझना
- समस्या महत्व: जटिल गेम में LLMs की क्षमता का अनुसंधान महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य रखता है
- प्रायोगिक व्यापकता: आठ गेम, तीन अनुसंधान प्रश्न, कई मॉडल का व्यवस्थित मूल्यांकन
- विधि नवाचार: शून्य से प्रशिक्षण से बचना, मजबूत AI द्वारा उच्च-गुणवत्ता वाले डेटा जनरेट करने का विचार नया है
- परिणाम विश्वसनीयता: कई जटिल गेम में विशेष AI के प्रदर्शन के करीब प्राप्त किया
- गहन विश्लेषण: असामान्य घटनाओं (जैसे 14B मॉडल कमजोर प्रदर्शन) का गहन विश्लेषण
- गेम प्रकार सीमा: केवल कार्ड गेम तक सीमित, अन्य प्रकार के जटिल गेम शामिल नहीं
- सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए सिद्धांत अभाव कि LLMs जटिल गेम में महारत क्यों हासिल कर सकते हैं
- कम्प्यूटेशनल लागत विश्लेषण: हालांकि कम्प्यूटेशनल संसाधनों का उल्लेख किया गया है, लेकिन विशेष AI के साथ विस्तृत तुलना अभाव है
- सामान्यीकरण क्षमता: अनदेखे गेम वेरिएंट पर प्रदर्शन का परीक्षण नहीं किया गया
- शैक्षणिक योगदान: जटिल निर्णय कार्यों में LLMs के अनुप्रयोग के लिए महत्वपूर्ण साक्ष्य प्रदान करता है
- व्यावहारिक मूल्य: सामान्य गेम AI के रूप में LLMs की संभावना प्रदर्शित करता है
- पुनरुत्पादनीयता: पूर्ण कोड और डेटा प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
- प्रेरणा महत्व: अन्य जटिल निर्णय क्षेत्रों में LLMs के अनुप्रयोग के लिए संदर्भ प्रदान करता है
- गेम AI विकास: तेजी से कई गेम AI विकसित करने की आवश्यकता वाले परिदृश्य के लिए नया विचार प्रदान करता है
- बहु-कार्य सीखना: LLMs की बहु-कार्य सीखने की क्षमता का अनुसंधान करने के लिए बेंचमार्क प्रदान करता है
- निर्णय प्रणाली: जटिल निर्णय प्रणाली के विकास के लिए विधि संदर्भ प्रदान करता है
- AI क्षमता मूल्यांकन: सामान्य AI प्रणाली की जटिल तर्क क्षमता का मूल्यांकन करने के लिए नया उपकरण प्रदान करता है
यह पेपर 46 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें गेम AI विकास इतिहास, बड़े भाषा मॉडल अनुसंधान, सुदृढ़ीकरण सीखने की विधियां आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं।