2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.
Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic

क्या बड़े भाषा मॉडल जटिल कार्ड गेम में महारत हासिल कर सकते हैं?

मूल जानकारी

  • पेपर ID: 2509.01328
  • शीर्षक: क्या बड़े भाषा मॉडल जटिल कार्ड गेम में महारत हासिल कर सकते हैं?
  • लेखक: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
  • वर्गीकरण: cs.CL
  • प्रकाशन सम्मेलन: NeurIPS 2025 (39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन)
  • पेपर लिंक: https://arxiv.org/abs/2509.01328
  • कोड लिंक: https://github.com/THUDM/LLM4CardGame

सारांश

जटिल गेम लंबे समय से कृत्रिम बुद्धिमत्ता एल्गोरिदम की प्रगति का परीक्षण करने के लिए महत्वपूर्ण बेंचमार्क रहे हैं। AlphaGo, AlphaZero और MuZero ने शतरंज और गो में शीर्ष मानव खिलाड़ियों को हराया है, जिससे कृत्रिम बुद्धिमत्ता के प्रति समाज में व्यापक ध्यान आकर्षित हुआ है। इसी समय, बड़े भाषा मॉडल (LLMs) विभिन्न कार्यों में असाधारण क्षमता प्रदर्शित कर रहे हैं, जिससे यह प्रश्न उठता है कि क्या LLMs जटिल गेम में समान सफलता प्राप्त कर सकते हैं। यह पेपर LLMs द्वारा जटिल कार्ड गेम में महारत हासिल करने की संभावना की खोज करता है। अनुसंधान आठ विभिन्न कार्ड गेम में LLMs की सीखने की क्षमता का व्यवस्थित रूप से मूल्यांकन करता है, उच्च-गुणवत्ता वाले गेम डेटा पर सूक्ष्म-ट्यूनिंग के प्रभाव का मूल्यांकन करता है, और इन गेम में महारत हासिल करते हुए सामान्य क्षमता को बनाए रखने की मॉडल की क्षमता की जांच करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या है: क्या बड़े भाषा मॉडल विशेष गेम AI की तरह जटिल कार्ड गेम में महारत हासिल कर सकते हैं?

महत्व

  1. AI क्षमता सीमा की खोज: जटिल गेम AI एल्गोरिदम की सीमा का परीक्षण करने के लिए महत्वपूर्ण परिदृश्य हैं, Deep Blue से AlphaGo श्रृंखला तक यह सिद्ध हुआ है
  2. सामान्य बुद्धिमत्ता का मूल्यांकन: विशेष गेम AI की तुलना में, सामान्य शिक्षार्थी के रूप में LLMs की गेम महारत क्षमता अधिक अनुसंधान मूल्य रखती है
  3. बहु-कार्य सीखने की क्षमता: यह मूल्यांकन करना कि क्या LLMs विशेष रूप से डिज़ाइन किए गए नेटवर्क आर्किटेक्चर की आवश्यकता के बिना एक साथ कई जटिल गेम में महारत हासिल कर सकते हैं

मौजूदा विधियों की सीमाएं

  1. अपर्याप्त मूल्यांकन: मौजूदा अनुसंधान मुख्य रूप से प्रॉम्प्ट-आधारित विधियों का उपयोग करते हैं, LLMs की सीखने की क्षमता का पूर्ण मूल्यांकन नहीं करते हैं
  2. कार्य जटिलता अपर्याप्त: मूल्यांकन किए गए गेम की जटिलता कम है, LLMs की सीखने की सीमा का व्यापक परीक्षण नहीं कर सकते हैं
  3. एकल गेम सीमा: LLMs द्वारा एक साथ कई जटिल गेम में महारत हासिल करने की क्षमता का व्यवस्थित अनुसंधान अभाव है

अनुसंधान प्रेरणा

AlphaGo श्रृंखला की सफलता से प्रेरित होकर, यह खोज करना कि क्या LLMs उच्च-गुणवत्ता वाले गेम ट्रैजेक्टरी डेटा सीखकर जटिल कार्ड गेम में महारत हासिल कर सकते हैं, और सामान्य शिक्षार्थी के रूप में इसके लाभों का मूल्यांकन करना।

मुख्य योगदान

  1. पहली बार प्रस्तावित किया गया कि कई उच्च-जटिलता वाले गेम में LLMs की सीखने की क्षमता का व्यापक मूल्यांकन ढांचा
  2. निर्मित आठ जटिल कार्ड गेम वाला बड़े पैमाने पर उच्च-गुणवत्ता वाला प्रशिक्षण डेटा सेट, जो शून्य से शुरुआत करने की उच्च कम्प्यूटेशनल लागत से बचता है
  3. व्यवस्थित रूप से मूल्यांकन किया गया LLMs का तीन महत्वपूर्ण आयामों में प्रदर्शन: एकल-गेम महारत क्षमता, बहु-गेम समवर्ती सीखने की क्षमता, सामान्य क्षमता संरक्षण क्षमता
  4. सिद्ध किया कि LLMs में शक्तिशाली सीखने की क्षमता और सामान्यता है, मॉडल संरचना को बदले बिना एक साथ कई जटिल गेम में महारत हासिल कर सकते हैं

विधि विवरण

कार्य परिभाषा

इनपुट: गेम स्थिति जानकारी (हाथ के कार्ड, ऐतिहासिक कार्य, वैध कार्य आदि) आउटपुट: JSON प्रारूप में गेम कार्य निर्णय बाधा: कार्य को वैध कार्य सेट से चुना जाना चाहिए

गेम चयन और डेटा तैयारी

गेम चयन मानदंड

तीन आयामों के आधार पर आठ कार्ड गेम का चयन:

  1. लोकप्रियता: गेम की लोकप्रियता
  2. जटिलता: सूचना सेट की संख्या और औसत सूचना सेट आकार द्वारा मापी गई
  3. डेटा उपलब्धता: क्या मजबूत AI मॉडल या उच्च-गुणवत्ता वाला डेटा है

चयनित गेम

  • उच्च जटिलता गेम: डाउ डी जू, ग्वान डान, जापानी महजोंग
  • मध्यम जटिलता गेम: UNO, जिन रामी
  • पोकर प्रकार के गेम: Leduc Hold'em, सीमित टेक्सास होल्डम, असीमित टेक्सास होल्डम

डेटा जनरेशन प्रवाह

ट्रैजेक्टरी जनरेशन

  1. शिक्षक मॉडल: मजबूत गेम AI (जैसे DouZero, DanZero) या विशेषज्ञ डेटा का उपयोग
  2. विरोधी मॉडल: नियम मॉडल, यादृच्छिक मॉडल या अन्य AI मॉडल
  3. गेम संख्या: गेम जटिलता के अनुसार समायोजित, 6k से 400k तक

डेटा फ़िल्टरिंग

  1. विजेता फ़िल्टरिंग: केवल विजेता पक्ष के अवलोकन-कार्य जोड़े को संरक्षित करें
  2. चयनात्मक फ़िल्टरिंग: केवल वैध कार्य संख्या 1 से अधिक वाले नमूने को संरक्षित करें

निर्देश डेटा जनरेशन

गेम-विशिष्ट प्रॉम्प्ट टेम्पलेट डिज़ाइन करें, जिसमें शामिल हैं:

  • गेम परिचय: नियम और उद्देश्य
  • स्थिति डेटा: हाथ के कार्ड, सार्वजनिक कार्ड, ऐतिहासिक कार्य, वैध कार्य
  • आउटपुट प्रारूप: JSON प्रारूप आवश्यकताएं

मॉडल प्रशिक्षण रणनीति

मॉडल चयन

  • बहु-प्रकार मॉडल: Qwen2.5, Llama3.1, GLM4
  • बहु-पैमाने मॉडल: 0.5B से 14B पैरामीटर

प्रशिक्षण कॉन्फ़िगरेशन

  • सूक्ष्म-ट्यूनिंग विधि: LoRA सूक्ष्म-ट्यूनिंग (rank=8, alpha=16)
  • सीखने की दर: शिखर 1e-4, कोसाइन शेड्यूल
  • बैच आकार: 128
  • प्रशिक्षण एपोक: 1 epoch

प्रायोगिक सेटअप

डेटा स्केल

गेमखिलाड़ी संख्याशिक्षक मॉडलगेम संख्याऔसत कदमप्रशिक्षण डेटा
डाउ डी जू3DouZero200k37.311,000k
ग्वान डान4DanZero6k311.251,000k
जापानी महजोंग4विशेषज्ञ डेटा7k656.921,000k
UNO2नियम मॉडल50k42.33400k
जिन रामी2नियम मॉडल50k52.14400k

मूल्यांकन मेट्रिक्स

  • डाउ डी जू: जीत की दर
  • ग्वान डान: राउंड जीत की दर
  • अन्य गेम: पुरस्कार स्कोर (रैंकिंग या RLCard ढांचे पर आधारित)

प्रायोगिक डिजाइन

  1. RQ1: एकल-गेम महारत क्षमता मूल्यांकन
  2. RQ2: बहु-गेम समवर्ती सीखने की क्षमता मूल्यांकन
  3. RQ3: सामान्य क्षमता संरक्षण मूल्यांकन

प्रायोगिक परिणाम

मुख्य परिणाम

RQ1: एकल-गेम महारत क्षमता

  • डाउ डी जू: Qwen2.5-7B 80.6% जीत की दर तक पहुंचा, DouZero के प्रदर्शन के करीब
  • ग्वान डान: तीनों मॉडल लगभग 63% राउंड जीत की दर तक पहुंचे, DanZero के करीब
  • जापानी महजोंग: मजबूत AI Mortal के बराबर प्रदर्शन तक पहुंचा

मॉडल आकार प्रभाव

  • 0.5B से 7B: पैरामीटर मात्रा बढ़ने के साथ प्रदर्शन में सुधार
  • 14B मॉडल विसंगति: डाउ डी जू में प्रदर्शन में गिरावट, विश्लेषण से पता चलता है कि भूमिका सीखने में असंतुलन के कारण

RQ2: बहु-गेम समवर्ती सीखना

API मॉडल तुलना:

  • DeepSeek-R1 सर्वश्रेष्ठ प्रदर्शन, 3 गेम में सर्वोच्च स्कोर
  • सूक्ष्म-ट्यून किए गए मॉडल जटिल गेम (डाउ डी जू, ग्वान डान, महजोंग) में API मॉडल से काफी बेहतर

गेम के बीच पारस्परिक प्रभाव:

  • सकारात्मक स्थानांतरण: समान नियमों वाले गेम (डाउ डी जू↔ग्वान डान, तीन पोकर गेम के बीच)
  • नकारात्मक हस्तक्षेप: नियमों में बड़े अंतर वाले गेम के बीच संघर्ष

RQ3: सामान्य क्षमता संरक्षण

क्षमता में गिरावट:

  • MMLU-Pro: 47.95→44.74 (Llama3.1)
  • Math-500: 46.60→35.20 (Llama3.1)
  • HumanEval: 70.73→60.98 (Llama3.1)

क्षमता पुनरुद्धार: 20k ज्ञान डेटा, 20k गणित डेटा, 20k प्रोग्रामिंग डेटा और 8k गेम डेटा के साथ आगे सूक्ष्म-ट्यूनिंग के माध्यम से:

  • MMLU-Pro: 44.74→45.18
  • Math-500: 35.20→47.20
  • HumanEval: 60.98→65.24

विलोपन प्रयोग

डेटा मात्रा प्रभाव

प्रशिक्षण डेटा बढ़ने के साथ, मॉडल प्रदर्शन जटिल गेम में लगातार सुधार होता है, जो दर्शाता है कि उच्च-गुणवत्ता वाला डेटा LLMs द्वारा जटिल गेम में महारत हासिल करने के लिए महत्वपूर्ण है।

मॉडल प्रकार तुलना

  • Qwen2.5 और Llama3.1 अधिकांश गेम में समान प्रदर्शन
  • GLM4 डाउ डी जू में कमजोर प्रदर्शन, मुख्य रूप से भूमिका सीखने में असंतुलन के कारण

केस विश्लेषण

डाउ डी जू भूमिका सीखना

GLM4 और 14B मॉडल जमींदार भूमिका पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन किसान भूमिका पर प्रदर्शन में महत्वपूर्ण गिरावट, विश्लेषण कारण:

  1. डेटा गुणवत्ता समस्या: किसान जीतने पर दोनों किसान डेटा संरक्षित होते हैं, लेकिन जीत मुख्य रूप से एक किसान द्वारा योगदान दी जा सकती है
  2. सीखने में असंतुलन: मॉडल जमींदार भूमिका की सीखने पर अधिक ध्यान देता है

संबंधित कार्य

गेम AI विकास

  • पारंपरिक विधि: Deep Blue से AlphaGo श्रृंखला तक, जटिल गेम में AI की सफलता प्रदर्शित करता है
  • सुदृढ़ीकरण सीखना: AlphaZero, MuZero आदि आत्म-खेल के माध्यम से अलौकिक स्तर तक पहुंचते हैं

LLM गेम क्षमता अनुसंधान

  • मौजूदा अनुसंधान: मुख्य रूप से टेक्सास होल्डम, 21 जैसे गेम में प्रॉम्प्ट विधि मूल्यांकन पर केंद्रित
  • सीमाएं: LLMs की सीखने की क्षमता का गहन मूल्यांकन अभाव, गेम जटिलता अपर्याप्त

इस पेपर के लाभ

  1. उच्च जटिलता: चयनित गेम में बड़ी स्थिति स्पेस और कार्य स्पेस है
  2. सीखने की क्षमता मूल्यांकन: सूक्ष्म-ट्यूनिंग के माध्यम से वास्तविक सीखने की क्षमता का मूल्यांकन, केवल पूर्व-प्रशिक्षण ज्ञान पर निर्भर नहीं
  3. व्यवस्थित अनुसंधान: बहु-गेम, बहु-आयामी व्यापक मूल्यांकन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. LLMs में जटिल कार्ड गेम में महारत हासिल करने की क्षमता है: उच्च-गुणवत्ता वाले डेटा सूक्ष्म-ट्यूनिंग के माध्यम से विशेष गेम AI के प्रदर्शन के करीब पहुंच सकते हैं
  2. बहु-गेम सीखने में नियम हैं: समान नियमों वाले गेम के बीच सकारात्मक स्थानांतरण, बड़े अंतर वाले गेम के बीच नकारात्मक हस्तक्षेप
  3. सामान्य क्षमता पुनरुद्धार की जा सकती है: हालांकि गेम सूक्ष्म-ट्यूनिंग सामान्य क्षमता को नुकसान पहुंचाता है, लेकिन मिश्रित प्रशिक्षण के माध्यम से कम किया जा सकता है

सीमाएं

  1. अनुमान गति: LLMs की अनुमान समय विशेष गेम AI से अधिक लंबा है
  2. डेटा निर्भरता: बड़ी मात्रा में उच्च-गुणवत्ता वाले गेम डेटा की आवश्यकता
  3. भूमिका संतुलन: बहु-भूमिका गेम में सीखने में असंतुलन समस्या
  4. कम्प्यूटेशनल संसाधन: प्रशिक्षण और अनुमान के लिए बड़ी मात्रा में GPU संसाधन की आवश्यकता

भविष्य की दिशा

  1. दक्षता अनुकूलन: अधिक कुशल सूक्ष्म-ट्यूनिंग और अनुमान विधियों का अनुसंधान
  2. आत्म-खेल: LLMs की आत्म-खेल सीखने की क्षमता की खोज
  3. अधिक गेम: अधिक प्रकार के जटिल गेम तक विस्तार
  4. सैद्धांतिक विश्लेषण: गेम के बीच ज्ञान स्थानांतरण के तंत्र को गहराई से समझना

गहन मूल्यांकन

शक्तियां

  1. समस्या महत्व: जटिल गेम में LLMs की क्षमता का अनुसंधान महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य रखता है
  2. प्रायोगिक व्यापकता: आठ गेम, तीन अनुसंधान प्रश्न, कई मॉडल का व्यवस्थित मूल्यांकन
  3. विधि नवाचार: शून्य से प्रशिक्षण से बचना, मजबूत AI द्वारा उच्च-गुणवत्ता वाले डेटा जनरेट करने का विचार नया है
  4. परिणाम विश्वसनीयता: कई जटिल गेम में विशेष AI के प्रदर्शन के करीब प्राप्त किया
  5. गहन विश्लेषण: असामान्य घटनाओं (जैसे 14B मॉडल कमजोर प्रदर्शन) का गहन विश्लेषण

कमियां

  1. गेम प्रकार सीमा: केवल कार्ड गेम तक सीमित, अन्य प्रकार के जटिल गेम शामिल नहीं
  2. सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए सिद्धांत अभाव कि LLMs जटिल गेम में महारत क्यों हासिल कर सकते हैं
  3. कम्प्यूटेशनल लागत विश्लेषण: हालांकि कम्प्यूटेशनल संसाधनों का उल्लेख किया गया है, लेकिन विशेष AI के साथ विस्तृत तुलना अभाव है
  4. सामान्यीकरण क्षमता: अनदेखे गेम वेरिएंट पर प्रदर्शन का परीक्षण नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: जटिल निर्णय कार्यों में LLMs के अनुप्रयोग के लिए महत्वपूर्ण साक्ष्य प्रदान करता है
  2. व्यावहारिक मूल्य: सामान्य गेम AI के रूप में LLMs की संभावना प्रदर्शित करता है
  3. पुनरुत्पादनीयता: पूर्ण कोड और डेटा प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
  4. प्रेरणा महत्व: अन्य जटिल निर्णय क्षेत्रों में LLMs के अनुप्रयोग के लिए संदर्भ प्रदान करता है

लागू परिदृश्य

  1. गेम AI विकास: तेजी से कई गेम AI विकसित करने की आवश्यकता वाले परिदृश्य के लिए नया विचार प्रदान करता है
  2. बहु-कार्य सीखना: LLMs की बहु-कार्य सीखने की क्षमता का अनुसंधान करने के लिए बेंचमार्क प्रदान करता है
  3. निर्णय प्रणाली: जटिल निर्णय प्रणाली के विकास के लिए विधि संदर्भ प्रदान करता है
  4. AI क्षमता मूल्यांकन: सामान्य AI प्रणाली की जटिल तर्क क्षमता का मूल्यांकन करने के लिए नया उपकरण प्रदान करता है

संदर्भ

यह पेपर 46 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें गेम AI विकास इतिहास, बड़े भाषा मॉडल अनुसंधान, सुदृढ़ीकरण सीखने की विधियां आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं।