Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
- معرّف الورقة: 2509.01328
- العنوان: Can Large Language Models Master Complex Card Games?
- المؤلفون: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- التصنيف: cs.CL
- المؤتمر المنشور: NeurIPS 2025 (المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية)
- رابط الورقة: https://arxiv.org/abs/2509.01328
- رابط الكود: https://github.com/THUDM/LLM4CardGame
لطالما كانت الألعاب المعقدة معياراً مهماً لاختبار تقدم خوارزميات الذكاء الاصطناعي. حقق AlphaGo و AlphaZero و MuZero انتصارات على أفضل اللاعبين البشريين في لعبة الجو والشطرنج، مما أثار اهتماماً واسعاً بالذكاء الاصطناعي. في الوقت ذاته، أظهرت نماذج اللغة الكبيرة (LLMs) قدرات متفوقة في مهام متنوعة، مما يثير التساؤل عما إذا كانت نماذج اللغة الكبيرة قادرة على تحقيق نجاح مماثل في الألعاب المعقدة. تستكشف هذه الورقة إمكانية إتقان نماذج اللغة الكبيرة لألعاب البطاقات المعقدة. تقيّم الدراسة بشكل منهجي قدرة التعلم لدى نماذج اللغة الكبيرة في ثماني ألعاب بطاقات مختلفة، وتقيّم تأثير الضبط الدقيق على بيانات اللعبة عالية الجودة، وتختبر قدرة النموذج على الحفاظ على القدرات العامة أثناء إتقان هذه الألعاب.
المشكلة الأساسية التي يسعى البحث لحلها هي: هل يمكن لنماذج اللغة الكبيرة إتقان ألعاب البطاقات المعقدة مثل أنظمة الذكاء الاصطناعي المتخصصة في الألعاب؟
- استكشاف حدود قدرات الذكاء الاصطناعي: الألعاب المعقدة هي سيناريوهات مهمة لاختبار حدود خوارزميات الذكاء الاصطناعي، كما أثبتت ذلك من Deep Blue إلى سلسلة AlphaGo
- تقييم الذكاء العام: مقارنة بأنظمة الذكاء الاصطناعي المتخصصة في الألعاب، فإن قدرة نماذج اللغة الكبيرة على إتقان الألعاب كمتعلمات عامة لها قيمة بحثية أكبر
- قدرة التعلم متعدد المهام: تقييم ما إذا كانت نماذج اللغة الكبيرة قادرة على إتقان ألعاب معقدة متعددة دون الحاجة إلى معماريات شبكة مصممة خصيصاً
- تقييم غير كافٍ: تعتمد معظم الأبحاث الموجودة على طرق قائمة على الأوامر، ولم تقيّم بشكل كافٍ قدرة التعلم لدى نماذج اللغة الكبيرة
- عدم كفاية تعقيد المهام: الألعاب المقيّمة لها تعقيد منخفض نسبياً، مما لا يسمح بالاختبار الشامل لحدود التعلم لدى نماذج اللغة الكبيرة
- قيود اللعبة الواحدة: نقص البحث المنهجي حول قدرة نماذج اللغة الكبيرة على إتقان ألعاب معقدة متعددة في نفس الوقت
مستوحى من نجاح سلسلة AlphaGo، يستكشف البحث ما إذا كانت نماذج اللغة الكبيرة قادرة على إتقان ألعاب البطاقات المعقدة من خلال تعلم بيانات مسارات اللعبة عالية الجودة، ويقيّم مزايا نماذج اللغة الكبيرة كمتعلمات عامة.
- تقديم إطار عمل شامل لتقييم قدرة التعلم لدى نماذج اللغة الكبيرة في ألعاب متعددة عالية التعقيد للمرة الأولى
- بناء مجموعة بيانات تدريب كبيرة عالية الجودة تحتوي على ثماني ألعاب بطاقات معقدة، مما يتجنب التكاليف الحسابية العالية للتعلم من الصفر
- تقييم منهجي لأداء نماذج اللغة الكبيرة في ثلاثة أبعاد رئيسية: قدرة إتقان اللعبة الواحدة، قدرة التعلم المتزامن لألعاب متعددة، قدرة الحفاظ على القدرات العامة
- إثبات أن نماذج اللغة الكبيرة تتمتع بقدرات تعلم قوية وعمومية، وقادرة على إتقان ألعاب معقدة متعددة دون تغيير بنية النموذج
المدخلات: معلومات حالة اللعبة (البطاقات في اليد، الإجراءات السابقة، الإجراءات القانونية، إلخ)
المخرجات: قرار إجراء اللعبة بصيغة JSON
القيود: يجب أن يكون الإجراء من مجموعة الإجراءات القانونية
تم اختيار ثماني ألعاب بطاقات بناءً على ثلاثة أبعاد:
- الشعبية: درجة شعبية اللعبة
- التعقيد: يُقاس من خلال عدد مجموعات المعلومات وحجم مجموعة المعلومات المتوسط
- توفر البيانات: ما إذا كانت هناك نماذج ذكاء اصطناعي قوية أو بيانات عالية الجودة
- ألعاب عالية التعقيد: Dou Dizhu (斗地主)، Guan Dan (掼蛋)، Japanese Mahjong (日本麻将)
- ألعاب متوسطة التعقيد: UNO، Gin Rummy (金拉米)
- ألعاب البوكر: Leduc Hold'em، Limit Texas Hold'em، No-Limit Texas Hold'em
- نموذج المعلم: استخدام ذكاء اصطناعي قوي في اللعبة (مثل DouZero و DanZero) أو بيانات الخبراء
- نموذج الخصم: نموذج قائم على القواعد أو نموذج عشوائي أو نموذج ذكاء اصطناعي آخر
- عدد الألعاب: يتم التعديل حسب تعقيد اللعبة، يتراوح من 6 آلاف إلى 400 ألف لعبة
- تصفية الفائزين: الاحتفاظ فقط بأزواج الملاحظة والإجراء للطرف الفائز
- التصفية الانتقائية: الاحتفاظ فقط بالعينات التي يكون فيها عدد الإجراءات القانونية أكبر من 1
تصميم قوالب أوامر خاصة بكل لعبة، تتضمن:
- مقدمة اللعبة: القواعد والأهداف
- بيانات الحالة: البطاقات في اليد، البطاقات العامة، الإجراءات السابقة، الإجراءات القانونية
- تنسيق المخرجات: متطلبات صيغة JSON
- نماذج متعددة الأنواع: Qwen2.5 و Llama3.1 و GLM4
- نماذج متعددة الأحجام: من 0.5 مليار إلى 14 مليار معامل
- طريقة الضبط الدقيق: ضبط LoRA (rank=8, alpha=16)
- معدل التعلم: ذروة 1e-4، جدولة جيب التمام
- حجم الدفعة: 128
- عدد الحقب: 1 حقبة
| اللعبة | عدد اللاعبين | نموذج المعلم | عدد الألعاب | متوسط الخطوات | بيانات التدريب |
|---|
| Dou Dizhu | 3 | DouZero | 200k | 37.31 | 1,000k |
| Guan Dan | 4 | DanZero | 6k | 311.25 | 1,000k |
| Japanese Mahjong | 4 | بيانات الخبراء | 7k | 656.92 | 1,000k |
| UNO | 2 | نموذج قائم على القواعد | 50k | 42.33 | 400k |
| Gin Rummy | 2 | نموذج قائم على القواعد | 50k | 52.14 | 400k |
- Dou Dizhu: معدل الفوز
- Guan Dan: معدل الفوز في الجولة
- الألعاب الأخرى: درجة المكافأة (بناءً على الترتيب أو إطار عمل RLCard)
- RQ1: تقييم قدرة إتقان اللعبة الواحدة
- RQ2: تقييم قدرة التعلم المتزامن لألعاب متعددة
- RQ3: تقييم الحفاظ على القدرات العامة
- Dou Dizhu: حقق Qwen2.5-7B معدل فوز بنسبة 80.6%، قريب من أداء DouZero
- Guan Dan: حققت جميع النماذج الثلاثة معدل فوز في الجولة حوالي 63%، قريب من DanZero
- Japanese Mahjong: حقق أداء مماثلة لذكاء اصطناعي قوي Mortal
- من 0.5 مليار إلى 7 مليار: تتحسن الأداء مع زيادة عدد المعاملات
- نموذج 14 مليار شاذ: انخفضت الأداء في Dou Dizhu، وكشف التحليل أن السبب هو عدم توازن تعلم الأدوار
مقارنة نماذج API:
- حقق DeepSeek-R1 أفضل أداء، مع أعلى درجات في 3 ألعاب
- تفوقت النماذج المضبوطة بشكل كبير على نماذج API في الألعاب المعقدة (Dou Dizhu و Guan Dan و Mahjong)
التأثير المتبادل بين الألعاب:
- النقل الإيجابي: الألعاب ذات القواعد المتشابهة (Dou Dizhu ↔ Guan Dan، بين ألعاب البوكر الثلاث)
- التداخل السلبي: وجود تضارب بين الألعاب ذات الفروقات الكبيرة في القواعد
انخفاض القدرات:
- MMLU-Pro: 47.95 → 44.74 (Llama3.1)
- Math-500: 46.60 → 35.20 (Llama3.1)
- HumanEval: 70.73 → 60.98 (Llama3.1)
استعادة القدرات:
من خلال ضبط دقيق إضافي باستخدام 20k بيانات معرفية و 20k بيانات رياضية و 20k بيانات برمجية و 8k بيانات لعبة:
- MMLU-Pro: 44.74 → 45.18
- Math-500: 35.20 → 47.20
- HumanEval: 60.98 → 65.24
مع زيادة بيانات التدريب، تستمر أداء النموذج في التحسن في الألعاب المعقدة، مما يشير إلى أهمية البيانات عالية الجودة لإتقان نماذج اللغة الكبيرة للألعاب المعقدة.
- Qwen2.5 و Llama3.1 تظهران أداء متشابهة في معظم الألعاب
- GLM4 تظهر أداء أضعف في Dou Dizhu، بشكل أساسي بسبب عدم توازن تعلم الأدوار
اكتشف أن GLM4 ونموذج 14 مليار يظهران أداء ممتازة في دور المالك، لكن أداء دور المزارع انخفضت بشكل ملحوظ، وتحليل الأسباب:
- مشكلة جودة البيانات: عند فوز المزارعين، يتم الاحتفاظ ببيانات كلا المزارعين، لكن قد يكون الفوز بشكل أساسي من مساهمة مزارع واحد
- عدم توازن التعلم: يركز النموذج أكثر على تعلم دور المالك
- الطرق التقليدية: من Deep Blue إلى سلسلة AlphaGo، تعرض تطورات الذكاء الاصطناعي في الألعاب المعقدة
- التعلم المعزز: AlphaZero و MuZero وغيرها تحقق مستويات خارقة للبشر من خلال اللعب الذاتي
- الأبحاث الموجودة: تركز بشكل أساسي على تقييم طرق الأوامر في ألعاب مثل البوكر و 21
- القيود: نقص التقييم المتعمق لقدرات التعلم لدى نماذج اللغة الكبيرة، وعدم كفاية تعقيد اللعبة
- تعقيد أعلى: الألعاب المختارة لها مساحة حالة وإجراء أكبر
- تقييم قدرة التعلم: تقييم قدرة التعلم الحقيقية من خلال الضبط الدقيق بدلاً من الاعتماد فقط على المعرفة المسبقة
- البحث المنهجي: تقييم شامل متعدد الألعاب والأبعاد
- نماذج اللغة الكبيرة لديها القدرة على إتقان ألعاب البطاقات المعقدة: من خلال الضبط الدقيق على بيانات عالية الجودة يمكن الاقتراب من أداء أنظمة الذكاء الاصطناعي المتخصصة في الألعاب
- وجود أنماط في التعلم متعدد الألعاب: هناك نقل إيجابي بين الألعاب ذات القواعس المتشابهة، وتداخل سلبي بين الألعاب ذات الفروقات الكبيرة
- يمكن استعادة القدرات العامة: على الرغم من أن الضبط الدقيق للعبة يضر القدرات العامة، إلا أنه يمكن تخفيف هذا التأثير من خلال التدريب المختلط
- سرعة الاستدلال: وقت الاستدلال لنماذج اللغة الكبيرة أطول من أنظمة الذكاء الاصطناعي المتخصصة في الألعاب
- الاعتماد على البيانات: تتطلب كمية كبيرة من بيانات اللعبة عالية الجودة
- توازن الأدوار: وجود مشكلة عدم توازن التعلم في الألعاب متعددة الأدوار
- موارد الحوسبة: يتطلب التدريب والاستدلال موارد GPU كبيرة
- تحسين الكفاءة: البحث عن طرق ضبط دقيق واستدلال أكثر كفاءة
- اللعب الذاتي: استكشاف قدرة نماذج اللغة الكبيرة على التعلم من خلال اللعب الذاتي
- ألعاب أكثر: التوسع إلى أنواع أكثر من الألعاب المعقدة
- التحليل النظري: فهم أعمق لآليات نقل المعرفة بين الألعاب
- أهمية المشكلة: دراسة قدرة نماذج اللغة الكبيرة في الألعاب المعقدة لها قيمة نظرية وعملية مهمة
- شمولية التجارب: تقييم منهجي لثماني ألعاب وثلاث أسئلة بحثية ونماذج متعددة
- ابتكار الطريقة: فكرة استخدام بيانات عالية الجودة من ذكاء اصطناعي قوي بدلاً من التدريب من الصفر جديدة
- إقناع النتائج: تحقيق أداء قريبة من ذكاء اصطناعي متخصص في ألعاب معقدة متعددة
- التحليل المتعمق: تحليل متعمق للظواهر الشاذة (مثل انخفاض أداء نموذج 14 مليار)
- قيود نوع اللعبة: مقتصرة على ألعاب البطاقات فقط، لم تغطِ أنواع ألعاب معقدة أخرى
- نقص التحليل النظري: افتقار إلى شرح نظري لسبب قدرة نماذج اللغة الكبيرة على إتقان الألعاب المعقدة
- نقص تحليل التكاليف الحسابية: على الرغم من الإشارة إلى الموارد الحسابية، إلا أن هناك نقص في المقارنة التفصيلية مع ذكاء اصطناعي متخصص
- قدرة التعميم: لم يتم اختبار الأداء على متغيرات لعبة لم يتم رؤيتها من قبل
- المساهمة الأكاديمية: توفير دليل مهم لتطبيق نماذج اللغة الكبيرة في مهام القرار المعقدة
- القيمة العملية: عرض إمكانية نماذج اللغة الكبيرة كنظام ذكاء اصطناعي عام للألعاب
- قابلية التكرار: توفير كود وبيانات كاملة لتسهيل الأبحاث اللاحقة
- القيمة الإرشادية: توفير مرجع لتطبيق نماذج اللغة الكبيرة في مجالات اتخاذ القرار المعقدة الأخرى
- تطوير ذكاء اصطناعي الألعاب: توفير فكرة جديدة للسيناريوهات التي تتطلب تطوير سريع لأنظمة ذكاء اصطناعي لألعاب متعددة
- التعلم متعدد المهام: توفير معيار لدراسة قدرة التعلم متعدد المهام لنماذج اللغة الكبيرة
- أنظمة القرار: توفير مرجع طريقة لتطوير أنظمة القرار المعقدة
- تقييم قدرات الذكاء الاصطناعي: توفير أداة جديدة لتقييم قدرة الاستدلال المعقد لأنظمة الذكاء الاصطناعي العام
تستشهد هذه الورقة بـ 46 مرجعاً مهماً، تغطي تطور ذكاء اصطناعي الألعاب وأبحاث نماذج اللغة الكبيرة وطرق التعلم المعزز وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.