2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame

academic

هل يمكن لنماذج اللغة الكبيرة إتقان ألعاب البطاقات المعقدة؟

المعلومات الأساسية

معرّف الورقة: 2509.01328
العنوان: Can Large Language Models Master Complex Card Games?
المؤلفون: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
التصنيف: cs.CL
المؤتمر المنشور: NeurIPS 2025 (المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية)
رابط الورقة: https://arxiv.org/abs/2509.01328
رابط الكود: https://github.com/THUDM/LLM4CardGame

الملخص

لطالما كانت الألعاب المعقدة معياراً مهماً لاختبار تقدم خوارزميات الذكاء الاصطناعي. حقق AlphaGo و AlphaZero و MuZero انتصارات على أفضل اللاعبين البشريين في لعبة الجو والشطرنج، مما أثار اهتماماً واسعاً بالذكاء الاصطناعي. في الوقت ذاته، أظهرت نماذج اللغة الكبيرة (LLMs) قدرات متفوقة في مهام متنوعة، مما يثير التساؤل عما إذا كانت نماذج اللغة الكبيرة قادرة على تحقيق نجاح مماثل في الألعاب المعقدة. تستكشف هذه الورقة إمكانية إتقان نماذج اللغة الكبيرة لألعاب البطاقات المعقدة. تقيّم الدراسة بشكل منهجي قدرة التعلم لدى نماذج اللغة الكبيرة في ثماني ألعاب بطاقات مختلفة، وتقيّم تأثير الضبط الدقيق على بيانات اللعبة عالية الجودة، وتختبر قدرة النموذج على الحفاظ على القدرات العامة أثناء إتقان هذه الألعاب.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى البحث لحلها هي: هل يمكن لنماذج اللغة الكبيرة إتقان ألعاب البطاقات المعقدة مثل أنظمة الذكاء الاصطناعي المتخصصة في الألعاب؟

الأهمية

استكشاف حدود قدرات الذكاء الاصطناعي: الألعاب المعقدة هي سيناريوهات مهمة لاختبار حدود خوارزميات الذكاء الاصطناعي، كما أثبتت ذلك من Deep Blue إلى سلسلة AlphaGo
تقييم الذكاء العام: مقارنة بأنظمة الذكاء الاصطناعي المتخصصة في الألعاب، فإن قدرة نماذج اللغة الكبيرة على إتقان الألعاب كمتعلمات عامة لها قيمة بحثية أكبر
قدرة التعلم متعدد المهام: تقييم ما إذا كانت نماذج اللغة الكبيرة قادرة على إتقان ألعاب معقدة متعددة دون الحاجة إلى معماريات شبكة مصممة خصيصاً

قيود الطرق الموجودة

تقييم غير كافٍ: تعتمد معظم الأبحاث الموجودة على طرق قائمة على الأوامر، ولم تقيّم بشكل كافٍ قدرة التعلم لدى نماذج اللغة الكبيرة
عدم كفاية تعقيد المهام: الألعاب المقيّمة لها تعقيد منخفض نسبياً، مما لا يسمح بالاختبار الشامل لحدود التعلم لدى نماذج اللغة الكبيرة
قيود اللعبة الواحدة: نقص البحث المنهجي حول قدرة نماذج اللغة الكبيرة على إتقان ألعاب معقدة متعددة في نفس الوقت

دافع البحث

مستوحى من نجاح سلسلة AlphaGo، يستكشف البحث ما إذا كانت نماذج اللغة الكبيرة قادرة على إتقان ألعاب البطاقات المعقدة من خلال تعلم بيانات مسارات اللعبة عالية الجودة، ويقيّم مزايا نماذج اللغة الكبيرة كمتعلمات عامة.

المساهمات الأساسية

تقديم إطار عمل شامل لتقييم قدرة التعلم لدى نماذج اللغة الكبيرة في ألعاب متعددة عالية التعقيد للمرة الأولى
بناء مجموعة بيانات تدريب كبيرة عالية الجودة تحتوي على ثماني ألعاب بطاقات معقدة، مما يتجنب التكاليف الحسابية العالية للتعلم من الصفر
تقييم منهجي لأداء نماذج اللغة الكبيرة في ثلاثة أبعاد رئيسية: قدرة إتقان اللعبة الواحدة، قدرة التعلم المتزامن لألعاب متعددة، قدرة الحفاظ على القدرات العامة
إثبات أن نماذج اللغة الكبيرة تتمتع بقدرات تعلم قوية وعمومية، وقادرة على إتقان ألعاب معقدة متعددة دون تغيير بنية النموذج

شرح الطريقة

تعريف المهمة

المدخلات: معلومات حالة اللعبة (البطاقات في اليد، الإجراءات السابقة، الإجراءات القانونية، إلخ) المخرجات: قرار إجراء اللعبة بصيغة JSON القيود: يجب أن يكون الإجراء من مجموعة الإجراءات القانونية

اختيار اللعبة وتحضير البيانات

معايير اختيار اللعبة

تم اختيار ثماني ألعاب بطاقات بناءً على ثلاثة أبعاد:

الشعبية: درجة شعبية اللعبة
التعقيد: يُقاس من خلال عدد مجموعات المعلومات وحجم مجموعة المعلومات المتوسط
توفر البيانات: ما إذا كانت هناك نماذج ذكاء اصطناعي قوية أو بيانات عالية الجودة

الألعاب المختارة

ألعاب عالية التعقيد: Dou Dizhu (斗地主)، Guan Dan (掼蛋)، Japanese Mahjong (日本麻将)
ألعاب متوسطة التعقيد: UNO، Gin Rummy (金拉米)
ألعاب البوكر: Leduc Hold'em، Limit Texas Hold'em، No-Limit Texas Hold'em

عملية توليد البيانات

توليد المسارات

نموذج المعلم: استخدام ذكاء اصطناعي قوي في اللعبة (مثل DouZero و DanZero) أو بيانات الخبراء
نموذج الخصم: نموذج قائم على القواعد أو نموذج عشوائي أو نموذج ذكاء اصطناعي آخر
عدد الألعاب: يتم التعديل حسب تعقيد اللعبة، يتراوح من 6 آلاف إلى 400 ألف لعبة

تصفية البيانات

تصفية الفائزين: الاحتفاظ فقط بأزواج الملاحظة والإجراء للطرف الفائز
التصفية الانتقائية: الاحتفاظ فقط بالعينات التي يكون فيها عدد الإجراءات القانونية أكبر من 1

توليد بيانات التعليمات

تصميم قوالب أوامر خاصة بكل لعبة، تتضمن:

مقدمة اللعبة: القواعد والأهداف
بيانات الحالة: البطاقات في اليد، البطاقات العامة، الإجراءات السابقة، الإجراءات القانونية
تنسيق المخرجات: متطلبات صيغة JSON

استراتيجية تدريب النموذج

اختيار النموذج

نماذج متعددة الأنواع: Qwen2.5 و Llama3.1 و GLM4
نماذج متعددة الأحجام: من 0.5 مليار إلى 14 مليار معامل

إعدادات التدريب

طريقة الضبط الدقيق: ضبط LoRA (rank=8, alpha=16)
معدل التعلم: ذروة 1e-4، جدولة جيب التمام
حجم الدفعة: 128
عدد الحقب: 1 حقبة

إعداد التجارب

حجم البيانات

اللعبة	عدد اللاعبين	نموذج المعلم	عدد الألعاب	متوسط الخطوات	بيانات التدريب
Dou Dizhu	3	DouZero	200k	37.31	1,000k
Guan Dan	4	DanZero	6k	311.25	1,000k
Japanese Mahjong	4	بيانات الخبراء	7k	656.92	1,000k
UNO	2	نموذج قائم على القواعد	50k	42.33	400k
Gin Rummy	2	نموذج قائم على القواعد	50k	52.14	400k

مؤشرات التقييم

Dou Dizhu: معدل الفوز
Guan Dan: معدل الفوز في الجولة
الألعاب الأخرى: درجة المكافأة (بناءً على الترتيب أو إطار عمل RLCard)

تصميم التجارب

RQ1: تقييم قدرة إتقان اللعبة الواحدة
RQ2: تقييم قدرة التعلم المتزامن لألعاب متعددة
RQ3: تقييم الحفاظ على القدرات العامة

نتائج التجارب

النتائج الرئيسية

RQ1: قدرة إتقان اللعبة الواحدة

Dou Dizhu: حقق Qwen2.5-7B معدل فوز بنسبة 80.6%، قريب من أداء DouZero
Guan Dan: حققت جميع النماذج الثلاثة معدل فوز في الجولة حوالي 63%، قريب من DanZero
Japanese Mahjong: حقق أداء مماثلة لذكاء اصطناعي قوي Mortal

تأثير حجم النموذج

من 0.5 مليار إلى 7 مليار: تتحسن الأداء مع زيادة عدد المعاملات
نموذج 14 مليار شاذ: انخفضت الأداء في Dou Dizhu، وكشف التحليل أن السبب هو عدم توازن تعلم الأدوار

RQ2: التعلم المتزامن لألعاب متعددة

مقارنة نماذج API:

حقق DeepSeek-R1 أفضل أداء، مع أعلى درجات في 3 ألعاب
تفوقت النماذج المضبوطة بشكل كبير على نماذج API في الألعاب المعقدة (Dou Dizhu و Guan Dan و Mahjong)

التأثير المتبادل بين الألعاب:

النقل الإيجابي: الألعاب ذات القواعد المتشابهة (Dou Dizhu ↔ Guan Dan، بين ألعاب البوكر الثلاث)
التداخل السلبي: وجود تضارب بين الألعاب ذات الفروقات الكبيرة في القواعد

RQ3: الحفاظ على القدرات العامة

انخفاض القدرات:

MMLU-Pro: 47.95 → 44.74 (Llama3.1)
Math-500: 46.60 → 35.20 (Llama3.1)
HumanEval: 70.73 → 60.98 (Llama3.1)

استعادة القدرات: من خلال ضبط دقيق إضافي باستخدام 20k بيانات معرفية و 20k بيانات رياضية و 20k بيانات برمجية و 8k بيانات لعبة:

MMLU-Pro: 44.74 → 45.18
Math-500: 35.20 → 47.20
HumanEval: 60.98 → 65.24

التجارب الاستئصالية

تأثير حجم البيانات

مع زيادة بيانات التدريب، تستمر أداء النموذج في التحسن في الألعاب المعقدة، مما يشير إلى أهمية البيانات عالية الجودة لإتقان نماذج اللغة الكبيرة للألعاب المعقدة.

مقارنة أنواع النماذج

Qwen2.5 و Llama3.1 تظهران أداء متشابهة في معظم الألعاب
GLM4 تظهر أداء أضعف في Dou Dizhu، بشكل أساسي بسبب عدم توازن تعلم الأدوار

تحليل الحالات

تعلم الأدوار في Dou Dizhu

اكتشف أن GLM4 ونموذج 14 مليار يظهران أداء ممتازة في دور المالك، لكن أداء دور المزارع انخفضت بشكل ملحوظ، وتحليل الأسباب:

مشكلة جودة البيانات: عند فوز المزارعين، يتم الاحتفاظ ببيانات كلا المزارعين، لكن قد يكون الفوز بشكل أساسي من مساهمة مزارع واحد
عدم توازن التعلم: يركز النموذج أكثر على تعلم دور المالك

الأعمال ذات الصلة

تطور ذكاء اصطناعي الألعاب

الطرق التقليدية: من Deep Blue إلى سلسلة AlphaGo، تعرض تطورات الذكاء الاصطناعي في الألعاب المعقدة
التعلم المعزز: AlphaZero و MuZero وغيرها تحقق مستويات خارقة للبشر من خلال اللعب الذاتي

أبحاث قدرات نماذج اللغة الكبيرة في الألعاب

الأبحاث الموجودة: تركز بشكل أساسي على تقييم طرق الأوامر في ألعاب مثل البوكر و 21
القيود: نقص التقييم المتعمق لقدرات التعلم لدى نماذج اللغة الكبيرة، وعدم كفاية تعقيد اللعبة

مزايا هذه الورقة

تعقيد أعلى: الألعاب المختارة لها مساحة حالة وإجراء أكبر
تقييم قدرة التعلم: تقييم قدرة التعلم الحقيقية من خلال الضبط الدقيق بدلاً من الاعتماد فقط على المعرفة المسبقة
البحث المنهجي: تقييم شامل متعدد الألعاب والأبعاد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نماذج اللغة الكبيرة لديها القدرة على إتقان ألعاب البطاقات المعقدة: من خلال الضبط الدقيق على بيانات عالية الجودة يمكن الاقتراب من أداء أنظمة الذكاء الاصطناعي المتخصصة في الألعاب
وجود أنماط في التعلم متعدد الألعاب: هناك نقل إيجابي بين الألعاب ذات القواعس المتشابهة، وتداخل سلبي بين الألعاب ذات الفروقات الكبيرة
يمكن استعادة القدرات العامة: على الرغم من أن الضبط الدقيق للعبة يضر القدرات العامة، إلا أنه يمكن تخفيف هذا التأثير من خلال التدريب المختلط

القيود

سرعة الاستدلال: وقت الاستدلال لنماذج اللغة الكبيرة أطول من أنظمة الذكاء الاصطناعي المتخصصة في الألعاب
الاعتماد على البيانات: تتطلب كمية كبيرة من بيانات اللعبة عالية الجودة
توازن الأدوار: وجود مشكلة عدم توازن التعلم في الألعاب متعددة الأدوار
موارد الحوسبة: يتطلب التدريب والاستدلال موارد GPU كبيرة

الاتجاهات المستقبلية

تحسين الكفاءة: البحث عن طرق ضبط دقيق واستدلال أكثر كفاءة
اللعب الذاتي: استكشاف قدرة نماذج اللغة الكبيرة على التعلم من خلال اللعب الذاتي
ألعاب أكثر: التوسع إلى أنواع أكثر من الألعاب المعقدة
التحليل النظري: فهم أعمق لآليات نقل المعرفة بين الألعاب

التقييم المتعمق

المزايا

أهمية المشكلة: دراسة قدرة نماذج اللغة الكبيرة في الألعاب المعقدة لها قيمة نظرية وعملية مهمة
شمولية التجارب: تقييم منهجي لثماني ألعاب وثلاث أسئلة بحثية ونماذج متعددة
ابتكار الطريقة: فكرة استخدام بيانات عالية الجودة من ذكاء اصطناعي قوي بدلاً من التدريب من الصفر جديدة
إقناع النتائج: تحقيق أداء قريبة من ذكاء اصطناعي متخصص في ألعاب معقدة متعددة
التحليل المتعمق: تحليل متعمق للظواهر الشاذة (مثل انخفاض أداء نموذج 14 مليار)

أوجه القصور

قيود نوع اللعبة: مقتصرة على ألعاب البطاقات فقط، لم تغطِ أنواع ألعاب معقدة أخرى
نقص التحليل النظري: افتقار إلى شرح نظري لسبب قدرة نماذج اللغة الكبيرة على إتقان الألعاب المعقدة
نقص تحليل التكاليف الحسابية: على الرغم من الإشارة إلى الموارد الحسابية، إلا أن هناك نقص في المقارنة التفصيلية مع ذكاء اصطناعي متخصص
قدرة التعميم: لم يتم اختبار الأداء على متغيرات لعبة لم يتم رؤيتها من قبل

التأثير

المساهمة الأكاديمية: توفير دليل مهم لتطبيق نماذج اللغة الكبيرة في مهام القرار المعقدة
القيمة العملية: عرض إمكانية نماذج اللغة الكبيرة كنظام ذكاء اصطناعي عام للألعاب
قابلية التكرار: توفير كود وبيانات كاملة لتسهيل الأبحاث اللاحقة
القيمة الإرشادية: توفير مرجع لتطبيق نماذج اللغة الكبيرة في مجالات اتخاذ القرار المعقدة الأخرى

السيناريوهات المناسبة

تطوير ذكاء اصطناعي الألعاب: توفير فكرة جديدة للسيناريوهات التي تتطلب تطوير سريع لأنظمة ذكاء اصطناعي لألعاب متعددة
التعلم متعدد المهام: توفير معيار لدراسة قدرة التعلم متعدد المهام لنماذج اللغة الكبيرة
أنظمة القرار: توفير مرجع طريقة لتطوير أنظمة القرار المعقدة
تقييم قدرات الذكاء الاصطناعي: توفير أداة جديدة لتقييم قدرة الاستدلال المعقد لأنظمة الذكاء الاصطناعي العام

المراجع

تستشهد هذه الورقة بـ 46 مرجعاً مهماً، تغطي تطور ذكاء اصطناعي الألعاب وأبحاث نماذج اللغة الكبيرة وطرق التعلم المعزز وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.