2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.
Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic

বড় ভাষা মডেলগুলি জটিল কার্ড গেমে দক্ষতা অর্জন করতে পারে কি?

মৌলিক তথ্য

  • পেপার আইডি: 2509.01328
  • শিরোনাম: Can Large Language Models Master Complex Card Games?
  • লেখক: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
  • শ্রেণীবিভাগ: cs.CL
  • প্রকাশিত সম্মেলন: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • পেপার লিংক: https://arxiv.org/abs/2509.01328
  • কোড লিংক: https://github.com/THUDM/LLM4CardGame

সারসংক্ষেপ

জটিল গেমগুলি দীর্ঘদিন ধরে কৃত্রিম বুদ্ধিমত্তা অ্যালগরিদমের অগ্রগতি পরীক্ষা করার জন্য একটি গুরুত্বপূর্ণ মানদণ্ড হিসাবে কাজ করেছে। AlphaGo, AlphaZero এবং MuZero গো এবং দাবায় শীর্ষ মানব খেলোয়াড়দের পরাজিত করেছে, যা কৃত্রিম বুদ্ধিমত্তা সম্পর্কে সমাজে ব্যাপক মনোযোগ আকর্ষণ করেছে। একই সাথে, বড় ভাষা মডেলগুলি (LLM) বিভিন্ন কাজে অসাধারণ ক্ষমতা প্রদর্শন করেছে, যা এই প্রশ্ন উত্থাপন করে যে LLMগুলি জটিল গেমগুলিতে অনুরূপ সাফল্য অর্জন করতে পারে কিনা। এই পেপারটি জটিল কার্ড গেমে LLMগুলির দক্ষতা অর্জনের সম্ভাবনা অন্বেষণ করে। গবেষণা আটটি ভিন্ন কার্ড গেমে LLMগুলির শেখার ক্ষমতা পদ্ধতিগতভাবে মূল্যায়ন করে, উচ্চ-মানের গেম ডেটায় সূক্ষ্ম-সুর করার প্রভাব মূল্যায়ন করে এবং এই গেমগুলিতে দক্ষতা অর্জনের সময় মডেলগুলি সাধারণ ক্ষমতা বজায় রাখতে পারে কিনা তা পরীক্ষা করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: বড় ভাষা মডেলগুলি কি বিশেষায়িত গেম AI-এর মতো জটিল কার্ড গেমে দক্ষতা অর্জন করতে পারে?

গুরুত্ব

  1. AI ক্ষমতার সীমানা অন্বেষণ: জটিল গেমগুলি AI অ্যালগরিদমের সীমা পরীক্ষা করার জন্য একটি গুরুত্বপূর্ণ পরিস্থিতি, Deep Blue থেকে AlphaGo সিরিজ পর্যন্ত এটি প্রমাণ করেছে
  2. সাধারণ বুদ্ধিমত্তা মূল্যায়ন: বিশেষায়িত গেম AI-এর তুলনায়, সাধারণ শিক্ষার্থী হিসাবে LLMগুলির গেম দক্ষতা আরও গবেষণা মূল্য রাখে
  3. বহু-কাজ শেখার ক্ষমতা: LLMগুলি বিশেষভাবে ডিজাইন করা নেটওয়ার্ক আর্কিটেকচার ছাড়াই একাধিক জটিল গেম আয়ত্ত করতে পারে কিনা তা মূল্যায়ন করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. অপর্যাপ্ত মূল্যায়ন: বিদ্যমান গবেষণা প্রধানত প্রম্পট-ভিত্তিক পদ্ধতি ব্যবহার করে, LLMগুলির শেখার ক্ষমতা পর্যাপ্তভাবে মূল্যায়ন করে না
  2. অপর্যাপ্ত কাজের জটিলতা: মূল্যায়ন করা গেমগুলির জটিলতা কম, LLMগুলির শেখার সীমা সম্পূর্ণভাবে পরীক্ষা করতে পারে না
  3. একক গেমের সীমাবদ্ধতা: LLMগুলির একাধিক জটিল গেম একযোগে আয়ত্ত করার ক্ষমতা সম্পর্কে পদ্ধতিগত গবেষণার অভাব

গবেষণা প্রেরণা

AlphaGo সিরিজের সাফল্য দ্বারা অনুপ্রাণিত হয়ে, এই গবেষণা অন্বেষণ করে যে LLMগুলি উচ্চ-মানের গেম ট্র্যাজেক্টরি ডেটা শিখে জটিল কার্ড গেমে দক্ষতা অর্জন করতে পারে কিনা এবং সাধারণ শিক্ষার্থী হিসাবে তাদের সুবিধা মূল্যায়ন করে।

মূল অবদান

  1. প্রথমবারের মতো প্রস্তাব করা হয়েছে একাধিক উচ্চ-জটিলতার গেমে LLMগুলির শেখার ক্ষমতার একটি ব্যাপক মূল্যায়ন কাঠামো
  2. নির্মিত হয়েছে আটটি জটিল কার্ড গেম সহ একটি বৃহৎ-স্কেল উচ্চ-মানের প্রশিক্ষণ ডেটাসেট, যা শূন্য থেকে শেখার উচ্চ গণনামূলক খরচ এড়ায়
  3. পদ্ধতিগতভাবে মূল্যায়ন করা হয়েছে তিনটি মূল মাত্রায় LLMগুলির কর্মক্ষমতা: একক গেম দক্ষতা, বহু-গেম একযোগে শেখার ক্ষমতা, সাধারণ ক্ষমতা সংরক্ষণ ক্ষমতা
  4. প্রমাণ করা হয়েছে যে LLMগুলির শক্তিশালী শেখার ক্ষমতা এবং সার্বজনীনতা রয়েছে, মডেল কাঠামো পরিবর্তন ছাড়াই একাধিক জটিল গেম একযোগে আয়ত্ত করতে পারে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: গেম অবস্থার তথ্য (হাতের কার্ড, ঐতিহাসিক পদক্ষেপ, আইনি পদক্ষেপ ইত্যাদি) আউটপুট: JSON ফর্ম্যাটে গেম পদক্ষেপ সিদ্ধান্ত সীমাবদ্ধতা: পদক্ষেপ অবশ্যই আইনি পদক্ষেপের সেট থেকে নির্বাচিত হতে হবে

গেম নির্বাচন এবং ডেটা প্রস্তুতি

গেম নির্বাচনের মানদণ্ড

তিনটি মাত্রার উপর ভিত্তি করে আটটি কার্ড গেম নির্বাচিত:

  1. জনপ্রিয়তা: গেমের জনপ্রিয়তার স্তর
  2. জটিলতা: তথ্য সেটের সংখ্যা এবং গড় তথ্য সেটের আকার দ্বারা পরিমাপ করা
  3. ডেটা প্রাপ্যতা: শক্তিশালী AI মডেল বা উচ্চ-মানের ডেটা উপলব্ধ কিনা

নির্বাচিত গেম

  • উচ্চ জটিলতার গেম: ডাউজু (Dou Dizhu), গুয়ান্ডা (Guandian), জাপানি মাহজং
  • মধ্যম জটিলতার গেম: UNO, জিন রামি (Gin Rummy)
  • পোকার-ধরনের গেম: Leduc Hold'em, সীমিত টেক্সাস হোল্ড'em, সীমাহীন টেক্সাস হোল্ড'em

ডেটা উৎপাদন প্রক্রিয়া

ট্র্যাজেক্টরি উৎপাদন

  1. শিক্ষক মডেল: শক্তিশালী গেম AI (যেমন DouZero, DanZero) বা বিশেষজ্ঞ ডেটা ব্যবহার করা
  2. প্রতিদ্বন্দ্বী মডেল: নিয়ম-ভিত্তিক মডেল, র্যান্ডম মডেল বা অন্যান্য AI মডেল
  3. গেমের সংখ্যা: গেমের জটিলতা অনুযায়ী সামঞ্জস্য করা, 6k থেকে 400k গেম পর্যন্ত

ডেটা ফিল্টারিং

  1. বিজয়ী ফিল্টারিং: শুধুমাত্র বিজয়ী পক্ষের পর্যবেক্ষণ-পদক্ষেপ জোড়া সংরক্ষণ করা
  2. নির্বাচনী ফিল্টারিং: শুধুমাত্র আইনি পদক্ষেপের সংখ্যা 1-এর বেশি নমুনা সংরক্ষণ করা

নির্দেশনা ডেটা উৎপাদন

গেম-নির্দিষ্ট প্রম্পট টেমপ্লেট ডিজাইন করা, যা অন্তর্ভুক্ত করে:

  • গেম পরিচয়: নিয়ম এবং উদ্দেশ্য
  • অবস্থা ডেটা: হাতের কার্ড, সর্বজনীন কার্ড, ঐতিহাসিক পদক্ষেপ, আইনি পদক্ষেপ
  • আউটপুট ফর্ম্যাট: JSON ফর্ম্যাট প্রয়োজনীয়তা

মডেল প্রশিক্ষণ কৌশল

মডেল নির্বাচন

  • একাধিক মডেল ধরন: Qwen2.5, Llama3.1, GLM4
  • একাধিক স্কেল মডেল: 0.5B থেকে 14B প্যারামিটার

প্রশিক্ষণ কনফিগারেশন

  • সূক্ষ্ম-সুর পদ্ধতি: LoRA সূক্ষ্ম-সুর (rank=8, alpha=16)
  • শেখার হার: শিখর 1e-4, কোসাইন সময়সূচী
  • ব্যাচ আকার: 128
  • প্রশিক্ষণ যুগ: 1 যুগ

পরীক্ষামূলক সেটআপ

ডেটা স্কেল

গেমখেলোয়াড়ের সংখ্যাশিক্ষক মডেলগেমের সংখ্যাগড় পদক্ষেপপ্রশিক্ষণ ডেটা
ডাউজু3DouZero200k37.311,000k
গুয়ান্ডা4DanZero6k311.251,000k
জাপানি মাহজং4বিশেষজ্ঞ ডেটা7k656.921,000k
UNO2নিয়ম মডেল50k42.33400k
জিন রামি2নিয়ম মডেল50k52.14400k

মূল্যায়ন মেট্রিক্স

  • ডাউজু: জয়ের হার
  • গুয়ান্ডা: রাউন্ড জয়ের হার
  • অন্যান্য গেম: পুরস্কার স্কোর (র‍্যাঙ্কিং বা RLCard ফ্রেমওয়ার্কের উপর ভিত্তি করে)

পরীক্ষামূলক ডিজাইন

  1. RQ1: একক গেম দক্ষতা মূল্যায়ন
  2. RQ2: বহু-গেম একযোগে শেখার ক্ষমতা মূল্যায়ন
  3. RQ3: সাধারণ ক্ষমতা সংরক্ষণ মূল্যায়ন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

RQ1: একক গেম দক্ষতা

  • ডাউজু: Qwen2.5-7B 80.6% জয়ের হার অর্জন করে, DouZero-এর কর্মক্ষমতার কাছাকাছি
  • গুয়ান্ডা: তিনটি মডেল সবই প্রায় 63% রাউন্ড জয়ের হার অর্জন করে, DanZero-এর কাছাকাছি
  • জাপানি মাহজং: শক্তিশালী AI Mortal-এর সমতুল্য কর্মক্ষমতা অর্জন করে

মডেল আকারের প্রভাব

  • 0.5B থেকে 7B: প্যারামিটার সংখ্যা বৃদ্ধির সাথে কর্মক্ষমতা উন্নত হয়
  • 14B মডেলের অস্বাভাবিকতা: ডাউজুতে কর্মক্ষমতা বরং হ্রাস পায়, বিশ্লেষণে ভূমিকা শেখার ভারসাম্যহীনতা পাওয়া যায়

RQ2: বহু-গেম একযোগে শেখা

API মডেল তুলনা:

  • DeepSeek-R1 সেরা কর্মক্ষমতা প্রদর্শন করে, 3টি গেমে সর্বোচ্চ স্কোর পায়
  • সূক্ষ্ম-সুর মডেল জটিল গেম (ডাউজু, গুয়ান্ডা, মাহজং)-এ API মডেলের চেয়ে উল্লেখযোগ্যভাবে ভাল

গেম মধ্যে পারস্পরিক প্রভাব:

  • ইতিবাচক স্থানান্তর: নিয়ম-সদৃশ গেম (ডাউজু↔গুয়ান্ডা, তিনটি পোকার গেম মধ্যে)
  • নেতিবাচক হস্তক্ষেপ: নিয়মে বড় পার্থক্য সহ গেম মধ্যে দ্বন্দ্ব

RQ3: সাধারণ ক্ষমতা সংরক্ষণ

ক্ষমতা হ্রাস:

  • MMLU-Pro: 47.95→44.74 (Llama3.1)
  • Math-500: 46.60→35.20 (Llama3.1)
  • HumanEval: 70.73→60.98 (Llama3.1)

ক্ষমতা পুনরুদ্ধার: 20k জ্ঞান ডেটা, 20k গণিত ডেটা, 20k প্রোগ্রামিং ডেটা এবং 8k গেম ডেটা মিশিয়ে আরও সূক্ষ্ম-সুর করার মাধ্যমে:

  • MMLU-Pro: 44.74→45.18
  • Math-500: 35.20→47.20
  • HumanEval: 60.98→65.24

অ্যাবলেশন পরীক্ষা

ডেটা পরিমাণের প্রভাব

প্রশিক্ষণ ডেটা বৃদ্ধির সাথে, মডেলের কর্মক্ষমতা জটিল গেমে ক্রমাগত উন্নত হয়, যা নির্দেশ করে যে উচ্চ-মানের ডেটা LLMগুলির জটিল গেম আয়ত্তের জন্য গুরুত্বপূর্ণ।

মডেল ধরন তুলনা

  • Qwen2.5 এবং Llama3.1 বেশিরভাগ গেমে অনুরূপ কর্মক্ষমতা প্রদর্শন করে
  • GLM4 ডাউজুতে দুর্বল কর্মক্ষমতা প্রদর্শন করে, প্রধানত ভূমিকা শেখার ভারসাম্যহীনতার কারণে

কেস বিশ্লেষণ

ডাউজু ভূমিকা শেখা

GLM4 এবং 14B মডেল ভূমিকা (জমিদার)-এ চমৎকার কর্মক্ষমতা প্রদর্শন করে, কিন্তু কৃষক ভূমিকায় উল্লেখযোগ্যভাবে হ্রাস পায়, বিশ্লেষণে কারণ:

  1. ডেটা গুণমান সমস্যা: কৃষক জয়ের সময় দুই কৃষকের ডেটা উভয়ই সংরক্ষিত হয়, কিন্তু বিজয় সম্ভবত একটি কৃষক দ্বারা প্রধানত অবদান রাখে
  2. শেখার ভারসাম্যহীনতা: মডেল জমিদার ভূমিকার শেখায় আরও মনোযোগ দেয়

সম্পর্কিত কাজ

গেম AI উন্নয়ন

  • ঐতিহ্যবাহী পদ্ধতি: Deep Blue থেকে AlphaGo সিরিজ পর্যন্ত, জটিল গেমে AI-এর অগ্রগতি প্রদর্শন করে
  • শক্তিশালী শেখা: AlphaZero, MuZero ইত্যাদি স্ব-খেলার মাধ্যমে অতিমানব স্তরে পৌঁছায়

LLM গেম ক্ষমতা গবেষণা

  • বিদ্যমান গবেষণা: প্রধানত টেক্সাস হোল্ড'em, 21 পয়েন্ট ইত্যাদি গেমের প্রম্পট পদ্ধতি মূল্যায়নে কেন্দ্রীভূত
  • সীমাবদ্ধতা: LLMগুলির শেখার ক্ষমতার গভীর মূল্যায়নের অভাব, গেমের জটিলতা অপর্যাপ্ত

এই পেপারের সুবিধা

  1. উচ্চতর জটিলতা: নির্বাচিত গেমগুলির বৃহত্তর অবস্থা স্থান এবং পদক্ষেপ স্থান রয়েছে
  2. শেখার ক্ষমতা মূল্যায়ন: সূক্ষ্ম-সুর মাধ্যমে প্রকৃত শেখার ক্ষমতা মূল্যায়ন করা, শুধুমাত্র প্রাক-প্রশিক্ষণ জ্ঞানের উপর নির্ভর করা নয়
  3. পদ্ধতিগত গবেষণা: বহু-গেম, বহু-মাত্রার ব্যাপক মূল্যায়ন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. LLMগুলির জটিল কার্ড গেম আয়ত্তের ক্ষমতা রয়েছে: উচ্চ-মানের ডেটা সূক্ষ্ম-সুর মাধ্যমে বিশেষায়িত গেম AI-এর কর্মক্ষমতার কাছাকাছি পৌঁছাতে পারে
  2. বহু-গেম শেখায় নিয়ম রয়েছে: অনুরূপ নিয়ম গেম মধ্যে ইতিবাচক স্থানান্তর, বড় পার্থক্য গেম মধ্যে নেতিবাচক হস্তক্ষেপ
  3. সাধারণ ক্ষমতা পুনরুদ্ধারযোগ্য: যদিও গেম সূক্ষ্ম-সুর সাধারণ ক্ষমতা ক্ষতি করে, মিশ্র প্রশিক্ষণের মাধ্যমে প্রশমিত করা যায়

সীমাবদ্ধতা

  1. অনুমান গতি: LLMগুলির অনুমান সময় বিশেষায়িত গেম AI-এর চেয়ে দীর্ঘ
  2. ডেটা নির্ভরতা: উচ্চ-মানের গেম ডেটার বড় পরিমাণ প্রয়োজন
  3. ভূমিকা ভারসাম্য: বহু-ভূমিকা গেমে শেখার ভারসাম্যহীনতা সমস্যা
  4. গণনামূলক সম্পদ: প্রশিক্ষণ এবং অনুমানের জন্য বিশাল GPU সম্পদ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. দক্ষতা অপ্টিমাইজেশন: আরও দক্ষ সূক্ষ্ম-সুর এবং অনুমান পদ্ধতি গবেষণা করা
  2. স্ব-খেলা: LLMগুলির স্ব-খেলা শেখার ক্ষমতা অন্বেষণ করা
  3. আরও গেম: আরও ধরনের জটিল গেমে সম্প্রসারণ করা
  4. তাত্ত্বিক বিশ্লেষণ: গেম মধ্যে জ্ঞান স্থানান্তরের প্রক্রিয়া গভীরভাবে বোঝা

গভীর মূল্যায়ন

শক্তি

  1. সমস্যার গুরুত্ব: জটিল গেমে LLMগুলির ক্ষমতা গবেষণা উল্লেখযোগ্য তাত্ত্বিক এবং ব্যবহারিক মূল্য রাখে
  2. পরীক্ষামূলক সম্পূর্ণতা: আটটি গেম, তিনটি গবেষণা প্রশ্ন, একাধিক মডেলের পদ্ধতিগত মূল্যায়ন
  3. পদ্ধতি উদ্ভাবন: শূন্য থেকে প্রশিক্ষণ এড়িয়ে, শক্তিশালী AI দ্বারা উৎপন্ন উচ্চ-মানের ডেটা ব্যবহারের ধারণা উদ্ভাবনী
  4. ফলাফলের প্রভাবশীলতা: একাধিক জটিল গেমে বিশেষায়িত AI-এর কাছাকাছি কর্মক্ষমতা অর্জন করা
  5. গভীর বিশ্লেষণ: অস্বাভাবিক ঘটনা (যেমন 14B মডেলের দুর্বল কর্মক্ষমতা) সম্পর্কে গভীর বিশ্লেষণ

অপূর্ণতা

  1. গেম ধরনের সীমাবদ্ধতা: শুধুমাত্র কার্ড গেমে সীমিত, অন্যান্য ধরনের জটিল গেম অন্তর্ভুক্ত করে না
  2. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: LLMগুলি কেন জটিল গেম আয়ত্ত করতে পারে তার তাত্ত্বিক ব্যাখ্যার অভাব
  3. গণনামূলক খরচ বিশ্লেষণ অপর্যাপ্ত: যদিও গণনামূলক সম্পদ উল্লেখ করা হয়েছে, বিশেষায়িত AI-এর সাথে বিস্তারিত তুলনার অভাব
  4. সাধারণীকরণ ক্ষমতা: অদেখা গেম ভেরিয়েন্টে কর্মক্ষমতা পরীক্ষা করা হয়নি

প্রভাব

  1. একাডেমিক অবদান: জটিল সিদ্ধান্ত গ্রহণের কাজে LLMগুলির প্রয়োগের জন্য গুরুত্বপূর্ণ প্রমাণ প্রদান করে
  2. ব্যবহারিক মূল্য: সাধারণ গেম AI হিসাবে LLMগুলির সম্ভাবনা প্রদর্শন করে
  3. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং ডেটা প্রদান করে, পরবর্তী গবেষণা সহজ করে
  4. অনুপ্রেরণামূলক তাৎপর্য: অন্যান্য জটিল সিদ্ধান্ত ক্ষেত্রে LLMগুলির প্রয়োগের জন্য রেফারেন্স প্রদান করে

প্রযোজ্য পরিস্থিতি

  1. গেম AI উন্নয়ন: একাধিক গেম AI দ্রুত উন্নয়নের প্রয়োজনীয় পরিস্থিতিতে নতুন চিন্তাভাবনা প্রদান করে
  2. বহু-কাজ শেখা: LLMগুলির বহু-কাজ শেখার ক্ষমতা গবেষণার জন্য মানদণ্ড প্রদান করে
  3. সিদ্ধান্ত গ্রহণ ব্যবস্থা: জটিল সিদ্ধান্ত ব্যবস্থা উন্নয়নের জন্য পদ্ধতি রেফারেন্স প্রদান করে
  4. AI ক্ষমতা মূল্যায়ন: সাধারণ AI সিস্টেমের জটিল যুক্তিবিদ্যা ক্ষমতা মূল্যায়নের জন্য নতুন সরঞ্জাম প্রদান করে

রেফারেন্স

এই পেপারটি 46টি গুরুত্বপূর্ণ রেফারেন্স উদ্ধৃত করে, যা গেম AI উন্নয়ন ইতিহাস, বড় ভাষা মডেল গবেষণা, শক্তিশালী শেখার পদ্ধতি ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।