2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak
This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.
academic

প্রতিযোগিতামূলক বহু-এজেন্টদের শক্তিশালীকরণ 'সো লং সাকার' খেলার জন্য

মৌলিক তথ্য

  • পেপার আইডি: 2411.11057
  • শিরোনাম: প্রতিযোগিতামূলক বহু-এজেন্টদের শক্তিশালীকরণ 'সো লং সাকার' খেলার জন্য
  • লেখক: মেদান্ত শারণ (কিংস কলেজ লন্ডন), চন্দ্রনাথ অদক (আইআইটি পাটনা)
  • শ্রেণীবিভাগ: cs.AI
  • প্রকাশনার সময়: নভেম্বর ২০২৪ (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2411.11057

সারসংক্ষেপ

এই পেপারটি কৌশলগত গেম "সো লং সাকার" (এসএলএস) কে প্রথমবারের মতো বহু-এজেন্ট শক্তিশালী শিক্ষা (এমএআরএল) ক্ষেত্রে নতুন মানদণ্ড হিসাবে প্রবর্তন করে। ঐতিহ্যবাহী বোর্ড গেম বা ভিডিও গেম পরীক্ষার প্ল্যাটফর্মের বিপরীতে, এসএলএস জোট গঠন, কৌশলগত প্রতারণা এবং গতিশীল বর্জন নিয়ম সহ বৈশিষ্ট্যযুক্ত, যা স্বায়ত্তশাসিত বুদ্ধিমান এজেন্টদের জন্য অনন্য চ্যালেঞ্জ পরিবেশ প্রদান করে। গবেষকরা প্রথম জনসাধারণের জন্য উপলব্ধ এসএলএস গণনামূলক কাঠামো তৈরি করেছেন, যাতে গ্রাফিক্যাল ব্যবহারকারী ইন্টারফেস এবং শক্তিশালী শিক্ষা অ্যালগরিদম বেঞ্চমার্ক সমর্থন রয়েছে। ক্লাসিক গভীর শক্তিশালী শিক্ষা পদ্ধতি (ডিকিউএন, ডিডিকিউএন, ডিউয়েলিং ডিকিউএন) এর মাধ্যমে স্ব-খেলা এজেন্টদের এসএলএস নিয়ম এবং মৌলিক কৌশল শিখতে প্রশিক্ষণ দেওয়া হয়েছে। পরীক্ষামূলক ফলাফল দেখায় যে, যদিও এই এজেন্টরা সর্বাধিক অর্জনযোগ্য পুরস্কারের প্রায় অর্ধেক অর্জন করতে পারে এবং ক্রমাগত র্যান্ডম বেসলাইনকে ছাড়িয়ে যায়, তবে দীর্ঘ প্রশিক্ষণ চক্র প্রয়োজন (প্রায় ২০০০ গেম) এবং এখনও মাঝেমধ্যে অবৈধ পদক্ষেপ সম্পাদন করে, যা ক্লাসিক শক্তিশালী শিক্ষার সম্ভাবনা এবং সীমাবদ্ধতা তুলে ধরে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান বহু-এজেন্ট শক্তিশালী শিক্ষা মানদণ্ড প্রধানত বিশুদ্ধ সহযোগিতামূলক উদ্দেশ্য (যেমন সমন্বয় কাজ) বা প্রতিকূল প্রতিযোগিতা (যেমন দুই-ব্যক্তির শূন্য-সমষ্টি গেম) এ কেন্দ্রীভূত, যা জোট গঠন এবং বিশ্বাসঘাতকতা গতিশীলতা উভয়কে ক্যাপচার করতে পারে এমন মিশ্র পরিবেশের অভাব রয়েছে। যদিও গো, স্টারক্রাফট II এবং ডিপ্লোমেসি-তে অগ্রগতি অর্জিত হয়েছে, এই মানদণ্ডগুলি এসএলএস-এর অনন্য জোট এবং বিশ্বাসঘাতকতা মিশ্র গতিশীলতা সম্পূর্ণভাবে প্রতিফলিত করে না।

গবেষণার গুরুত্ব

এসএলএস হাউসনার, ন্যাশ, শ্যাপলি এবং শুবিক দ্বারা ডিজাইন করা চার-ব্যক্তির কৌশলগত গেম, জোট গঠন, অস্থায়ী জোট এবং অনিবার্য বিশ্বাসঘাতকতার চারপাশে ঘোরে, বিজয় শুধুমাত্র আইনি পদক্ষেপের উপর নয় বরং কূটনীতি এবং সুযোগবাদের উপরও নির্ভর করে, যা এটিকে বিশ্বাস, আলোচনা এবং সামাজিক দ্বিধার অধ্যয়নের জন্য একটি অনন্য পরীক্ষার প্ল্যাটফর্ম করে তোলে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

১. বেশিরভাগ এমএআরএল মানদণ্ড জোট এবং বিশ্বাসঘাতকতার মিশ্র গতিশীলতার অভাব রয়েছে ২. সামাজিক সমৃদ্ধ সেটিংসে পূর্ববর্তী কাজ সাধারণত স্পষ্ট যোগাযোগ চ্যানেল বা হস্তনির্মিত মিথস্ক্রিয়া নিয়মের উপর নির্ভর করে ৩. এসএলএস আগে গণনামূলক মানদণ্ড হিসাবে অধ্যয়ন করা হয়নি

গবেষণা প্রেরণা

এসএলএস কে পুনরাবৃত্তিমূলক ক্রমানুসারী রূপান্তরে আনুষ্ঠানিক করে এবং বেসলাইন ডিআরএল অ্যালগরিদম বেঞ্চমার্ক করে, এই পেপারটি এসএলএস কে এমএআরএল গবেষণা অগ্রসর করার জন্য জোট এবং বিশ্বাসঘাতকতা-সচেতন পরীক্ষার প্ল্যাটফর্ম হিসাবে অবস্থান করে।

মূল অবদান

১. প্রথম এসএলএস গণনামূলক কাঠামো: শক্তিশালী শিক্ষা গবেষণার জন্য বিশেষভাবে ডিজাইন করা প্রথম এসএলএস গণনামূলক কাঠামো ডিজাইন এবং প্রকাশ করা হয়েছে, যা পরীক্ষার জন্য জিইউআই সহ সজ্জিত २. ক্লাসিক ডিআরএল অ্যালগরিদম বেঞ্চমার্কিং: এসএলএস-এ ক্লাসিক ডিআরএল অ্যালগরিদম (ডিকিউএন, ডিডিকিউএন, ডিউয়েলিং ডিকিউএন) বেঞ্চমার্ক করা হয়েছে, আইনি গেম দক্ষতা অর্জন এবং আংশিক কৌশল সচেতনতার ক্ষমতা বিশ্লেষণ করা হয়েছে ३. জোট এবং বিশ্বাসঘাতকতা-সচেতন মানদণ্ড: এসএলএস কে এমএআরএল-এর জন্য জোট এবং বিশ্বাসঘাতকতা-সচেতন মানদণ্ড হিসাবে প্রতিষ্ঠিত করা হয়েছে, ডিআরএল এবং গেম তত্ত্ব যুক্তি একত্রিত করে এমন হাইব্রিড পদ্ধতির ভবিষ্যত গবেষণা অনুপ্রাণিত করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এসএলএস কে এমএআরএল পরিবেশে রূপান্তরিত করা হয়েছে, সাধারণীকৃত হফস্ট্রা সংস্করণের শূন্য-সমষ্টি রূপান্তর গ্রহণ করে। চার জন খেলোয়াড় প্রত্যেককে অনন্য রঙ বরাদ্দ করা হয়, প্রতিটি ৫টি একই রঙের চিপ দিয়ে শুরু করে, সর্বাধিক ৬টি সক্রিয় স্ট্যাকের বোর্ডে খেলে। বিজয়ের শর্ত হল শেষ জীবিত খেলোয়াড় হওয়া।

শক্তিশালী শিক্ষা আনুষ্ঠানিকীকরণ

এসএলএস কে মার্কভ সিদ্ধান্ত প্রক্রিয়া (এমডিপি) হিসাবে মডেল করা হয়েছে:

  • অবস্থা স্থান S: সমস্ত সম্ভাব্য গেম অবস্থার সেট
  • কর্ম স্থান A: এজেন্টের জন্য উপলব্ধ সমস্ত কর্মের সেট (বিচ্ছিন্ন বৈধ পদক্ষেপ)
  • রূপান্তর ফাংশন: p(s'|s,a) অবস্থা s-এ কর্ম a সম্পাদনের পরে s'-এ রূপান্তরের সম্ভাবনা প্রকাশ করে
  • পুরস্কার ফাংশন: r(s,a,s') প্রতিটি রূপান্তরের জন্য স্কেলার মান বরাদ্দ করে
  • নীতি: π(a|s) প্রদত্ত অবস্থা s-এ এজেন্ট কর্ম a নির্বাচনের নীতি

লক্ষ্য হল সর্বোত্তম নীতি π* খুঁজে বের করা যা প্রত্যাশিত ছাড়যুক্ত রিটার্ন সর্বাধিক করে: Rt=k=0γkrt+k+1R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

অবস্থা প্রতিনিধিত্ব

অবস্থা st গেম পরিবেশ বর্ণনার জন্য প্রয়োজনীয় সমস্ত তথ্য এনকোড করে: st=(বোর্ড কনফিগারেশন,খেলোয়াড় চিপ,বর্জিত চিপ,বর্তমান খেলোয়াড়,গেম পর্যায়,ধাপ গণনা)s_t = (বোর্ড\ কনফিগারেশন, খেলোয়াড়\ চিপ, বর্জিত\ চিপ, বর্তমান\ খেলোয়াড়, গেম\ পর্যায়, ধাপ\ গণনা)

পর্যবেক্ষণ স্থানের আকার: obs_size=(nrows×nplayers×nmax_pile)+nplayers2+(2×nplayers)+4+1obs\_size = (n_{rows} \times n_{players} \times n_{max\_pile}) + n_{players}^2 + (2 \times n_{players}) + 4 + 1

কর্ম স্থান

বিচ্ছিন্ন কর্ম স্থান A = {A₀, A₁, ..., A₉}, যাতে রয়েছে:

  • A₀-A₅: স্ট্যাক নির্বাচন কর্ম (স্ট্যাক নির্বাচন পর্যায়ে বৈধ)
  • A₆-A₉: খেলোয়াড়/রঙ সিদ্ধান্ত কর্ম (চিপ নির্বাচন, পরবর্তী খেলোয়াড় নির্বাচন, চিপ বর্জন পর্যায়ে বৈধ)

পুরস্কার ডিজাইন

সময় ধাপ t-এ পুরস্কার সংকেত সংজ্ঞায়িত করা হয়েছে: rt=min(,(α/nc)t)r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)

যেখানে α ∈ (0,1] হল ক্ষয় হার নিয়ন্ত্রণকারী হাইপারপ্যারামিটার, ℘ হল পুরস্কার প্রশস্ততা। অবৈধ কর্মগুলি নির্দিষ্ট নেতিবাচক পুরস্কার (-℘) দ্বারা শাস্তিপ্রাপ্ত হয়, আইনি কর্মগুলি সর্বাধিক +℘ ইতিবাচক পুরস্কার পায়, যা দক্ষতা প্রচারের জন্য ধাপ সংখ্যার সাথে হ্রাস পায়।

পরীক্ষামূলক সেটআপ

গেম কনফিগারেশন

  • খেলোয়াড় সংখ্যা: ৪ জন খেলোয়াড়
  • প্রাথমিক চিপ: প্রতিটি খেলোয়াড়ের জন্য ৫টি একই রঙের চিপ
  • সর্বাধিক স্ট্যাক সংখ্যা: ৬টি সক্রিয় স্ট্যাক
  • বিজয়ের শর্ত: শূন্য-সমষ্টি গেম, পুরস্কার কাঠামো {0,0,0,ù}, ù ∈ N⁺

প্রশিক্ষণ কনফিগারেশন

কেন্দ্রীভূত সংগ্রহকারী শিক্ষা সেটআপ গ্রহণ করা হয়েছে, সমস্ত চার খেলোয়াড় এজেন্ট সাধারণ শিক্ষা নেটওয়ার্ক এবং রিপ্লে বাফার ভাগ করে। নেটওয়ার্ক আর্কিটেকচার দুটি ৬৪ নিউরন সম্পূর্ণ সংযুক্ত লুকানো স্তর (আরইএলইউ সক্রিয়করণ), তারপরে রৈখিক আউটপুট স্তর।

হাইপারপ্যারামিটার সেটিং

  • ছাড় ফ্যাক্টর γ = ০.৯৫
  • প্রাথমিক অন্বেষণ হার ε₀ = ১.০
  • অন্বেষণ ক্ষয় হার ε_decay = ०.९९५
  • ন্যূনতম অন্বেষণ হার ε_min = ०.०१
  • শিক্ষার হার = ०.००१
  • ব্যাচ আকার = ६४
  • প্রশিক্ষণ পর্ব = १०,००० গেম

মূল্যায়ন মেট্রিক্স

  • সংগৃহীত পুরস্কারের গড় এবং মান বিচ্যুতি
  • প্রতি গেম গড় ধাপ
  • পুরস্কার পরিসীমা ন্যূনতম মান, সর্বোচ্চ মান
  • ধাপ পরিসীমা ন্যূনতম মান, সর্বোচ্চ মান

তুলনামূলক পদ্ধতি

  • ডিকিউএন (ডিপ Q-নেটওয়ার্ক)
  • ডিডিকিউএন (ডাবল ডিকিউএন)
  • ডিউয়েলিং ডিকিউএন
  • র্যান্ডম বেসলাইন (র্যান্ডম ভিত্তি)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

এজেন্টপুরস্কার (গড়±মান বিচ্যুতি)পুরস্কার পরিসীমা ন্যূনতম,সর্বোচ্চধাপ (গড়±মান বিচ্যুতি)ধাপ পরিসীমা ন্যূনতম,সর্বোচ্চ
ডিকিউএন१०३.४० ± ४२.३१-३१३.४५, १८९.२४६१.१६ ± १४.५१२७, १६२
ডিডিকিউএন१०८.४४ ± ४४.९५-२७९.१३, १९१.३८६१.२३ ± १४.१८२८, १६५
ডিউয়েলিং ডিকিউএন१०२.०६ ± ४९.६२-३१९.७६, १९२.०९६५.९२ ± १५.९४२८, १७३
র্যান্ডম-८.७८ ± ४३.५२-४१९.२६, ९४.१९६५.२४ ± १७.७६२९, १७४

মূল আবিষ্কার

१. কর্মক্ষমতা প্রদর্শন: সমস্ত ডিআরএল এজেন্ট ক্রমাগত র্যান্ডম বেসলাইনকে ছাড়িয়ে যায়, তাত্ত্বিক সর্বোচ্চ পুরস্কারের (≈२००) প্রায় অর্ধেক অর্জন করে २. সংগ্রহ বৈশিষ্ট্য: ডিডিকিউএন সবচেয়ে স্থিতিশীল সংগ্রহ এবং সর্বোচ্চ গড় পুরস্কার অর্জন করে, দীর্ঘমেয়াদী গেম Q-মান অতিমূল্যায়ন প্রশমনে দ্বিগুণ অনুমানের সুবিধা যাচাই করে ३. শিক্ষা গতিশীলতা: প্রাথমিক প্রশিক্ষণ পর্যায়ে (<५०० গেম) এজেন্টরা বড় পুরস্কার বৈচিত্র্য প্রদর্শন করে, প্রায় २००० গেমের পরে সমস্ত ডিআরএল এজেন্ট আরও মসৃণ সংগ্রহ প্রদর্শন করে

শিক্ষা বক্ররেখা বিশ্লেষণ

প্রশিক্ষণ প্রক্রিয়া তিনটি পর্যায়ে বিভক্ত:

  • অন্বেষণ পর্যায় (०-५०० গেম): উচ্চ বৈচিত্র্য, ঘন ঘন অবৈধ কর্ম
  • শিক্ষা পর্যায় (५००-२००० গেম): ক্রমান্বয়ে নিয়ম আয়ত্ত, পুরস্কার ধারাবাহিকভাবে বৃদ্ধি
  • সংগ্রহ পর্যায় (>२००० গেম): পুরস্কার १००-१२० পরিসীমায় স্থিতিশীল, মাঝেমধ্যে অন্বেষণমূলক হ্রাস

সম্পর্কিত কাজ

এমএআরএল মানদণ্ড উন্নয়ন

  • ঐতিহ্যবাহী মানদণ্ড: গো, স্টারক্রাফট II প্রধানত বিশুদ্ধ প্রতিযোগিতা বা সহযোগিতায় ফোকাস করে
  • সামাজিক গেম: ডিপ্লোমেসি আলোচনা জড়িত কিন্তু স্পষ্ট যোগাযোগের উপর নির্ভর করে
  • গেম তত্ত্ব প্রয়োগ: বহু-এজেন্ট সিস্টেমে ন্যাশ ভারসাম্য সমাধান

গভীর শক্তিশালী শিক্ষা গেমে প্রয়োগ

  • আলফাগো সিরিজ: সম্পূর্ণ তথ্য গেমে অগ্রগতি
  • বহু-এজেন্ট শিক্ষা: স্ব-খেলা প্রশিক্ষণ এবং কৌশল বৈচিত্র্য
  • মূল্য ফাংশন পদ্ধতি: বিচ্ছিন্ন কর্ম স্থানে ডিকিউএন এবং এর রূপান্তর

এসএলএস সম্পর্কিত গবেষণা

এই পেপারটি প্রথমবারের মতো এসএলএস কে গণনামূলক মানদণ্ড হিসাবে ব্যবহার করে, জোট গঠন এবং বিশ্বাসঘাতকতা গতিশীলতা গবেষণার শূন্যতা পূরণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ক্লাসিক মূল্য-ভিত্তিক পদ্ধতি এসএলএস-এর মূল নিয়ম এবং আংশিক কৌশল শিখতে পারে, স্থিতিশীল কিন্তু সাবঅপটিমাল কর্মক্ষমতা অর্জন করে २. পুরস্কারের উচ্চ বৈচিত্র্য প্রাথমিকীকরণ এবং অন্বেষণের প্রতি সংবেদনশীলতা প্রতিফলিত করে ३. প্রসঙ্গ-সম্পর্কিত কর্ম স্বল্পমেয়াদী মূল্য অনুমানের সীমাবদ্ধতা প্রকাশ করে ४. এসএলএস আলোচনা-সচেতন এমএআরএল মানদণ্ড হিসাবে সফলভাবে প্রতিষ্ঠিত হয়েছে

সীমাবদ্ধতা

१. কৌশল সীমাবদ্ধতা: এজেন্টরা প্রায়শই প্রতিক্রিয়াশীল বরং কৌশলগত আচরণ গ্রহণ করে २. নিয়ম মেনে চলা: গতিশীল কর্ম মাস্কিং সত্ত্বেও, এখনও মাঝেমধ্যে অবৈধ কর্ম সম্পাদন করে ३. দীর্ঘমেয়াদী যুক্তি: সংমিশ্রণ কর্ম স্থান এবং বিলম্বিত পুরস্কার নির্ভরতায় অসুবিধা ४. জোট গতিশীলতা: জটিল জোট গঠন এবং বিশ্বাসঘাতকতা কৌশল সম্পূর্ণভাবে ক্যাপচার করতে ব্যর্থ

ভবিষ্যত দিকনির্দেশনা

१. স্থাপত্য উন্নতি: অ্যাক্টর-সমালোচক এবং জোট-সচেতন কাঠামো একীভূত করা २. কৌশল বৃদ্ধি: দীর্ঘমেয়াদী যুক্তি এবং নিয়ম মেনে চলা শক্তিশালী করা ३. সামাজিক গতিশীলতা: আলোচনা/জোট/প্রতারণা ক্ষমতা বিকাশ করা ४. তাত্ত্বিক বিশ্লেষণ: গভীর শিক্ষার সাথে গেম তত্ত্ব যুক্তি একত্রিত করা

গভীর মূল্যায়ন

শক্তি

१. উদ্ভাবনী মানদণ্ড: প্রথমবারের মতো এসএলএস এমএআরএল-এ প্রবর্তন করে, জোট এবং বিশ্বাসঘাতকতা গতিশীলতা গবেষণার গুরুত্বপূর্ণ শূন্যতা পূরণ করে २. সম্পূর্ণ কাঠামো: জিইউআই সহ সম্পূর্ণ গণনামূলক কাঠামো প্রদান করে, পুনরাবৃত্তিমূলক গবেষণা প্রচার করে ३. সিস্টেমেটিক মূল্যায়ন: একাধিক ক্লাসিক ডিআরএল পদ্ধতির ব্যাপক বেঞ্চমার্কিং ४. তাত্ত্বিক অবদান: শূন্য-সমষ্টি রূপান্তর নিয়ম স্পষ্ট করে, মূল আনুষ্ঠানিকীকরণের অসম্পূর্ণতা সমাধান করে

অপূর্ণতা

१. পদ্ধতি সীমাবদ্ধতা: শুধুমাত্র ক্লাসিক মূল্য-ভিত্তিক পদ্ধতি পরীক্ষা করা হয়েছে, আরও উন্নত এমএআরএল অ্যালগরিদম অন্বেষণ করা হয়নি २. সরলীকৃত সেটিং: স্পষ্ট আলোচনা প্রক্রিয়া সরানো হয়েছে, এসএলএস-এর মূল বৈশিষ্ট্য হারাতে পারে ३. কর্মক্ষমতা বাধা: এজেন্টরা এখনও অবৈধ কর্ম সম্পাদন করে, মৌলিক পদ্ধতির অপূর্ণতা প্রকাশ করে ४. তাত্ত্বিক বিশ্লেষণ অপূর্ণ: এসএলএস গেম তত্ত্ব বৈশিষ্ট্যের গভীর বিশ্লেষণের অভাব

প্রভাব

१. একাডেমিক মূল্য: এমএআরএল সম্প্রদায়কে নতুন গবেষণা দিকনির্দেশনা এবং মানদণ্ড প্রদান করে २. ব্যবহারিক তাৎপর্য: কাঠামোর ওপেন-সোর্স প্রকাশ পরবর্তী গবেষণা প্রচার করবে ३. পদ্ধতিগত অবদান: জটিল কৌশলগত গেমকে এমএল-বান্ধব পরিবেশে রূপান্তরিত করার পদ্ধতি প্রদর্শন করে ४. সীমাবদ্ধতা অনুপ্রেরণা: জটিল সামাজিক গেমে ক্লাসিক আরএল-এর অপূর্ণতা প্রকাশ করে, ভবিষ্যত গবেষণা নির্দেশনা প্রদান করে

প্রযোজ্য পরিস্থিতি

१. এমএআরএল গবেষণা: জোট গঠন এবং বিশ্বাসঘাতকতা গতিশীলতার অ্যালগরিদম উন্নয়ন २. গেম তত্ত্ব প্রয়োগ: বহু-পক্ষীয় আলোচনা এবং কৌশলগত যুক্তির গণনামূলক মডেল ३. সামাজিক এআই: বিশ্বাস, প্রতারণা এবং সহযোগিতা আচরণের মডেলিং ४. শিক্ষা সরঞ্জাম: গেম তত্ত্ব এবং বহু-এজেন্ট সিস্টেমের শিক্ষা প্রদর্শন

সংদর্ভ

१. Hausner, M., Nash, J., Shapley, L., & Shubik, M. (१९६४). So Long Sucker- A Four-Person Game २. Vinyals, O. et al. (२०१९). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature ३. FAIR Team et al. (२०२२). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science ४. Mnih, V. et al. (२०१५). Human-level control through deep reinforcement learning. Nature


এই পেপারটি এসএলএস কে এমএআরএল-এর নতুন মানদণ্ড হিসাবে প্রবর্তন করে, জোট গঠন এবং কৌশলগত প্রতারণা অধ্যয়নের জন্য মূল্যবান প্ল্যাটফর্ম প্রদান করে। যদিও বর্তমান ফলাফল ক্লাসিক পদ্ধতির সীমাবদ্ধতা দেখায়, এটি এই মানদণ্ডের চ্যালেঞ্জিং প্রকৃতি এবং গবেষণা মূল্য তুলে ধরে, আরও উন্নত বহু-এজেন্ট শিক্ষা অ্যালগরিদম উন্নয়নের জন্য ভবিষ্যত দিকনির্দেশনা প্রদান করে।