এই পেপারটি কৌশলগত গেম "সো লং সাকার" (এসএলএস) কে প্রথমবারের মতো বহু-এজেন্ট শক্তিশালী শিক্ষা (এমএআরএল) ক্ষেত্রে নতুন মানদণ্ড হিসাবে প্রবর্তন করে। ঐতিহ্যবাহী বোর্ড গেম বা ভিডিও গেম পরীক্ষার প্ল্যাটফর্মের বিপরীতে, এসএলএস জোট গঠন, কৌশলগত প্রতারণা এবং গতিশীল বর্জন নিয়ম সহ বৈশিষ্ট্যযুক্ত, যা স্বায়ত্তশাসিত বুদ্ধিমান এজেন্টদের জন্য অনন্য চ্যালেঞ্জ পরিবেশ প্রদান করে। গবেষকরা প্রথম জনসাধারণের জন্য উপলব্ধ এসএলএস গণনামূলক কাঠামো তৈরি করেছেন, যাতে গ্রাফিক্যাল ব্যবহারকারী ইন্টারফেস এবং শক্তিশালী শিক্ষা অ্যালগরিদম বেঞ্চমার্ক সমর্থন রয়েছে। ক্লাসিক গভীর শক্তিশালী শিক্ষা পদ্ধতি (ডিকিউএন, ডিডিকিউএন, ডিউয়েলিং ডিকিউএন) এর মাধ্যমে স্ব-খেলা এজেন্টদের এসএলএস নিয়ম এবং মৌলিক কৌশল শিখতে প্রশিক্ষণ দেওয়া হয়েছে। পরীক্ষামূলক ফলাফল দেখায় যে, যদিও এই এজেন্টরা সর্বাধিক অর্জনযোগ্য পুরস্কারের প্রায় অর্ধেক অর্জন করতে পারে এবং ক্রমাগত র্যান্ডম বেসলাইনকে ছাড়িয়ে যায়, তবে দীর্ঘ প্রশিক্ষণ চক্র প্রয়োজন (প্রায় ২০০০ গেম) এবং এখনও মাঝেমধ্যে অবৈধ পদক্ষেপ সম্পাদন করে, যা ক্লাসিক শক্তিশালী শিক্ষার সম্ভাবনা এবং সীমাবদ্ধতা তুলে ধরে।
বিদ্যমান বহু-এজেন্ট শক্তিশালী শিক্ষা মানদণ্ড প্রধানত বিশুদ্ধ সহযোগিতামূলক উদ্দেশ্য (যেমন সমন্বয় কাজ) বা প্রতিকূল প্রতিযোগিতা (যেমন দুই-ব্যক্তির শূন্য-সমষ্টি গেম) এ কেন্দ্রীভূত, যা জোট গঠন এবং বিশ্বাসঘাতকতা গতিশীলতা উভয়কে ক্যাপচার করতে পারে এমন মিশ্র পরিবেশের অভাব রয়েছে। যদিও গো, স্টারক্রাফট II এবং ডিপ্লোমেসি-তে অগ্রগতি অর্জিত হয়েছে, এই মানদণ্ডগুলি এসএলএস-এর অনন্য জোট এবং বিশ্বাসঘাতকতা মিশ্র গতিশীলতা সম্পূর্ণভাবে প্রতিফলিত করে না।
এসএলএস হাউসনার, ন্যাশ, শ্যাপলি এবং শুবিক দ্বারা ডিজাইন করা চার-ব্যক্তির কৌশলগত গেম, জোট গঠন, অস্থায়ী জোট এবং অনিবার্য বিশ্বাসঘাতকতার চারপাশে ঘোরে, বিজয় শুধুমাত্র আইনি পদক্ষেপের উপর নয় বরং কূটনীতি এবং সুযোগবাদের উপরও নির্ভর করে, যা এটিকে বিশ্বাস, আলোচনা এবং সামাজিক দ্বিধার অধ্যয়নের জন্য একটি অনন্য পরীক্ষার প্ল্যাটফর্ম করে তোলে।
১. বেশিরভাগ এমএআরএল মানদণ্ড জোট এবং বিশ্বাসঘাতকতার মিশ্র গতিশীলতার অভাব রয়েছে ২. সামাজিক সমৃদ্ধ সেটিংসে পূর্ববর্তী কাজ সাধারণত স্পষ্ট যোগাযোগ চ্যানেল বা হস্তনির্মিত মিথস্ক্রিয়া নিয়মের উপর নির্ভর করে ৩. এসএলএস আগে গণনামূলক মানদণ্ড হিসাবে অধ্যয়ন করা হয়নি
এসএলএস কে পুনরাবৃত্তিমূলক ক্রমানুসারী রূপান্তরে আনুষ্ঠানিক করে এবং বেসলাইন ডিআরএল অ্যালগরিদম বেঞ্চমার্ক করে, এই পেপারটি এসএলএস কে এমএআরএল গবেষণা অগ্রসর করার জন্য জোট এবং বিশ্বাসঘাতকতা-সচেতন পরীক্ষার প্ল্যাটফর্ম হিসাবে অবস্থান করে।
১. প্রথম এসএলএস গণনামূলক কাঠামো: শক্তিশালী শিক্ষা গবেষণার জন্য বিশেষভাবে ডিজাইন করা প্রথম এসএলএস গণনামূলক কাঠামো ডিজাইন এবং প্রকাশ করা হয়েছে, যা পরীক্ষার জন্য জিইউআই সহ সজ্জিত २. ক্লাসিক ডিআরএল অ্যালগরিদম বেঞ্চমার্কিং: এসএলএস-এ ক্লাসিক ডিআরএল অ্যালগরিদম (ডিকিউএন, ডিডিকিউএন, ডিউয়েলিং ডিকিউএন) বেঞ্চমার্ক করা হয়েছে, আইনি গেম দক্ষতা অর্জন এবং আংশিক কৌশল সচেতনতার ক্ষমতা বিশ্লেষণ করা হয়েছে ३. জোট এবং বিশ্বাসঘাতকতা-সচেতন মানদণ্ড: এসএলএস কে এমএআরএল-এর জন্য জোট এবং বিশ্বাসঘাতকতা-সচেতন মানদণ্ড হিসাবে প্রতিষ্ঠিত করা হয়েছে, ডিআরএল এবং গেম তত্ত্ব যুক্তি একত্রিত করে এমন হাইব্রিড পদ্ধতির ভবিষ্যত গবেষণা অনুপ্রাণিত করে
এসএলএস কে এমএআরএল পরিবেশে রূপান্তরিত করা হয়েছে, সাধারণীকৃত হফস্ট্রা সংস্করণের শূন্য-সমষ্টি রূপান্তর গ্রহণ করে। চার জন খেলোয়াড় প্রত্যেককে অনন্য রঙ বরাদ্দ করা হয়, প্রতিটি ৫টি একই রঙের চিপ দিয়ে শুরু করে, সর্বাধিক ৬টি সক্রিয় স্ট্যাকের বোর্ডে খেলে। বিজয়ের শর্ত হল শেষ জীবিত খেলোয়াড় হওয়া।
এসএলএস কে মার্কভ সিদ্ধান্ত প্রক্রিয়া (এমডিপি) হিসাবে মডেল করা হয়েছে:
লক্ষ্য হল সর্বোত্তম নীতি π* খুঁজে বের করা যা প্রত্যাশিত ছাড়যুক্ত রিটার্ন সর্বাধিক করে:
অবস্থা st গেম পরিবেশ বর্ণনার জন্য প্রয়োজনীয় সমস্ত তথ্য এনকোড করে:
পর্যবেক্ষণ স্থানের আকার:
বিচ্ছিন্ন কর্ম স্থান A = {A₀, A₁, ..., A₉}, যাতে রয়েছে:
সময় ধাপ t-এ পুরস্কার সংকেত সংজ্ঞায়িত করা হয়েছে:
যেখানে α ∈ (0,1] হল ক্ষয় হার নিয়ন্ত্রণকারী হাইপারপ্যারামিটার, ℘ হল পুরস্কার প্রশস্ততা। অবৈধ কর্মগুলি নির্দিষ্ট নেতিবাচক পুরস্কার (-℘) দ্বারা শাস্তিপ্রাপ্ত হয়, আইনি কর্মগুলি সর্বাধিক +℘ ইতিবাচক পুরস্কার পায়, যা দক্ষতা প্রচারের জন্য ধাপ সংখ্যার সাথে হ্রাস পায়।
কেন্দ্রীভূত সংগ্রহকারী শিক্ষা সেটআপ গ্রহণ করা হয়েছে, সমস্ত চার খেলোয়াড় এজেন্ট সাধারণ শিক্ষা নেটওয়ার্ক এবং রিপ্লে বাফার ভাগ করে। নেটওয়ার্ক আর্কিটেকচার দুটি ৬৪ নিউরন সম্পূর্ণ সংযুক্ত লুকানো স্তর (আরইএলইউ সক্রিয়করণ), তারপরে রৈখিক আউটপুট স্তর।
| এজেন্ট | পুরস্কার (গড়±মান বিচ্যুতি) | পুরস্কার পরিসীমা ন্যূনতম,সর্বোচ্চ | ধাপ (গড়±মান বিচ্যুতি) | ধাপ পরিসীমা ন্যূনতম,সর্বোচ্চ |
|---|---|---|---|---|
| ডিকিউএন | १०३.४० ± ४२.३१ | -३१३.४५, १८९.२४ | ६१.१६ ± १४.५१ | २७, १६२ |
| ডিডিকিউএন | १०८.४४ ± ४४.९५ | -२७९.१३, १९१.३८ | ६१.२३ ± १४.१८ | २८, १६५ |
| ডিউয়েলিং ডিকিউএন | १०२.०६ ± ४९.६२ | -३१९.७६, १९२.०९ | ६५.९२ ± १५.९४ | २८, १७३ |
| র্যান্ডম | -८.७८ ± ४३.५२ | -४१९.२६, ९४.१९ | ६५.२४ ± १७.७६ | २९, १७४ |
१. কর্মক্ষমতা প্রদর্শন: সমস্ত ডিআরএল এজেন্ট ক্রমাগত র্যান্ডম বেসলাইনকে ছাড়িয়ে যায়, তাত্ত্বিক সর্বোচ্চ পুরস্কারের (≈२००) প্রায় অর্ধেক অর্জন করে २. সংগ্রহ বৈশিষ্ট্য: ডিডিকিউএন সবচেয়ে স্থিতিশীল সংগ্রহ এবং সর্বোচ্চ গড় পুরস্কার অর্জন করে, দীর্ঘমেয়াদী গেম Q-মান অতিমূল্যায়ন প্রশমনে দ্বিগুণ অনুমানের সুবিধা যাচাই করে ३. শিক্ষা গতিশীলতা: প্রাথমিক প্রশিক্ষণ পর্যায়ে (<५०० গেম) এজেন্টরা বড় পুরস্কার বৈচিত্র্য প্রদর্শন করে, প্রায় २००० গেমের পরে সমস্ত ডিআরএল এজেন্ট আরও মসৃণ সংগ্রহ প্রদর্শন করে
প্রশিক্ষণ প্রক্রিয়া তিনটি পর্যায়ে বিভক্ত:
এই পেপারটি প্রথমবারের মতো এসএলএস কে গণনামূলক মানদণ্ড হিসাবে ব্যবহার করে, জোট গঠন এবং বিশ্বাসঘাতকতা গতিশীলতা গবেষণার শূন্যতা পূরণ করে।
१. ক্লাসিক মূল্য-ভিত্তিক পদ্ধতি এসএলএস-এর মূল নিয়ম এবং আংশিক কৌশল শিখতে পারে, স্থিতিশীল কিন্তু সাবঅপটিমাল কর্মক্ষমতা অর্জন করে २. পুরস্কারের উচ্চ বৈচিত্র্য প্রাথমিকীকরণ এবং অন্বেষণের প্রতি সংবেদনশীলতা প্রতিফলিত করে ३. প্রসঙ্গ-সম্পর্কিত কর্ম স্বল্পমেয়াদী মূল্য অনুমানের সীমাবদ্ধতা প্রকাশ করে ४. এসএলএস আলোচনা-সচেতন এমএআরএল মানদণ্ড হিসাবে সফলভাবে প্রতিষ্ঠিত হয়েছে
१. কৌশল সীমাবদ্ধতা: এজেন্টরা প্রায়শই প্রতিক্রিয়াশীল বরং কৌশলগত আচরণ গ্রহণ করে २. নিয়ম মেনে চলা: গতিশীল কর্ম মাস্কিং সত্ত্বেও, এখনও মাঝেমধ্যে অবৈধ কর্ম সম্পাদন করে ३. দীর্ঘমেয়াদী যুক্তি: সংমিশ্রণ কর্ম স্থান এবং বিলম্বিত পুরস্কার নির্ভরতায় অসুবিধা ४. জোট গতিশীলতা: জটিল জোট গঠন এবং বিশ্বাসঘাতকতা কৌশল সম্পূর্ণভাবে ক্যাপচার করতে ব্যর্থ
१. স্থাপত্য উন্নতি: অ্যাক্টর-সমালোচক এবং জোট-সচেতন কাঠামো একীভূত করা २. কৌশল বৃদ্ধি: দীর্ঘমেয়াদী যুক্তি এবং নিয়ম মেনে চলা শক্তিশালী করা ३. সামাজিক গতিশীলতা: আলোচনা/জোট/প্রতারণা ক্ষমতা বিকাশ করা ४. তাত্ত্বিক বিশ্লেষণ: গভীর শিক্ষার সাথে গেম তত্ত্ব যুক্তি একত্রিত করা
१. উদ্ভাবনী মানদণ্ড: প্রথমবারের মতো এসএলএস এমএআরএল-এ প্রবর্তন করে, জোট এবং বিশ্বাসঘাতকতা গতিশীলতা গবেষণার গুরুত্বপূর্ণ শূন্যতা পূরণ করে २. সম্পূর্ণ কাঠামো: জিইউআই সহ সম্পূর্ণ গণনামূলক কাঠামো প্রদান করে, পুনরাবৃত্তিমূলক গবেষণা প্রচার করে ३. সিস্টেমেটিক মূল্যায়ন: একাধিক ক্লাসিক ডিআরএল পদ্ধতির ব্যাপক বেঞ্চমার্কিং ४. তাত্ত্বিক অবদান: শূন্য-সমষ্টি রূপান্তর নিয়ম স্পষ্ট করে, মূল আনুষ্ঠানিকীকরণের অসম্পূর্ণতা সমাধান করে
१. পদ্ধতি সীমাবদ্ধতা: শুধুমাত্র ক্লাসিক মূল্য-ভিত্তিক পদ্ধতি পরীক্ষা করা হয়েছে, আরও উন্নত এমএআরএল অ্যালগরিদম অন্বেষণ করা হয়নি २. সরলীকৃত সেটিং: স্পষ্ট আলোচনা প্রক্রিয়া সরানো হয়েছে, এসএলএস-এর মূল বৈশিষ্ট্য হারাতে পারে ३. কর্মক্ষমতা বাধা: এজেন্টরা এখনও অবৈধ কর্ম সম্পাদন করে, মৌলিক পদ্ধতির অপূর্ণতা প্রকাশ করে ४. তাত্ত্বিক বিশ্লেষণ অপূর্ণ: এসএলএস গেম তত্ত্ব বৈশিষ্ট্যের গভীর বিশ্লেষণের অভাব
१. একাডেমিক মূল্য: এমএআরএল সম্প্রদায়কে নতুন গবেষণা দিকনির্দেশনা এবং মানদণ্ড প্রদান করে २. ব্যবহারিক তাৎপর্য: কাঠামোর ওপেন-সোর্স প্রকাশ পরবর্তী গবেষণা প্রচার করবে ३. পদ্ধতিগত অবদান: জটিল কৌশলগত গেমকে এমএল-বান্ধব পরিবেশে রূপান্তরিত করার পদ্ধতি প্রদর্শন করে ४. সীমাবদ্ধতা অনুপ্রেরণা: জটিল সামাজিক গেমে ক্লাসিক আরএল-এর অপূর্ণতা প্রকাশ করে, ভবিষ্যত গবেষণা নির্দেশনা প্রদান করে
१. এমএআরএল গবেষণা: জোট গঠন এবং বিশ্বাসঘাতকতা গতিশীলতার অ্যালগরিদম উন্নয়ন २. গেম তত্ত্ব প্রয়োগ: বহু-পক্ষীয় আলোচনা এবং কৌশলগত যুক্তির গণনামূলক মডেল ३. সামাজিক এআই: বিশ্বাস, প্রতারণা এবং সহযোগিতা আচরণের মডেলিং ४. শিক্ষা সরঞ্জাম: গেম তত্ত্ব এবং বহু-এজেন্ট সিস্টেমের শিক্ষা প্রদর্শন
१. Hausner, M., Nash, J., Shapley, L., & Shubik, M. (१९६४). So Long Sucker- A Four-Person Game २. Vinyals, O. et al. (२०१९). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature ३. FAIR Team et al. (२०२२). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science ४. Mnih, V. et al. (२०१५). Human-level control through deep reinforcement learning. Nature
এই পেপারটি এসএলএস কে এমএআরএল-এর নতুন মানদণ্ড হিসাবে প্রবর্তন করে, জোট গঠন এবং কৌশলগত প্রতারণা অধ্যয়নের জন্য মূল্যবান প্ল্যাটফর্ম প্রদান করে। যদিও বর্তমান ফলাফল ক্লাসিক পদ্ধতির সীমাবদ্ধতা দেখায়, এটি এই মানদণ্ডের চ্যালেঞ্জিং প্রকৃতি এবং গবেষণা মূল্য তুলে ধরে, আরও উন্নত বহু-এজেন্ট শিক্ষা অ্যালগরিদম উন্নয়নের জন্য ভবিষ্যত দিকনির্দেশনা প্রদান করে।