MADiff: Offline Multi-agent Learning with Diffusion Models
Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
অফলাইন শক্তিশালী শিক্ষা (Offline RL) পূর্বে বিদ্যমান ডেটাসেট থেকে নীতি শিখার লক্ষ্য রাখে যা আরও ইন্টারঅ্যাকশন ছাড়াই, যা একটি চ্যালেঞ্জিং কাজ। Q-লার্নিং অ্যালগরিদম অফলাইন সেটিংসে এক্সট্রাপোলেশন ত্রুটির সমস্যায় ভোগে, যখন তত্ত্বাবধানকৃত শিক্ষা পদ্ধতি মডেল প্রকাশ ক্ষমতা দ্বারা সীমাবদ্ধ। সম্প্রতি, ডিফিউশন মডেলস (DMs) একক এজেন্ট শিক্ষায় এই সীমাবদ্ধতা অতিক্রম করার প্রতিশ্রুতি প্রদর্শন করেছে, কিন্তু মাল্টি-এজেন্ট পরিস্থিতিতে তাদের প্রয়োগ এখনও অস্পষ্ট। প্রতিটি এজেন্টের জন্য স্বাধীন DMs ব্যবহার করে ট্র্যাজেক্টরি তৈরি করা সমন্বয়কে বাধা দিতে পারে, যখন সমস্ত এজেন্ট তথ্য সংযুক্ত করা কম নমুনা দক্ষতার দিকে পরিচালিত করে। অতএব, এই পেপারটি MADiff প্রস্তাব করে, মনোযোগ-ভিত্তিক ডিফিউশন মডেলের মাধ্যমে একাধিক এজেন্ট আচরণের মধ্যে জটিল সমন্বয় মডেলিং করে। আমাদের জ্ঞান অনুযায়ী, MADiff প্রথম ডিফিউশন-ভিত্তিক মাল্টি-এজেন্ট শিক্ষা কাঠামো যা বিকেন্দ্রীভূত নীতি এবং কেন্দ্রীভূত নিয়ন্ত্রক উভয় হিসাবে কাজ করতে পারে। বিকেন্দ্রীভূত সম্পাদনের সময়, MADiff একযোগে দলীয় সদস্য মডেলিং সম্পাদন করে, এবং কেন্দ্রীভূত নিয়ন্ত্রক মাল্টি-এজেন্ট ট্র্যাজেক্টরি পূর্বাভাসে প্রয়োগ করা যেতে পারে। পরীক্ষা-নিরীক্ষা দেখায় যে MADiff বিভিন্ন মাল্টি-এজেন্ট শিক্ষা কাজে বেসলাইন অ্যালগরিদমকে অতিক্রম করে, জটিল মাল্টি-এজেন্ট ইন্টারঅ্যাকশন মডেলিংয়ে এর কার্যকারিতা তুলে ধরে।
অফলাইন মাল্টি-এজেন্ট শক্তিশালী শিক্ষার চ্যালেঞ্জ: একক এজেন্ট শিক্ষার তুলনায়, অফলাইন মাল্টি-এজেন্ট শিক্ষা (MAL) কম গবেষণা করা হয়েছে এবং আরও চ্যালেঞ্জিং। সমস্ত এজেন্টের আচরণ পরস্পর সম্পর্কিত হওয়ায়, প্রতিটি এজেন্টকে এজেন্ট-মধ্যস্থ ইন্টারঅ্যাকশন এবং সমন্বয় মডেল করতে হবে, একই সাথে লক্ষ্য অর্জনের জন্য বিকেন্দ্রীভূত পদ্ধতিতে সিদ্ধান্ত নিতে হবে।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
Q-লার্নিং পদ্ধতি: অফলাইন সেটিংসে এক্সট্রাপোলেশন ত্রুটির সমস্যা, ভুল কেন্দ্রীভূত মূল্য ফাংশন উল্লেখযোগ্য এক্সট্রাপোলেশন ত্রুটির দিকে পরিচালিত করে
ক্রম মডেলিং পদ্ধতি: মডেল প্রকাশ ক্ষমতা দ্বারা সীমাবদ্ধ, বৈচিত্র্যময় ডেটাসেট পরিচালনা করা কঠিন, এবং স্বয়ংক্রিয় প্রজন্মের যৌগিক ত্রুটি বিদ্যমান
স্বাধীন ডিফিউশন মডেলস: প্রতিটি এজেন্টের জন্য স্বাধীন DMs ব্যবহার করা অনুপযুক্ত ক্রেডিট বরাদ্দের কারণে গুরুতর অসামঞ্জস্যের দিকে পরিচালিত করতে পারে
সরল সংযোগ পদ্ধতি: সমস্ত এজেন্ট তথ্য DM ইনপুট/আউটপুট হিসাবে সংযুক্ত করা মাল্টি-এজেন্ট সিস্টেমের গুরুত্বপূর্ণ বৈশিষ্ট্য উপেক্ষা করে
গবেষণা প্রেরণা:
ডিফিউশন মডেলস একক এজেন্ট অফলাইন RL-এ উচ্চতর মডেলিং ক্ষমতা প্রদর্শন করে
মাল্টি-এজেন্ট সিস্টেমের কার্যকর সমন্বয় প্রক্রিয়া প্রয়োজন
কেন্দ্রীভূত প্রশিক্ষণ বিকেন্দ্রীভূত সম্পাদন (CTDE) প্যারাডাইম সমর্থন করে এমন একটি একীভূত কাঠামো প্রয়োজন
প্রথম ডিফিউশন-ভিত্তিক মাল্টি-এজেন্ট শিক্ষা কাঠামো: MADiff প্রস্তাব করে যা বিকেন্দ্রীভূত নীতি, কেন্দ্রীভূত নিয়ন্ত্রক, দলীয় সদস্য মডেলিং এবং ট্র্যাজেক্টরি পূর্বাভাস কার্যকারিতা একীভূত করে
উপন্যাস মনোযোগ-ভিত্তিক ডিফিউশন মডেল আর্কিটেকচার: মাল্টি-এজেন্ট শিক্ষার জন্য বিশেষভাবে ডিজাইন করা, প্রতিটি ডিনোইজিং ধাপে এজেন্ট-মধ্যস্থ সমন্বয় অর্জন করে
উচ্চতর পরীক্ষামূলক কর্মক্ষমতা: বিভিন্ন অফলাইন মাল্টি-এজেন্ট সমস্যায় উৎকৃষ্ট ফলাফল অর্জন করে, অফলাইন MARL এবং ট্র্যাজেক্টরি পূর্বাভাস কাজ সহ
এই পেপারটি আংশিকভাবে পর্যবেক্ষণযোগ্য এবং সম্পূর্ণ সহযোগিতামূলক মাল্টি-এজেন্ট শিক্ষা সমস্যা বিবেচনা করে, Dec-POMDP হিসাবে আনুষ্ঠানিক করা হয়েছে:
G=⟨S,A,P,r,Ω,O,N,U,γ⟩
যেখানে:
S এবং A যথাক্রমে অবস্থা এবং কর্ম স্থান প্রতিনিধিত্ব করে
N এজেন্ট {1,2,...,N} বিচ্ছিন্ন সময় ধাপে কাজ করে
প্রতিটি এজেন্ট i শুধুমাত্র স্থানীয় পর্যবেক্ষণ oi∈Ω পর্যবেক্ষণ করে
অপ্টিমাইজেশন উদ্দেশ্য হল নীতি πi শিখা যা ছাড়প্রাপ্ত সংগৃহীত পুরস্কার সর্বাধিক করে
U-Net ভিত্তি কাঠামো: বিভিন্ন এজেন্ট ট্র্যাজেক্টরি মডেলিংয়ের জন্য ভিত্তি কাঠামো হিসাবে U-Net গ্রহণ করে, পুনরাবৃত্তিমূলক এক-মাত্রিক কনভোলিউশন অবশিষ্ট ব্লক সহ
মনোযোগ প্রক্রিয়া:
সমস্ত এজেন্ট U-Net এর ডিকোডার ব্লকের আগে মনোযোগ স্তর গ্রহণ করে
মনোযোগ অপারেশন encoder স্তরের স্কিপ সংযোগ বৈশিষ্ট্য cli এ সম্পাদিত হয়
এনকোডিং বৈশিষ্ট্য সংমিশ্রণের জন্য মাল্টি-হেড মনোযোগ প্রক্রিয়া ব্যবহার করে
পেপারটি একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
ডিফিউশন মডেল ভিত্তি কাজ: Ho et al. (2020), Song and Ermon (2019)
একক এজেন্ট ডিফিউশন RL: Janner et al. (2022), Ajay et al. (2023)
মাল্টি-এজেন্ট RL বেসলাইন: Rashid et al. (2020), Meng et al. (2021)
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার যা সফলভাবে ডিফিউশন মডেলস মাল্টি-এজেন্ট শিক্ষা ক্ষেত্রে প্রবর্তন করে, প্রযুক্তিগত উদ্ভাবন উল্লেখযোগ্য, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত। কিছু সীমাবদ্ধতা থাকলেও, এটি এই ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা উন্মোচন করে, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক সম্ভাবনা রয়েছে।