2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: অফলাইন মাল্টি-এজেন্ট লার্নিং উইথ ডিফিউশন মডেলস

মৌলিক তথ্য

  • পেপার আইডি: 2305.17330
  • শিরোনাম: MADiff: Offline Multi-agent Learning with Diffusion Models
  • লেখকবৃন্দ: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • শ্রেণীবিভাগ: cs.AI cs.LG
  • প্রকাশনা সময়/সম্মেলন: NeurIPS 2024 (38তম নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমস সম্মেলন)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2305.17330

সারসংক্ষেপ

অফলাইন শক্তিশালী শিক্ষা (Offline RL) পূর্বে বিদ্যমান ডেটাসেট থেকে নীতি শিখার লক্ষ্য রাখে যা আরও ইন্টারঅ্যাকশন ছাড়াই, যা একটি চ্যালেঞ্জিং কাজ। Q-লার্নিং অ্যালগরিদম অফলাইন সেটিংসে এক্সট্রাপোলেশন ত্রুটির সমস্যায় ভোগে, যখন তত্ত্বাবধানকৃত শিক্ষা পদ্ধতি মডেল প্রকাশ ক্ষমতা দ্বারা সীমাবদ্ধ। সম্প্রতি, ডিফিউশন মডেলস (DMs) একক এজেন্ট শিক্ষায় এই সীমাবদ্ধতা অতিক্রম করার প্রতিশ্রুতি প্রদর্শন করেছে, কিন্তু মাল্টি-এজেন্ট পরিস্থিতিতে তাদের প্রয়োগ এখনও অস্পষ্ট। প্রতিটি এজেন্টের জন্য স্বাধীন DMs ব্যবহার করে ট্র্যাজেক্টরি তৈরি করা সমন্বয়কে বাধা দিতে পারে, যখন সমস্ত এজেন্ট তথ্য সংযুক্ত করা কম নমুনা দক্ষতার দিকে পরিচালিত করে। অতএব, এই পেপারটি MADiff প্রস্তাব করে, মনোযোগ-ভিত্তিক ডিফিউশন মডেলের মাধ্যমে একাধিক এজেন্ট আচরণের মধ্যে জটিল সমন্বয় মডেলিং করে। আমাদের জ্ঞান অনুযায়ী, MADiff প্রথম ডিফিউশন-ভিত্তিক মাল্টি-এজেন্ট শিক্ষা কাঠামো যা বিকেন্দ্রীভূত নীতি এবং কেন্দ্রীভূত নিয়ন্ত্রক উভয় হিসাবে কাজ করতে পারে। বিকেন্দ্রীভূত সম্পাদনের সময়, MADiff একযোগে দলীয় সদস্য মডেলিং সম্পাদন করে, এবং কেন্দ্রীভূত নিয়ন্ত্রক মাল্টি-এজেন্ট ট্র্যাজেক্টরি পূর্বাভাসে প্রয়োগ করা যেতে পারে। পরীক্ষা-নিরীক্ষা দেখায় যে MADiff বিভিন্ন মাল্টি-এজেন্ট শিক্ষা কাজে বেসলাইন অ্যালগরিদমকে অতিক্রম করে, জটিল মাল্টি-এজেন্ট ইন্টারঅ্যাকশন মডেলিংয়ে এর কার্যকারিতা তুলে ধরে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা পটভূমি

  1. অফলাইন মাল্টি-এজেন্ট শক্তিশালী শিক্ষার চ্যালেঞ্জ: একক এজেন্ট শিক্ষার তুলনায়, অফলাইন মাল্টি-এজেন্ট শিক্ষা (MAL) কম গবেষণা করা হয়েছে এবং আরও চ্যালেঞ্জিং। সমস্ত এজেন্টের আচরণ পরস্পর সম্পর্কিত হওয়ায়, প্রতিটি এজেন্টকে এজেন্ট-মধ্যস্থ ইন্টারঅ্যাকশন এবং সমন্বয় মডেল করতে হবে, একই সাথে লক্ষ্য অর্জনের জন্য বিকেন্দ্রীভূত পদ্ধতিতে সিদ্ধান্ত নিতে হবে।
  2. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
    • Q-লার্নিং পদ্ধতি: অফলাইন সেটিংসে এক্সট্রাপোলেশন ত্রুটির সমস্যা, ভুল কেন্দ্রীভূত মূল্য ফাংশন উল্লেখযোগ্য এক্সট্রাপোলেশন ত্রুটির দিকে পরিচালিত করে
    • ক্রম মডেলিং পদ্ধতি: মডেল প্রকাশ ক্ষমতা দ্বারা সীমাবদ্ধ, বৈচিত্র্যময় ডেটাসেট পরিচালনা করা কঠিন, এবং স্বয়ংক্রিয় প্রজন্মের যৌগিক ত্রুটি বিদ্যমান
    • স্বাধীন ডিফিউশন মডেলস: প্রতিটি এজেন্টের জন্য স্বাধীন DMs ব্যবহার করা অনুপযুক্ত ক্রেডিট বরাদ্দের কারণে গুরুতর অসামঞ্জস্যের দিকে পরিচালিত করতে পারে
    • সরল সংযোগ পদ্ধতি: সমস্ত এজেন্ট তথ্য DM ইনপুট/আউটপুট হিসাবে সংযুক্ত করা মাল্টি-এজেন্ট সিস্টেমের গুরুত্বপূর্ণ বৈশিষ্ট্য উপেক্ষা করে
  3. গবেষণা প্রেরণা:
    • ডিফিউশন মডেলস একক এজেন্ট অফলাইন RL-এ উচ্চতর মডেলিং ক্ষমতা প্রদর্শন করে
    • মাল্টি-এজেন্ট সিস্টেমের কার্যকর সমন্বয় প্রক্রিয়া প্রয়োজন
    • কেন্দ্রীভূত প্রশিক্ষণ বিকেন্দ্রীভূত সম্পাদন (CTDE) প্যারাডাইম সমর্থন করে এমন একটি একীভূত কাঠামো প্রয়োজন

মূল অবদান

  1. প্রথম ডিফিউশন-ভিত্তিক মাল্টি-এজেন্ট শিক্ষা কাঠামো: MADiff প্রস্তাব করে যা বিকেন্দ্রীভূত নীতি, কেন্দ্রীভূত নিয়ন্ত্রক, দলীয় সদস্য মডেলিং এবং ট্র্যাজেক্টরি পূর্বাভাস কার্যকারিতা একীভূত করে
  2. উপন্যাস মনোযোগ-ভিত্তিক ডিফিউশন মডেল আর্কিটেকচার: মাল্টি-এজেন্ট শিক্ষার জন্য বিশেষভাবে ডিজাইন করা, প্রতিটি ডিনোইজিং ধাপে এজেন্ট-মধ্যস্থ সমন্বয় অর্জন করে
  3. উচ্চতর পরীক্ষামূলক কর্মক্ষমতা: বিভিন্ন অফলাইন মাল্টি-এজেন্ট সমস্যায় উৎকৃষ্ট ফলাফল অর্জন করে, অফলাইন MARL এবং ট্র্যাজেক্টরি পূর্বাভাস কাজ সহ

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এই পেপারটি আংশিকভাবে পর্যবেক্ষণযোগ্য এবং সম্পূর্ণ সহযোগিতামূলক মাল্টি-এজেন্ট শিক্ষা সমস্যা বিবেচনা করে, Dec-POMDP হিসাবে আনুষ্ঠানিক করা হয়েছে: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

যেখানে:

  • SS এবং AA যথাক্রমে অবস্থা এবং কর্ম স্থান প্রতিনিধিত্ব করে
  • NN এজেন্ট {1,2,...,N}\{1, 2, ..., N\} বিচ্ছিন্ন সময় ধাপে কাজ করে
  • প্রতিটি এজেন্ট ii শুধুমাত্র স্থানীয় পর্যবেক্ষণ oiΩo^i \in Ω পর্যবেক্ষণ করে
  • অপ্টিমাইজেশন উদ্দেশ্য হল নীতি πiπ^i শিখা যা ছাড়প্রাপ্ত সংগৃহীত পুরস্কার সর্বাধিক করে

মডেল আর্কিটেকচার

সামগ্রিক ডিজাইন

MADiff একটি মনোযোগ-ভিত্তিক ডিফিউশন নেটওয়ার্ক কাঠামো গ্রহণ করে, প্রতিটি এজেন্টের ডিকোডার স্তরে ক্রস-এজেন্ট মনোযোগ গণনা সম্পাদন করে।

মূল উপাদান

  1. U-Net ভিত্তি কাঠামো: বিভিন্ন এজেন্ট ট্র্যাজেক্টরি মডেলিংয়ের জন্য ভিত্তি কাঠামো হিসাবে U-Net গ্রহণ করে, পুনরাবৃত্তিমূলক এক-মাত্রিক কনভোলিউশন অবশিষ্ট ব্লক সহ
  2. মনোযোগ প্রক্রিয়া:
    • সমস্ত এজেন্ট U-Net এর ডিকোডার ব্লকের আগে মনোযোগ স্তর গ্রহণ করে
    • মনোযোগ অপারেশন encoder স্তরের স্কিপ সংযোগ বৈশিষ্ট্য clic^i_l এ সম্পাদিত হয়
    • এনকোডিং বৈশিষ্ট্য সংমিশ্রণের জন্য মাল্টি-হেড মনোযোগ প্রক্রিয়া ব্যবহার করে
  3. গাণিতিক অভিব্যক্তি:
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

প্রশিক্ষণ উদ্দেশ্য

কেন্দ্রীভূত প্রশিক্ষণ যৌথ ক্ষতি ফাংশন ব্যবহার করে: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

সম্পাদন মোড

কেন্দ্রীভূত নিয়ন্ত্রণ

  • সমস্ত এজেন্টের বর্তমান স্থানীয় পর্যবেক্ষণে অ্যাক্সেস করে
  • সমস্ত এজেন্টের ট্র্যাজেক্টরি তৈরি করে এবং কর্ম পূর্বাভাস দেয়
  • মাল্টি-এজেন্ট ট্র্যাজেক্টরি পূর্বাভাস এবং দল খেলায় প্রযোজ্য

বিকেন্দ্রীভূত সম্পাদন এবং দলীয় সদস্য মডেলিং

  • প্রতিটি এজেন্ট শুধুমাত্র নিজের স্থানীয় পর্যবেক্ষণ ব্যবহার করে পরিকল্পনা করে
  • একই সাথে অন্যান্য এজেন্টের পর্যবেক্ষণ ক্রম অনুমান করে (দলীয় সদস্য মডেলিং)
  • মনোযোগ প্রক্রিয়ার মাধ্যমে কার্যকর সমন্বয় অর্জন করে

পরীক্ষা সেটআপ

ডেটাসেট

  1. মাল্টি-এজেন্ট কণা পরিবেশ (MPE):
    • Spread: তিনটি এজেন্ট তিনটি ল্যান্ডমার্ক কভার করে
    • Tag: তিনটি শিকারী প্রশিক্ষিত শিকার ধরে
    • World: শিকারী বনের সাথে মানচিত্রে শিকার ধরে
    • ডেটাসেট: Expert, Medium-Replay, Medium, Random
  2. মাল্টি-এজেন্ট Mujoco (MA Mujoco):
    • 2halfcheetah, 2ant, 4ant কনফিগারেশন
    • ডেটাসেট: Good, Medium, Poor
  3. স্টারক্রাফট মাল্টি-এজেন্ট চ্যালেঞ্জ (SMAC):
    • মানচিত্র: 3m, 2s3z, 5m_vs_6m, 8m
    • ডেটাসেট: Good, Medium, Poor
  4. NBA ডেটাসেট:
    • 2015-16 সিজনের 631 খেলার বাস্কেটবল খেলোয়াড় ট্র্যাজেক্টরি
    • মাল্টি-এজেন্ট ট্র্যাজেক্টরি পূর্বাভাস কাজের জন্য ব্যবহৃত

মূল্যায়ন মেট্রিক্স

  • অফলাইন MARL: অনলাইন রোলআউট দ্বারা অর্জিত এপিসোড পুরস্কার
  • ট্র্যাজেক্টরি পূর্বাভাস: ADE, FDE, minADE20, minFDE20 ইত্যাদি দূরত্ব-ভিত্তিক মেট্রিক্স

তুলনামূলক পদ্ধতি

  • অফলাইন MARL: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • ট্র্যাজেক্টরি পূর্বাভাস: Baller2Vec++

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অফলাইন MARL কর্মক্ষমতা

MADiff বেশিরভাগ ডেটাসেটে সর্বোত্তম ফলাফল অর্জন করে:

কাজডেটাসেটBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

ট্র্যাজেক্টরি পূর্বাভাস কর্মক্ষমতা

NBA ডেটাসেটে, MADIFF-C বেসলাইনকে উল্লেখযোগ্যভাবে অতিক্রম করে:

ট্র্যাজেক্টরি দৈর্ঘ্যমেট্রিকBaller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

বিলোপন পরীক্ষা

মনোযোগ প্রক্রিয়ার গুরুত্ব যাচাই করে:

  • মনোযোগ সহ MADIFF-D স্বাধীন সংস্করণকে উল্লেখযোগ্যভাবে অতিক্রম করে
  • আরও চ্যালেঞ্জিং কাজে (যেমন World) সুবিধা আরও স্পষ্ট
  • প্যারামিটার ভাগাভাগি কৌশল কার্যকরভাবে প্যারামিটার সংখ্যা হ্রাস করে

দলীয় সদস্য মডেলিং বিশ্লেষণ

Spread কাজের ভিজ্যুয়ালাইজেশন বিশ্লেষণের মাধ্যমে দেখা যায়:

  • MADiff রোলআউট প্রক্রিয়ায় দলীয় সদস্য আচরণ পূর্বাভাস সংশোধন করতে পারে
  • সামঞ্জস্য অনুপাত সময় ধাপের সাথে বৃদ্ধি পায়, চূড়ান্তভাবে প্রকৃত রোলআউট ট্র্যাজেক্টরি অতিক্রম করে
  • দলীয় সদস্য মডেলিংয়ের কার্যকারিতা প্রমাণ করে

সম্পর্কিত কাজ

মাল্টি-এজেন্ট অফলাইন RL

  • Q-লার্নিং সম্প্রসারণ: MA-BCQ, MA-ICQ ইত্যাদি পদ্ধতি এক্সট্রাপোলেশন ত্রুটির সমস্যায় ভোগে
  • ক্রম মডেলিং: MADT ট্রান্সফর্মার ব্যবহার করে কিন্তু এজেন্ট ইন্টারঅ্যাকশন মডেলিং অভাব

সিদ্ধান্ত ডিফিউশন মডেলস

  • একক এজেন্ট পদ্ধতি: Diffuser, Decision Diffusion ইত্যাদি একক এজেন্ট কাজে সাফল্য অর্জন করে
  • এই পেপারের অবদান: প্রথমবারের মতো ডিফিউশন মডেলস মাল্টি-এজেন্ট পরিস্থিতিতে সম্প্রসারিত করে

প্রতিদ্বন্দ্বী মডেলিং

  • সমৃদ্ধ অনলাইন MARL প্রতিদ্বন্দ্বী মডেলিং সাহিত্য
  • MADiff কার্যকর অফলাইন দলীয় সদস্য মডেলিং সমাধান প্রদান করে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

  1. MADiff সফলভাবে ডিফিউশন মডেলস মাল্টি-এজেন্ট শিক্ষায় সম্প্রসারিত করে
  2. মনোযোগ প্রক্রিয়া এজেন্ট-মধ্যস্থ সমন্বয় কার্যকরভাবে অর্জন করে
  3. একীভূত কাঠামো একাধিক প্রয়োগ পরিস্থিতি সমর্থন করে
  4. বিভিন্ন কাজে উৎকৃষ্ট কর্মক্ষমতা অর্জন করে

সীমাবদ্ধতা

  1. স্কেলেবিলিটি: দশ বা শত এজেন্টের পরিস্থিতিতে প্রযোজ্য নয়
  2. র্যান্ডম পরিবেশ: উচ্চ র্যান্ডমনেস পরিবেশে দুর্বল কর্মক্ষমতা হতে পারে
  3. গণনামূলক জটিলতা: প্রতিটি এজেন্টের জন্য সমস্ত দলীয় সদস্য ট্র্যাজেক্টরি অনুমান করতে হবে

ভবিষ্যত দিকনির্দেশনা

  1. স্কেলেবিলিটি উন্নত করতে সম্ভাব্য প্রতিনিধিত্ব অন্বেষণ করা
  2. র্যান্ডম পরিবেশে কর্মক্ষমতা উন্নত করা
  3. গণনামূলক দক্ষতা অপ্টিমাইজ করা

গভীর মূল্যায়ন

সুবিধা

  1. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো ডিফিউশন মডেলস মাল্টি-এজেন্ট শিক্ষায় সফলভাবে প্রয়োগ করা
  2. পরিশীলিত প্রযুক্তিগত ডিজাইন: মনোযোগ প্রক্রিয়া চতুরভাবে এজেন্ট সমন্বয় সমস্যা সমাধান করে
  3. ব্যাপক পরীক্ষা: একাধিক ক্ষেত্র এবং কাজের ধরন অন্তর্ভুক্ত করে
  4. উচ্চ ব্যবহারিক মূল্য: একীভূত কাঠামো একাধিক প্রয়োগ পরিস্থিতি সমর্থন করে

অপূর্ণতা

  1. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: সংযোগ এবং জটিলতার তাত্ত্বিক গ্যারান্টি অভাব
  2. স্কেলেবিলিটি সীমাবদ্ধতা: বড় আকারের মাল্টি-এজেন্ট সিস্টেমে প্রযোজ্যতা সীমিত
  3. র্যান্ডমনেস সংবেদনশীলতা: উচ্চ র্যান্ডম পরিবেশে কর্মক্ষমতা হ্রাস

প্রভাব

  1. একাডেমিক অবদান: মাল্টি-এজেন্ট শিক্ষার জন্য নতুন প্রযুক্তিগত পথ প্রদান করে
  2. ব্যবহারিক মূল্য: রোবোট সমন্বয়, গেম AI ইত্যাদি ক্ষেত্রে প্রয়োগ সম্ভাবনা রয়েছে
  3. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং পরীক্ষা সেটআপ প্রদান করে

প্রযোজ্য পরিস্থিতি

  1. অফলাইন মাল্টি-এজেন্ট শক্তিশালী শিক্ষা কাজ
  2. মাল্টি-এজেন্ট ট্র্যাজেক্টরি পূর্বাভাস
  3. এজেন্ট সমন্বয় প্রয়োজনীয় সিদ্ধান্ত সমস্যা
  4. মধ্যম আকারের (2-8 এজেন্ট) সহযোগিতামূলক কাজ

সংদর্ভ

পেপারটি একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • ডিফিউশন মডেল ভিত্তি কাজ: Ho et al. (2020), Song and Ermon (2019)
  • একক এজেন্ট ডিফিউশন RL: Janner et al. (2022), Ajay et al. (2023)
  • মাল্টি-এজেন্ট RL বেসলাইন: Rashid et al. (2020), Meng et al. (2021)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার যা সফলভাবে ডিফিউশন মডেলস মাল্টি-এজেন্ট শিক্ষা ক্ষেত্রে প্রবর্তন করে, প্রযুক্তিগত উদ্ভাবন উল্লেখযোগ্য, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত। কিছু সীমাবদ্ধতা থাকলেও, এটি এই ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা উন্মোচন করে, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক সম্ভাবনা রয়েছে।