2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: विसरण मॉडल के साथ ऑफलाइन बहु-एजेंट शिक्षण

मूल जानकारी

  • पेपर ID: 2305.17330
  • शीर्षक: MADiff: Offline Multi-agent Learning with Diffusion Models
  • लेखक: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • वर्गीकरण: cs.AI cs.LG
  • प्रकाशन समय/सम्मेलन: NeurIPS 2024 (38वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन)
  • पेपर लिंक: https://arxiv.org/abs/2305.17330

सारांश

ऑफलाइन सुदृढ़ शिक्षा (Offline RL) का उद्देश्य पूर्व-मौजूदा डेटासेट से नीति सीखना है बिना आगे की परस्पर क्रिया के, जो एक चुनौतीपूर्ण कार्य है। Q-लर्निंग एल्गोरिदम ऑफलाइन सेटिंग में एक्सट्रापोलेशन त्रुटि समस्या से ग्रस्त हैं, जबकि पर्यवेक्षित शिक्षा विधियां मॉडल अभिव्यक्ति क्षमता से सीमित हैं। हाल ही में, विसरण मॉडल (DMs) एकल-एजेंट शिक्षा में इन सीमाओं को दूर करने की संभावना दिखा रहे हैं, लेकिन बहु-एजेंट परिदृश्यों में उनका अनुप्रयोग अभी भी अस्पष्ट है। प्रत्येक एजेंट के लिए स्वतंत्र DMs का उपयोग करके प्रक्षेपवक्र उत्पन्न करना समन्वय में बाधा डाल सकता है, जबकि सभी एजेंट की जानकारी को जोड़ने से कम नमूना दक्षता होती है। इसलिए, यह पेपर MADiff प्रस्तावित करता है, जो ध्यान-आधारित विसरण मॉडल के माध्यम से कई एजेंटों के व्यवहार के बीच जटिल समन्वय को मॉडल करता है। हमारे ज्ञान के अनुसार, MADiff पहला विसरण-आधारित बहु-एजेंट शिक्षण ढांचा है जो विकेंद्रीकृत नीति और केंद्रीकृत नियंत्रक दोनों के रूप में कार्य कर सकता है। विकेंद्रीकृत निष्पादन के दौरान, MADiff एक साथ टीममेट मॉडलिंग निष्पादित करता है, और केंद्रीकृत नियंत्रक बहु-एजेंट प्रक्षेपवक्र भविष्यवाणी के लिए भी लागू किया जा सकता है। प्रयोग दिखाते हैं कि MADiff विभिन्न बहु-एजेंट शिक्षण कार्यों में आधारभूत एल्गोरिदम से बेहतर है, जटिल बहु-एजेंट इंटरैक्शन को मॉडल करने में इसकी प्रभावशीलता को उजागर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

  1. ऑफलाइन बहु-एजेंट सुदृढ़ शिक्षा की चुनौतियां: एकल-एजेंट शिक्षा की तुलना में, ऑफलाइन बहु-एजेंट शिक्षा (MAL) कम अनुसंधान किया गया है और अधिक चुनौतीपूर्ण है। चूंकि सभी एजेंटों का व्यवहार परस्पर संबंधित है, प्रत्येक एजेंट को एजेंटों के बीच इंटरैक्शन और समन्वय को मॉडल करने की आवश्यकता है, साथ ही लक्ष्य प्राप्त करने के लिए विकेंद्रीकृत तरीके से निर्णय लेना है।
  2. मौजूदा विधियों की सीमाएं:
    • Q-लर्निंग विधियां: ऑफलाइन सेटिंग में एक्सट्रापोलेशन त्रुटि समस्या से ग्रस्त हैं, गलत केंद्रीकृत मूल्य फ़ंक्शन महत्वपूर्ण एक्सट्रापोलेशन त्रुटि का कारण बनते हैं
    • अनुक्रम मॉडलिंग विधियां: मॉडल अभिव्यक्ति क्षमता से सीमित हैं, विविध डेटासेट को संभालना मुश्किल है, और ऑटोरेग्रेसिव जनरेशन की यौगिक त्रुटि मौजूद है
    • स्वतंत्र विसरण मॉडल: प्रत्येक एजेंट के लिए स्वतंत्र DMs का उपयोग उचित क्रेडिट असाइनमेंट की कमी के कारण गंभीर असंगति का कारण बन सकता है
    • सरल संयोजन विधि: सभी एजेंट की जानकारी को DM इनपुट/आउटपुट के रूप में जोड़ना बहु-एजेंट सिस्टम की महत्वपूर्ण विशेषताओं को नजरअंदाज करता है
  3. अनुसंधान प्रेरणा:
    • विसरण मॉडल एकल-एजेंट ऑफलाइन RL में उच्च मॉडलिंग क्षमता दिखा रहे हैं
    • बहु-एजेंट सिस्टम को प्रभावी समन्वय तंत्र की आवश्यकता है
    • केंद्रीकृत प्रशिक्षण विकेंद्रीकृत निष्पादन (CTDE) प्रतिमान का समर्थन करने वाले एकीकृत ढांचे की आवश्यकता है

मुख्य योगदान

  1. पहला विसरण-आधारित बहु-एजेंट शिक्षण ढांचा: MADiff प्रस्तावित करता है, जो विकेंद्रीकृत नीति, केंद्रीकृत नियंत्रक, टीममेट मॉडलिंग और प्रक्षेपवक्र भविष्यवाणी कार्यों को एकीकृत करता है
  2. नवीन ध्यान-आधारित विसरण मॉडल संरचना: विशेष रूप से बहु-एजेंट शिक्षा के लिए डिज़ाइन किया गया, प्रत्येक डीनोइजिंग चरण में एजेंटों के बीच समन्वय को सक्षम करता है
  3. उच्च प्रायोगिक प्रदर्शन: विभिन्न ऑफलाइन बहु-एजेंट समस्याओं पर उत्कृष्ट परिणाम प्राप्त करता है, जिसमें ऑफलाइन MARL और प्रक्षेपवक्र भविष्यवाणी कार्य शामिल हैं

विधि विवरण

कार्य परिभाषा

यह पेपर आंशिक रूप से अवलोकनीय और पूरी तरह से सहयोगी बहु-एजेंट शिक्षण समस्या पर विचार करता है, Dec-POMDP के रूप में औपचारिक: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

जहां:

  • SS और AA क्रमशः स्थिति और कार्य स्थान का प्रतिनिधित्व करते हैं
  • NN एजेंट {1,2,...,N}\{1, 2, ..., N\} असतत समय चरणों में कार्य करते हैं
  • प्रत्येक एजेंट ii केवल स्थानीय अवलोकन oiΩo^i \in Ω को देखता है
  • अनुकूलन उद्देश्य नीति πiπ^i सीखना है जो छूट प्राप्त संचयी पुरस्कार को अधिकतम करता है

मॉडल आर्किटेक्चर

समग्र डिजाइन

MADiff ध्यान-आधारित विसरण नेटवर्क ढांचा अपनाता है, प्रत्येक एजेंट के डिकोडर परत में क्रॉस-एजेंट ध्यान गणना करता है।

मुख्य घटक

  1. U-Net आधार संरचना: विभिन्न एजेंटों के प्रक्षेपवक्र को मॉडल करने के लिए U-Net को आधार संरचना के रूप में अपनाता है, जिसमें दोहराए गए एक-आयामी कनवल्शन अवशेष ब्लॉक शामिल हैं
  2. ध्यान तंत्र:
    • सभी एजेंटों के U-Net के डिकोडर ब्लॉक से पहले ध्यान परत का उपयोग करता है
    • ध्यान ऑपरेशन encoder परत के स्किप कनेक्शन विशेषताओं clic^i_l पर किया जाता है
    • एन्कोडेड विशेषताओं को फ्यूज करने के लिए मल्टी-हेड ध्यान तंत्र का उपयोग करता है
  3. गणितीय अभिव्यक्ति:
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

प्रशिक्षण उद्देश्य

केंद्रीकृत प्रशिक्षण संयुक्त हानि फ़ंक्शन का उपयोग करता है: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

निष्पादन मोड

केंद्रीकृत नियंत्रण

  • सभी एजेंटों के वर्तमान स्थानीय अवलोकन तक पहुंच
  • सभी एजेंटों के प्रक्षेपवक्र उत्पन्न करता है और कार्यों की भविष्यवाणी करता है
  • बहु-एजेंट प्रक्षेपवक्र भविष्यवाणी और टीम गेम के लिए उपयुक्त

विकेंद्रीकृत निष्पादन और टीममेट मॉडलिंग

  • प्रत्येक एजेंट केवल अपने स्वयं के स्थानीय अवलोकन का उपयोग करके योजना बनाता है
  • एक साथ अन्य एजेंटों के अवलोकन अनुक्रम का अनुमान लगाता है (टीममेट मॉडलिंग)
  • ध्यान तंत्र के माध्यम से प्रभावी समन्वय प्राप्त करता है

प्रायोगिक सेटअप

डेटासेट

  1. बहु-एजेंट कण पर्यावरण (MPE):
    • Spread: तीन एजेंट तीन स्थलचिह्न को कवर करते हैं
    • Tag: तीन शिकारी पूर्व-प्रशिक्षित शिकार को पकड़ते हैं
    • World: शिकारी वन वाले नक्शे में शिकार को पकड़ते हैं
    • डेटासेट: Expert, Medium-Replay, Medium, Random
  2. बहु-एजेंट Mujoco (MA Mujoco):
    • 2halfcheetah, 2ant, 4ant कॉन्फ़िगरेशन
    • डेटासेट: Good, Medium, Poor
  3. स्टारक्राफ्ट बहु-एजेंट चुनौती (SMAC):
    • नक्शे: 3m, 2s3z, 5m_vs_6m, 8m
    • डेटासेट: Good, Medium, Poor
  4. NBA डेटासेट:
    • 2015-16 सीजन के 631 खेलों से बास्केटबॉल खिलाड़ियों के प्रक्षेपवक्र
    • बहु-एजेंट प्रक्षेपवक्र भविष्यवाणी कार्य के लिए उपयोग किया जाता है

मूल्यांकन मेट्रिक्स

  • ऑफलाइन MARL: ऑनलाइन rollout से प्राप्त एपिसोड पुरस्कार
  • प्रक्षेपवक्र भविष्यवाणी: ADE, FDE, minADE20, minFDE20 आदि दूरी-आधारित मेट्रिक्स

तुलना विधियां

  • ऑफलाइन MARL: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • प्रक्षेपवक्र भविष्यवाणी: Baller2Vec++

प्रायोगिक परिणाम

मुख्य परिणाम

ऑफलाइन MARL प्रदर्शन

MADiff अधिकांश डेटासेट पर सर्वोत्तम परिणाम प्राप्त करता है:

कार्यडेटासेटBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

प्रक्षेपवक्र भविष्यवाणी प्रदर्शन

NBA डेटासेट पर, MADIFF-C आधारभूत से काफी बेहतर है:

प्रक्षेपवक्र लंबाईमेट्रिकBaller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

विलोपन प्रयोग

ध्यान तंत्र की महत्ता को सत्यापित करता है:

  • ध्यान के साथ MADIFF-D स्वतंत्र संस्करण से काफी बेहतर है
  • अधिक चुनौतीपूर्ण कार्यों (जैसे World) में लाभ अधिक स्पष्ट है
  • पैरामीटर साझाकरण रणनीति पैरामीटर संख्या को प्रभावी ढंग से कम करती है

टीममेट मॉडलिंग विश्लेषण

Spread कार्य के दृश्य विश्लेषण के माध्यम से दिखाता है:

  • MADiff rollout प्रक्रिया के दौरान टीममेट व्यवहार भविष्यवाणी को सुधार सकता है
  • सामंजस्य अनुपात समय चरण के साथ बढ़ता है, अंततः वास्तविक rollout प्रक्षेपवक्र से अधिक हो जाता है
  • टीममेट मॉडलिंग की प्रभावशीलता को प्रमाणित करता है

संबंधित कार्य

बहु-एजेंट ऑफलाइन RL

  • Q-लर्निंग एक्सटेंशन: MA-BCQ, MA-ICQ आदि विधियां एक्सट्रापोलेशन त्रुटि समस्या से ग्रस्त हैं
  • अनुक्रम मॉडलिंग: MADT transformer का उपयोग करता है लेकिन एजेंट इंटरैक्शन मॉडलिंग की कमी है

निर्णय विसरण मॉडल

  • एकल-एजेंट विधियां: Diffuser, Decision Diffusion आदि एकल-एजेंट कार्यों में सफलता प्राप्त करते हैं
  • इस पेपर का योगदान: पहली बार विसरण मॉडल को बहु-एजेंट परिदृश्य में विस्तारित करता है

प्रतिद्वंद्वी मॉडलिंग

  • ऑनलाइन MARL में प्रतिद्वंद्वी मॉडलिंग का समृद्ध साहित्य
  • MADiff प्रभावी ऑफलाइन टीममेट मॉडलिंग समाधान प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. MADiff विसरण मॉडल को बहु-एजेंट शिक्षा में सफलतापूर्वक विस्तारित करता है
  2. ध्यान तंत्र एजेंटों के बीच समन्वय को प्रभावी ढंग से लागू करता है
  3. एकीकृत ढांचा कई अनुप्रयोग परिदृश्यों का समर्थन करता है
  4. विभिन्न कार्यों पर उत्कृष्ट प्रदर्शन प्राप्त करता है

सीमाएं

  1. स्केलेबिलिटी: दर्जनों या सैकड़ों एजेंटों के परिदृश्य के लिए उपयुक्त नहीं है
  2. यादृच्छिक पर्यावरण: उच्च यादृच्छिकता वाले पर्यावरण में खराब प्रदर्शन कर सकता है
  3. कम्प्यूटेशनल जटिलता: प्रत्येक एजेंट के लिए सभी टीममेट प्रक्षेपवक्र का अनुमान लगाने की आवश्यकता है

भविष्य की दिशाएं

  1. स्केलेबिलिटी बढ़ाने के लिए अव्यक्त प्रतिनिधित्व की खोज करता है
  2. यादृच्छिक पर्यावरण में प्रदर्शन में सुधार करता है
  3. कम्प्यूटेशनल दक्षता को अनुकूलित करता है

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: विसरण मॉडल को बहु-एजेंट शिक्षा में पहली बार सफलतापूर्वक लागू करता है
  2. परिष्कृत तकनीकी डिजाइन: ध्यान तंत्र एजेंट समन्वय समस्या को चतुराई से हल करता है
  3. व्यापक प्रयोग: कई डोमेन और कार्य प्रकारों को कवर करता है
  4. उच्च व्यावहारिक मूल्य: एकीकृत ढांचा कई अनुप्रयोग परिदृश्यों का समर्थन करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण और जटिलता के सैद्धांतिक गारंटी की कमी है
  2. स्केलेबिलिटी प्रतिबंध: बड़े पैमाने पर बहु-एजेंट सिस्टम में प्रयोज्यता सीमित है
  3. यादृच्छिकता संवेदनशीलता: उच्च यादृच्छिक पर्यावरण में प्रदर्शन में गिरावट

प्रभाव

  1. शैक्षणिक योगदान: बहु-एजेंट शिक्षा के लिए नई तकनीकी पथ प्रदान करता है
  2. व्यावहारिक मूल्य: रोबोट समन्वय, गेम AI आदि क्षेत्रों में अनुप्रयोग संभावना है
  3. पुनरुत्पादनीयता: पूर्ण कोड और प्रायोगिक सेटअप प्रदान करता है

लागू परिदृश्य

  1. ऑफलाइन बहु-एजेंट सुदृढ़ शिक्षण कार्य
  2. बहु-एजेंट प्रक्षेपवक्र भविष्यवाणी
  3. एजेंट समन्वय की आवश्यकता वाली निर्णय समस्याएं
  4. मध्यम पैमाने (2-8 एजेंट) के सहयोगी कार्य

संदर्भ

पेपर कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • विसरण मॉडल मौलिक कार्य: Ho et al. (2020), Song and Ermon (2019)
  • एकल-एजेंट विसरण RL: Janner et al. (2022), Ajay et al. (2023)
  • बहु-एजेंट RL आधारभूत: Rashid et al. (2020), Meng et al. (2021)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो विसरण मॉडल को बहु-एजेंट शिक्षा क्षेत्र में सफलतापूर्वक पेश करता है, तकनीकी नवाचार महत्वपूर्ण है, प्रायोगिक सत्यापन पर्याप्त है। कुछ सीमाओं के बावजूद, यह इस क्षेत्र के लिए नई अनुसंधान दिशा खोलता है और महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक संभावनाएं रखता है।