2025-11-12T15:46:10.477787

PIMAEX: Multi-Agent Exploration through Peer Incentivization

Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic

PIMAEX: सहकर्मी प्रोत्साहन के माध्यम से बहु-एजेंट अन्वेषण

मूल जानकारी

  • पेपर ID: 2501.01266
  • शीर्षक: PIMAEX: Multi-Agent Exploration through Peer Incentivization
  • लेखक: Michael Kölle, Johannes Tochtermann, Julian Schönberger, Gerhard Stenzel, Philipp Altmann, Claudia Linnhoff-Popien (LMU Munich)
  • वर्गीकरण: cs.MA (बहु-एजेंट प्रणाली), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.01266

सारांश

यद्यपि एकल-एजेंट सुदृढ़ शिक्षा में अन्वेषण समस्या का व्यापक अध्ययन किया गया है, बहु-एजेंट सुदृढ़ शिक्षा में अन्वेषण समस्या को अपेक्षाकृत कम ध्यान मिला है। इस समस्या को हल करने के लिए, यह पेपर सहकर्मी प्रोत्साहन पर आधारित एक पुरस्कार फ़ंक्शन प्रस्तावित करता है, जो आंतरिक जिज्ञासा और प्रभाव-आधारित पुरस्कार के पूर्व अनुसंधान से प्रेरित है। PIMAEX पुरस्कार (Peer-Incentivized Multi-Agent Exploration का संक्षिप्त रूप) एजेंटों को एक-दूसरे पर प्रभाव डालने के लिए प्रोत्साहित करके नई स्थितियों का सामना करने की संभावना को बढ़ाने का लक्ष्य रखता है, जिससे बहु-एजेंट वातावरण में अन्वेषण में सुधार होता है। अनुसंधान Consume/Explore वातावरण में PIMAEX पुरस्कार और PIMAEX-Communication एल्गोरिथ्म के संयोजन के प्रभाव का मूल्यांकन करता है, जो एक आंशिक रूप से अवलोकनीय वातावरण है जिसमें भ्रामक पुरस्कार हैं और विशेष रूप से अन्वेषण बनाम शोषण दुविधा और क्रेडिट आवंटन समस्याओं को चुनौती देने के लिए डिज़ाइन किया गया है। प्रायोगिक परिणाम दर्शाते हैं कि PIMAEX पुरस्कार का उपयोग करने वाले एजेंट बिना इसके उपयोग करने वाले एजेंटों से बेहतर प्रदर्शन करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

  1. बहु-एजेंट अन्वेषण चुनौतियाँ: बहु-एजेंट सुदृढ़ शिक्षा में अन्वेषण समस्या एकल-एजेंट से अधिक कठिन है, क्योंकि संयुक्त स्थिति स्थान एजेंटों की संख्या के साथ घातांकीय रूप से बढ़ता है
  2. समन्वय आवश्यकता: चूंकि स्थिति संक्रमण संभावना सभी एजेंटों की संयुक्त कार्रवाई पर निर्भर करती है, एक व्यक्तिगत एजेंट स्वतंत्र रूप से स्थिति स्थान के महत्वपूर्ण भागों की खोज करने में कठिनाई का सामना करता है
  3. विरल और भ्रामक पुरस्कार: विरल या भ्रामक पुरस्कार वाले वातावरण में, एजेंट स्थानीय इष्टतम में फंस जाते हैं
  4. क्रेडिट आवंटन समस्या: लंबे क्रम की कार्रवाई और अंतिम पुरस्कार के बीच समय की दूरी क्रेडिट आवंटन को कठिन बनाती है

अनुसंधान का महत्व

  • बहु-एजेंट प्रणालियाँ वास्तविक दुनिया के अनुप्रयोगों में तेजी से महत्वपूर्ण हो रही हैं (जैसे स्वायत्त ड्राइविंग, रोबोट सहयोग आदि)
  • प्रभावी बहु-एजेंट अन्वेषण जटिल सहयोगी कार्यों को प्राप्त करने की कुंजी है
  • मौजूदा तरीके मुख्य रूप से समन्वय और सहयोग पर ध्यान केंद्रित करते हैं, न कि विशेष रूप से अन्वेषण को हल करने पर

मौजूदा तरीकों की सीमाएं

  • एकल-एजेंट अन्वेषण तरीके (जैसे ε-लालची नीति) बहु-एजेंट वातावरण में सीमित प्रभावी हैं
  • आंतरिक जिज्ञासा पर आधारित तरीके मुख्य रूप से एकल-एजेंट के लिए डिज़ाइन किए गए हैं
  • प्रभाव पुरस्कार मुख्य रूप से समन्वय में सुधार के लिए उपयोग किए जाते हैं, न कि विशेष रूप से अन्वेषण को बढ़ावा देने के लिए

मुख्य योगदान

  1. PIMAEX पुरस्कार फ़ंक्शन प्रस्तावित करना: एक नवीन सहकर्मी प्रोत्साहन तंत्र जो बहु-एजेंट अन्वेषण को बढ़ावा देने के लिए आंतरिक जिज्ञासा और सामाजिक प्रभाव को जोड़ता है
  2. सामान्यीकृत सामाजिक प्रभाव पुरस्कार ढांचा बनाना: पूर्व कार्यों में प्रभाव पुरस्कार की अवधारणा को एकीकृत करना, जिसमें α, β, γ तीन पदों का भारित संयोजन शामिल है
  3. PIMAEX-Communication एल्गोरिथ्म डिज़ाइन करना: संचार तंत्र पर आधारित बहु-एजेंट प्रशिक्षण एल्गोरिथ्म, जो किसी भी actor-critic एल्गोरिथ्म के साथ संयुक्त हो सकता है
  4. Consume/Explore वातावरण विकसित करना: विशेष रूप से अन्वेषण बनाम शोषण दुविधा और क्रेडिट आवंटन समस्याओं का मूल्यांकन करने के लिए डिज़ाइन किया गया परीक्षण वातावरण
  5. अनुभवजन्य सत्यापन: चुनौतीपूर्ण वातावरण में PIMAEX विधि की प्रभावशीलता को प्रमाणित करना

विधि विवरण

कार्य परिभाषा

अनुसंधान आंशिक रूप से अवलोकनीय बहु-एजेंट वातावरण को लक्षित करता है, जहाँ:

  • एजेंटों को अन्वेषण और शोषण के बीच संतुलन खोजने की आवश्यकता है
  • वातावरण में विरल या भ्रामक पुरस्कार हैं
  • स्थिति स्थान की प्रभावी खोज के लिए एजेंटों के बीच समन्वय की आवश्यकता है
  • दीर्घकालीन क्रेडिट आवंटन समस्या मौजूद है

मॉडल आर्किटेक्चर

1. सामान्यीकृत सामाजिक प्रभाव पुरस्कार फ़ंक्शन

एजेंट j के लिए सामान्यीकृत प्रभाव पुरस्कार को इस प्रकार परिभाषित किया गया है:

r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]

जहाँ:

  • α पद: नीति प्रभाव पर आधारित प्रत्यक्ष पुरस्कार (Jaques et al., 2018 के समान)
  • β पद: इस पेपर का मुख्य नवाचार, प्रभाव और प्रभावित एजेंट के पुरस्कार के उत्पाद पर आधारित
  • γ पद: मूल्य प्रभाव पर आधारित दीर्घकालीन पुरस्कार (Wang et al., 2019 के समान)

2. नीति प्रभाव और मूल्य प्रभाव

नीति प्रभाव KL विचलन या PMI का उपयोग करके मापा जाता है:

PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))

मूल्य प्रभाव को इस प्रकार परिभाषित किया गया है:

VI_{j→i} = V^info_i - V^marginal_{j→i}

3. PIMAEX पुरस्कार

PIMAEX पुरस्कार बाहरी और आंतरिक पुरस्कार को जोड़ता है:

r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}

तकनीकी नवाचार बिंदु

  1. β पद का नवाचार: पहली बार प्रभाव और प्रभावित एजेंट के पुरस्कार के उत्पाद पर आधारित प्रोत्साहन तंत्र प्रस्तावित करना
  2. प्रतिकूल तर्क: सीमांत नीति और मूल्य फ़ंक्शन की गणना के लिए प्रतिकूल संदेश नमूनाकरण का उपयोग करना
  3. संचार तंत्र: असतत संदेश चैनल एजेंटों को एक-दूसरे को प्रभावित करने में सक्षम बनाता है
  4. आंतरिक जिज्ञासा एकीकरण: RND (Random Network Distillation) को सामाजिक प्रभाव के साथ जोड़ना

प्रयोगात्मक सेटअप

Consume/Explore वातावरण

वातावरण की विशेषताएं:

  • 4 एजेंटों का आंशिक रूप से अवलोकनीय वातावरण
  • प्रत्येक एजेंट के पास एक निजी उत्पादन लाइन है, जो हर M कदम पर C उपभोग्य वस्तुएं उत्पादित करती है
  • तीन प्रकार की कार्रवाइयाँ: कोई कार्रवाई नहीं, उपभोग, अन्वेषण
  • अन्वेषण कार्रवाई सभी एजेंटों की उत्पादन दर को बढ़ा सकती है, लेकिन कोई तत्काल पुरस्कार नहीं

मुख्य पैरामीटर:

  • सामूहिक अन्वेषण थ्रेसहोल्ड E = 0.5 (सफलता सुनिश्चित करने के लिए कम से कम 2 एजेंटों को एक साथ अन्वेषण करने की आवश्यकता है)
  • अगले उत्पादन स्तर तक पहुंचने के लिए c_max = 2000 सफल अन्वेषण की आवश्यकता है
  • अधिकतम उत्पादन स्तर C_max = 5

अवलोकन स्थान: 5-आयामी वेक्टर

  • निजी जानकारी: वर्तमान आपूर्ति, गोदाम स्थान, अगली उत्पादन समय
  • वैश्विक जानकारी: वर्तमान उत्पादन स्तर, सफल अन्वेषण की संख्या

मूल्यांकन मेट्रिक्स

  1. संयुक्त रिटर्न: सभी एजेंटों का कुल रिटर्न
  2. व्यक्तिगत रिटर्न भिन्नता: श्रम विभाजन की डिग्री को दर्शाता है
  3. स्थिति स्थान कवरेज: अन्वेषण का प्रत्यक्ष माप
  4. कार्रवाई सांख्यिकी: उपभोग/अन्वेषण कार्रवाई का प्रतिशत और एक साथ कार्रवाई की संख्या
  5. उत्पादन स्तर: अंतिम प्राप्त उत्पादन स्तर और विभिन्न स्तरों तक पहुंचने के लिए आवश्यक कदम

तुलनात्मक तरीके

  1. Vanilla PPO: मूल PPO एजेंट
  2. PPO+RND: यादृच्छिक नेटवर्क आसवन के साथ आंतरिक जिज्ञासा एजेंट
  3. एकल-पद PIMAEX एजेंट: केवल α, β या γ पद का उपयोग करने वाले एजेंट

कार्यान्वयन विवरण

  • DeepMind के acme लाइब्रेरी और JAX फ्रेमवर्क पर आधारित
  • प्रशिक्षण कदम: 1e7
  • बैच आकार: 16, अनरोल लंबाई: 128
  • सीखने की दर: 1e-4, छूट कारक: 0.999
  • प्रत्येक मॉडल को 3 यादृच्छिक बीजों के साथ प्रशिक्षित किया गया

प्रायोगिक परिणाम

मुख्य परिणाम

  1. समग्र प्रदर्शन:
    • PIMAEX β एजेंट सर्वश्रेष्ठ प्रदर्शन करता है, PPO+RND और vanilla PPO से महत्वपूर्ण रूप से बेहतर है
    • सभी PIMAEX वेरिएंट आधार विधियों से बेहतर हैं
    • PIMAEX β सबसे कम मानक विचलन दिखाता है, जो अधिक स्थिर नीति को दर्शाता है
  2. अन्वेषण व्यवहार:
    • PIMAEX α एजेंट सबसे सक्रिय अन्वेषक हैं
    • PIMAEX β एजेंट स्पष्ट कार्य विभाजन दिखाता है: एजेंट 1 और 3 अन्वेषण पर ध्यान केंद्रित करते हैं, एजेंट 2 और 4 मुख्य रूप से उपभोग करते हैं
    • सभी तरीके जोड़ी में समन्वय अन्वेषण प्राप्त कर सकते हैं (episode का लगभग 1/3 समय)
  3. स्थिति स्थान कवरेज:
    • अंतिम अन्वेषण स्थिति स्थान कवरेज में विभिन्न तरीकों में छोटा अंतर है
    • PIMAEX α episode के भीतर अन्वेषण कवरेज में सर्वश्रेष्ठ प्रदर्शन करता है
    • PIMAEX β एजेंट स्थिति स्थान कवरेज के मानक विचलन में सबसे कम है

विलोपन प्रयोग

एकल-पद विश्लेषण:

  • α पद (शुद्ध प्रभाव पुरस्कार): सबसे अधिक अन्वेषण व्यवहार को बढ़ावा देता है
  • β पद (प्रभाव × पुरस्कार): उच्चतम कुल रिटर्न और सबसे स्थिर नीति प्राप्त करता है
  • γ पद (मूल्य प्रभाव): α और β के बीच प्रदर्शन

मुख्य निष्कर्ष

  1. अप्रत्याशित अंतर्दृष्टि: अन्य एजेंटों के आंतरिक रिटर्न में भाग लेना आवश्यक रूप से अधिक अन्वेषण की ओर नहीं ले जाता है
  2. कार्य विभाजन: PIMAEX β स्वाभाविक रूप से अन्वेषकों और शोषकों के बीच विभाजन बनाता है
  3. स्थिरता: β पद नीति की स्थिरता में महत्वपूर्ण रूप से सुधार करता है (कम मानक विचलन)
  4. समन्वय पैटर्न: एजेंट मुख्य रूप से जोड़ी में समन्वय करते हैं, बड़ी टीमों में नहीं

संबंधित कार्य

आंतरिक प्रेरणा और जिज्ञासा

  • गणना-आधारित अन्वेषण: स्थिति दौरे की गणना के माध्यम से नवीनता को मापना
  • भविष्य कहनेवाला त्रुटि विधियाँ: सीखने वाले मॉडल की भविष्य कहनेवाला त्रुटि के आधार पर पुरस्कार
  • यादृच्छिक नेटवर्क आसवन (RND): "शोर टीवी समस्या" से बचने के लिए यादृच्छिक नेटवर्क का उपयोग करना

बहु-एजेंट समन्वय और सहयोग

  • CTDE विधि: केंद्रीकृत प्रशिक्षण विकेंद्रीकृत निष्पादन ढांचा
  • संचार तंत्र: एजेंटों के बीच सूचना विनिमय समन्वय में सुधार करता है
  • प्रतिकूल तर्क: व्यक्तिगत एजेंट योगदान निर्धारित करना

सामाजिक प्रभाव

  • Jaques et al. (2018): प्रतिकूल तर्क पर आधारित प्रभाव पुरस्कार
  • Wang et al. (2019): EITI और EDTI विधियाँ, इंटरैक्टिव मूल्य अवधारणा का परिचय

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. PIMAEX प्रभावशीलता: PIMAEX पुरस्कार बहु-एजेंट अन्वेषण प्रदर्शन में महत्वपूर्ण रूप से सुधार करता है
  2. β पद नवाचार: नया प्रस्तावित β पद उच्चतम कुल रिटर्न और सबसे स्थिर नीति प्राप्त करता है
  3. प्राकृतिक विभाजन: PIMAEX β एजेंटों के बीच प्राकृतिक कार्य विभाजन को बढ़ावा देता है
  4. अन्वेषण विरोधाभास: व्यक्तिगत आंतरिक जिज्ञासा प्रभाव पुरस्कार के साथ संयुक्त साझा आंतरिक रिटर्न से अधिक प्रभावी हो सकती है

सीमाएं

  1. नेटवर्क आर्किटेक्चर सीमा: केवल अपेक्षाकृत सरल फीडफॉरवर्ड नेटवर्क का उपयोग, अधिक जटिल आर्किटेक्चर का परीक्षण नहीं किया गया
  2. एल्गोरिथ्म सीमा: केवल PPO पर मूल्यांकन, अन्य actor-critic विधियों का परीक्षण नहीं किया गया
  3. प्रशिक्षण अवधि: अपेक्षाकृत कम प्रशिक्षण समय निष्कर्षों को प्रभावित कर सकता है
  4. वातावरण जटिलता: केवल एकल कार्य के छोटे स्थिति-कार्रवाई स्थान में मूल्यांकन
  5. स्केलेबिलिटी: अधिक एजेंटों की संख्या में प्रदर्शन का परीक्षण नहीं किया गया

भविष्य की दिशाएं

  1. अधिक जटिल आर्किटेक्चर: पुनरावर्ती तंत्रिका नेटवर्क जैसे अधिक शक्तिशाली मॉडल का परीक्षण करना
  2. विविध एल्गोरिथ्म: IMPALA जैसे अन्य एल्गोरिथ्म के साथ संयोजन का मूल्यांकन करना
  3. जटिल वातावरण: बड़े स्थिति स्थान और अधिक जटिल कार्यों में सत्यापन करना
  4. स्केलेबिलिटी अनुसंधान: अधिक एजेंट परिदृश्यों में प्रदर्शन का परीक्षण करना
  5. सैद्धांतिक विश्लेषण: गहरा सैद्धांतिक आधार और अभिसरण विश्लेषण प्रदान करना

गहन मूल्यांकन

शक्तियाँ

  1. समस्या महत्व: बहु-एजेंट सुदृढ़ शिक्षा में अनदेखी लेकिन महत्वपूर्ण अन्वेषण समस्या को हल करना
  2. विधि नवाचार: β पद का प्रस्ताव मौलिक है, एकीकृत ढांचा पूर्व कार्यों को एकीकृत करता है
  3. प्रयोग डिज़ाइन: Consume/Explore वातावरण डिज़ाइन चतुर है, लक्ष्य समस्या को प्रभावी ढंग से परीक्षण करता है
  4. अनुभवजन्य पूर्णता: बहु-कोण मूल्यांकन मेट्रिक्स व्यापक प्रदर्शन विश्लेषण प्रदान करते हैं
  5. अप्रत्याशित निष्कर्ष: व्यक्तिगत जिज्ञासा बनाम साझा रिटर्न के बारे में अंतर्दृष्टि प्रेरणादायक है

कमियाँ

  1. सैद्धांतिक आधार: β पद के प्रभावी होने के कारण का सैद्धांतिक व्याख्या नहीं है
  2. वातावरण सीमा: केवल एकल स्व-डिज़ाइन किए गए वातावरण में सत्यापन, सामान्यीकरण संदिग्ध है
  3. कम्प्यूटेशनल ओवरहेड: प्रतिकूल तर्क महत्वपूर्ण कम्प्यूटेशनल लागत जोड़ता है, लेकिन पर्याप्त रूप से चर्चा नहीं की गई
  4. हाइपरपैरामीटर संवेदनशीलता: α, β, γ वजन के प्रति संवेदनशीलता का गहन विश्लेषण नहीं
  5. दीर्घकालीन व्यवहार: अधिक लंबे प्रशिक्षण के बाद व्यवहार परिवर्तन का विश्लेषण नहीं

प्रभाव

  1. शैक्षणिक योगदान: बहु-एजेंट अन्वेषण के लिए नई अनुसंधान दिशा प्रदान करता है
  2. व्यावहारिक मूल्य: विधि अपेक्षाकृत कार्यान्वयन करने में आसान है, मौजूदा एल्गोरिथ्म के साथ संयुक्त हो सकता है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है
  4. प्रेरणादायकता: β पद का डिज़ाइन दृष्टिकोण अन्य पुरस्कार डिज़ाइन को प्रेरित कर सकता है

लागू परिदृश्य

  1. सहयोगी अन्वेषण कार्य: बहु-एजेंट समन्वित अन्वेषण की आवश्यकता वाले वातावरण
  2. विरल पुरस्कार वातावरण: विलंबित या भ्रामक पुरस्कार वाले कार्य
  3. आंशिक रूप से अवलोकनीय वातावरण: अधूरी जानकारी वाली बहु-एजेंट प्रणाली
  4. संचार-सीमित परिदृश्य: असतत संदेशों के माध्यम से सीमित संचार कर सकने वाली प्रणाली

संदर्भ

यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों पर आधारित है:

  1. Jaques et al. (2018) - बहु-एजेंट गहन सुदृढ़ शिक्षा के लिए आंतरिक प्रेरणा के रूप में सामाजिक प्रभाव
  2. Wang et al. (2019) - प्रभाव-आधारित बहु-एजेंट अन्वेषण
  3. Burda et al. (2018) - यादृच्छिक नेटवर्क आसवन अन्वेषण विधि
  4. Pathak et al. (2017) - जिज्ञासा-संचालित स्व-पर्यवेक्षित भविष्य कहनेवाला अन्वेषण

समग्र मूल्यांकन: यह बहु-एजेंट सुदृढ़ शिक्षा अन्वेषण क्षेत्र में एक नवीन कार्य है। यद्यपि कुछ सीमाएं हैं, β पद का प्रस्ताव और अनुभवजन्य सत्यापन इस क्षेत्र को मूल्यवान योगदान प्रदान करता है। भविष्य के कार्य को अधिक जटिल वातावरणों में विधि की सामान्यीकरण क्षमता को सत्यापित करने की आवश्यकता है।