PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic
PIMAEX: सहकर्मी प्रोत्साहन के माध्यम से बहु-एजेंट अन्वेषण
यद्यपि एकल-एजेंट सुदृढ़ शिक्षा में अन्वेषण समस्या का व्यापक अध्ययन किया गया है, बहु-एजेंट सुदृढ़ शिक्षा में अन्वेषण समस्या को अपेक्षाकृत कम ध्यान मिला है। इस समस्या को हल करने के लिए, यह पेपर सहकर्मी प्रोत्साहन पर आधारित एक पुरस्कार फ़ंक्शन प्रस्तावित करता है, जो आंतरिक जिज्ञासा और प्रभाव-आधारित पुरस्कार के पूर्व अनुसंधान से प्रेरित है। PIMAEX पुरस्कार (Peer-Incentivized Multi-Agent Exploration का संक्षिप्त रूप) एजेंटों को एक-दूसरे पर प्रभाव डालने के लिए प्रोत्साहित करके नई स्थितियों का सामना करने की संभावना को बढ़ाने का लक्ष्य रखता है, जिससे बहु-एजेंट वातावरण में अन्वेषण में सुधार होता है। अनुसंधान Consume/Explore वातावरण में PIMAEX पुरस्कार और PIMAEX-Communication एल्गोरिथ्म के संयोजन के प्रभाव का मूल्यांकन करता है, जो एक आंशिक रूप से अवलोकनीय वातावरण है जिसमें भ्रामक पुरस्कार हैं और विशेष रूप से अन्वेषण बनाम शोषण दुविधा और क्रेडिट आवंटन समस्याओं को चुनौती देने के लिए डिज़ाइन किया गया है। प्रायोगिक परिणाम दर्शाते हैं कि PIMAEX पुरस्कार का उपयोग करने वाले एजेंट बिना इसके उपयोग करने वाले एजेंटों से बेहतर प्रदर्शन करते हैं।
बहु-एजेंट अन्वेषण चुनौतियाँ: बहु-एजेंट सुदृढ़ शिक्षा में अन्वेषण समस्या एकल-एजेंट से अधिक कठिन है, क्योंकि संयुक्त स्थिति स्थान एजेंटों की संख्या के साथ घातांकीय रूप से बढ़ता है
समन्वय आवश्यकता: चूंकि स्थिति संक्रमण संभावना सभी एजेंटों की संयुक्त कार्रवाई पर निर्भर करती है, एक व्यक्तिगत एजेंट स्वतंत्र रूप से स्थिति स्थान के महत्वपूर्ण भागों की खोज करने में कठिनाई का सामना करता है
विरल और भ्रामक पुरस्कार: विरल या भ्रामक पुरस्कार वाले वातावरण में, एजेंट स्थानीय इष्टतम में फंस जाते हैं
क्रेडिट आवंटन समस्या: लंबे क्रम की कार्रवाई और अंतिम पुरस्कार के बीच समय की दूरी क्रेडिट आवंटन को कठिन बनाती है
PIMAEX पुरस्कार फ़ंक्शन प्रस्तावित करना: एक नवीन सहकर्मी प्रोत्साहन तंत्र जो बहु-एजेंट अन्वेषण को बढ़ावा देने के लिए आंतरिक जिज्ञासा और सामाजिक प्रभाव को जोड़ता है
सामान्यीकृत सामाजिक प्रभाव पुरस्कार ढांचा बनाना: पूर्व कार्यों में प्रभाव पुरस्कार की अवधारणा को एकीकृत करना, जिसमें α, β, γ तीन पदों का भारित संयोजन शामिल है
PIMAEX-Communication एल्गोरिथ्म डिज़ाइन करना: संचार तंत्र पर आधारित बहु-एजेंट प्रशिक्षण एल्गोरिथ्म, जो किसी भी actor-critic एल्गोरिथ्म के साथ संयुक्त हो सकता है
Consume/Explore वातावरण विकसित करना: विशेष रूप से अन्वेषण बनाम शोषण दुविधा और क्रेडिट आवंटन समस्याओं का मूल्यांकन करने के लिए डिज़ाइन किया गया परीक्षण वातावरण
अनुभवजन्य सत्यापन: चुनौतीपूर्ण वातावरण में PIMAEX विधि की प्रभावशीलता को प्रमाणित करना
यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों पर आधारित है:
Jaques et al. (2018) - बहु-एजेंट गहन सुदृढ़ शिक्षा के लिए आंतरिक प्रेरणा के रूप में सामाजिक प्रभाव
Wang et al. (2019) - प्रभाव-आधारित बहु-एजेंट अन्वेषण
Burda et al. (2018) - यादृच्छिक नेटवर्क आसवन अन्वेषण विधि
Pathak et al. (2017) - जिज्ञासा-संचालित स्व-पर्यवेक्षित भविष्य कहनेवाला अन्वेषण
समग्र मूल्यांकन: यह बहु-एजेंट सुदृढ़ शिक्षा अन्वेषण क्षेत्र में एक नवीन कार्य है। यद्यपि कुछ सीमाएं हैं, β पद का प्रस्ताव और अनुभवजन्य सत्यापन इस क्षेत्र को मूल्यवान योगदान प्रदान करता है। भविष्य के कार्य को अधिक जटिल वातावरणों में विधि की सामान्यीकरण क्षमता को सत्यापित करने की आवश्यकता है।