PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
단일 에이전트 강화학습에서의 탐색 문제는 광범위하게 연구되었지만, 다중 에이전트 강화학습에서의 탐색 문제는 상대적으로 주목을 받지 못했습니다. 이 문제를 해결하기 위해 본 논문은 내재적 호기심과 영향력 기반 보상에 관한 선행 연구에서 영감을 받은 동료 인센티브 기반의 보상 함수를 제안합니다. PIMAEX 보상(동료 인센티브 다중 에이전트 탐색의 약자)은 에이전트들이 서로에게 영향을 미치도록 장려하여 새로운 상태를 만날 가능성을 높임으로써 다중 에이전트 환경에서의 탐색을 개선하도록 설계되었습니다. 본 연구는 기만적 보상을 가진 부분 관찰 가능 환경인 Consume/Explore 환경에서 PIMAEX 보상과 PIMAEX-Communication 알고리즘의 결합 효과를 평가했으며, 이 환경은 탐색과 활용의 딜레마 및 신용 할당 문제를 도전하기 위해 특별히 설계되었습니다. 실험 결과는 PIMAEX 보상을 사용하는 에이전트가 그렇지 않은 에이전트보다 우수한 성능을 보임을 나타냅니다.