PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic
PIMAEX: Multi-Agent Exploration durch Peer-Incentivierung
Während das Explorationsproblem im Single-Agent-Reinforcement-Learning umfassend erforscht wurde, hat das Explorationsproblem im Multi-Agent-Reinforcement-Learning bislang weniger Aufmerksamkeit erhalten. Um dieses Problem zu adressieren, wird eine auf Peer-Incentivierung basierende Belohnungsfunktion vorgeschlagen, die von intrinsischer Neugier und früheren Arbeiten zu einflussbasierten Belohnungen inspiriert ist. Die PIMAEX-Belohnung (Abkürzung für Peer-Incentivized Multi-Agent Exploration) zielt darauf ab, die Exploration in Multi-Agent-Umgebungen zu verbessern, indem Agenten ermutigt werden, gegenseitig Einfluss auszuüben und damit die Wahrscheinlichkeit zu erhöhen, neue Zustände zu erreichen. Die Forschung evaluiert die Kombination der PIMAEX-Belohnung mit dem PIMAEX-Communication-Algorithmus in der Consume/Explore-Umgebung, einer partiell beobachtbaren Umgebung mit täuschenden Belohnungen, die speziell zur Herausforderung des Explorations-Exploitations-Dilemmas und des Credit-Assignment-Problems konzipiert wurde. Die experimentellen Ergebnisse zeigen, dass Agenten mit PIMAEX-Belohnung besser abschneiden als ohne.
Multi-Agent-Explorationschallenges: Das Explorationsproblem im Multi-Agent-Reinforcement-Learning ist schwieriger als im Single-Agent-Fall, da der gemeinsame Zustandsraum exponentiell mit der Anzahl der Agenten wächst
Koordinierungsbedarf: Da Zustandsübergänge von den gemeinsamen Aktionen aller Agenten abhängen, können einzelne Agenten wichtige Teile des Zustandsraums nicht unabhängig erkunden
Spärliche und täuschende Belohnungen: In Umgebungen mit spärlichen oder täuschenden Belohnungen geraten Agenten leicht in lokale Optima
Credit-Assignment-Problem: Die zeitliche Distanz zwischen langen Aktionssequenzen und finalen Belohnungen macht die Zuordnung von Verantwortung schwierig
Vorschlag der PIMAEX-Belohnungsfunktion: Ein neuartiger Peer-Incentivierungsmechanismus, der intrinsische Neugier und sozialen Einfluss kombiniert, um Multi-Agent-Exploration zu fördern
Konstruktion eines verallgemeinerten sozialen Einfluss-Belohnungsrahmens: Vereinheitlichung des Konzepts der Einflussbelohnung aus früheren Arbeiten mit einer gewichteten Kombination aus α-, β- und γ-Termen
Entwurf des PIMAEX-Communication-Algorithmus: Ein auf Kommunikationsmechanismen basierender Multi-Agent-Trainingsalgorithmus, der mit jedem Actor-Critic-Algorithmus kombiniert werden kann
Entwicklung der Consume/Explore-Umgebung: Eine speziell konzipierte Testumgebung zur Bewertung des Explorations-Exploitations-Dilemmas und des Credit-Assignment-Problems
Empirische Validierung: Nachweis der Effektivität der PIMAEX-Methode in anspruchsvollen Umgebungen
Innovation des β-Terms: Erstmalige Einführung eines Incentivierungsmechanismus basierend auf dem Produkt von Einfluss und Belohnung des beeinflussten Agenten
Kontrafaktische Inferenz: Berechnung von Grenzrichtlinien und Wertfunktionen durch kontrafaktische Nachrichtensampling
Kommunikationsmechanismus: Diskrete Nachrichtenkanäle ermöglichen gegenseitige Beeinflussung zwischen Agenten
Integration intrinsischer Neugier: Kombination von RND (Random Network Distillation) mit sozialem Einfluss
β-Term-Innovation: Der neu vorgeschlagene β-Term erreicht höchste Gesamtrendite und stabilste Strategie
Natürliche Arbeitsteilung: PIMAEX β fördert natürliche Aufgabenteilung zwischen Agenten
Explorations-Paradoxon: Individuelle intrinsische Neugier kombiniert mit Einflussbelohnungen kann effektiver sein als gemeinsame intrinsische Belohnungen
Diese Arbeit basiert hauptsächlich auf folgenden wichtigen Werken:
Jaques et al. (2018) - Sozialer Einfluss als intrinsische Motivation für Multi-Agent Deep Reinforcement Learning
Wang et al. (2019) - Einflussbasierte Multi-Agent-Exploration
Burda et al. (2018) - Random Network Distillation Explorationsmethode
Pathak et al. (2017) - Curiosity-Driven Exploration durch selbstüberwachte Vorhersage
Gesamtbewertung: Dies ist eine innovative Arbeit im Bereich der Multi-Agent-Reinforcement-Learning-Exploration. Trotz einiger Limitierungen bietet der β-Term-Vorschlag und dessen empirische Validierung wertvollen Beitrag zum Feld. Zukünftige Arbeiten sollten die Generalisierbarkeit der Methode in komplexeren Umgebungen validieren.