PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic
PIMAEX : Exploration Multi-Agents par Incitation entre Pairs
Bien que le problème de l'exploration en apprentissage par renforcement monoagent ait été largement étudié, l'exploration en apprentissage par renforcement multi-agents reste relativement négligée. Pour résoudre ce problème, cet article propose une fonction de récompense basée sur l'incitation entre pairs, inspirée par la curiosité intrinsèque et les recherches antérieures sur les récompenses basées sur l'influence. La récompense PIMAEX (abréviation de Peer-Incentivized Multi-Agent Exploration) vise à améliorer l'exploration dans les environnements multi-agents en encourageant les agents à exercer une influence mutuelle, augmentant ainsi la probabilité de rencontrer de nouveaux états. L'étude évalue la combinaison de la récompense PIMAEX avec l'algorithme PIMAEX-Communication dans l'environnement Consume/Explore, un environnement partiellement observable avec des récompenses trompeuses, spécialement conçu pour défier le dilemme exploration-exploitation et les problèmes d'attribution de crédit. Les résultats expérimentaux montrent que les agents utilisant la récompense PIMAEX surpassent ceux qui ne l'utilisent pas.
Défis de l'exploration multi-agents : L'exploration en apprentissage par renforcement multi-agents est plus difficile que dans le cas monoagent, car l'espace d'état conjoint croît exponentiellement avec le nombre d'agents
Exigences de coordination : Puisque les probabilités de transition d'état dépendent des actions conjointes de tous les agents, un agent individuel ne peut pas explorer indépendamment les parties importantes de l'espace d'état
Récompenses rares et trompeuses : Dans les environnements avec des récompenses rares ou trompeuses, les agents risquent de rester bloqués dans des optima locaux
Problème d'attribution de crédit : La distance temporelle entre les séquences d'actions longues et les récompenses finales rend l'attribution de crédit difficile
Les systèmes multi-agents deviennent de plus en plus importants dans les applications du monde réel (par exemple, la conduite autonome, la collaboration robotique)
L'exploration multi-agents efficace est essentielle pour réaliser des tâches de collaboration complexes
Les méthodes existantes se concentrent principalement sur la coordination et la coopération, plutôt que sur la résolution spécifique du problème d'exploration
Proposition de la fonction de récompense PIMAEX : Un nouveau mécanisme d'incitation entre pairs combinant la curiosité intrinsèque et l'influence sociale pour promouvoir l'exploration multi-agents
Construction d'un cadre généralisé de récompense d'influence sociale : Unifie les concepts de récompense d'influence des travaux antérieurs, incluant une combinaison pondérée de trois termes α, β et γ
Conception de l'algorithme PIMAEX-Communication : Un algorithme d'entraînement multi-agents basé sur des mécanismes de communication, pouvant être combiné avec n'importe quel algorithme actor-critic
Développement de l'environnement Consume/Explore : Un environnement de test spécialement conçu pour évaluer le dilemme exploration-exploitation et les problèmes d'attribution de crédit
Validation empirique : Démonstration de l'efficacité de la méthode PIMAEX dans des environnements difficiles
L'agent PIMAEX β affiche les meilleures performances, surpassant significativement PPO+RND et PPO vanilla
Toutes les variantes PIMAEX surpassent les méthodes de base
PIMAEX β affiche l'écart-type le plus faible, indiquant une politique plus stable
Comportement d'exploration :
L'agent PIMAEX α est l'explorateur le plus actif
L'agent PIMAEX β montre une division des tâches évidente : les agents 1 et 3 se concentrent sur l'exploration, les agents 2 et 4 principalement sur la consommation
Toutes les méthodes réalisent une coordination par paires (environ 1/3 du temps d'épisode)
Couverture de l'espace d'état :
Les différences entre les méthodes dans la couverture finale de l'espace d'état exploré sont relativement faibles
PIMAEX α affiche les meilleures performances en couverture d'exploration intra-épisode
PIMAEX β a l'écart-type le plus faible dans la couverture de l'espace d'état des agents
Efficacité de PIMAEX : La récompense PIMAEX améliore significativement les performances d'exploration multi-agents
Innovation du terme β : Le terme β nouvellement proposé réalise la récompense totale la plus élevée et la politique la plus stable
Division naturelle du travail : PIMAEX β favorise une division naturelle des tâches entre agents
Paradoxe d'exploration : La curiosité intrinsèque individuelle combinée aux récompenses d'influence peut être plus efficace que les récompenses intrinsèques partagées
Limitations d'architecture réseau : Utilise uniquement des réseaux de neurones feedforward relativement simples, n'a pas testé d'architectures plus complexes
Limitations algorithmiques : Évalué uniquement sur PPO, n'a pas testé d'autres méthodes actor-critic
Durée d'entraînement : Le temps d'entraînement relativement court peut affecter les conclusions
Complexité de l'environnement : Évalué uniquement dans un espace d'état-action unique et petit
Scalabilité : N'a pas testé les performances avec un plus grand nombre d'agents
Cet article s'appuie principalement sur les travaux importants suivants :
Jaques et al. (2018) - L'influence sociale comme motivation intrinsèque pour l'apprentissage par renforcement profond multi-agents
Wang et al. (2019) - Exploration multi-agents basée sur l'influence
Burda et al. (2018) - Méthode d'exploration par distillation de réseau aléatoire
Pathak et al. (2017) - Exploration par prédiction auto-supervisée motivée par la curiosité
Évaluation Globale : Ceci est un travail innovant dans le domaine de l'exploration en apprentissage par renforcement multi-agents. Bien qu'il présente certaines limitations, la proposition du terme β et sa validation empirique apportent une contribution précieuse au domaine. Les travaux futurs doivent valider la capacité de généralisation de la méthode dans des environnements plus complexes.