PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic
PIMAEX: Exploración Multi-Agente a través de Incentivización entre Pares
Título: PIMAEX: Multi-Agent Exploration through Peer Incentivization
Autores: Michael Kölle, Johannes Tochtermann, Julian Schönberger, Gerhard Stenzel, Philipp Altmann, Claudia Linnhoff-Popien (Universidad Ludwig Maximiliano de Múnich)
Aunque el problema de la exploración en el aprendizaje por refuerzo de un solo agente ha sido ampliamente estudiado, el problema de la exploración en el aprendizaje por refuerzo multi-agente ha recibido relativamente poca atención. Para abordar esta brecha, este artículo propone una función de recompensa basada en incentivización entre pares, inspirada en investigaciones previas sobre curiosidad intrínseca y recompensas basadas en influencia. La recompensa PIMAEX (acrónimo de Peer-Incentivized Multi-Agent Exploration) tiene como objetivo mejorar la exploración en entornos multi-agente alentando a los agentes a ejercer influencia mutua, aumentando así la probabilidad de encontrar nuevos estados. El estudio evalúa la combinación de la recompensa PIMAEX con el algoritmo PIMAEX-Communication en el entorno Consume/Explore, un entorno parcialmente observable con recompensas engañosas, diseñado específicamente para desafiar el dilema exploración-explotación y los problemas de asignación de crédito. Los resultados experimentales demuestran que los agentes que utilizan la recompensa PIMAEX superan a aquellos que no la utilizan.
Desafíos de Exploración Multi-Agente: El problema de la exploración en el aprendizaje por refuerzo multi-agente es más difícil que en el caso de un solo agente, ya que el espacio de estados conjunto crece exponencialmente con el número de agentes
Requisitos de Coordinación: Debido a que las probabilidades de transición de estado dependen de las acciones conjuntas de todos los agentes, un agente individual tiene dificultades para explorar independientemente partes importantes del espacio de estados
Recompensas Escasas y Engañosas: En entornos con recompensas escasas o engañosas, los agentes tienden a quedar atrapados en óptimos locales
Problema de Asignación de Crédito: La distancia temporal entre secuencias de acciones largas y recompensas finales hace que la asignación de crédito sea difícil
Propuesta de la Función de Recompensa PIMAEX: Un mecanismo novedoso de incentivización entre pares que combina curiosidad intrínseca e influencia social para promover la exploración multi-agente
Construcción de un Marco Generalizado de Recompensa de Influencia Social: Unifica conceptos de recompensas de influencia en trabajos previos, incluyendo una combinación ponderada de tres términos: α, β y γ
Diseño del Algoritmo PIMAEX-Communication: Un algoritmo de entrenamiento multi-agente basado en mecanismos de comunicación que puede combinarse con cualquier algoritmo actor-crítico
Desarrollo del Entorno Consume/Explore: Un entorno de prueba especialmente diseñado para evaluar el dilema exploración-explotación y los problemas de asignación de crédito
Verificación Empírica: Demostración de la efectividad del método PIMAEX en entornos desafiantes
Innovación del Término β: Primera propuesta de un mecanismo de incentivización basado en el producto de influencia y recompensa del agente influenciado
Razonamiento Contrafáctico: Cálculo de políticas marginales y funciones de valor mediante muestreo de mensajes contrafácticos
Mecanismo de Comunicación: Un canal de mensajes discreto que permite a los agentes influenciarse mutuamente
Integración de Curiosidad Intrínseca: Combinación de RND (Random Network Distillation) con influencia social
Efectividad de PIMAEX: La recompensa PIMAEX mejora significativamente el rendimiento de exploración multi-agente
Innovación del Término β: El término β recién propuesto logra la recompensa total más alta y la política más estable
División de Tareas Natural: PIMAEX β promueve una división natural de tareas entre agentes
Paradoja de Exploración: La curiosidad intrínseca individual combinada con recompensas de influencia puede ser más efectiva que recompensas intrínsecas compartidas
Este trabajo se basa principalmente en los siguientes trabajos importantes:
Jaques et al. (2018) - Influencia Social como Motivación Intrínseca en Aprendizaje por Refuerzo Profundo Multi-Agente
Wang et al. (2019) - Exploración Multi-Agente Basada en Influencia
Burda et al. (2018) - Método de Exploración por Destilación de Red Aleatoria
Pathak et al. (2017) - Exploración Impulsada por Curiosidad mediante Predicción Autosupervisada
Evaluación General: Este es un trabajo innovador en el campo de la exploración en aprendizaje por refuerzo multi-agente. Aunque tiene algunas limitaciones, la propuesta del término β y su verificación empírica proporcionan una contribución valiosa al campo. Los trabajos futuros necesitan validar la capacidad de generalización del método en entornos más complejos.