PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic
PIMAEX: Esplorazione Multi-Agente attraverso l'Incentivazione tra Pari
Sebbene il problema dell'esplorazione nell'apprendimento per rinforzo monoagente sia stato ampiamente studiato, il problema dell'esplorazione nell'apprendimento per rinforzo multi-agente ha ricevuto relativamente poca attenzione. Per affrontare questa lacuna, il presente articolo propone una funzione di ricompensa basata su incentivazione tra pari, ispirata dalla ricerca precedente sulla curiosità intrinseca e dalle ricompense basate sull'influenza. La ricompensa PIMAEX (abbreviazione di Peer-Incentivized Multi-Agent Exploration) mira a migliorare l'esplorazione negli ambienti multi-agente incoraggiando gli agenti a esercitare reciprocamente influenza, aumentando così la probabilità di incontrare nuovi stati. Lo studio valuta la combinazione della ricompensa PIMAEX con l'algoritmo PIMAEX-Communication nell'ambiente Consume/Explore, un ambiente parzialmente osservabile con ricompense ingannevoli, appositamente progettato per sfidare il dilemma esplorazione-sfruttamento e i problemi di assegnazione del credito. I risultati sperimentali dimostrano che gli agenti che utilizzano la ricompensa PIMAEX superano quelli che non la utilizzano.
Sfide dell'Esplorazione Multi-Agente: Il problema dell'esplorazione nell'apprendimento per rinforzo multi-agente è più difficile rispetto al caso monoagente, poiché lo spazio degli stati congiunti cresce esponenzialmente con il numero di agenti
Requisiti di Coordinamento: Poiché le probabilità di transizione dello stato dipendono dalle azioni congiunte di tutti gli agenti, i singoli agenti hanno difficoltà a esplorare indipendentemente parti importanti dello spazio degli stati
Ricompense Sparse e Ingannevoli: In ambienti con ricompense sparse o ingannevoli, gli agenti tendono a rimanere intrappolati in ottimi locali
Problema dell'Assegnazione del Credito: La distanza temporale tra sequenze di azioni lunghe e le ricompense finali rende difficile l'assegnazione del credito
I sistemi multi-agente sono sempre più importanti nelle applicazioni del mondo reale (ad esempio, guida autonoma, collaborazione robotica)
L'esplorazione multi-agente efficace è fondamentale per realizzare compiti di collaborazione complessi
I metodi esistenti si concentrano principalmente su coordinamento e cooperazione, piuttosto che affrontare specificamente il problema dell'esplorazione
Proposta della Funzione di Ricompensa PIMAEX: Un nuovo meccanismo di incentivazione tra pari che combina curiosità intrinseca e influenza sociale per promuovere l'esplorazione multi-agente
Costruzione di un Framework Generalizzato di Ricompensa di Influenza Sociale: Unifica il concetto di ricompensa di influenza dai lavori precedenti, contenente una combinazione ponderata di tre termini α, β, γ
Progettazione dell'Algoritmo PIMAEX-Communication: Un algoritmo di addestramento multi-agente basato su meccanismi di comunicazione, combinabile con qualsiasi algoritmo actor-critic
Sviluppo dell'Ambiente Consume/Explore: Un ambiente di test appositamente progettato per valutare il dilemma esplorazione-sfruttamento e i problemi di assegnazione del credito
Verifica Empirica: Dimostra l'efficacia del metodo PIMAEX in ambienti impegnativi
Innovazione del Termine β: Primo a proporre un meccanismo di incentivazione basato sul prodotto dell'influenza e della ricompensa dell'agente influenzato
Ragionamento Controffattuale: Calcola la politica marginale e le funzioni di valore attraverso il campionamento controffattuale di messaggi
Meccanismo di Comunicazione: Un canale di messaggi discreti consente agli agenti di influenzarsi reciprocamente
Integrazione della Curiosità Intrinseca: Combina RND (Random Network Distillation) con influenza sociale
L'agente PIMAEX β mostra le migliori prestazioni, superando significativamente PPO+RND e PPO vanilla
Tutte le varianti PIMAEX superano i metodi di base
PIMAEX β mostra la deviazione standard più bassa, indicando una politica più stabile
Comportamento di Esplorazione:
L'agente PIMAEX α è l'esploratore più attivo
L'agente PIMAEX β mostra una chiara divisione dei compiti: gli agenti 1 e 3 si concentrano sull'esplorazione, gli agenti 2 e 4 principalmente sul consumo
Tutti i metodi raggiungono il coordinamento a coppie (circa 1/3 del tempo dell'episodio)
Copertura dello Spazio degli Stati:
Piccole differenze tra i metodi nella copertura finale dello spazio degli stati esplorato
PIMAEX α mostra le migliori prestazioni nella copertura dell'esplorazione all'interno dell'episodio
PIMAEX β ha la deviazione standard più bassa nella copertura dello spazio degli stati degli agenti
Efficacia di PIMAEX: La ricompensa PIMAEX migliora significativamente le prestazioni di esplorazione multi-agente
Innovazione del Termine β: Il termine β appena proposto raggiunge la ricompensa totale più alta e la politica più stabile
Divisione Naturale dei Compiti: PIMAEX β promuove una naturale divisione dei compiti tra agenti
Paradosso dell'Esplorazione: La curiosità intrinseca individuale combinata con ricompense di influenza potrebbe essere più efficace rispetto alle ricompense intrinseche condivise
Questo articolo si basa principalmente sui seguenti lavori importanti:
Jaques et al. (2018) - Influenza sociale come motivazione intrinseca nell'apprendimento per rinforzo profondo multi-agente
Wang et al. (2019) - Esplorazione multi-agente basata sull'influenza
Burda et al. (2018) - Metodo di esplorazione con distillazione di rete casuale
Pathak et al. (2017) - Esplorazione guidata dalla curiosità con previsione auto-supervisionata
Valutazione Generale: Questo è un lavoro innovativo nel campo dell'esplorazione nell'apprendimento per rinforzo multi-agente. Sebbene presenti alcune limitazioni, la proposta del termine β e la verifica empirica forniscono contributi preziosi al campo. I lavori futuri devono verificare la capacità di generalizzazione del metodo in ambienti più complessi.