MADiff: Offline Multi-agent Learning with Diffusion Models
Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic
MADiff: Apprendimento Multi-agente Offline con Modelli di Diffusione
L'apprendimento per rinforzo offline (Offline RL) mira ad apprendere strategie da dataset preesistenti senza ulteriori interazioni, rappresentando un compito impegnativo. Gli algoritmi Q-learning soffrono del problema dell'errore di estrapolazione nelle impostazioni offline, mentre i metodi di apprendimento supervisionato sono limitati dalla capacità espressiva del modello. Recentemente, i modelli di diffusione (DM) hanno mostrato promesse nel superare questi limiti nell'apprendimento monoagente, ma la loro applicazione in scenari multi-agente rimane poco chiara. L'utilizzo di DM indipendenti per ogni agente per generare traiettorie potrebbe ostacolare il coordinamento, mentre la concatenazione di tutte le informazioni degli agenti comporta una bassa efficienza campionaria. Pertanto, questo articolo propone MADiff, che modella il complesso coordinamento tra i comportamenti di più agenti attraverso modelli di diffusione basati su attenzione. A nostra conoscenza, MADiff è il primo framework di apprendimento multi-agente basato su diffusione, funzionante sia come strategia decentralizzata che come controllore centralizzato. Durante l'esecuzione decentralizzata, MADiff esegue simultaneamente la modellazione dei compagni di squadra, mentre il controllore centralizzato può essere applicato anche alla predizione di traiettorie multi-agente. Gli esperimenti dimostrano che MADiff supera gli algoritmi di base in vari compiti di apprendimento multi-agente, evidenziando la sua efficacia nella modellazione di complesse interazioni multi-agente.
Sfide dell'apprendimento per rinforzo multi-agente offline: Rispetto all'apprendimento monoagente, l'apprendimento multi-agente offline (MAL) è meno studiato e più impegnativo. Poiché i comportamenti di tutti gli agenti sono interdipendenti, ogni agente deve modellare le interazioni e il coordinamento tra agenti, mentre prende decisioni in modo decentralizzato per raggiungere gli obiettivi.
Limitazioni dei metodi esistenti:
Metodi Q-learning: Soffrono del problema dell'errore di estrapolazione nelle impostazioni offline, dove funzioni di valore centralizzate errate causano errori di estrapolazione significativi
Metodi di modellazione sequenziale: Limitati dalla capacità espressiva del modello, difficili da gestire con dataset diversificati, e soffrono di errori composti nella generazione autoregressiva
Modelli di diffusione indipendenti: L'utilizzo di DM indipendenti per ogni agente potrebbe causare incoerenze significative a causa della mancanza di appropriata assegnazione di credito
Metodi di semplice concatenazione: La concatenazione di tutte le informazioni degli agenti come input/output del DM ignora le caratteristiche importanti dei sistemi multi-agente
Motivazione della ricerca:
I modelli di diffusione hanno dimostrato capacità di modellazione superiore nell'offline RL monoagente
I sistemi multi-agente richiedono meccanismi di coordinamento efficaci
È necessario un framework unificato che supporti il paradigma di addestramento centralizzato con esecuzione decentralizzata (CTDE)
Primo framework di apprendimento multi-agente basato su diffusione: Propone MADiff, che unifica le funzionalità di strategia decentralizzata, controllore centralizzato, modellazione dei compagni di squadra e predizione di traiettorie
Nuova architettura di modello di diffusione basata su attenzione: Progettata specificamente per l'apprendimento multi-agente, realizza il coordinamento tra agenti in ogni fase di denoising
Performance sperimentale superiore: Raggiunge risultati eccellenti su vari problemi multi-agente offline, inclusi compiti di MARL offline e predizione di traiettorie
Questo articolo considera il problema di apprendimento multi-agente completamente cooperativo e parzialmente osservabile, formalizzato come Dec-POMDP:
G=⟨S,A,P,r,Ω,O,N,U,γ⟩
Dove:
S e A rappresentano rispettivamente gli spazi di stato e azione
N agenti {1,2,...,N} agiscono in passi temporali discreti
Ogni agente i osserva solo l'osservazione locale oi∈Ω
L'obiettivo di ottimizzazione è apprendere strategie πi che massimizzano il ricompensa cumulativa scontata
MADiff adotta un framework di rete di diffusione basato su attenzione, eseguendo il calcolo dell'attenzione cross-agente nei livelli del decodificatore di ogni agente.
Struttura di Base U-Net: Adotta U-Net come struttura di base per modellare le traiettorie di vari agenti, contenente blocchi residui di convoluzione unidimensionale ripetuti
Meccanismo di Attenzione:
Impiega livelli di attenzione prima dei blocchi del decodificatore di tutti gli U-Net degli agenti
L'operazione di attenzione viene eseguita sulle caratteristiche di connessione skip cli del livello encoder
Utilizza il meccanismo di attenzione multi-testa per fondere le caratteristiche codificate
L'addestramento centralizzato utilizza una funzione di perdita congiunta:
L(θ,φ)=ΣiE(oi,ai,o′i)∈D[∣∣ai−Iφi(oi,o′i)∣∣2]+Ek,τ0∈D,β[∣∣ε−εθ(τ^k,(1−β)y(τ0)+β∅,k)∣∣2]
L'articolo cita numerosi lavori importanti, inclusi:
Lavori fondamentali sui modelli di diffusione: Ho et al. (2020), Song and Ermon (2019)
Diffusione RL monoagente: Janner et al. (2022), Ajay et al. (2023)
Baseline MARL: Rashid et al. (2020), Meng et al. (2021)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che estende con successo i modelli di diffusione al campo dell'apprendimento multi-agente, con significative innovazioni tecniche e verifiche sperimentali complete. Nonostante alcune limitazioni, apre nuove direzioni di ricerca nel settore, possedendo importante valore accademico e prospettive pratiche promettenti.