2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: Apprendimento Multi-agente Offline con Modelli di Diffusione

Informazioni Fondamentali

ID Articolo: 2305.17330
Titolo: MADiff: Offline Multi-agent Learning with Diffusion Models
Autori: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
Classificazione: cs.AI cs.LG
Data di Pubblicazione/Conferenza: NeurIPS 2024 (38ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
Link Articolo: https://arxiv.org/abs/2305.17330

Riassunto

L'apprendimento per rinforzo offline (Offline RL) mira ad apprendere strategie da dataset preesistenti senza ulteriori interazioni, rappresentando un compito impegnativo. Gli algoritmi Q-learning soffrono del problema dell'errore di estrapolazione nelle impostazioni offline, mentre i metodi di apprendimento supervisionato sono limitati dalla capacità espressiva del modello. Recentemente, i modelli di diffusione (DM) hanno mostrato promesse nel superare questi limiti nell'apprendimento monoagente, ma la loro applicazione in scenari multi-agente rimane poco chiara. L'utilizzo di DM indipendenti per ogni agente per generare traiettorie potrebbe ostacolare il coordinamento, mentre la concatenazione di tutte le informazioni degli agenti comporta una bassa efficienza campionaria. Pertanto, questo articolo propone MADiff, che modella il complesso coordinamento tra i comportamenti di più agenti attraverso modelli di diffusione basati su attenzione. A nostra conoscenza, MADiff è il primo framework di apprendimento multi-agente basato su diffusione, funzionante sia come strategia decentralizzata che come controllore centralizzato. Durante l'esecuzione decentralizzata, MADiff esegue simultaneamente la modellazione dei compagni di squadra, mentre il controllore centralizzato può essere applicato anche alla predizione di traiettorie multi-agente. Gli esperimenti dimostrano che MADiff supera gli algoritmi di base in vari compiti di apprendimento multi-agente, evidenziando la sua efficacia nella modellazione di complesse interazioni multi-agente.

Contesto di Ricerca e Motivazione

Contesto del Problema

Sfide dell'apprendimento per rinforzo multi-agente offline: Rispetto all'apprendimento monoagente, l'apprendimento multi-agente offline (MAL) è meno studiato e più impegnativo. Poiché i comportamenti di tutti gli agenti sono interdipendenti, ogni agente deve modellare le interazioni e il coordinamento tra agenti, mentre prende decisioni in modo decentralizzato per raggiungere gli obiettivi.
Limitazioni dei metodi esistenti:
- Metodi Q-learning: Soffrono del problema dell'errore di estrapolazione nelle impostazioni offline, dove funzioni di valore centralizzate errate causano errori di estrapolazione significativi
- Metodi di modellazione sequenziale: Limitati dalla capacità espressiva del modello, difficili da gestire con dataset diversificati, e soffrono di errori composti nella generazione autoregressiva
- Modelli di diffusione indipendenti: L'utilizzo di DM indipendenti per ogni agente potrebbe causare incoerenze significative a causa della mancanza di appropriata assegnazione di credito
- Metodi di semplice concatenazione: La concatenazione di tutte le informazioni degli agenti come input/output del DM ignora le caratteristiche importanti dei sistemi multi-agente
Motivazione della ricerca:
- I modelli di diffusione hanno dimostrato capacità di modellazione superiore nell'offline RL monoagente
- I sistemi multi-agente richiedono meccanismi di coordinamento efficaci
- È necessario un framework unificato che supporti il paradigma di addestramento centralizzato con esecuzione decentralizzata (CTDE)

Contributi Principali

Primo framework di apprendimento multi-agente basato su diffusione: Propone MADiff, che unifica le funzionalità di strategia decentralizzata, controllore centralizzato, modellazione dei compagni di squadra e predizione di traiettorie
Nuova architettura di modello di diffusione basata su attenzione: Progettata specificamente per l'apprendimento multi-agente, realizza il coordinamento tra agenti in ogni fase di denoising
Performance sperimentale superiore: Raggiunge risultati eccellenti su vari problemi multi-agente offline, inclusi compiti di MARL offline e predizione di traiettorie

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo considera il problema di apprendimento multi-agente completamente cooperativo e parzialmente osservabile, formalizzato come Dec-POMDP: $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

Dove:

$S$ e $A$ rappresentano rispettivamente gli spazi di stato e azione
$N$ agenti $\{1, 2, ..., N\}$ agiscono in passi temporali discreti
Ogni agente $i$ osserva solo l'osservazione locale $o^i \in Ω$
L'obiettivo di ottimizzazione è apprendere strategie $π^i$ che massimizzano il ricompensa cumulativa scontata

Architettura del Modello

Progettazione Complessiva

MADiff adotta un framework di rete di diffusione basato su attenzione, eseguendo il calcolo dell'attenzione cross-agente nei livelli del decodificatore di ogni agente.

Componenti Principali

Struttura di Base U-Net: Adotta U-Net come struttura di base per modellare le traiettorie di vari agenti, contenente blocchi residui di convoluzione unidimensionale ripetuti
Meccanismo di Attenzione:
- Impiega livelli di attenzione prima dei blocchi del decodificatore di tutti gli U-Net degli agenti
- L'operazione di attenzione viene eseguita sulle caratteristiche di connessione skip $c^i_l$ del livello encoder
- Utilizza il meccanismo di attenzione multi-testa per fondere le caratteristiche codificate

Espressione Matematica:

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

Obiettivo di Addestramento

L'addestramento centralizzato utilizza una funzione di perdita congiunta: $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

Modalità di Esecuzione

Controllo Centralizzato

Accede alle osservazioni locali attuali di tutti gli agenti
Genera traiettorie di tutti gli agenti e predice azioni
Applicabile alla predizione di traiettorie multi-agente e giochi di squadra

Esecuzione Decentralizzata e Modellazione dei Compagni di Squadra

Ogni agente utilizza solo la propria osservazione locale per la pianificazione
Contemporaneamente deduce le sequenze di osservazione degli altri agenti (modellazione dei compagni di squadra)
Realizza il coordinamento efficace attraverso il meccanismo di attenzione

Configurazione Sperimentale

Dataset

Ambiente Multi-agente Particellare (MPE):
- Spread: Tre agenti coprono tre punti di riferimento
- Tag: Tre predatori catturano una preda pre-addestrata
- World: Predatori catturano prede in una mappa con foreste
- Dataset: Expert, Medium-Replay, Medium, Random
Multi-agente Mujoco (MA Mujoco):
- Configurazioni 2halfcheetah, 2ant, 4ant
- Dataset: Good, Medium, Poor
Sfida Multi-agente StarCraft (SMAC):
- Mappe: 3m, 2s3z, 5m_vs_6m, 8m
- Dataset: Good, Medium, Poor
Dataset NBA:
- Traiettorie di giocatori di basket da 631 partite della stagione 2015-16
- Utilizzato per compiti di predizione di traiettorie multi-agente

Metriche di Valutazione

MARL Offline: Ricompensa episodica ottenuta da rollout online
Predizione di Traiettorie: Metriche basate sulla distanza come ADE, FDE, minADE20, minFDE20

Metodi di Confronto

MARL Offline: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
Predizione di Traiettorie: Baller2Vec++

Risultati Sperimentali

Risultati Principali

Performance MARL Offline

MADiff raggiunge i migliori risultati sulla maggior parte dei dataset:

Compito	Dataset	BC	MA-CQL	OMAR	MADIFF-D	MADIFF-C
MPE Spread	Expert	35.0±2.6	98.2±5.2	114.9±2.6	95.0±5.3	116.7±3.0
MPE Tag	Expert	40.0±9.6	93.9±14.0	116.2±19.8	120.9±14.6	167.6±18.6

Performance di Predizione di Traiettorie

Nel dataset NBA, MADIFF-C supera significativamente il baseline:

Lunghezza Traiettoria	Metrica	Baller2Vec++	MADIFF-C
20	ADE	15.15±0.38	7.92±0.86
20	FDE	24.91±0.68	14.06±1.16

Esperimenti di Ablazione

Verificano l'importanza del meccanismo di attenzione:

MADIFF-D con attenzione supera significativamente la versione indipendente
Il vantaggio è più evidente in compiti più impegnativi (come World)
La strategia di condivisione dei parametri riduce efficacemente il numero di parametri

Analisi della Modellazione dei Compagni di Squadra

L'analisi di visualizzazione del compito Spread mostra:

MADiff è in grado di correggere le previsioni di comportamento dei compagni di squadra durante il rollout
Il rapporto di coerenza aumenta con i passi temporali, superando infine le traiettorie di rollout reali
Dimostra l'efficacia della modellazione dei compagni di squadra

Lavori Correlati

MARL Offline Multi-agente

Estensioni Q-learning: Metodi come MA-BCQ, MA-ICQ soffrono del problema dell'errore di estrapolazione
Modellazione Sequenziale: MADT utilizza transformer ma manca della modellazione dell'interazione tra agenti

Modelli di Diffusione Decisionale

Metodi Monoagente: Diffuser, Decision Diffusion hanno raggiunto successo in compiti monoagente
Contributo di questo articolo: Prima estensione dei modelli di diffusione a scenari multi-agente

Modellazione dell'Avversario

Ricca letteratura sulla modellazione dell'avversario nell'MARL online
MADiff fornisce una soluzione efficace di modellazione dei compagni di squadra offline

Conclusioni e Discussione

Conclusioni Principali

MADiff estende con successo i modelli di diffusione all'apprendimento multi-agente
Il meccanismo di attenzione realizza efficacemente il coordinamento tra agenti
Il framework unificato supporta molteplici scenari di applicazione
Raggiunge performance eccellenti su vari compiti

Limitazioni

Scalabilità: Non applicabile a scenari con decine o centinaia di agenti
Ambienti Stocastici: Potrebbe avere prestazioni scarse in ambienti ad alta casualità
Complessità Computazionale: Richiede l'inferenza di tutte le traiettorie dei compagni di squadra per ogni agente

Direzioni Future

Esplorare rappresentazioni latenti per migliorare la scalabilità
Migliorare le prestazioni in ambienti stocastici
Ottimizzare l'efficienza computazionale

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione riuscita di modelli di diffusione all'apprendimento multi-agente
Progettazione Tecnica Sofisticata: Il meccanismo di attenzione risolve elegantemente il problema del coordinamento tra agenti
Esperimenti Completi: Coprono molteplici domini e tipi di compiti
Elevato Valore Pratico: Il framework unificato supporta molteplici scenari di applicazione

Insufficienze

Analisi Teorica Insufficiente: Mancano garanzie teoriche sulla convergenza e complessità
Limitazioni di Scalabilità: Applicabilità limitata in sistemi multi-agente su larga scala
Sensibilità alla Casualità: Degradazione delle prestazioni in ambienti ad alta casualità

Impatto

Contributo Accademico: Fornisce un nuovo percorso tecnico per l'apprendimento multi-agente
Valore Pratico: Potenziale applicazione in coordinamento robotico, AI per giochi e altri campi
Riproducibilità: Fornisce codice completo e configurazioni sperimentali

Scenari Applicabili

Compiti di apprendimento per rinforzo multi-agente offline
Predizione di traiettorie multi-agente
Problemi decisionali che richiedono coordinamento tra agenti
Compiti cooperativi di scala media (2-8 agenti)

Bibliografia

L'articolo cita numerosi lavori importanti, inclusi:

Lavori fondamentali sui modelli di diffusione: Ho et al. (2020), Song and Ermon (2019)
Diffusione RL monoagente: Janner et al. (2022), Ajay et al. (2023)
Baseline MARL: Rashid et al. (2020), Meng et al. (2021)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che estende con successo i modelli di diffusione al campo dell'apprendimento multi-agente, con significative innovazioni tecniche e verifiche sperimentali complete. Nonostante alcune limitazioni, apre nuove direzioni di ricerca nel settore, possedendo importante valore accademico e prospettive pratiche promettenti.