2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: Apprendimento Multi-agente Offline con Modelli di Diffusione

Informazioni Fondamentali

  • ID Articolo: 2305.17330
  • Titolo: MADiff: Offline Multi-agent Learning with Diffusion Models
  • Autori: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • Classificazione: cs.AI cs.LG
  • Data di Pubblicazione/Conferenza: NeurIPS 2024 (38ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
  • Link Articolo: https://arxiv.org/abs/2305.17330

Riassunto

L'apprendimento per rinforzo offline (Offline RL) mira ad apprendere strategie da dataset preesistenti senza ulteriori interazioni, rappresentando un compito impegnativo. Gli algoritmi Q-learning soffrono del problema dell'errore di estrapolazione nelle impostazioni offline, mentre i metodi di apprendimento supervisionato sono limitati dalla capacità espressiva del modello. Recentemente, i modelli di diffusione (DM) hanno mostrato promesse nel superare questi limiti nell'apprendimento monoagente, ma la loro applicazione in scenari multi-agente rimane poco chiara. L'utilizzo di DM indipendenti per ogni agente per generare traiettorie potrebbe ostacolare il coordinamento, mentre la concatenazione di tutte le informazioni degli agenti comporta una bassa efficienza campionaria. Pertanto, questo articolo propone MADiff, che modella il complesso coordinamento tra i comportamenti di più agenti attraverso modelli di diffusione basati su attenzione. A nostra conoscenza, MADiff è il primo framework di apprendimento multi-agente basato su diffusione, funzionante sia come strategia decentralizzata che come controllore centralizzato. Durante l'esecuzione decentralizzata, MADiff esegue simultaneamente la modellazione dei compagni di squadra, mentre il controllore centralizzato può essere applicato anche alla predizione di traiettorie multi-agente. Gli esperimenti dimostrano che MADiff supera gli algoritmi di base in vari compiti di apprendimento multi-agente, evidenziando la sua efficacia nella modellazione di complesse interazioni multi-agente.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Sfide dell'apprendimento per rinforzo multi-agente offline: Rispetto all'apprendimento monoagente, l'apprendimento multi-agente offline (MAL) è meno studiato e più impegnativo. Poiché i comportamenti di tutti gli agenti sono interdipendenti, ogni agente deve modellare le interazioni e il coordinamento tra agenti, mentre prende decisioni in modo decentralizzato per raggiungere gli obiettivi.
  2. Limitazioni dei metodi esistenti:
    • Metodi Q-learning: Soffrono del problema dell'errore di estrapolazione nelle impostazioni offline, dove funzioni di valore centralizzate errate causano errori di estrapolazione significativi
    • Metodi di modellazione sequenziale: Limitati dalla capacità espressiva del modello, difficili da gestire con dataset diversificati, e soffrono di errori composti nella generazione autoregressiva
    • Modelli di diffusione indipendenti: L'utilizzo di DM indipendenti per ogni agente potrebbe causare incoerenze significative a causa della mancanza di appropriata assegnazione di credito
    • Metodi di semplice concatenazione: La concatenazione di tutte le informazioni degli agenti come input/output del DM ignora le caratteristiche importanti dei sistemi multi-agente
  3. Motivazione della ricerca:
    • I modelli di diffusione hanno dimostrato capacità di modellazione superiore nell'offline RL monoagente
    • I sistemi multi-agente richiedono meccanismi di coordinamento efficaci
    • È necessario un framework unificato che supporti il paradigma di addestramento centralizzato con esecuzione decentralizzata (CTDE)

Contributi Principali

  1. Primo framework di apprendimento multi-agente basato su diffusione: Propone MADiff, che unifica le funzionalità di strategia decentralizzata, controllore centralizzato, modellazione dei compagni di squadra e predizione di traiettorie
  2. Nuova architettura di modello di diffusione basata su attenzione: Progettata specificamente per l'apprendimento multi-agente, realizza il coordinamento tra agenti in ogni fase di denoising
  3. Performance sperimentale superiore: Raggiunge risultati eccellenti su vari problemi multi-agente offline, inclusi compiti di MARL offline e predizione di traiettorie

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo considera il problema di apprendimento multi-agente completamente cooperativo e parzialmente osservabile, formalizzato come Dec-POMDP: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

Dove:

  • SS e AA rappresentano rispettivamente gli spazi di stato e azione
  • NN agenti {1,2,...,N}\{1, 2, ..., N\} agiscono in passi temporali discreti
  • Ogni agente ii osserva solo l'osservazione locale oiΩo^i \in Ω
  • L'obiettivo di ottimizzazione è apprendere strategie πiπ^i che massimizzano il ricompensa cumulativa scontata

Architettura del Modello

Progettazione Complessiva

MADiff adotta un framework di rete di diffusione basato su attenzione, eseguendo il calcolo dell'attenzione cross-agente nei livelli del decodificatore di ogni agente.

Componenti Principali

  1. Struttura di Base U-Net: Adotta U-Net come struttura di base per modellare le traiettorie di vari agenti, contenente blocchi residui di convoluzione unidimensionale ripetuti
  2. Meccanismo di Attenzione:
    • Impiega livelli di attenzione prima dei blocchi del decodificatore di tutti gli U-Net degli agenti
    • L'operazione di attenzione viene eseguita sulle caratteristiche di connessione skip clic^i_l del livello encoder
    • Utilizza il meccanismo di attenzione multi-testa per fondere le caratteristiche codificate
  3. Espressione Matematica:
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

Obiettivo di Addestramento

L'addestramento centralizzato utilizza una funzione di perdita congiunta: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

Modalità di Esecuzione

Controllo Centralizzato

  • Accede alle osservazioni locali attuali di tutti gli agenti
  • Genera traiettorie di tutti gli agenti e predice azioni
  • Applicabile alla predizione di traiettorie multi-agente e giochi di squadra

Esecuzione Decentralizzata e Modellazione dei Compagni di Squadra

  • Ogni agente utilizza solo la propria osservazione locale per la pianificazione
  • Contemporaneamente deduce le sequenze di osservazione degli altri agenti (modellazione dei compagni di squadra)
  • Realizza il coordinamento efficace attraverso il meccanismo di attenzione

Configurazione Sperimentale

Dataset

  1. Ambiente Multi-agente Particellare (MPE):
    • Spread: Tre agenti coprono tre punti di riferimento
    • Tag: Tre predatori catturano una preda pre-addestrata
    • World: Predatori catturano prede in una mappa con foreste
    • Dataset: Expert, Medium-Replay, Medium, Random
  2. Multi-agente Mujoco (MA Mujoco):
    • Configurazioni 2halfcheetah, 2ant, 4ant
    • Dataset: Good, Medium, Poor
  3. Sfida Multi-agente StarCraft (SMAC):
    • Mappe: 3m, 2s3z, 5m_vs_6m, 8m
    • Dataset: Good, Medium, Poor
  4. Dataset NBA:
    • Traiettorie di giocatori di basket da 631 partite della stagione 2015-16
    • Utilizzato per compiti di predizione di traiettorie multi-agente

Metriche di Valutazione

  • MARL Offline: Ricompensa episodica ottenuta da rollout online
  • Predizione di Traiettorie: Metriche basate sulla distanza come ADE, FDE, minADE20, minFDE20

Metodi di Confronto

  • MARL Offline: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • Predizione di Traiettorie: Baller2Vec++

Risultati Sperimentali

Risultati Principali

Performance MARL Offline

MADiff raggiunge i migliori risultati sulla maggior parte dei dataset:

CompitoDatasetBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

Performance di Predizione di Traiettorie

Nel dataset NBA, MADIFF-C supera significativamente il baseline:

Lunghezza TraiettoriaMetricaBaller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

Esperimenti di Ablazione

Verificano l'importanza del meccanismo di attenzione:

  • MADIFF-D con attenzione supera significativamente la versione indipendente
  • Il vantaggio è più evidente in compiti più impegnativi (come World)
  • La strategia di condivisione dei parametri riduce efficacemente il numero di parametri

Analisi della Modellazione dei Compagni di Squadra

L'analisi di visualizzazione del compito Spread mostra:

  • MADiff è in grado di correggere le previsioni di comportamento dei compagni di squadra durante il rollout
  • Il rapporto di coerenza aumenta con i passi temporali, superando infine le traiettorie di rollout reali
  • Dimostra l'efficacia della modellazione dei compagni di squadra

Lavori Correlati

MARL Offline Multi-agente

  • Estensioni Q-learning: Metodi come MA-BCQ, MA-ICQ soffrono del problema dell'errore di estrapolazione
  • Modellazione Sequenziale: MADT utilizza transformer ma manca della modellazione dell'interazione tra agenti

Modelli di Diffusione Decisionale

  • Metodi Monoagente: Diffuser, Decision Diffusion hanno raggiunto successo in compiti monoagente
  • Contributo di questo articolo: Prima estensione dei modelli di diffusione a scenari multi-agente

Modellazione dell'Avversario

  • Ricca letteratura sulla modellazione dell'avversario nell'MARL online
  • MADiff fornisce una soluzione efficace di modellazione dei compagni di squadra offline

Conclusioni e Discussione

Conclusioni Principali

  1. MADiff estende con successo i modelli di diffusione all'apprendimento multi-agente
  2. Il meccanismo di attenzione realizza efficacemente il coordinamento tra agenti
  3. Il framework unificato supporta molteplici scenari di applicazione
  4. Raggiunge performance eccellenti su vari compiti

Limitazioni

  1. Scalabilità: Non applicabile a scenari con decine o centinaia di agenti
  2. Ambienti Stocastici: Potrebbe avere prestazioni scarse in ambienti ad alta casualità
  3. Complessità Computazionale: Richiede l'inferenza di tutte le traiettorie dei compagni di squadra per ogni agente

Direzioni Future

  1. Esplorare rappresentazioni latenti per migliorare la scalabilità
  2. Migliorare le prestazioni in ambienti stocastici
  3. Ottimizzare l'efficienza computazionale

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione riuscita di modelli di diffusione all'apprendimento multi-agente
  2. Progettazione Tecnica Sofisticata: Il meccanismo di attenzione risolve elegantemente il problema del coordinamento tra agenti
  3. Esperimenti Completi: Coprono molteplici domini e tipi di compiti
  4. Elevato Valore Pratico: Il framework unificato supporta molteplici scenari di applicazione

Insufficienze

  1. Analisi Teorica Insufficiente: Mancano garanzie teoriche sulla convergenza e complessità
  2. Limitazioni di Scalabilità: Applicabilità limitata in sistemi multi-agente su larga scala
  3. Sensibilità alla Casualità: Degradazione delle prestazioni in ambienti ad alta casualità

Impatto

  1. Contributo Accademico: Fornisce un nuovo percorso tecnico per l'apprendimento multi-agente
  2. Valore Pratico: Potenziale applicazione in coordinamento robotico, AI per giochi e altri campi
  3. Riproducibilità: Fornisce codice completo e configurazioni sperimentali

Scenari Applicabili

  1. Compiti di apprendimento per rinforzo multi-agente offline
  2. Predizione di traiettorie multi-agente
  3. Problemi decisionali che richiedono coordinamento tra agenti
  4. Compiti cooperativi di scala media (2-8 agenti)

Bibliografia

L'articolo cita numerosi lavori importanti, inclusi:

  • Lavori fondamentali sui modelli di diffusione: Ho et al. (2020), Song and Ermon (2019)
  • Diffusione RL monoagente: Janner et al. (2022), Ajay et al. (2023)
  • Baseline MARL: Rashid et al. (2020), Meng et al. (2021)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che estende con successo i modelli di diffusione al campo dell'apprendimento multi-agente, con significative innovazioni tecniche e verifiche sperimentali complete. Nonostante alcune limitazioni, apre nuove direzioni di ricerca nel settore, possedendo importante valore accademico e prospettive pratiche promettenti.