2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: Apprentissage Multi-Agent Hors Ligne avec Modèles de Diffusion

Informations Fondamentales

ID de l'article: 2305.17330
Titre: MADiff: Offline Multi-agent Learning with Diffusion Models
Auteurs: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
Classification: cs.AI cs.LG
Date de publication/Conférence: NeurIPS 2024 (38e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
Lien de l'article: https://arxiv.org/abs/2305.17330

Résumé

L'apprentissage par renforcement hors ligne (Offline RL) vise à apprendre une politique à partir d'un ensemble de données préexistant sans interaction supplémentaire, ce qui constitue une tâche difficile. Les algorithmes Q-learning souffrent du problème d'erreur d'extrapolation dans les paramètres hors ligne, tandis que les méthodes d'apprentissage supervisé sont limitées par la capacité d'expression du modèle. Récemment, les modèles de diffusion (DMs) ont montré des promesses pour surmonter ces limitations dans l'apprentissage mono-agent, mais leur application dans les scénarios multi-agents reste peu claire. L'utilisation de DMs indépendants pour chaque agent pour générer des trajectoires pourrait entraver la coordination, tandis que la concaténation de toutes les informations des agents entraîne une faible efficacité d'échantillonnage. Par conséquent, cet article propose MADiff, qui modélise la coordination complexe entre les comportements de plusieurs agents par le biais de modèles de diffusion basés sur l'attention. À notre connaissance, MADiff est le premier cadre d'apprentissage multi-agent basé sur la diffusion, fonctionnant à la fois comme une politique décentralisée et comme un contrôleur centralisé. Lors de l'exécution décentralisée, MADiff effectue simultanément la modélisation des coéquipiers, et le contrôleur centralisé peut également être appliqué à la prédiction de trajectoires multi-agents. Les expériences démontrent que MADiff surpasse les algorithmes de base dans diverses tâches d'apprentissage multi-agent, soulignant son efficacité dans la modélisation des interactions complexes multi-agents.

Contexte de Recherche et Motivation

Contexte du Problème

Défis de l'apprentissage par renforcement multi-agent hors ligne: Comparé à l'apprentissage mono-agent, l'apprentissage multi-agent hors ligne (MAL) a reçu moins d'attention et présente des défis plus importants. Puisque les comportements de tous les agents sont interdépendants, chaque agent doit modéliser les interactions et la coordination entre agents, tout en prenant des décisions de manière décentralisée pour atteindre les objectifs.
Limitations des méthodes existantes:
- Méthodes Q-learning: Souffrent du problème d'erreur d'extrapolation dans les paramètres hors ligne, où une fonction de valeur centralisée incorrecte entraîne une erreur d'extrapolation significative
- Méthodes de modélisation séquentielle: Limitées par la capacité d'expression du modèle, difficiles à traiter les ensembles de données diversifiés, et souffrent d'erreurs composées de génération autorégressive
- Modèles de diffusion indépendants: L'utilisation de DMs indépendants pour chaque agent peut entraîner une incohérence grave en raison du manque d'attribution de crédit appropriée
- Méthodes de concaténation simple: La concaténation de toutes les informations des agents comme entrée/sortie DM ignore les caractéristiques importantes des systèmes multi-agents
Motivation de la recherche:
- Les modèles de diffusion ont montré des capacités de modélisation supérieures dans l'apprentissage par renforcement hors ligne mono-agent
- Les systèmes multi-agents nécessitent des mécanismes de coordination efficaces
- Un cadre unifié est nécessaire pour supporter le paradigme d'entraînement centralisé avec exécution décentralisée (CTDE)

Contributions Principales

Premier cadre d'apprentissage multi-agent basé sur la diffusion: Propose MADiff, qui unifie les fonctionnalités de politique décentralisée, contrôleur centralisé, modélisation des coéquipiers et prédiction de trajectoires
Architecture de modèle de diffusion basée sur l'attention novatrice: Spécialement conçue pour l'apprentissage multi-agent, réalisant la coordination entre agents à chaque étape de débruitage
Performance expérimentale supérieure: Réalise des résultats exceptionnels sur diverses tâches multi-agents hors ligne, y compris l'apprentissage par renforcement multi-agent hors ligne et les tâches de prédiction de trajectoires

Détails de la Méthode

Définition de la Tâche

Cet article considère un problème d'apprentissage multi-agent partiellement observable et entièrement coopératif, formalisé comme Dec-POMDP: $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

Où:

$S$ et $A$ représentent respectivement les espaces d'état et d'action
$N$ agents $\{1, 2, ..., N\}$ agissent à des étapes de temps discrètes
Chaque agent $i$ n'observe que l'observation locale $o^i \in Ω$
L'objectif d'optimisation est d'apprendre une politique $π^i$ maximisant la récompense cumulative actualisée

Architecture du Modèle

Conception Globale

MADiff adopte un cadre de réseau de diffusion basé sur l'attention, effectuant des calculs d'attention inter-agents dans les couches de décodeur de chaque agent.

Composants Principaux

Structure de base U-Net: Utilise U-Net comme structure de base pour modéliser les trajectoires de tous les agents, contenant des blocs résiduels de convolution unidimensionnelle répétés
Mécanisme d'Attention:
- Applique des couches d'attention avant les blocs de décodeur de tous les U-Nets des agents
- L'opération d'attention est effectuée sur les caractéristiques de connexion de saut $c^i_l$ de la couche d'encodeur
- Utilise un mécanisme d'attention multi-têtes pour fusionner les caractéristiques encodées

Expression Mathématique:

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

Objectif d'Entraînement

L'entraînement centralisé utilise une fonction de perte conjointe: $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

Modes d'Exécution

Contrôle Centralisé

Accède aux observations locales actuelles de tous les agents
Génère les trajectoires de tous les agents et prédit les actions
Applicable à la prédiction de trajectoires multi-agents et aux jeux d'équipe

Exécution Décentralisée et Modélisation des Coéquipiers

Chaque agent utilise uniquement sa propre observation locale pour la planification
Déduit simultanément les séquences d'observation des autres agents (modélisation des coéquipiers)
Réalise une coordination efficace par le biais du mécanisme d'attention

Configuration Expérimentale

Ensembles de Données

Environnement Multi-Agent Particle (MPE):
- Spread: Trois agents couvrent trois repères
- Tag: Trois prédateurs capturent une proie pré-entraînée
- World: Les prédateurs capturent une proie sur une carte avec forêt
- Ensembles de données: Expert, Medium-Replay, Medium, Random
Multi-Agent Mujoco (MA Mujoco):
- Configurations 2halfcheetah, 2ant, 4ant
- Ensembles de données: Good, Medium, Poor
Défi Multi-Agent StarCraft (SMAC):
- Cartes: 3m, 2s3z, 5m_vs_6m, 8m
- Ensembles de données: Good, Medium, Poor
Ensemble de Données NBA:
- Trajectoires de joueurs de basket-ball de 631 matchs de la saison 2015-16
- Utilisé pour les tâches de prédiction de trajectoires multi-agents

Métriques d'Évaluation

Apprentissage par renforcement multi-agent hors ligne: Récompense d'épisode obtenue lors du rollout en ligne
Prédiction de trajectoires: Métriques basées sur la distance telles que ADE, FDE, minADE20, minFDE20

Méthodes de Comparaison

Apprentissage par renforcement multi-agent hors ligne: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
Prédiction de trajectoires: Baller2Vec++

Résultats Expérimentaux

Résultats Principaux

Performance d'Apprentissage par Renforcement Multi-Agent Hors Ligne

MADiff obtient les meilleurs résultats sur la plupart des ensembles de données:

Tâche	Ensemble de Données	BC	MA-CQL	OMAR	MADIFF-D	MADIFF-C
MPE Spread	Expert	35.0±2.6	98.2±5.2	114.9±2.6	95.0±5.3	116.7±3.0
MPE Tag	Expert	40.0±9.6	93.9±14.0	116.2±19.8	120.9±14.6	167.6±18.6

Performance de Prédiction de Trajectoires

Sur l'ensemble de données NBA, MADIFF-C surpasse considérablement la ligne de base:

Longueur de Trajectoire	Métrique	Baller2Vec++	MADIFF-C
20	ADE	15.15±0.38	7.92±0.86
20	FDE	24.91±0.68	14.06±1.16

Études d'Ablation

Valident l'importance du mécanisme d'attention:

MADIFF-D avec attention surpasse significativement la version indépendante
L'avantage est plus prononcé dans les tâches plus difficiles (comme World)
La stratégie de partage de paramètres réduit efficacement le nombre de paramètres

Analyse de la Modélisation des Coéquipiers

L'analyse de visualisation sur la tâche Spread montre:

MADiff peut corriger les prédictions de comportement des coéquipiers pendant le rollout
Le taux de cohérence augmente avec les étapes de temps, dépassant finalement les trajectoires de rollout réelles
Démontre l'efficacité de la modélisation des coéquipiers

Travaux Connexes

Apprentissage par Renforcement Multi-Agent Hors Ligne

Extensions Q-learning: Les méthodes MA-BCQ, MA-ICQ et autres souffrent du problème d'erreur d'extrapolation
Modélisation séquentielle: MADT utilise transformer mais manque de modélisation des interactions entre agents

Modèles de Diffusion pour la Prise de Décision

Méthodes mono-agent: Diffuser, Decision Diffusion et autres ont obtenu du succès dans les tâches mono-agent
Contribution de cet article: Première extension des modèles de diffusion aux scénarios multi-agents

Modélisation des Adversaires

Littérature riche sur la modélisation des adversaires dans l'apprentissage par renforcement multi-agent en ligne
MADiff fournit une solution efficace de modélisation des coéquipiers hors ligne

Conclusion et Discussion

Conclusions Principales

MADiff étend avec succès les modèles de diffusion à l'apprentissage multi-agent
Le mécanisme d'attention réalise efficacement la coordination entre agents
Le cadre unifié supporte plusieurs scénarios d'application
Réalise des performances exceptionnelles sur diverses tâches

Limitations

Scalabilité: Non applicable aux scénarios avec des dizaines ou des centaines d'agents
Environnements Stochastiques: Peut avoir des performances médiocres dans les environnements hautement stochastiques
Complexité Computationnelle: Nécessite de déduire les trajectoires de tous les coéquipiers pour chaque agent

Directions Futures

Explorer les représentations latentes pour améliorer la scalabilité
Améliorer les performances dans les environnements stochastiques
Optimiser l'efficacité computationnelle

Évaluation Approfondie

Points Forts

Innovation Forte: Première application réussie des modèles de diffusion à l'apprentissage multi-agent
Conception Technique Élégante: Le mécanisme d'attention résout astucieusement le problème de coordination entre agents
Expériences Complètes: Couvre plusieurs domaines et types de tâches
Valeur Pratique Élevée: Le cadre unifié supporte plusieurs scénarios d'application

Insuffisances

Analyse Théorique Insuffisante: Manque de garanties théoriques sur la convergence et la complexité
Limitations de Scalabilité: Applicabilité limitée dans les systèmes multi-agents à grande échelle
Sensibilité à la Stochasticité: Dégradation des performances dans les environnements hautement stochastiques

Impact

Contribution Académique: Fournit une nouvelle voie technologique pour l'apprentissage multi-agent
Valeur Pratique: Potentiel d'application dans la coordination de robots, l'IA de jeux, etc.
Reproductibilité: Fournit un code complet et des configurations expérimentales

Scénarios Applicables

Tâches d'apprentissage par renforcement multi-agent hors ligne
Prédiction de trajectoires multi-agents
Problèmes de prise de décision nécessitant la coordination entre agents
Tâches coopératives à échelle moyenne (2-8 agents)

Références

L'article cite plusieurs travaux importants, notamment:

Travaux fondamentaux sur les modèles de diffusion: Ho et al. (2020), Song and Ermon (2019)
Diffusion RL mono-agent: Janner et al. (2022), Ajay et al. (2023)
Lignes de base d'apprentissage par renforcement multi-agent: Rashid et al. (2020), Meng et al. (2021)

Évaluation Globale: Cet article est un travail de recherche de haute qualité qui étend avec succès les modèles de diffusion au domaine de l'apprentissage multi-agent. L'innovation technique est significative et la validation expérimentale est complète. Bien qu'il présente certaines limitations, il ouvre une nouvelle direction de recherche dans ce domaine avec une valeur académique et des perspectives pratiques importantes.