MADiff: Offline Multi-agent Learning with Diffusion Models
Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic
MADiff: Apprentissage Multi-Agent Hors Ligne avec Modèles de Diffusion
L'apprentissage par renforcement hors ligne (Offline RL) vise à apprendre une politique à partir d'un ensemble de données préexistant sans interaction supplémentaire, ce qui constitue une tâche difficile. Les algorithmes Q-learning souffrent du problème d'erreur d'extrapolation dans les paramètres hors ligne, tandis que les méthodes d'apprentissage supervisé sont limitées par la capacité d'expression du modèle. Récemment, les modèles de diffusion (DMs) ont montré des promesses pour surmonter ces limitations dans l'apprentissage mono-agent, mais leur application dans les scénarios multi-agents reste peu claire. L'utilisation de DMs indépendants pour chaque agent pour générer des trajectoires pourrait entraver la coordination, tandis que la concaténation de toutes les informations des agents entraîne une faible efficacité d'échantillonnage. Par conséquent, cet article propose MADiff, qui modélise la coordination complexe entre les comportements de plusieurs agents par le biais de modèles de diffusion basés sur l'attention. À notre connaissance, MADiff est le premier cadre d'apprentissage multi-agent basé sur la diffusion, fonctionnant à la fois comme une politique décentralisée et comme un contrôleur centralisé. Lors de l'exécution décentralisée, MADiff effectue simultanément la modélisation des coéquipiers, et le contrôleur centralisé peut également être appliqué à la prédiction de trajectoires multi-agents. Les expériences démontrent que MADiff surpasse les algorithmes de base dans diverses tâches d'apprentissage multi-agent, soulignant son efficacité dans la modélisation des interactions complexes multi-agents.
Défis de l'apprentissage par renforcement multi-agent hors ligne: Comparé à l'apprentissage mono-agent, l'apprentissage multi-agent hors ligne (MAL) a reçu moins d'attention et présente des défis plus importants. Puisque les comportements de tous les agents sont interdépendants, chaque agent doit modéliser les interactions et la coordination entre agents, tout en prenant des décisions de manière décentralisée pour atteindre les objectifs.
Limitations des méthodes existantes:
Méthodes Q-learning: Souffrent du problème d'erreur d'extrapolation dans les paramètres hors ligne, où une fonction de valeur centralisée incorrecte entraîne une erreur d'extrapolation significative
Méthodes de modélisation séquentielle: Limitées par la capacité d'expression du modèle, difficiles à traiter les ensembles de données diversifiés, et souffrent d'erreurs composées de génération autorégressive
Modèles de diffusion indépendants: L'utilisation de DMs indépendants pour chaque agent peut entraîner une incohérence grave en raison du manque d'attribution de crédit appropriée
Méthodes de concaténation simple: La concaténation de toutes les informations des agents comme entrée/sortie DM ignore les caractéristiques importantes des systèmes multi-agents
Motivation de la recherche:
Les modèles de diffusion ont montré des capacités de modélisation supérieures dans l'apprentissage par renforcement hors ligne mono-agent
Les systèmes multi-agents nécessitent des mécanismes de coordination efficaces
Un cadre unifié est nécessaire pour supporter le paradigme d'entraînement centralisé avec exécution décentralisée (CTDE)
Premier cadre d'apprentissage multi-agent basé sur la diffusion: Propose MADiff, qui unifie les fonctionnalités de politique décentralisée, contrôleur centralisé, modélisation des coéquipiers et prédiction de trajectoires
Architecture de modèle de diffusion basée sur l'attention novatrice: Spécialement conçue pour l'apprentissage multi-agent, réalisant la coordination entre agents à chaque étape de débruitage
Performance expérimentale supérieure: Réalise des résultats exceptionnels sur diverses tâches multi-agents hors ligne, y compris l'apprentissage par renforcement multi-agent hors ligne et les tâches de prédiction de trajectoires
Cet article considère un problème d'apprentissage multi-agent partiellement observable et entièrement coopératif, formalisé comme Dec-POMDP:
G=⟨S,A,P,r,Ω,O,N,U,γ⟩
Où:
S et A représentent respectivement les espaces d'état et d'action
N agents {1,2,...,N} agissent à des étapes de temps discrètes
Chaque agent i n'observe que l'observation locale oi∈Ω
L'objectif d'optimisation est d'apprendre une politique πi maximisant la récompense cumulative actualisée
MADiff adopte un cadre de réseau de diffusion basé sur l'attention, effectuant des calculs d'attention inter-agents dans les couches de décodeur de chaque agent.
Structure de base U-Net: Utilise U-Net comme structure de base pour modéliser les trajectoires de tous les agents, contenant des blocs résiduels de convolution unidimensionnelle répétés
Mécanisme d'Attention:
Applique des couches d'attention avant les blocs de décodeur de tous les U-Nets des agents
L'opération d'attention est effectuée sur les caractéristiques de connexion de saut cli de la couche d'encodeur
Utilise un mécanisme d'attention multi-têtes pour fusionner les caractéristiques encodées
L'entraînement centralisé utilise une fonction de perte conjointe:
L(θ,φ)=ΣiE(oi,ai,o′i)∈D[∣∣ai−Iφi(oi,o′i)∣∣2]+Ek,τ0∈D,β[∣∣ε−εθ(τ^k,(1−β)y(τ0)+β∅,k)∣∣2]
L'article cite plusieurs travaux importants, notamment:
Travaux fondamentaux sur les modèles de diffusion: Ho et al. (2020), Song and Ermon (2019)
Diffusion RL mono-agent: Janner et al. (2022), Ajay et al. (2023)
Lignes de base d'apprentissage par renforcement multi-agent: Rashid et al. (2020), Meng et al. (2021)
Évaluation Globale: Cet article est un travail de recherche de haute qualité qui étend avec succès les modèles de diffusion au domaine de l'apprentissage multi-agent. L'innovation technique est significative et la validation expérimentale est complète. Bien qu'il présente certaines limitations, il ouvre une nouvelle direction de recherche dans ce domaine avec une valeur académique et des perspectives pratiques importantes.