2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: Apprentissage Multi-Agent Hors Ligne avec Modèles de Diffusion

Informations Fondamentales

  • ID de l'article: 2305.17330
  • Titre: MADiff: Offline Multi-agent Learning with Diffusion Models
  • Auteurs: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • Classification: cs.AI cs.LG
  • Date de publication/Conférence: NeurIPS 2024 (38e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
  • Lien de l'article: https://arxiv.org/abs/2305.17330

Résumé

L'apprentissage par renforcement hors ligne (Offline RL) vise à apprendre une politique à partir d'un ensemble de données préexistant sans interaction supplémentaire, ce qui constitue une tâche difficile. Les algorithmes Q-learning souffrent du problème d'erreur d'extrapolation dans les paramètres hors ligne, tandis que les méthodes d'apprentissage supervisé sont limitées par la capacité d'expression du modèle. Récemment, les modèles de diffusion (DMs) ont montré des promesses pour surmonter ces limitations dans l'apprentissage mono-agent, mais leur application dans les scénarios multi-agents reste peu claire. L'utilisation de DMs indépendants pour chaque agent pour générer des trajectoires pourrait entraver la coordination, tandis que la concaténation de toutes les informations des agents entraîne une faible efficacité d'échantillonnage. Par conséquent, cet article propose MADiff, qui modélise la coordination complexe entre les comportements de plusieurs agents par le biais de modèles de diffusion basés sur l'attention. À notre connaissance, MADiff est le premier cadre d'apprentissage multi-agent basé sur la diffusion, fonctionnant à la fois comme une politique décentralisée et comme un contrôleur centralisé. Lors de l'exécution décentralisée, MADiff effectue simultanément la modélisation des coéquipiers, et le contrôleur centralisé peut également être appliqué à la prédiction de trajectoires multi-agents. Les expériences démontrent que MADiff surpasse les algorithmes de base dans diverses tâches d'apprentissage multi-agent, soulignant son efficacité dans la modélisation des interactions complexes multi-agents.

Contexte de Recherche et Motivation

Contexte du Problème

  1. Défis de l'apprentissage par renforcement multi-agent hors ligne: Comparé à l'apprentissage mono-agent, l'apprentissage multi-agent hors ligne (MAL) a reçu moins d'attention et présente des défis plus importants. Puisque les comportements de tous les agents sont interdépendants, chaque agent doit modéliser les interactions et la coordination entre agents, tout en prenant des décisions de manière décentralisée pour atteindre les objectifs.
  2. Limitations des méthodes existantes:
    • Méthodes Q-learning: Souffrent du problème d'erreur d'extrapolation dans les paramètres hors ligne, où une fonction de valeur centralisée incorrecte entraîne une erreur d'extrapolation significative
    • Méthodes de modélisation séquentielle: Limitées par la capacité d'expression du modèle, difficiles à traiter les ensembles de données diversifiés, et souffrent d'erreurs composées de génération autorégressive
    • Modèles de diffusion indépendants: L'utilisation de DMs indépendants pour chaque agent peut entraîner une incohérence grave en raison du manque d'attribution de crédit appropriée
    • Méthodes de concaténation simple: La concaténation de toutes les informations des agents comme entrée/sortie DM ignore les caractéristiques importantes des systèmes multi-agents
  3. Motivation de la recherche:
    • Les modèles de diffusion ont montré des capacités de modélisation supérieures dans l'apprentissage par renforcement hors ligne mono-agent
    • Les systèmes multi-agents nécessitent des mécanismes de coordination efficaces
    • Un cadre unifié est nécessaire pour supporter le paradigme d'entraînement centralisé avec exécution décentralisée (CTDE)

Contributions Principales

  1. Premier cadre d'apprentissage multi-agent basé sur la diffusion: Propose MADiff, qui unifie les fonctionnalités de politique décentralisée, contrôleur centralisé, modélisation des coéquipiers et prédiction de trajectoires
  2. Architecture de modèle de diffusion basée sur l'attention novatrice: Spécialement conçue pour l'apprentissage multi-agent, réalisant la coordination entre agents à chaque étape de débruitage
  3. Performance expérimentale supérieure: Réalise des résultats exceptionnels sur diverses tâches multi-agents hors ligne, y compris l'apprentissage par renforcement multi-agent hors ligne et les tâches de prédiction de trajectoires

Détails de la Méthode

Définition de la Tâche

Cet article considère un problème d'apprentissage multi-agent partiellement observable et entièrement coopératif, formalisé comme Dec-POMDP: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

Où:

  • SS et AA représentent respectivement les espaces d'état et d'action
  • NN agents {1,2,...,N}\{1, 2, ..., N\} agissent à des étapes de temps discrètes
  • Chaque agent ii n'observe que l'observation locale oiΩo^i \in Ω
  • L'objectif d'optimisation est d'apprendre une politique πiπ^i maximisant la récompense cumulative actualisée

Architecture du Modèle

Conception Globale

MADiff adopte un cadre de réseau de diffusion basé sur l'attention, effectuant des calculs d'attention inter-agents dans les couches de décodeur de chaque agent.

Composants Principaux

  1. Structure de base U-Net: Utilise U-Net comme structure de base pour modéliser les trajectoires de tous les agents, contenant des blocs résiduels de convolution unidimensionnelle répétés
  2. Mécanisme d'Attention:
    • Applique des couches d'attention avant les blocs de décodeur de tous les U-Nets des agents
    • L'opération d'attention est effectuée sur les caractéristiques de connexion de saut clic^i_l de la couche d'encodeur
    • Utilise un mécanisme d'attention multi-têtes pour fusionner les caractéristiques encodées
  3. Expression Mathématique:
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

Objectif d'Entraînement

L'entraînement centralisé utilise une fonction de perte conjointe: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

Modes d'Exécution

Contrôle Centralisé

  • Accède aux observations locales actuelles de tous les agents
  • Génère les trajectoires de tous les agents et prédit les actions
  • Applicable à la prédiction de trajectoires multi-agents et aux jeux d'équipe

Exécution Décentralisée et Modélisation des Coéquipiers

  • Chaque agent utilise uniquement sa propre observation locale pour la planification
  • Déduit simultanément les séquences d'observation des autres agents (modélisation des coéquipiers)
  • Réalise une coordination efficace par le biais du mécanisme d'attention

Configuration Expérimentale

Ensembles de Données

  1. Environnement Multi-Agent Particle (MPE):
    • Spread: Trois agents couvrent trois repères
    • Tag: Trois prédateurs capturent une proie pré-entraînée
    • World: Les prédateurs capturent une proie sur une carte avec forêt
    • Ensembles de données: Expert, Medium-Replay, Medium, Random
  2. Multi-Agent Mujoco (MA Mujoco):
    • Configurations 2halfcheetah, 2ant, 4ant
    • Ensembles de données: Good, Medium, Poor
  3. Défi Multi-Agent StarCraft (SMAC):
    • Cartes: 3m, 2s3z, 5m_vs_6m, 8m
    • Ensembles de données: Good, Medium, Poor
  4. Ensemble de Données NBA:
    • Trajectoires de joueurs de basket-ball de 631 matchs de la saison 2015-16
    • Utilisé pour les tâches de prédiction de trajectoires multi-agents

Métriques d'Évaluation

  • Apprentissage par renforcement multi-agent hors ligne: Récompense d'épisode obtenue lors du rollout en ligne
  • Prédiction de trajectoires: Métriques basées sur la distance telles que ADE, FDE, minADE20, minFDE20

Méthodes de Comparaison

  • Apprentissage par renforcement multi-agent hors ligne: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • Prédiction de trajectoires: Baller2Vec++

Résultats Expérimentaux

Résultats Principaux

Performance d'Apprentissage par Renforcement Multi-Agent Hors Ligne

MADiff obtient les meilleurs résultats sur la plupart des ensembles de données:

TâcheEnsemble de DonnéesBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

Performance de Prédiction de Trajectoires

Sur l'ensemble de données NBA, MADIFF-C surpasse considérablement la ligne de base:

Longueur de TrajectoireMétriqueBaller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

Études d'Ablation

Valident l'importance du mécanisme d'attention:

  • MADIFF-D avec attention surpasse significativement la version indépendante
  • L'avantage est plus prononcé dans les tâches plus difficiles (comme World)
  • La stratégie de partage de paramètres réduit efficacement le nombre de paramètres

Analyse de la Modélisation des Coéquipiers

L'analyse de visualisation sur la tâche Spread montre:

  • MADiff peut corriger les prédictions de comportement des coéquipiers pendant le rollout
  • Le taux de cohérence augmente avec les étapes de temps, dépassant finalement les trajectoires de rollout réelles
  • Démontre l'efficacité de la modélisation des coéquipiers

Travaux Connexes

Apprentissage par Renforcement Multi-Agent Hors Ligne

  • Extensions Q-learning: Les méthodes MA-BCQ, MA-ICQ et autres souffrent du problème d'erreur d'extrapolation
  • Modélisation séquentielle: MADT utilise transformer mais manque de modélisation des interactions entre agents

Modèles de Diffusion pour la Prise de Décision

  • Méthodes mono-agent: Diffuser, Decision Diffusion et autres ont obtenu du succès dans les tâches mono-agent
  • Contribution de cet article: Première extension des modèles de diffusion aux scénarios multi-agents

Modélisation des Adversaires

  • Littérature riche sur la modélisation des adversaires dans l'apprentissage par renforcement multi-agent en ligne
  • MADiff fournit une solution efficace de modélisation des coéquipiers hors ligne

Conclusion et Discussion

Conclusions Principales

  1. MADiff étend avec succès les modèles de diffusion à l'apprentissage multi-agent
  2. Le mécanisme d'attention réalise efficacement la coordination entre agents
  3. Le cadre unifié supporte plusieurs scénarios d'application
  4. Réalise des performances exceptionnelles sur diverses tâches

Limitations

  1. Scalabilité: Non applicable aux scénarios avec des dizaines ou des centaines d'agents
  2. Environnements Stochastiques: Peut avoir des performances médiocres dans les environnements hautement stochastiques
  3. Complexité Computationnelle: Nécessite de déduire les trajectoires de tous les coéquipiers pour chaque agent

Directions Futures

  1. Explorer les représentations latentes pour améliorer la scalabilité
  2. Améliorer les performances dans les environnements stochastiques
  3. Optimiser l'efficacité computationnelle

Évaluation Approfondie

Points Forts

  1. Innovation Forte: Première application réussie des modèles de diffusion à l'apprentissage multi-agent
  2. Conception Technique Élégante: Le mécanisme d'attention résout astucieusement le problème de coordination entre agents
  3. Expériences Complètes: Couvre plusieurs domaines et types de tâches
  4. Valeur Pratique Élevée: Le cadre unifié supporte plusieurs scénarios d'application

Insuffisances

  1. Analyse Théorique Insuffisante: Manque de garanties théoriques sur la convergence et la complexité
  2. Limitations de Scalabilité: Applicabilité limitée dans les systèmes multi-agents à grande échelle
  3. Sensibilité à la Stochasticité: Dégradation des performances dans les environnements hautement stochastiques

Impact

  1. Contribution Académique: Fournit une nouvelle voie technologique pour l'apprentissage multi-agent
  2. Valeur Pratique: Potentiel d'application dans la coordination de robots, l'IA de jeux, etc.
  3. Reproductibilité: Fournit un code complet et des configurations expérimentales

Scénarios Applicables

  1. Tâches d'apprentissage par renforcement multi-agent hors ligne
  2. Prédiction de trajectoires multi-agents
  3. Problèmes de prise de décision nécessitant la coordination entre agents
  4. Tâches coopératives à échelle moyenne (2-8 agents)

Références

L'article cite plusieurs travaux importants, notamment:

  • Travaux fondamentaux sur les modèles de diffusion: Ho et al. (2020), Song and Ermon (2019)
  • Diffusion RL mono-agent: Janner et al. (2022), Ajay et al. (2023)
  • Lignes de base d'apprentissage par renforcement multi-agent: Rashid et al. (2020), Meng et al. (2021)

Évaluation Globale: Cet article est un travail de recherche de haute qualité qui étend avec succès les modèles de diffusion au domaine de l'apprentissage multi-agent. L'innovation technique est significative et la validation expérimentale est complète. Bien qu'il présente certaines limitations, il ouvre une nouvelle direction de recherche dans ce domaine avec une valeur académique et des perspectives pratiques importantes.