2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: Aprendizaje Multiagente Offline con Modelos de Difusión

Información Básica

  • ID del Artículo: 2305.17330
  • Título: MADiff: Offline Multi-agent Learning with Diffusion Models
  • Autores: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • Clasificación: cs.AI cs.LG
  • Fecha de Publicación/Conferencia: NeurIPS 2024 (38ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2305.17330

Resumen

El aprendizaje por refuerzo offline (Offline RL) tiene como objetivo aprender políticas a partir de conjuntos de datos preexistentes sin requerir interacción adicional, lo que constituye una tarea desafiante. Los algoritmos de Q-learning presentan problemas de error de extrapolación en configuraciones offline, mientras que los métodos de aprendizaje supervisado están limitados por la capacidad expresiva del modelo. Recientemente, los modelos de difusión (DMs) han mostrado promesa en superar estas limitaciones en aprendizaje de un solo agente, pero su aplicación en escenarios multiagente sigue siendo poco clara. El uso de DMs independientes para cada agente para generar trayectorias podría obstaculizar la coordinación, mientras que la concatenación de información de todos los agentes resulta en baja eficiencia de muestreo. Por lo tanto, este artículo propone MADiff, que modela la coordinación compleja entre comportamientos de múltiples agentes mediante modelos de difusión basados en atención. Según nuestro conocimiento, MADiff es el primer marco de aprendizaje multiagente basado en difusión que funciona tanto como política descentralizada como controlador centralizado. Durante la ejecución descentralizada, MADiff realiza simultáneamente modelado de compañeros de equipo, y el controlador centralizado también puede aplicarse a predicción de trayectorias multiagente. Los experimentos demuestran que MADiff supera a los algoritmos de referencia en diversas tareas de aprendizaje multiagente, destacando su efectividad en el modelado de interacciones multiagente complejas.

Contexto de Investigación y Motivación

Contexto del Problema

  1. Desafíos del Aprendizaje Multiagente Offline: En comparación con el aprendizaje de un solo agente, el aprendizaje multiagente offline (MAL) ha sido menos estudiado y es más desafiante. Dado que los comportamientos de todos los agentes están interconectados, cada agente necesita modelar las interacciones y coordinación entre agentes, mientras toma decisiones de manera descentralizada para lograr objetivos.
  2. Limitaciones de los Métodos Existentes:
    • Métodos de Q-learning: Presentan problemas de error de extrapolación en configuraciones offline, donde funciones de valor centralizado incorrectas conducen a errores de extrapolación significativos
    • Métodos de modelado secuencial: Limitados por la capacidad expresiva del modelo, dificultad para manejar conjuntos de datos diversificados, y presencia de errores compuestos en generación autorregresiva
    • Modelos de difusión independientes: El uso de DMs independientes para cada agente puede resultar en inconsistencias graves debido a la falta de asignación de crédito apropiada
    • Métodos de concatenación simple: Concatenar información de todos los agentes como entrada/salida de DM ignora características importantes del sistema multiagente
  3. Motivación de la Investigación:
    • Los modelos de difusión demuestran capacidades de modelado superiores en RL offline de un solo agente
    • Los sistemas multiagente requieren mecanismos de coordinación efectivos
    • Se necesita un marco unificado que apoye el paradigma de entrenamiento centralizado ejecución descentralizada (CTDE)

Contribuciones Principales

  1. Primer marco de aprendizaje multiagente basado en difusión: Propone MADiff, que unifica funcionalidades de política descentralizada, controlador centralizado, modelado de compañeros de equipo y predicción de trayectorias
  2. Estructura novedosa de modelo de difusión basada en atención: Diseñada específicamente para aprendizaje multiagente, logrando coordinación entre agentes en cada paso de desruido
  3. Desempeño experimental superior: Logra resultados excepcionales en diversos problemas multiagente offline, incluyendo tareas de MARL offline y predicción de trayectorias

Explicación Detallada del Método

Definición de la Tarea

Este artículo considera el problema de aprendizaje multiagente completamente cooperativo con observabilidad parcial, formalizado como Dec-POMDP: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

Donde:

  • SS y AA representan los espacios de estado y acción respectivamente
  • NN agentes {1,2,...,N}\{1, 2, ..., N\} actúan en pasos de tiempo discretos
  • Cada agente ii solo observa la observación local oiΩo^i \in Ω
  • El objetivo de optimización es aprender políticas πiπ^i que maximicen la recompensa acumulada descontada

Arquitectura del Modelo

Diseño General

MADiff adopta un marco de red de difusión basada en atención, realizando cálculos de atención entre agentes en las capas decodificadoras de cada agente.

Componentes Principales

  1. Estructura Base U-Net: Adopta U-Net como estructura base para modelar trayectorias de todos los agentes, incluyendo bloques residuales de convolución unidimensional repetidos
  2. Mecanismo de Atención:
    • Emplea capas de atención antes de bloques decodificadores en U-Nets de todos los agentes
    • Las operaciones de atención se realizan en características de conexión de salto clic^i_l de la capa codificadora
    • Utiliza mecanismo de atención multiencabezado para fusionar características codificadas
  3. Expresión Matemática:
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

Objetivo de Entrenamiento

El entrenamiento centralizado utiliza una función de pérdida conjunta: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

Modos de Ejecución

Control Centralizado

  • Acceso a observaciones locales actuales de todos los agentes
  • Genera trayectorias de todos los agentes y predice acciones
  • Aplicable a predicción de trayectorias multiagente y juegos en equipo

Ejecución Descentralizada y Modelado de Compañeros de Equipo

  • Cada agente utiliza solo su observación local para planificación
  • Simultáneamente infiere secuencias de observación de otros agentes (modelado de compañeros de equipo)
  • Logra coordinación efectiva a través del mecanismo de atención

Configuración Experimental

Conjuntos de Datos

  1. Entorno de Partículas Multiagente (MPE):
    • Spread: Tres agentes cubren tres puntos de referencia
    • Tag: Tres depredadores capturan una presa preentrenada
    • World: Depredadores capturan presas en un mapa con bosques
    • Conjuntos de datos: Expert, Medium-Replay, Medium, Random
  2. Mujoco Multiagente (MA Mujoco):
    • Configuraciones 2halfcheetah, 2ant, 4ant
    • Conjuntos de datos: Good, Medium, Poor
  3. Desafío Multiagente de StarCraft (SMAC):
    • Mapas: 3m, 2s3z, 5m_vs_6m, 8m
    • Conjuntos de datos: Good, Medium, Poor
  4. Conjunto de Datos NBA:
    • Trayectorias de jugadores de baloncesto de 631 partidos de la temporada 2015-16
    • Utilizado para tareas de predicción de trayectorias multiagente

Métricas de Evaluación

  • MARL Offline: Recompensa de episodio obtenida en rollout en línea
  • Predicción de Trayectorias: ADE, FDE, minADE20, minFDE20 y otras métricas basadas en distancia

Métodos de Comparación

  • MARL Offline: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • Predicción de Trayectorias: Baller2Vec++

Resultados Experimentales

Resultados Principales

Desempeño de MARL Offline

MADiff logra los mejores resultados en la mayoría de conjuntos de datos:

TareaConjunto de DatosBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

Desempeño de Predicción de Trayectorias

En el conjunto de datos NBA, MADIFF-C supera significativamente a la línea de base:

Longitud de TrayectoriaMétricaBaller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

Experimentos de Ablación

Validan la importancia del mecanismo de atención:

  • MADIFF-D con atención supera significativamente la versión independiente
  • La ventaja es más pronunciada en tareas más desafiantes (como World)
  • La estrategia de compartición de parámetros reduce efectivamente la cantidad de parámetros

Análisis del Modelado de Compañeros de Equipo

El análisis de visualización mediante la tarea Spread muestra:

  • MADiff puede corregir predicciones de comportamiento de compañeros durante el rollout
  • La tasa de consistencia aumenta con los pasos de tiempo, finalmente superando trayectorias de rollout reales
  • Demuestra la efectividad del modelado de compañeros de equipo

Trabajo Relacionado

MARL Offline Multiagente

  • Extensiones de Q-learning: Métodos como MA-BCQ, MA-ICQ presentan problemas de error de extrapolación
  • Modelado Secuencial: MADT utiliza transformer pero carece de modelado de interacción entre agentes

Modelos de Difusión de Decisión

  • Métodos de un solo agente: Diffuser, Decision Diffusion logran éxito en tareas de un solo agente
  • Contribución de este artículo: Primera extensión de modelos de difusión a escenarios multiagente

Modelado de Oponentes

  • Literatura rica en modelado de oponentes para MARL en línea
  • MADiff proporciona una solución efectiva de modelado de compañeros offline

Conclusiones y Discusión

Conclusiones Principales

  1. MADiff extiende exitosamente modelos de difusión al aprendizaje multiagente
  2. El mecanismo de atención implementa efectivamente coordinación entre agentes
  3. El marco unificado apoya múltiples escenarios de aplicación
  4. Logra desempeño excepcional en diversas tareas

Limitaciones

  1. Escalabilidad: No es aplicable a escenarios con decenas o cientos de agentes
  2. Entornos Estocásticos: Puede mostrar desempeño deficiente en entornos de alta aleatoriedad
  3. Complejidad Computacional: Requiere inferencia de trayectorias de todos los compañeros para cada agente

Direcciones Futuras

  1. Explorar representaciones latentes para mejorar escalabilidad
  2. Mejorar desempeño en entornos estocásticos
  3. Optimizar eficiencia computacional

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación exitosa de modelos de difusión al aprendizaje multiagente
  2. Diseño Técnico Ingenioso: El mecanismo de atención resuelve ingeniosamente el problema de coordinación entre agentes
  3. Experimentos Comprehensivos: Abarca múltiples dominios y tipos de tareas
  4. Alto Valor Práctico: El marco unificado apoya múltiples escenarios de aplicación

Deficiencias

  1. Análisis Teórico Insuficiente: Carece de garantías teóricas sobre convergencia y complejidad
  2. Limitaciones de Escalabilidad: Aplicabilidad limitada en sistemas multiagente a gran escala
  3. Sensibilidad a la Aleatoriedad: Desempeño reducido en entornos de alta aleatoriedad

Impacto

  1. Contribución Académica: Proporciona una nueva ruta técnica para aprendizaje multiagente
  2. Valor Práctico: Potencial de aplicación en coordinación robótica, IA para juegos y otros campos
  3. Reproducibilidad: Proporciona código completo y configuración experimental

Escenarios Aplicables

  1. Tareas de aprendizaje por refuerzo multiagente offline
  2. Predicción de trayectorias multiagente
  3. Problemas de decisión que requieren coordinación entre agentes
  4. Tareas cooperativas de escala media (2-8 agentes)

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

  • Trabajos fundamentales en modelos de difusión: Ho et al. (2020), Song and Ermon (2019)
  • RL de difusión de un solo agente: Janner et al. (2022), Ajay et al. (2023)
  • Líneas de base de MARL: Rashid et al. (2020), Meng et al. (2021)

Evaluación General: Este es un artículo de investigación de alta calidad que extiende exitosamente modelos de difusión al campo del aprendizaje multiagente, con innovación técnica significativa y verificación experimental suficiente. A pesar de algunas limitaciones, abre nuevas direcciones de investigación en el campo con importante valor académico y perspectivas prácticas prometedoras.