2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: Aprendizaje Multiagente Offline con Modelos de Difusión

Información Básica

ID del Artículo: 2305.17330
Título: MADiff: Offline Multi-agent Learning with Diffusion Models
Autores: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
Clasificación: cs.AI cs.LG
Fecha de Publicación/Conferencia: NeurIPS 2024 (38ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2305.17330

Resumen

El aprendizaje por refuerzo offline (Offline RL) tiene como objetivo aprender políticas a partir de conjuntos de datos preexistentes sin requerir interacción adicional, lo que constituye una tarea desafiante. Los algoritmos de Q-learning presentan problemas de error de extrapolación en configuraciones offline, mientras que los métodos de aprendizaje supervisado están limitados por la capacidad expresiva del modelo. Recientemente, los modelos de difusión (DMs) han mostrado promesa en superar estas limitaciones en aprendizaje de un solo agente, pero su aplicación en escenarios multiagente sigue siendo poco clara. El uso de DMs independientes para cada agente para generar trayectorias podría obstaculizar la coordinación, mientras que la concatenación de información de todos los agentes resulta en baja eficiencia de muestreo. Por lo tanto, este artículo propone MADiff, que modela la coordinación compleja entre comportamientos de múltiples agentes mediante modelos de difusión basados en atención. Según nuestro conocimiento, MADiff es el primer marco de aprendizaje multiagente basado en difusión que funciona tanto como política descentralizada como controlador centralizado. Durante la ejecución descentralizada, MADiff realiza simultáneamente modelado de compañeros de equipo, y el controlador centralizado también puede aplicarse a predicción de trayectorias multiagente. Los experimentos demuestran que MADiff supera a los algoritmos de referencia en diversas tareas de aprendizaje multiagente, destacando su efectividad en el modelado de interacciones multiagente complejas.

Contexto de Investigación y Motivación

Contexto del Problema

Desafíos del Aprendizaje Multiagente Offline: En comparación con el aprendizaje de un solo agente, el aprendizaje multiagente offline (MAL) ha sido menos estudiado y es más desafiante. Dado que los comportamientos de todos los agentes están interconectados, cada agente necesita modelar las interacciones y coordinación entre agentes, mientras toma decisiones de manera descentralizada para lograr objetivos.
Limitaciones de los Métodos Existentes:
- Métodos de Q-learning: Presentan problemas de error de extrapolación en configuraciones offline, donde funciones de valor centralizado incorrectas conducen a errores de extrapolación significativos
- Métodos de modelado secuencial: Limitados por la capacidad expresiva del modelo, dificultad para manejar conjuntos de datos diversificados, y presencia de errores compuestos en generación autorregresiva
- Modelos de difusión independientes: El uso de DMs independientes para cada agente puede resultar en inconsistencias graves debido a la falta de asignación de crédito apropiada
- Métodos de concatenación simple: Concatenar información de todos los agentes como entrada/salida de DM ignora características importantes del sistema multiagente
Motivación de la Investigación:
- Los modelos de difusión demuestran capacidades de modelado superiores en RL offline de un solo agente
- Los sistemas multiagente requieren mecanismos de coordinación efectivos
- Se necesita un marco unificado que apoye el paradigma de entrenamiento centralizado ejecución descentralizada (CTDE)

Contribuciones Principales

Primer marco de aprendizaje multiagente basado en difusión: Propone MADiff, que unifica funcionalidades de política descentralizada, controlador centralizado, modelado de compañeros de equipo y predicción de trayectorias
Estructura novedosa de modelo de difusión basada en atención: Diseñada específicamente para aprendizaje multiagente, logrando coordinación entre agentes en cada paso de desruido
Desempeño experimental superior: Logra resultados excepcionales en diversos problemas multiagente offline, incluyendo tareas de MARL offline y predicción de trayectorias

Explicación Detallada del Método

Definición de la Tarea

Este artículo considera el problema de aprendizaje multiagente completamente cooperativo con observabilidad parcial, formalizado como Dec-POMDP: $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

Donde:

$S$ y $A$ representan los espacios de estado y acción respectivamente
$N$ agentes $\{1, 2, ..., N\}$ actúan en pasos de tiempo discretos
Cada agente $i$ solo observa la observación local $o^i \in Ω$
El objetivo de optimización es aprender políticas $π^i$ que maximicen la recompensa acumulada descontada

Arquitectura del Modelo

Diseño General

MADiff adopta un marco de red de difusión basada en atención, realizando cálculos de atención entre agentes en las capas decodificadoras de cada agente.

Componentes Principales

Estructura Base U-Net: Adopta U-Net como estructura base para modelar trayectorias de todos los agentes, incluyendo bloques residuales de convolución unidimensional repetidos
Mecanismo de Atención:
- Emplea capas de atención antes de bloques decodificadores en U-Nets de todos los agentes
- Las operaciones de atención se realizan en características de conexión de salto $c^i_l$ de la capa codificadora
- Utiliza mecanismo de atención multiencabezado para fusionar características codificadas

Expresión Matemática:

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

Objetivo de Entrenamiento

El entrenamiento centralizado utiliza una función de pérdida conjunta: $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

Modos de Ejecución

Control Centralizado

Acceso a observaciones locales actuales de todos los agentes
Genera trayectorias de todos los agentes y predice acciones
Aplicable a predicción de trayectorias multiagente y juegos en equipo

Ejecución Descentralizada y Modelado de Compañeros de Equipo

Cada agente utiliza solo su observación local para planificación
Simultáneamente infiere secuencias de observación de otros agentes (modelado de compañeros de equipo)
Logra coordinación efectiva a través del mecanismo de atención

Configuración Experimental

Conjuntos de Datos

Entorno de Partículas Multiagente (MPE):
- Spread: Tres agentes cubren tres puntos de referencia
- Tag: Tres depredadores capturan una presa preentrenada
- World: Depredadores capturan presas en un mapa con bosques
- Conjuntos de datos: Expert, Medium-Replay, Medium, Random
Mujoco Multiagente (MA Mujoco):
- Configuraciones 2halfcheetah, 2ant, 4ant
- Conjuntos de datos: Good, Medium, Poor
Desafío Multiagente de StarCraft (SMAC):
- Mapas: 3m, 2s3z, 5m_vs_6m, 8m
- Conjuntos de datos: Good, Medium, Poor
Conjunto de Datos NBA:
- Trayectorias de jugadores de baloncesto de 631 partidos de la temporada 2015-16
- Utilizado para tareas de predicción de trayectorias multiagente

Métricas de Evaluación

MARL Offline: Recompensa de episodio obtenida en rollout en línea
Predicción de Trayectorias: ADE, FDE, minADE20, minFDE20 y otras métricas basadas en distancia

Métodos de Comparación

MARL Offline: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
Predicción de Trayectorias: Baller2Vec++

Resultados Experimentales

Resultados Principales

Desempeño de MARL Offline

MADiff logra los mejores resultados en la mayoría de conjuntos de datos:

Tarea	Conjunto de Datos	BC	MA-CQL	OMAR	MADIFF-D	MADIFF-C
MPE Spread	Expert	35.0±2.6	98.2±5.2	114.9±2.6	95.0±5.3	116.7±3.0
MPE Tag	Expert	40.0±9.6	93.9±14.0	116.2±19.8	120.9±14.6	167.6±18.6

Desempeño de Predicción de Trayectorias

En el conjunto de datos NBA, MADIFF-C supera significativamente a la línea de base:

Longitud de Trayectoria	Métrica	Baller2Vec++	MADIFF-C
20	ADE	15.15±0.38	7.92±0.86
20	FDE	24.91±0.68	14.06±1.16

Experimentos de Ablación

Validan la importancia del mecanismo de atención:

MADIFF-D con atención supera significativamente la versión independiente
La ventaja es más pronunciada en tareas más desafiantes (como World)
La estrategia de compartición de parámetros reduce efectivamente la cantidad de parámetros

Análisis del Modelado de Compañeros de Equipo

El análisis de visualización mediante la tarea Spread muestra:

MADiff puede corregir predicciones de comportamiento de compañeros durante el rollout
La tasa de consistencia aumenta con los pasos de tiempo, finalmente superando trayectorias de rollout reales
Demuestra la efectividad del modelado de compañeros de equipo

Trabajo Relacionado

MARL Offline Multiagente

Extensiones de Q-learning: Métodos como MA-BCQ, MA-ICQ presentan problemas de error de extrapolación
Modelado Secuencial: MADT utiliza transformer pero carece de modelado de interacción entre agentes

Modelos de Difusión de Decisión

Métodos de un solo agente: Diffuser, Decision Diffusion logran éxito en tareas de un solo agente
Contribución de este artículo: Primera extensión de modelos de difusión a escenarios multiagente

Modelado de Oponentes

Literatura rica en modelado de oponentes para MARL en línea
MADiff proporciona una solución efectiva de modelado de compañeros offline

Conclusiones y Discusión

Conclusiones Principales

MADiff extiende exitosamente modelos de difusión al aprendizaje multiagente
El mecanismo de atención implementa efectivamente coordinación entre agentes
El marco unificado apoya múltiples escenarios de aplicación
Logra desempeño excepcional en diversas tareas

Limitaciones

Escalabilidad: No es aplicable a escenarios con decenas o cientos de agentes
Entornos Estocásticos: Puede mostrar desempeño deficiente en entornos de alta aleatoriedad
Complejidad Computacional: Requiere inferencia de trayectorias de todos los compañeros para cada agente

Direcciones Futuras

Explorar representaciones latentes para mejorar escalabilidad
Mejorar desempeño en entornos estocásticos
Optimizar eficiencia computacional

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación exitosa de modelos de difusión al aprendizaje multiagente
Diseño Técnico Ingenioso: El mecanismo de atención resuelve ingeniosamente el problema de coordinación entre agentes
Experimentos Comprehensivos: Abarca múltiples dominios y tipos de tareas
Alto Valor Práctico: El marco unificado apoya múltiples escenarios de aplicación

Deficiencias

Análisis Teórico Insuficiente: Carece de garantías teóricas sobre convergencia y complejidad
Limitaciones de Escalabilidad: Aplicabilidad limitada en sistemas multiagente a gran escala
Sensibilidad a la Aleatoriedad: Desempeño reducido en entornos de alta aleatoriedad

Impacto

Contribución Académica: Proporciona una nueva ruta técnica para aprendizaje multiagente
Valor Práctico: Potencial de aplicación en coordinación robótica, IA para juegos y otros campos
Reproducibilidad: Proporciona código completo y configuración experimental

Escenarios Aplicables

Tareas de aprendizaje por refuerzo multiagente offline
Predicción de trayectorias multiagente
Problemas de decisión que requieren coordinación entre agentes
Tareas cooperativas de escala media (2-8 agentes)

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

Trabajos fundamentales en modelos de difusión: Ho et al. (2020), Song and Ermon (2019)
RL de difusión de un solo agente: Janner et al. (2022), Ajay et al. (2023)
Líneas de base de MARL: Rashid et al. (2020), Meng et al. (2021)

Evaluación General: Este es un artículo de investigación de alta calidad que extiende exitosamente modelos de difusión al campo del aprendizaje multiagente, con innovación técnica significativa y verificación experimental suficiente. A pesar de algunas limitaciones, abre nuevas direcciones de investigación en el campo con importante valor académico y perspectivas prácticas prometedoras.