MADiff: Offline Multi-agent Learning with Diffusion Models
Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic
MADiff: Aprendizaje Multiagente Offline con Modelos de Difusión
El aprendizaje por refuerzo offline (Offline RL) tiene como objetivo aprender políticas a partir de conjuntos de datos preexistentes sin requerir interacción adicional, lo que constituye una tarea desafiante. Los algoritmos de Q-learning presentan problemas de error de extrapolación en configuraciones offline, mientras que los métodos de aprendizaje supervisado están limitados por la capacidad expresiva del modelo. Recientemente, los modelos de difusión (DMs) han mostrado promesa en superar estas limitaciones en aprendizaje de un solo agente, pero su aplicación en escenarios multiagente sigue siendo poco clara. El uso de DMs independientes para cada agente para generar trayectorias podría obstaculizar la coordinación, mientras que la concatenación de información de todos los agentes resulta en baja eficiencia de muestreo. Por lo tanto, este artículo propone MADiff, que modela la coordinación compleja entre comportamientos de múltiples agentes mediante modelos de difusión basados en atención. Según nuestro conocimiento, MADiff es el primer marco de aprendizaje multiagente basado en difusión que funciona tanto como política descentralizada como controlador centralizado. Durante la ejecución descentralizada, MADiff realiza simultáneamente modelado de compañeros de equipo, y el controlador centralizado también puede aplicarse a predicción de trayectorias multiagente. Los experimentos demuestran que MADiff supera a los algoritmos de referencia en diversas tareas de aprendizaje multiagente, destacando su efectividad en el modelado de interacciones multiagente complejas.
Desafíos del Aprendizaje Multiagente Offline: En comparación con el aprendizaje de un solo agente, el aprendizaje multiagente offline (MAL) ha sido menos estudiado y es más desafiante. Dado que los comportamientos de todos los agentes están interconectados, cada agente necesita modelar las interacciones y coordinación entre agentes, mientras toma decisiones de manera descentralizada para lograr objetivos.
Limitaciones de los Métodos Existentes:
Métodos de Q-learning: Presentan problemas de error de extrapolación en configuraciones offline, donde funciones de valor centralizado incorrectas conducen a errores de extrapolación significativos
Métodos de modelado secuencial: Limitados por la capacidad expresiva del modelo, dificultad para manejar conjuntos de datos diversificados, y presencia de errores compuestos en generación autorregresiva
Modelos de difusión independientes: El uso de DMs independientes para cada agente puede resultar en inconsistencias graves debido a la falta de asignación de crédito apropiada
Métodos de concatenación simple: Concatenar información de todos los agentes como entrada/salida de DM ignora características importantes del sistema multiagente
Motivación de la Investigación:
Los modelos de difusión demuestran capacidades de modelado superiores en RL offline de un solo agente
Los sistemas multiagente requieren mecanismos de coordinación efectivos
Se necesita un marco unificado que apoye el paradigma de entrenamiento centralizado ejecución descentralizada (CTDE)
Primer marco de aprendizaje multiagente basado en difusión: Propone MADiff, que unifica funcionalidades de política descentralizada, controlador centralizado, modelado de compañeros de equipo y predicción de trayectorias
Estructura novedosa de modelo de difusión basada en atención: Diseñada específicamente para aprendizaje multiagente, logrando coordinación entre agentes en cada paso de desruido
Desempeño experimental superior: Logra resultados excepcionales en diversos problemas multiagente offline, incluyendo tareas de MARL offline y predicción de trayectorias
Este artículo considera el problema de aprendizaje multiagente completamente cooperativo con observabilidad parcial, formalizado como Dec-POMDP:
G=⟨S,A,P,r,Ω,O,N,U,γ⟩
Donde:
S y A representan los espacios de estado y acción respectivamente
N agentes {1,2,...,N} actúan en pasos de tiempo discretos
Cada agente i solo observa la observación local oi∈Ω
El objetivo de optimización es aprender políticas πi que maximicen la recompensa acumulada descontada
MADiff adopta un marco de red de difusión basada en atención, realizando cálculos de atención entre agentes en las capas decodificadoras de cada agente.
Estructura Base U-Net: Adopta U-Net como estructura base para modelar trayectorias de todos los agentes, incluyendo bloques residuales de convolución unidimensional repetidos
Mecanismo de Atención:
Emplea capas de atención antes de bloques decodificadores en U-Nets de todos los agentes
Las operaciones de atención se realizan en características de conexión de salto cli de la capa codificadora
Utiliza mecanismo de atención multiencabezado para fusionar características codificadas
El entrenamiento centralizado utiliza una función de pérdida conjunta:
L(θ,φ)=ΣiE(oi,ai,o′i)∈D[∣∣ai−Iφi(oi,o′i)∣∣2]+Ek,τ0∈D,β[∣∣ε−εθ(τ^k,(1−β)y(τ0)+β∅,k)∣∣2]
El artículo cita múltiples trabajos importantes, incluyendo:
Trabajos fundamentales en modelos de difusión: Ho et al. (2020), Song and Ermon (2019)
RL de difusión de un solo agente: Janner et al. (2022), Ajay et al. (2023)
Líneas de base de MARL: Rashid et al. (2020), Meng et al. (2021)
Evaluación General: Este es un artículo de investigación de alta calidad que extiende exitosamente modelos de difusión al campo del aprendizaje multiagente, con innovación técnica significativa y verificación experimental suficiente. A pesar de algunas limitaciones, abre nuevas direcciones de investigación en el campo con importante valor académico y perspectivas prácticas prometedoras.