2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: Offline Multi-agent Learning with Diffusion Models

基本信息

论文ID: 2305.17330
标题: MADiff: Offline Multi-agent Learning with Diffusion Models
作者: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
分类: cs.AI cs.LG
发表时间/会议: NeurIPS 2024 (38th Conference on Neural Information Processing Systems)
论文链接: https://arxiv.org/abs/2305.17330

摘要

离线强化学习(Offline RL)旨在从预先存在的数据集中学习策略而无需进一步交互，这是一项具有挑战性的任务。Q学习算法在离线设置中存在外推误差问题，而监督学习方法受限于模型表达能力。最近，扩散模型(DMs)在单智能体学习中显示出克服这些限制的前景，但其在多智能体场景中的应用仍不明确。为每个智能体使用独立DMs生成轨迹可能会阻碍协调，而连接所有智能体信息会导致低样本效率。因此，本文提出MADiff，通过基于注意力的扩散模型来建模多个智能体行为之间的复杂协调。据我们所知，MADiff是第一个基于扩散的多智能体学习框架，既可作为分散策略又可作为集中控制器。在分散执行期间，MADiff同时执行队友建模，集中控制器也可应用于多智能体轨迹预测。实验表明MADiff在各种多智能体学习任务中优于基线算法，突出了其在建模复杂多智能体交互方面的有效性。

研究背景与动机

问题背景

离线多智能体强化学习的挑战：相比单智能体学习，离线多智能体学习(MAL)研究较少且更具挑战性。由于所有智能体的行为相互关联，每个智能体需要建模智能体间的交互和协调，同时以分散方式做决策以实现目标。
现有方法的局限性：
- Q学习方法：在离线设置中存在外推误差问题，错误的集中价值函数会导致显著的外推误差
- 序列建模方法：受限于模型表达能力，难以处理多样化数据集，且存在自回归生成的复合误差
- 独立扩散模型：为每个智能体使用独立DMs可能因缺乏适当的信用分配而导致严重不一致
- 简单连接方法：将所有智能体信息连接作为DM输入输出忽略了多智能体系统的重要特性
研究动机：
- 扩散模型在单智能体离线RL中显示出优越的建模能力
- 多智能体系统需要有效的协调机制
- 需要统一的框架支持集中训练分散执行(CTDE)范式

核心贡献

首个基于扩散的多智能体学习框架：提出MADiff，统一了分散策略、集中控制器、队友建模和轨迹预测功能
新颖的基于注意力的扩散模型结构：专门为多智能体学习设计，在每个去噪步骤中实现智能体间的协调
优越的实验性能：在各种离线多智能体问题上取得了优异表现，包括离线MARL和轨迹预测任务

方法详解

任务定义

本文考虑部分可观察且完全合作的多智能体学习问题，形式化为Dec-POMDP： $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

其中：

$S$ 和 $A$ 分别表示状态和动作空间
$N$ 个智能体 $\{1, 2, ..., N\}$ 在离散时间步中行动
每个智能体 $i$ 只观察局部观察 $o^i \in Ω$
优化目标是学习策略 $π^i$ 最大化折扣累积奖励

U-Net基础结构：采用U-Net作为建模各智能体轨迹的基础结构，包含重复的一维卷积残差块
注意力机制：
- 在所有智能体U-Net的解码器块前采用注意力层
- 注意力操作在encoder层的跳跃连接特征 $c^i_l$ 上进行
- 使用多头注意力机制融合编码特征

数学表达：

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

访问所有智能体的当前局部观察
生成所有智能体的轨迹并预测动作
适用于多智能体轨迹预测和团队游戏

分散执行与队友建模

每个智能体仅使用自己的局部观察进行规划
同时推断其他智能体的观察序列(队友建模)
通过注意力机制实现有效协调

实验设置

数据集

多智能体粒子环境(MPE)：
- Spread：三个智能体覆盖三个地标
- Tag：三个捕食者捕捉预训练的猎物
- World：捕食者在有森林的地图中捕捉猎物
- 数据集：Expert, Medium-Replay, Medium, Random
多智能体Mujoco(MA Mujoco)：
- 2halfcheetah, 2ant, 4ant配置
- 数据集：Good, Medium, Poor
星际争霸多智能体挑战(SMAC)：
- 地图：3m, 2s3z, 5m_vs_6m, 8m
- 数据集：Good, Medium, Poor
NBA数据集：
- 2015-16赛季631场比赛的篮球运动员轨迹
- 用于多智能体轨迹预测任务