2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: Offline Multi-agent Learning with Diffusion Models

基本信息

  • 论文ID: 2305.17330
  • 标题: MADiff: Offline Multi-agent Learning with Diffusion Models
  • 作者: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • 分类: cs.AI cs.LG
  • 发表时间/会议: NeurIPS 2024 (38th Conference on Neural Information Processing Systems)
  • 论文链接: https://arxiv.org/abs/2305.17330

摘要

离线强化学习(Offline RL)旨在从预先存在的数据集中学习策略而无需进一步交互,这是一项具有挑战性的任务。Q学习算法在离线设置中存在外推误差问题,而监督学习方法受限于模型表达能力。最近,扩散模型(DMs)在单智能体学习中显示出克服这些限制的前景,但其在多智能体场景中的应用仍不明确。为每个智能体使用独立DMs生成轨迹可能会阻碍协调,而连接所有智能体信息会导致低样本效率。因此,本文提出MADiff,通过基于注意力的扩散模型来建模多个智能体行为之间的复杂协调。据我们所知,MADiff是第一个基于扩散的多智能体学习框架,既可作为分散策略又可作为集中控制器。在分散执行期间,MADiff同时执行队友建模,集中控制器也可应用于多智能体轨迹预测。实验表明MADiff在各种多智能体学习任务中优于基线算法,突出了其在建模复杂多智能体交互方面的有效性。

研究背景与动机

问题背景

  1. 离线多智能体强化学习的挑战:相比单智能体学习,离线多智能体学习(MAL)研究较少且更具挑战性。由于所有智能体的行为相互关联,每个智能体需要建模智能体间的交互和协调,同时以分散方式做决策以实现目标。
  2. 现有方法的局限性
    • Q学习方法:在离线设置中存在外推误差问题,错误的集中价值函数会导致显著的外推误差
    • 序列建模方法:受限于模型表达能力,难以处理多样化数据集,且存在自回归生成的复合误差
    • 独立扩散模型:为每个智能体使用独立DMs可能因缺乏适当的信用分配而导致严重不一致
    • 简单连接方法:将所有智能体信息连接作为DM输入输出忽略了多智能体系统的重要特性
  3. 研究动机
    • 扩散模型在单智能体离线RL中显示出优越的建模能力
    • 多智能体系统需要有效的协调机制
    • 需要统一的框架支持集中训练分散执行(CTDE)范式

核心贡献

  1. 首个基于扩散的多智能体学习框架:提出MADiff,统一了分散策略、集中控制器、队友建模和轨迹预测功能
  2. 新颖的基于注意力的扩散模型结构:专门为多智能体学习设计,在每个去噪步骤中实现智能体间的协调
  3. 优越的实验性能:在各种离线多智能体问题上取得了优异表现,包括离线MARL和轨迹预测任务

方法详解

任务定义

本文考虑部分可观察且完全合作的多智能体学习问题,形式化为Dec-POMDP: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

其中:

  • SSAA分别表示状态和动作空间
  • NN个智能体{1,2,...,N}\{1, 2, ..., N\}在离散时间步中行动
  • 每个智能体ii只观察局部观察oiΩo^i \in Ω
  • 优化目标是学习策略πiπ^i最大化折扣累积奖励

模型架构

整体设计

MADiff采用基于注意力的扩散网络框架,在每个智能体的解码器层都进行跨智能体注意力计算。

核心组件

  1. U-Net基础结构:采用U-Net作为建模各智能体轨迹的基础结构,包含重复的一维卷积残差块
  2. 注意力机制
    • 在所有智能体U-Net的解码器块前采用注意力层
    • 注意力操作在encoder层的跳跃连接特征clic^i_l上进行
    • 使用多头注意力机制融合编码特征
  3. 数学表达
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

训练目标

集中训练使用联合损失函数: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

执行模式

集中控制

  • 访问所有智能体的当前局部观察
  • 生成所有智能体的轨迹并预测动作
  • 适用于多智能体轨迹预测和团队游戏

分散执行与队友建模

  • 每个智能体仅使用自己的局部观察进行规划
  • 同时推断其他智能体的观察序列(队友建模)
  • 通过注意力机制实现有效协调

实验设置

数据集

  1. 多智能体粒子环境(MPE)
    • Spread:三个智能体覆盖三个地标
    • Tag:三个捕食者捕捉预训练的猎物
    • World:捕食者在有森林的地图中捕捉猎物
    • 数据集:Expert, Medium-Replay, Medium, Random
  2. 多智能体Mujoco(MA Mujoco)
    • 2halfcheetah, 2ant, 4ant配置
    • 数据集:Good, Medium, Poor
  3. 星际争霸多智能体挑战(SMAC)
    • 地图:3m, 2s3z, 5m_vs_6m, 8m
    • 数据集:Good, Medium, Poor
  4. NBA数据集
    • 2015-16赛季631场比赛的篮球运动员轨迹
    • 用于多智能体轨迹预测任务

评价指标

  • 离线MARL:在线rollout获得的回合奖励
  • 轨迹预测:ADE, FDE, minADE20, minFDE20等基于距离的指标

对比方法

  • 离线MARL:MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • 轨迹预测:Baller2Vec++

实验结果

主要结果

离线MARL性能

MADiff在大多数数据集上取得最佳结果:

任务数据集BCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

轨迹预测性能

在NBA数据集上,MADIFF-C显著优于基线:

轨迹长度指标Baller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

消融实验

验证了注意力机制的重要性:

  • 带注意力的MADIFF-D显著超越独立版本
  • 在更具挑战性的任务(如World)中优势更明显
  • 参数共享策略有效减少参数数量

队友建模分析

通过Spread任务的可视化分析显示:

  • MADiff能够在rollout过程中纠正队友行为预测
  • 一致性比率随时间步增加,最终超过真实rollout轨迹
  • 证明了队友建模的有效性

相关工作

多智能体离线RL

  • Q学习扩展:MA-BCQ, MA-ICQ等方法存在外推误差问题
  • 序列建模:MADT使用transformer但缺乏智能体交互建模

决策扩散模型

  • 单智能体方法:Diffuser, Decision Diffusion等在单智能体任务中取得成功
  • 本文贡献:首次将扩散模型扩展到多智能体场景

对手建模

  • 丰富的在线MARL对手建模文献
  • MADiff提供了有效的离线队友建模方案

结论与讨论

主要结论

  1. MADiff成功将扩散模型扩展到多智能体学习
  2. 注意力机制有效实现智能体间协调
  3. 统一框架支持多种应用场景
  4. 在各种任务上取得优异性能

局限性

  1. 可扩展性:不适用于数十或数百智能体的场景
  2. 随机环境:在高随机性环境中可能表现不佳
  3. 计算复杂度:需要为每个智能体推断所有队友轨迹

未来方向

  1. 探索潜在表示以提高可扩展性
  2. 改进随机环境中的性能
  3. 优化计算效率

深度评价

优点

  1. 创新性强:首次将扩散模型成功应用于多智能体学习
  2. 技术设计精巧:注意力机制巧妙解决智能体协调问题
  3. 实验全面:涵盖多个领域和任务类型
  4. 实用价值高:统一框架支持多种应用场景

不足

  1. 理论分析不足:缺乏收敛性和复杂度的理论保证
  2. 可扩展性限制:在大规模多智能体系统中的适用性有限
  3. 随机性敏感:在高随机环境中性能下降

影响力

  1. 学术贡献:为多智能体学习提供了新的技术路径
  2. 实用价值:在机器人协调、游戏AI等领域有应用潜力
  3. 可复现性:提供了完整的代码和实验设置

适用场景

  1. 离线多智能体强化学习任务
  2. 多智能体轨迹预测
  3. 需要智能体协调的决策问题
  4. 中等规模(2-8个智能体)的合作任务

参考文献

论文引用了多个重要工作,包括:

  • 扩散模型基础工作:Ho et al. (2020), Song and Ermon (2019)
  • 单智能体扩散RL:Janner et al. (2022), Ajay et al. (2023)
  • 多智能体RL基线:Rashid et al. (2020), Meng et al. (2021)

总体评价:这是一篇高质量的研究论文,成功地将扩散模型引入多智能体学习领域,技术创新显著,实验验证充分。尽管存在一些局限性,但为该领域开辟了新的研究方向,具有重要的学术价值和实用前景。