2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: オフライン多エージェント学習と拡散モデル

基本情報

論文ID: 2305.17330
タイトル: MADiff: Offline Multi-agent Learning with Diffusion Models
著者: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
分類: cs.AI cs.LG
発表時期/会議: NeurIPS 2024 (第38回ニューラル情報処理システム会議)
論文リンク: https://arxiv.org/abs/2305.17330

要約

オフライン強化学習(Offline RL)は、事前に存在するデータセットから方針を学習することを目的とし、さらなる相互作用を必要としません。これは困難なタスクです。Q学習アルゴリズムはオフライン設定における外挿誤差の問題に直面し、教師あり学習方法はモデルの表現能力に制限されます。最近、拡散モデル(DMs)は単一エージェント学習においてこれらの制限を克服する可能性を示していますが、マルチエージェント環境での応用は依然として不明確です。各エージェント用に独立したDMsを使用して軌跡を生成することは協調を妨げる可能性があり、すべてのエージェント情報を連結することは低いサンプル効率につながります。したがって、本論文はMADiffを提案します。これは注意メカニズムベースの拡散モデルを通じて複数のエージェント行動間の複雑な協調をモデル化します。我々の知る限り、MADiffは分散方針と集中制御器の両方として機能する最初の拡散ベースの多エージェント学習フレームワークです。分散実行中、MADiffは同時にチームメイトモデリングを実行し、集中制御器は多エージェント軌跡予測にも適用できます。実験は、MADiffが様々な多エージェント学習タスクにおいてベースラインアルゴリズムを上回ることを示し、複雑な多エージェント相互作用のモデリングにおけるその有効性を強調しています。

研究背景と動機

問題背景

オフライン多エージェント強化学習の課題：単一エージェント学習と比較して、オフライン多エージェント学習(MAL)の研究はより少なく、より困難です。すべてのエージェントの行動が相互に関連しているため、各エージェントはエージェント間の相互作用と協調をモデル化する必要があり、同時に分散方式で意思決定を行う必要があります。
既存方法の制限：
- Q学習方法：オフライン設定における外挿誤差の問題が存在し、誤った集中価値関数は著しい外挿誤差につながります
- シーケンスモデリング方法：モデルの表現能力に制限され、多様なデータセットの処理が困難であり、自己回帰生成の複合誤差が存在します
- 独立拡散モデル：各エージェント用に独立したDMsを使用することは、適切な信用割当の欠如により深刻な不一致につながる可能性があります
- 単純な連結方法：すべてのエージェント情報をDM入出力として連結することは、多エージェントシステムの重要な特性を無視します
研究動機：
- 拡散モデルは単一エージェントオフラインRLにおいて優れたモデリング能力を示しています
- 多エージェントシステムは効果的な協調メカニズムを必要とします
- 集中訓練分散実行(CTDE)パラダイムをサポートする統一フレームワークが必要です

核心的貢献

最初の拡散ベースの多エージェント学習フレームワーク：MADiffを提案し、分散方針、集中制御器、チームメイトモデリング、軌跡予測機能を統一しました
新規な注意メカニズムベースの拡散モデル構造：多エージェント学習専用に設計され、各ノイズ除去ステップでエージェント間の協調を実現します
優れた実験性能：様々なオフライン多エージェント問題において優れた性能を達成しました。これにはオフラインMARLと軌跡予測タスクが含まれます

方法の詳細

タスク定義

本論文は部分的に観察可能で完全に協調的な多エージェント学習問題を考慮し、Dec-POMDPとして形式化します： $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

ここで：

$S$ と $A$ はそれぞれ状態と行動空間を表します
$N$ 個のエージェント $\{1, 2, ..., N\}$ が離散時間ステップで行動します
各エージェント $i$ は局所観察 $o^i \in Ω$ のみを観察します
最適化目標は方針 $π^i$ を学習して割引累積報酬を最大化することです

モデルアーキテクチャ

全体設計

MADiffは注意メカニズムベースの拡散ネットワークフレームワークを採用し、各エージェントのデコーダー層で全エージェント注意計算を実行します。

コアコンポーネント

U-Net基本構造：各エージェント軌跡のモデリングの基本構造としてU-Netを採用し、反復的な1次元畳み込み残差ブロックを含みます
注意メカニズム：
- すべてのエージェントU-Netのデコーダーブロック前に注意層を採用
- 注意操作はエンコーダー層のスキップ接続特徴 $c^i_l$ で実行されます
- マルチヘッド注意メカニズムを使用してエンコード特徴を融合します

数学的表現：

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

訓練目標

集中訓練は結合損失関数を使用します： $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

実行モード

集中制御

すべてのエージェントの現在の局所観察にアクセス
すべてのエージェントの軌跡を生成し、行動を予測
多エージェント軌跡予測とチームゲームに適用可能

分散実行とチームメイトモデリング

各エージェントは自身の局所観察のみを使用して計画
同時に他のエージェントの観察シーケンスを推論(チームメイトモデリング)
注意メカニズムを通じて効果的な協調を実現

実験設定

データセット

多エージェント粒子環境(MPE)：
- Spread：3つのエージェントが3つのランドマークをカバー
- Tag：3つの捕食者が事前訓練された獲物を捕捉
- World：捕食者が森のある地図で獲物を捕捉
- データセット：Expert、Medium-Replay、Medium、Random
多エージェントMujoco(MA Mujoco)：
- 2halfcheetah、2ant、4ant構成
- データセット：Good、Medium、Poor
スターラフト多エージェントチャレンジ(SMAC)：
- マップ：3m、2s3z、5m_vs_6m、8m
- データセット：Good、Medium、Poor
NBAデータセット：
- 2015-16シーズンの631試合のバスケットボール選手軌跡
- 多エージェント軌跡予測タスク用