2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: オフライン多エージェント学習と拡散モデル

基本情報

  • 論文ID: 2305.17330
  • タイトル: MADiff: Offline Multi-agent Learning with Diffusion Models
  • 著者: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • 分類: cs.AI cs.LG
  • 発表時期/会議: NeurIPS 2024 (第38回ニューラル情報処理システム会議)
  • 論文リンク: https://arxiv.org/abs/2305.17330

要約

オフライン強化学習(Offline RL)は、事前に存在するデータセットから方針を学習することを目的とし、さらなる相互作用を必要としません。これは困難なタスクです。Q学習アルゴリズムはオフライン設定における外挿誤差の問題に直面し、教師あり学習方法はモデルの表現能力に制限されます。最近、拡散モデル(DMs)は単一エージェント学習においてこれらの制限を克服する可能性を示していますが、マルチエージェント環境での応用は依然として不明確です。各エージェント用に独立したDMsを使用して軌跡を生成することは協調を妨げる可能性があり、すべてのエージェント情報を連結することは低いサンプル効率につながります。したがって、本論文はMADiffを提案します。これは注意メカニズムベースの拡散モデルを通じて複数のエージェント行動間の複雑な協調をモデル化します。我々の知る限り、MADiffは分散方針と集中制御器の両方として機能する最初の拡散ベースの多エージェント学習フレームワークです。分散実行中、MADiffは同時にチームメイトモデリングを実行し、集中制御器は多エージェント軌跡予測にも適用できます。実験は、MADiffが様々な多エージェント学習タスクにおいてベースラインアルゴリズムを上回ることを示し、複雑な多エージェント相互作用のモデリングにおけるその有効性を強調しています。

研究背景と動機

問題背景

  1. オフライン多エージェント強化学習の課題:単一エージェント学習と比較して、オフライン多エージェント学習(MAL)の研究はより少なく、より困難です。すべてのエージェントの行動が相互に関連しているため、各エージェントはエージェント間の相互作用と協調をモデル化する必要があり、同時に分散方式で意思決定を行う必要があります。
  2. 既存方法の制限
    • Q学習方法:オフライン設定における外挿誤差の問題が存在し、誤った集中価値関数は著しい外挿誤差につながります
    • シーケンスモデリング方法:モデルの表現能力に制限され、多様なデータセットの処理が困難であり、自己回帰生成の複合誤差が存在します
    • 独立拡散モデル:各エージェント用に独立したDMsを使用することは、適切な信用割当の欠如により深刻な不一致につながる可能性があります
    • 単純な連結方法:すべてのエージェント情報をDM入出力として連結することは、多エージェントシステムの重要な特性を無視します
  3. 研究動機
    • 拡散モデルは単一エージェントオフラインRLにおいて優れたモデリング能力を示しています
    • 多エージェントシステムは効果的な協調メカニズムを必要とします
    • 集中訓練分散実行(CTDE)パラダイムをサポートする統一フレームワークが必要です

核心的貢献

  1. 最初の拡散ベースの多エージェント学習フレームワーク:MADiffを提案し、分散方針、集中制御器、チームメイトモデリング、軌跡予測機能を統一しました
  2. 新規な注意メカニズムベースの拡散モデル構造:多エージェント学習専用に設計され、各ノイズ除去ステップでエージェント間の協調を実現します
  3. 優れた実験性能:様々なオフライン多エージェント問題において優れた性能を達成しました。これにはオフラインMARLと軌跡予測タスクが含まれます

方法の詳細

タスク定義

本論文は部分的に観察可能で完全に協調的な多エージェント学習問題を考慮し、Dec-POMDPとして形式化します: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

ここで:

  • SSAAはそれぞれ状態と行動空間を表します
  • NN個のエージェント{1,2,...,N}\{1, 2, ..., N\}が離散時間ステップで行動します
  • 各エージェントiiは局所観察oiΩo^i \in Ωのみを観察します
  • 最適化目標は方針πiπ^iを学習して割引累積報酬を最大化することです

モデルアーキテクチャ

全体設計

MADiffは注意メカニズムベースの拡散ネットワークフレームワークを採用し、各エージェントのデコーダー層で全エージェント注意計算を実行します。

コアコンポーネント

  1. U-Net基本構造:各エージェント軌跡のモデリングの基本構造としてU-Netを採用し、反復的な1次元畳み込み残差ブロックを含みます
  2. 注意メカニズム
    • すべてのエージェントU-Netのデコーダーブロック前に注意層を採用
    • 注意操作はエンコーダー層のスキップ接続特徴clic^i_lで実行されます
    • マルチヘッド注意メカニズムを使用してエンコード特徴を融合します
  3. 数学的表現
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

訓練目標

集中訓練は結合損失関数を使用します: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

実行モード

集中制御

  • すべてのエージェントの現在の局所観察にアクセス
  • すべてのエージェントの軌跡を生成し、行動を予測
  • 多エージェント軌跡予測とチームゲームに適用可能

分散実行とチームメイトモデリング

  • 各エージェントは自身の局所観察のみを使用して計画
  • 同時に他のエージェントの観察シーケンスを推論(チームメイトモデリング)
  • 注意メカニズムを通じて効果的な協調を実現

実験設定

データセット

  1. 多エージェント粒子環境(MPE)
    • Spread:3つのエージェントが3つのランドマークをカバー
    • Tag:3つの捕食者が事前訓練された獲物を捕捉
    • World:捕食者が森のある地図で獲物を捕捉
    • データセット:Expert、Medium-Replay、Medium、Random
  2. 多エージェントMujoco(MA Mujoco)
    • 2halfcheetah、2ant、4ant構成
    • データセット:Good、Medium、Poor
  3. スターラフト多エージェントチャレンジ(SMAC)
    • マップ:3m、2s3z、5m_vs_6m、8m
    • データセット:Good、Medium、Poor
  4. NBAデータセット
    • 2015-16シーズンの631試合のバスケットボール選手軌跡
    • 多エージェント軌跡予測タスク用

評価指標

  • オフラインMARL:オンラインロールアウトで得られたエピソード報酬
  • 軌跡予測:ADE、FDE、minADE20、minFDE20などの距離ベース指標

比較方法

  • オフラインMARL:MA-ICQ、MA-CQL、OMAR、MA-TD3+BC、MADT、BC
  • 軌跡予測:Baller2Vec++

実験結果

主要結果

オフラインMARL性能

MADiffはほとんどのデータセットで最良の結果を達成しました:

タスクデータセットBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

軌跡予測性能

NBAデータセットでは、MADIFF-Cはベースラインを大幅に上回りました:

軌跡長指標Baller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

アブレーション実験

注意メカニズムの重要性を検証しました:

  • 注意付きMADIFF-Dは独立版を大幅に上回りました
  • より困難なタスク(Worldなど)でより大きな利点があります
  • パラメータ共有戦略はパラメータ数を効果的に削減します

チームメイトモデリング分析

Spreadタスクの可視化分析は以下を示しました:

  • MADiffはロールアウト過程でチームメイト行動予測を修正できます
  • 一貫性比率は時間ステップとともに増加し、最終的に真のロールアウト軌跡を超えます
  • チームメイトモデリングの有効性を証明しました

関連研究

多エージェントオフラインRL

  • Q学習拡張:MA-BCQ、MA-ICQなどの方法は外挿誤差の問題に直面しています
  • シーケンスモデリング:MADTはトランスフォーマーを使用していますが、エージェント相互作用のモデリングが不足しています

決定拡散モデル

  • 単一エージェント方法:Diffuser、Decision Diffusionなどは単一エージェントタスクで成功しています
  • 本論文の貢献:拡散モデルを多エージェント環境に初めて拡張しました

対戦相手モデリング

  • 豊富なオンラインMARL対戦相手モデリング文献
  • MADiffは効果的なオフラインチームメイトモデリングソリューションを提供します

結論と考察

主要な結論

  1. MADiffは拡散モデルを多エージェント学習に成功裏に拡張しました
  2. 注意メカニズムはエージェント間協調を効果的に実現します
  3. 統一フレームワークは複数のアプリケーションシナリオをサポートします
  4. 様々なタスクで優れた性能を達成しました

制限事項

  1. スケーラビリティ:数十または数百のエージェントシナリオには適用できません
  2. 確率的環境:高い確率性を持つ環境では性能が低下する可能性があります
  3. 計算複雑性:各エージェント用にすべてのチームメイト軌跡を推論する必要があります

将来の方向性

  1. スケーラビリティを向上させるための潜在表現の探索
  2. 確率的環境での性能改善
  3. 計算効率の最適化

深い評価

利点

  1. 革新性が強い:拡散モデルを多エージェント学習に初めて成功裏に適用しました
  2. 技術設計が巧妙:注意メカニズムはエージェント協調問題を巧妙に解決します
  3. 実験が包括的:複数の領域とタスクタイプをカバーしています
  4. 実用価値が高い:統一フレームワークは複数のアプリケーションシナリオをサポートします

不足点

  1. 理論分析が不十分:収束性と複雑性の理論的保証が不足しています
  2. スケーラビリティの制限:大規模多エージェントシステムでの適用性が限定されています
  3. 確率性への敏感性:高確率環境での性能低下

影響力

  1. 学術的貢献:多エージェント学習に新しい技術パスを提供しました
  2. 実用価値:ロボット協調、ゲームAIなどの領域での応用可能性があります
  3. 再現性:完全なコードと実験設定を提供しています

適用シナリオ

  1. オフライン多エージェント強化学習タスク
  2. 多エージェント軌跡予測
  3. エージェント協調が必要な意思決定問題
  4. 中規模(2-8エージェント)の協調タスク

参考文献

論文は以下を含む複数の重要な研究を引用しています:

  • 拡散モデル基礎研究:Ho et al. (2020)、Song and Ermon (2019)
  • 単一エージェント拡散RL:Janner et al. (2022)、Ajay et al. (2023)
  • 多エージェントRLベースライン:Rashid et al. (2020)、Meng et al. (2021)

総合評価:これは高品質な研究論文であり、拡散モデルを多エージェント学習領域に成功裏に導入し、技術革新が顕著で、実験検証が充分です。いくつかの制限事項がありますが、この領域に新しい研究方向を開拓し、重要な学術価値と実用的な見通しを持っています。