Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
論文ID : 2305.17330タイトル : MADiff: Offline Multi-agent Learning with Diffusion Models著者 : Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang分類 : cs.AI cs.LG発表時期/会議 : NeurIPS 2024 (第38回ニューラル情報処理システム会議)論文リンク : https://arxiv.org/abs/2305.17330 オフライン強化学習(Offline RL)は、事前に存在するデータセットから方針を学習することを目的とし、さらなる相互作用を必要としません。これは困難なタスクです。Q学習アルゴリズムはオフライン設定における外挿誤差の問題に直面し、教師あり学習方法はモデルの表現能力に制限されます。最近、拡散モデル(DMs)は単一エージェント学習においてこれらの制限を克服する可能性を示していますが、マルチエージェント環境での応用は依然として不明確です。各エージェント用に独立したDMsを使用して軌跡を生成することは協調を妨げる可能性があり、すべてのエージェント情報を連結することは低いサンプル効率につながります。したがって、本論文はMADiffを提案します。これは注意メカニズムベースの拡散モデルを通じて複数のエージェント行動間の複雑な協調をモデル化します。我々の知る限り、MADiffは分散方針と集中制御器の両方として機能する最初の拡散ベースの多エージェント学習フレームワークです。分散実行中、MADiffは同時にチームメイトモデリングを実行し、集中制御器は多エージェント軌跡予測にも適用できます。実験は、MADiffが様々な多エージェント学習タスクにおいてベースラインアルゴリズムを上回ることを示し、複雑な多エージェント相互作用のモデリングにおけるその有効性を強調しています。
オフライン多エージェント強化学習の課題 :単一エージェント学習と比較して、オフライン多エージェント学習(MAL)の研究はより少なく、より困難です。すべてのエージェントの行動が相互に関連しているため、各エージェントはエージェント間の相互作用と協調をモデル化する必要があり、同時に分散方式で意思決定を行う必要があります。既存方法の制限 :Q学習方法 :オフライン設定における外挿誤差の問題が存在し、誤った集中価値関数は著しい外挿誤差につながりますシーケンスモデリング方法 :モデルの表現能力に制限され、多様なデータセットの処理が困難であり、自己回帰生成の複合誤差が存在します独立拡散モデル :各エージェント用に独立したDMsを使用することは、適切な信用割当の欠如により深刻な不一致につながる可能性があります単純な連結方法 :すべてのエージェント情報をDM入出力として連結することは、多エージェントシステムの重要な特性を無視します研究動機 :拡散モデルは単一エージェントオフラインRLにおいて優れたモデリング能力を示しています 多エージェントシステムは効果的な協調メカニズムを必要とします 集中訓練分散実行(CTDE)パラダイムをサポートする統一フレームワークが必要です 最初の拡散ベースの多エージェント学習フレームワーク :MADiffを提案し、分散方針、集中制御器、チームメイトモデリング、軌跡予測機能を統一しました新規な注意メカニズムベースの拡散モデル構造 :多エージェント学習専用に設計され、各ノイズ除去ステップでエージェント間の協調を実現します優れた実験性能 :様々なオフライン多エージェント問題において優れた性能を達成しました。これにはオフラインMARLと軌跡予測タスクが含まれます本論文は部分的に観察可能で完全に協調的な多エージェント学習問題を考慮し、Dec-POMDPとして形式化します:
G = ⟨ S , A , P , r , Ω , O , N , U , γ ⟩ G = \langle S,A, P, r,Ω, O,N,U, γ\rangle G = ⟨ S , A , P , r , Ω , O , N , U , γ ⟩
ここで:
S S S とA A A はそれぞれ状態と行動空間を表しますN N N 個のエージェント{ 1 , 2 , . . . , N } \{1, 2, ..., N\} { 1 , 2 , ... , N } が離散時間ステップで行動します各エージェントi i i は局所観察o i ∈ Ω o^i \in Ω o i ∈ Ω のみを観察します 最適化目標は方針π i π^i π i を学習して割引累積報酬を最大化することです MADiffは注意メカニズムベースの拡散ネットワークフレームワークを採用し、各エージェントのデコーダー層で全エージェント注意計算を実行します。
U-Net基本構造 :各エージェント軌跡のモデリングの基本構造としてU-Netを採用し、反復的な1次元畳み込み残差ブロックを含みます注意メカニズム :すべてのエージェントU-Netのデコーダーブロック前に注意層を採用 注意操作はエンコーダー層のスキップ接続特徴c l i c^i_l c l i で実行されます マルチヘッド注意メカニズムを使用してエンコード特徴を融合します 数学的表現 :q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j
集中訓練は結合損失関数を使用します:
L ( θ , φ ) = Σ i E ( o i , a i , o ′ i ) ∈ D [ ∣ ∣ a i − I φ i ( o i , o ′ i ) ∣ ∣ 2 ] + E k , τ 0 ∈ D , β [ ∣ ∣ ε − ε θ ( τ ^ k , ( 1 − β ) y ( τ 0 ) + β ∅ , k ) ∣ ∣ 2 ] L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2] L ( θ , φ ) = Σ i E ( o i , a i , o ′ i ) ∈ D [ ∣∣ a i − I φ i ( o i , o ′ i ) ∣ ∣ 2 ] + E k , τ 0 ∈ D , β [ ∣∣ ε − ε θ ( τ ^ k , ( 1 − β ) y ( τ 0 ) + β ∅ , k ) ∣ ∣ 2 ]
すべてのエージェントの現在の局所観察にアクセス すべてのエージェントの軌跡を生成し、行動を予測 多エージェント軌跡予測とチームゲームに適用可能 各エージェントは自身の局所観察のみを使用して計画 同時に他のエージェントの観察シーケンスを推論(チームメイトモデリング) 注意メカニズムを通じて効果的な協調を実現 多エージェント粒子環境(MPE) :Spread:3つのエージェントが3つのランドマークをカバー Tag:3つの捕食者が事前訓練された獲物を捕捉 World:捕食者が森のある地図で獲物を捕捉 データセット:Expert、Medium-Replay、Medium、Random 多エージェントMujoco(MA Mujoco) :2halfcheetah、2ant、4ant構成 データセット:Good、Medium、Poor スターラフト多エージェントチャレンジ(SMAC) :マップ:3m、2s3z、5m_vs_6m、8m データセット:Good、Medium、Poor NBAデータセット :2015-16シーズンの631試合のバスケットボール選手軌跡 多エージェント軌跡予測タスク用 オフラインMARL :オンラインロールアウトで得られたエピソード報酬軌跡予測 :ADE、FDE、minADE20、minFDE20などの距離ベース指標オフラインMARL :MA-ICQ、MA-CQL、OMAR、MA-TD3+BC、MADT、BC軌跡予測 :Baller2Vec++MADiffはほとんどのデータセットで最良の結果を達成しました:
タスク データセット BC MA-CQL OMAR MADIFF-D MADIFF-C MPE Spread Expert 35.0±2.6 98.2±5.2 114.9±2.6 95.0±5.3 116.7±3.0 MPE Tag Expert 40.0±9.6 93.9±14.0 116.2±19.8 120.9±14.6 167.6±18.6
NBAデータセットでは、MADIFF-Cはベースラインを大幅に上回りました:
軌跡長 指標 Baller2Vec++ MADIFF-C 20 ADE 15.15±0.38 7.92±0.86 20 FDE 24.91±0.68 14.06±1.16
注意メカニズムの重要性を検証しました:
注意付きMADIFF-Dは独立版を大幅に上回りました より困難なタスク(Worldなど)でより大きな利点があります パラメータ共有戦略はパラメータ数を効果的に削減します Spreadタスクの可視化分析は以下を示しました:
MADiffはロールアウト過程でチームメイト行動予測を修正できます 一貫性比率は時間ステップとともに増加し、最終的に真のロールアウト軌跡を超えます チームメイトモデリングの有効性を証明しました Q学習拡張 :MA-BCQ、MA-ICQなどの方法は外挿誤差の問題に直面していますシーケンスモデリング :MADTはトランスフォーマーを使用していますが、エージェント相互作用のモデリングが不足しています単一エージェント方法 :Diffuser、Decision Diffusionなどは単一エージェントタスクで成功しています本論文の貢献 :拡散モデルを多エージェント環境に初めて拡張しました豊富なオンラインMARL対戦相手モデリング文献 MADiffは効果的なオフラインチームメイトモデリングソリューションを提供します MADiffは拡散モデルを多エージェント学習に成功裏に拡張しました 注意メカニズムはエージェント間協調を効果的に実現します 統一フレームワークは複数のアプリケーションシナリオをサポートします 様々なタスクで優れた性能を達成しました スケーラビリティ :数十または数百のエージェントシナリオには適用できません確率的環境 :高い確率性を持つ環境では性能が低下する可能性があります計算複雑性 :各エージェント用にすべてのチームメイト軌跡を推論する必要がありますスケーラビリティを向上させるための潜在表現の探索 確率的環境での性能改善 計算効率の最適化 革新性が強い :拡散モデルを多エージェント学習に初めて成功裏に適用しました技術設計が巧妙 :注意メカニズムはエージェント協調問題を巧妙に解決します実験が包括的 :複数の領域とタスクタイプをカバーしています実用価値が高い :統一フレームワークは複数のアプリケーションシナリオをサポートします理論分析が不十分 :収束性と複雑性の理論的保証が不足していますスケーラビリティの制限 :大規模多エージェントシステムでの適用性が限定されています確率性への敏感性 :高確率環境での性能低下学術的貢献 :多エージェント学習に新しい技術パスを提供しました実用価値 :ロボット協調、ゲームAIなどの領域での応用可能性があります再現性 :完全なコードと実験設定を提供していますオフライン多エージェント強化学習タスク 多エージェント軌跡予測 エージェント協調が必要な意思決定問題 中規模(2-8エージェント)の協調タスク 論文は以下を含む複数の重要な研究を引用しています:
拡散モデル基礎研究:Ho et al. (2020)、Song and Ermon (2019) 単一エージェント拡散RL:Janner et al. (2022)、Ajay et al. (2023) 多エージェントRLベースライン:Rashid et al. (2020)、Meng et al. (2021) 総合評価 :これは高品質な研究論文であり、拡散モデルを多エージェント学習領域に成功裏に導入し、技術革新が顕著で、実験検証が充分です。いくつかの制限事項がありますが、この領域に新しい研究方向を開拓し、重要な学術価値と実用的な見通しを持っています。