While game-theoretic planning frameworks are effective at modeling multi-agent interactions, they require solving large optimization problems where the number of variables increases with the number of agents, resulting in long computation times that limit their use in large-scale, real-time systems. To address this issue, we propose 1) PSN Game: a learning-based, game-theoretic prediction and planning framework that reduces runtime by learning a Player Selection Network (PSN); and 2) a Goal Inference Network (GIN) that makes it possible to use the PSN in incomplete information games where agents' intentions are unknown. A PSN outputs a player selection mask that distinguishes influential players from less relevant ones, enabling the ego player to solve a smaller, masked game involving only selected players. By reducing the number of players in the game, and therefore reducing the number of variables in the corresponding optimization problem, PSN directly lowers computation time. The PSN Game framework is more flexible than existing player selection methods as it 1) relies solely on observations of players' past trajectories, without requiring full state, action, or other game-specific information; and 2) requires no online parameter tuning. Experiments in both simulated scenarios and human trajectory datasets demonstrate that PSNs outperform baseline selection methods in 1) prediction accuracy; and 2) planning safety. PSNs also generalize effectively to real-world scenarios in which agents' objectives are unknown without fine-tuning. By selecting only the most relevant players for decision-making, PSN Game offers a general mechanism for reducing planning complexity that can be seamlessly integrated into existing multi-agent planning frameworks.
- 論文ID: 2505.00213
- タイトル: PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network
- 著者: Tianyu Qiu, Eric Ouano, Fernando Palafox, Christian Ellis, David Fridovich-Keil (テキサス大学オースティン校)
- 分類: cs.RO (ロボティクス), math.OC (最適化と制御)
- 発表時期: 2025年 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2505.00213
ゲーム理論計画フレームワークは多エージェント相互作用のモデリングにおいて有効であるが、大規模な最適化問題を解く必要があり、変数数がエージェント数の増加に伴って増加するため、計算時間が過度に長くなり、大規模リアルタイムシステムへの応用が制限されている。この問題を解決するため、本論文は以下を提案する:1) PSN Game - プレイヤー選択ネットワーク(PSN)を学習することにより実行時間を削減する学習ベースのゲーム理論的予測・計画フレームワーク;2) 目標推論ネットワーク(GIN)により、PSNがエージェント意図が未知の不完全情報ゲームで使用可能にする。PSNはプレイヤー選択マスクを出力し、影響力のあるプレイヤーとあまり関連性のないプレイヤーを区別し、自己エージェントが選択されたプレイヤーのみを含む小規模なマスクゲームを解くことを可能にする。ゲーム内のプレイヤー数を削減することにより、対応する最適化問題の変数数が減少し、PSNは直接的に計算時間を削減する。
ゲーム理論計画フレームワークが多エージェントシステムで直面する核心的な問題は、計算複雑性がエージェント数に対して立方的に増加することである。図2に示すように、既存のソルバーを使用する場合、計算時間はO(N³)で増加する。ここでNはプレイヤー数である。これにより、ゲーム理論的手法は大規模リアルタイムシステムにおいて実用的でなくなる。
- リアルタイム性の要求:自動運転、ロボット航法などの応用では頻繁な再計画が必要であり、計算効率が重要である
- スケーラビリティの課題:実際のシナリオではエージェント数が多い傾向にある(例:密集交通環境)
- 人間行動からの着想:研究により、人間ドライバーは密集交通では本能的に近くの脅威車両を優先し、すべての車両を監視しないことが示されている
既存のプレイヤー選択手法には以下の問題がある:
- 情報依存性が強い:制御入力、コスト関数などのゲーム固有情報が必要
- パラメータ調整が複雑:環境固有のパラメータ調整が必要
- 選択戦略が固定化:距離や勾配などの単純なヒューリスティックに基づくランキング手法は適応性に欠ける
- 教師なしプレイヤー選択ネットワーク(PSN)の提案:微分可能な動的ゲームソルバーで訓練され、選択マスクを通じた逆伝播をサポート
- 監督付き目標推論ネットワーク(GIN)の構築:履歴軌跡からエージェント目標を推論し、意図が未知のシナリオでPSNを適用可能にする
- 減少時間領域フレームワークの開発:PSNを利用して縮小規模ゲームを解くことにより効率的に均衡戦略を特定
- 実験検証:多エージェントシミュレーションと実際の人間軌跡データセット上での検証により、PSN Gameがゲーム規模を50%-75%削減し、顕著な高速化を実現することを確認
N個のエージェントの有限時間領域離散時間オープンループナッシュゲームを考える。各エージェントiは状態xki∈Rnと制御入力uki∈Rmを有する。エージェント状態遷移は動力学方程式に従う:
xk+1i=fi(xki,uki)
各エージェントの目標は累積コストを最小化することである:
Ji(x,u;θi)=∑k=0Tcki(xk,uk;θi)
PSNは性能とスパース性のバランスを取るマスクMiを推論するニューラルネットワークである。2つのバリアントを提供する:
- PSN-Full:入力は全エージェントの完全な履歴状態x0:K
- PSN-Partial:入力は部分観測{h(xk)}k=0K(例:位置情報のみ)
ネットワーク構造:
- GRUエンコーダ(隠れ次元64)を使用して各エージェントのK段階シーケンスを処理
- MLP層:256→128→32(ReLU活性化、ドロップアウト=0.3)
- Sigmoid出力層が連続マスクmji∈[0,1]を生成
プレイヤー選択マスクMi=(mji)∈{0,1}N−1を定義する。ここで:
mji={1,0,エージェントjがゲームに含まれるエージェントjが除外される
マスクゲームΓi(x~0,f~;θ,Mi)はエージェントiに最も関連するエージェントパラメータと状態のみを保持する。
GINはデータ駆動型ネットワークであり、部分軌跡観測からエージェント目標pgiを推論する:
- 入力:履歴軌跡{h(xk)}k=0K
- 出力:2D目標位置pgi
- 損失関数:平均二乗誤差LGoal=∣D∣⋅N1∑d∈D∑i∈[N]∥pg,refi−Gϕ(x0:K)∥
PSN訓練は複合損失関数を採用する:
予測タスク:
LPred=LBinary+σ1LSparsity+σ2LSimilarity
計画タスク:
LPlan=LBinary+σ3LSparsity+σ4LCost
ここで:
- LBinary=N1∑j=1Nmji(1−mji):マスクを二値化に向かわせる
- LSparsity=N∥Mi∥1:より少ないエージェント選択を促進
- LSimilarity:観測軌跡を復元できるエージェント部分集合の選択を促進
- LCost:ゲームコストを最小化する適切なエージェント選択を促進
アルゴリズムは各時間ステップkで:
- GINを通じてエージェント目標を推論
- PSNを使用して適応的マスクMkiを取得
- マスクゲームを解いてOLNE戦略を取得
- 最初のステップ制御入力を実行し状態を更新
シミュレーションシナリオ:
- 4エージェントシナリオ:5m×5m環境
- 10エージェントシナリオ:7m×7m環境
- 20エージェントシナリオ:7m×7m環境(スケーラビリティテスト)
実データ:
- CITR歩行者データセット:7.5m×25.5m環境、10人の歩行者
ゲーム設定:
- 状態空間:4次元(位置+速度)
- 動力学:二重積分器モデル
- コスト関数:目標追跡、速度ペナルティ、制御コスト、衝突回避項を含む
予測タスク:
- ADE (平均変位誤差):平均変位誤差
- FDE (最終変位誤差):最終変位誤差
- Consistency:選択一貫性
計画タスク:
- Navigation Cost:航法コスト
- Collision Cost:衝突コスト
- Control Cost:制御コスト
- Minimum Distance:最小距離
- Trajectory Smoothness:軌跡平滑性
- Trajectory Length:軌跡長
- PSNバリアント:PSN-Threshold, PSN-Rank
- 距離ベース手法:Distance, kNNs
- 勾配ベース手法:Gradient, Hessian, Cost Evolution
- 制約ベース手法:BF (Barrier Function), CBF (Control Barrier Function)
4エージェントシナリオにおいて:
- PSN-Full ADE: 0.1834m (最適)
- PSN-Partial ADE: 0.1876m
- 最良ベースライン(Cost Evolution) ADE: 0.1861m
10エージェントシナリオにおいて:
- PSN-Partial ADE: 0.2213m (最適)
- PSN-Full ADE: 0.2314m
- 最良ベースライン(kNNs) ADE: 0.2343m
PSNは安全性指標で優れた性能を示す:
- 衝突コスト:4エージェントと10エージェントシナリオの両方で最適
- 最小距離:両シナリオで上位3位以内
- 完全ゲームと比較して、安全性能の低下は軽微
目標が未知のシナリオにおいて(表4-5)、PSNとGINの組み合わせ:
- 予測指標は上位2位を維持
- 計画指標はすべて上位3位以内
- 安全性指標は依然として最適
10エージェントで訓練されたPSNを20エージェントシナリオで使用:
- PSN-Full ADE: 0.3108m (最適)
- PSN-Partial ADE: 0.3152m (第2位)
- 再訓練なしでより大規模なシナリオに適応可能
CITR歩行者データセット上:
- PSN-Partial ADE: 0.4931m (最適)
- PSN-Full ADE: 0.4966m
- 完全ゲーム求解の性能さえも上回る
既存手法は主に小規模環境(≤5エージェント)に焦点を当て、Newton型ソルバーを反復的に使用して求解する。複雑性はプレイヤー数に対して立方的に増加し、大規模リアルタイムシステムの根本的な障害となる。
閾値ベース手法:事前定義された距離閾値に基づいてエージェントを選択し、大量のパラメータ調整が必要。
ランキング手法:最も影響力のあるトップkエージェントを選択するが、固定数選択は過度に積極的または保守的である可能性がある。
本論文の利点:
- 履歴軌跡観測のみが必要で、特権情報は不要
- オンラインパラメータ調整が不要
- エージェント数を適応的に選択
- PSN Gameはゲーム規模を50%-75%削減し、顕著な計算高速化を実現
- 予測精度と計画安全性において既存ベースライン手法を上回る
- 良好な汎化能力を有し、より大規模なシナリオと実データに適応可能
- 連続マスク近似:逆伝播をサポートするため連続マスクを使用し、実行時に閾値化変換が必要
- 訓練データ依存性:完全ゲームで生成された訓練データが必要
- 動力学モデル仮定:実験は主に二重積分器モデルに基づいている
- より複雑な動力学モデルへの拡張
- 他の種類のゲームパラメータ推論の研究
- エンドツーエンド訓練戦略の探索
- 問題の重要性:ゲーム理論計画における核心的な計算ボトルネックを解決
- 手法の革新性:深層学習とゲーム理論を組み合わせたプレイヤー選択は初めて
- 実験の充実性:シミュレーションと実データを含み、複数の仮説を検証
- 実用的価値:既存フレームワークに直接統合可能な汎用メカニズムを提供
- 理論分析の欠如:収束性または近似誤差の理論的保証が提供されていない
- 計算オーバーヘッド:ゲーム求解時間は削減されるが、ネットワーク推論オーバーヘッドが追加される
- シナリオの制限:主に航法タスクで検証され、他の種類のゲームへの適用性は不明
- 学術的貢献:大規模多エージェントシステムに新しい解決策を提供
- 実用的応用:自動運転、ロボット群など複数の分野で直接応用可能
- 再現性:詳細な実装詳細とパラメータ設定を提供
- 密集多エージェント環境:都市交通、群衆航法など
- リアルタイム性要求が高いシステム:動的環境での頻繁な再計画が必要
- 部分可観測シナリオ:エージェント意図が未知の不完全情報ゲーム
論文は35篇の関連文献を引用しており、主に以下を含む:
- ゲーム理論計画手法 8, 28, 9, 15
- 多エージェント相互作用モデリング 17, 20, 21, 24
- プレイヤー選択ヒューリスティック手法 2, 27, 30
- 注意機構と近傍選択 3, 6, 32
本論文はゲーム理論計画の計算複雑性解決において重要な貢献を行い、学習駆動型プレイヤー選択を通じて多エージェントシステムの計算効率を大幅に向上させ、大規模リアルタイム応用への道を切り開いた。