2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet

academic

双対性ベースの相互作用予測を用いたスケーラブルなマルチモーダルモデル予測制御

基本情報

論文ID: 2402.01116
タイトル: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
著者: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
分類: cs.RO cs.LG cs.SY eess.SY
発表時期/会議: arXivプレプリント（2024年2月提出、2025年3月最終更新）
論文リンク: https://arxiv.org/abs/2402.01116

要約

本論文は、複雑なマルチモーダル交通シナリオにおいてスケーラブルなリアルタイムモデル予測制御（MPC）を実現するための階層的アーキテクチャを提案している。このアーキテクチャは2つの主要コンポーネントで構成されている：1) RAID-Net、ラグランジュ双対性を利用して注意機構ベースの再帰型ニューラルネットワークであり、MPC予測時間領域内における自動運転車両と周辺車両の関連相互作用を予測する；2) 無関な衝突回避制約を排除することで計算効率を向上させた簡略化確率MPC問題。本手法は模擬交通交差点環境で検証され、運動計画問題求解の12倍の高速化を実現した。

研究背景と動機

核心問題

複雑な都市運転シナリオにおいて、自動運転車両は高度に不確実な環境で安全に航行しながら、異質な交通参加者（人間運転者と自動運転車両）の行動を観察し対応する必要がある。これらの交通参加者はマルチモーダル予測特性を有しており、運動計画においてこれらの要因を考慮することは大きな課題をもたらす。

問題の重要性

既存の運動計画手法は、スケーラビリティとリアルタイム性の二重の課題に直面している：

階層的予測・計画手法：マルチモーダル予測を処理できるが、複雑なシナリオではリアルタイムスケーラビリティが不足している
モデルベースの統合計画手法：ゲーム理論的手法は多車両シナリオで計算複雑度が過度に高い
エンドツーエンド学習手法：スケーラブルであるが、解釈可能性と安全保証が不足している

既存手法の限界

従来のMPC手法の制約数は車両数とモード数に対して指数関数的に増加する（O(NM^V)）
複雑な交通シナリオでは、大多数の衝突回避制約は実際には非活性である
真に関連する車両相互作用を識別するための効果的な制約フィルタリング機構が不足している

核心的貢献

RAID-Netアーキテクチャの提案：MPC予測時間領域内における自動運転車両と周辺車両の関連相互作用を予測できる注意機構ベースの再帰型ニューラルネットワーク
双対性ベースの相互作用予測理論の確立：ラグランジュ双対性と感度分析を利用して活性制約を識別
階層的MPCフレームワークの設計：制約フィルタリングを通じて計算複雑度を大幅に削減し、12倍の求解高速化を実現
交通交差点シミュレーション環境の構築：提案アルゴリズムの訓練と評価用

方法論の詳細

タスク定義

入力：現在の環境観測 $ob_t$ （自車状態、周辺車両状態、意味情報を含む）出力：制御入力 $u_t$ （自車が安全に目標位置に到達するため）制約：状態入力制約とマルチモーダル衝突回避制約

モデルアーキテクチャ

1. 確率MPC問題のモデリング

V個の目標車両を考慮し、各車両がM個のモードを持つ場合、合計M^V個のシナリオ構成がある。最適化問題は以下の通り：

$\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]$

以下の制約に従う：

システム動力学制約
状態入力制約： $P((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon$
衝突回避制約： $P((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon$

2. 双対性理論分析

MPC問題を二次錐計画法（SOCP）に変換： $\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K$

対応する双対問題： $\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2$

KKT条件を通じて、 $[\mu_t^*]_s = 0$ の場合、対応する制約を削除できる。

3. RAID-Netアーキテクチャ設計

入力エンコーディング：

衝突までの時間（TTC）ベースの自車中心グラフエンコーディングを使用
トランスフォーマーエンコーダがシーン表現特徴ベクトル $f_i \in \mathbb{R}^{d_{em}}$ を生成

ネットワーク構造：

N個の共有パラメータを持つデコーダシーケンス
異なるタイプの車両相互作用関係を捕捉するマルチヘッド注意機構
時系列依存性を処理するゲート付き再帰ユニット（GRU）
複雑な相互作用関係を学習するMLPレイヤー

出力：双対変数の二値分類予測 $\tilde{\mu}_t \in \{0,1\}^{n_c}$

技術的革新点

双対性ガイド制約フィルタリング：ラグランジュ双対理論をMPC制約フィルタリングに初めて適用
注意機構による相互作用モデリング：マルチヘッド注意を通じて車両間の複雑な相互作用パターンを捕捉
再帰的アーキテクチャの時間領域独立性：パラメータ共有を通じて予測時間領域長への独立性を実現
感度分析による安全保証：シャドウプライス理論を通じて制約違反のコストへの影響を定量化

実験設定

データセット

シミュレーション環境：カスタマイズされた信号なし交通交差点環境
車両構成：1台の自車 + 1～3台の目標車両
モード設定：合計16個のモード構成、624個の衝突回避制約をもたらす
データ規模：120,315個のデータポイント、訓練セット85%、テストセット15%

評価指標

実行可能性：MPC問題の実行可能解の割合
衝突率：目標車両との衝突が発生するタイムステップの割合
制約比率：平均的に強制される制約の割合
求解時間：MPC問題の平均求解時間
タスク完了時間：目標位置到達の正規化時間

比較手法

Full MPC：すべての制約を含む完全なMPC問題
MLPベースライン：多層パーセプトロンを用いた比較手法

実装詳細

予測時間領域：N = 14、サンプリング時間 Δt = 0.2s
ネットワークパラメータ：学習率0.001、バッチサイズ1024、3000エポック訓練
損失重み：wp = 4（安全性向上のため正クラス予測を優先）
ソルバー：Gurobi SOCP問題求解器を使用

実験結果

主要結果

性能指標	Full MPC	HMPC
実行可能性 (%)	98.97	99.79
衝突率 (%)	0	4.0
平均制約実行率 (%)	100	17.45
平均求解時間 (s)	0.92 ± 0.18	0.063 ± 0.073
RAID-Netクエリ時間 (s)	-	0.013 ± 0.003
総計算時間 (s)	0.92 ± 0.18	0.076 ± 0.076
正規化タスク完了時間	1	0.91