2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet

academic

基本信息

论文ID: 2402.01116
标题: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
作者: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
分类: cs.RO cs.LG cs.SY eess.SY
发表时间/会议: arXiv preprint (2024年2月提交，2025年3月最后更新)
论文链接: https://arxiv.org/abs/2402.01116

摘要

本文提出了一个分层架构，用于在复杂多模态交通场景中实现可扩展的实时模型预测控制（MPC）。该架构包含两个关键组件：1) RAID-Net，一个基于注意力机制的递归神经网络，使用拉格朗日对偶性预测自动驾驶车辆与周围车辆在MPC预测时域内的相关交互；2) 一个简化的随机MPC问题，通过消除无关的碰撞避免约束来提升计算效率。该方法在模拟交通路口环境中进行了验证，实现了运动规划问题求解的12倍加速。

研究背景与动机

核心问题

在复杂城市驾驶场景中，自动驾驶车辆需要在高度不确定的环境中安全导航，同时观察和响应异构交通参与者（人类驾驶和自动驾驶车辆）的行为。这些交通参与者具有多模态预测特性，在运动规划中考虑这些因素带来了巨大挑战。

问题重要性

现有的运动规划方法面临可扩展性和实时性的双重挑战：

分层预测与规划方法：虽然能处理多模态预测，但在复杂场景中缺乏实时可扩展性
基于模型的集成规划方法：游戏论方法在多车辆场景中计算复杂度过高
端到端学习方法：虽然可扩展，但缺乏可解释性和安全保证

现有方法局限性

传统MPC方法的约束数量随车辆数量和模态数量呈指数增长（O(NM^V)）
在复杂交通场景中，大多数碰撞避免约束实际上是非活跃的
缺乏有效的约束筛选机制来识别真正相关的车辆交互

核心贡献

提出了RAID-Net架构：基于注意力机制的递归神经网络，能够预测MPC预测时域内自动驾驶车辆与周围车辆的相关交互
建立了基于对偶性的交互预测理论：利用拉格朗日对偶性和敏感性分析来识别活跃约束
设计了分层MPC框架：通过约束筛选显著减少计算复杂度，实现12倍求解加速
构建了交通路口仿真环境：用于训练和评估所提出的算法

方法详解

任务定义

输入：当前环境观测 $ob_t$ ，包括自车状态、周围车辆状态和语义信息输出：控制输入 $u_t$ ，使自车安全到达目标位置约束：状态输入约束和多模态碰撞避免约束

模型架构

1. 随机MPC问题建模

考虑V个目标车辆，每个车辆有M种模态，总共M^V种场景配置。优化问题为：

$\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]$

受约束于：

系统动力学约束
状态输入约束： $P((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon$
碰撞避免约束： $P((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon$

2. 对偶性理论分析

将MPC问题转换为二阶锥规划（SOCP）： $\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K$

对应的对偶问题为： $\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2$

通过KKT条件，如果 $[\mu_t^*]_s = 0$ ，则对应约束可以被消除。

3. RAID-Net架构设计

输入编码：

使用基于时间到碰撞（TTC）的自车中心图编码
变换器编码器生成场景表示特征向量 $f_i \in \mathbb{R}^{d_{em}}$

网络结构：

N个共享参数的解码器序列
多头注意力机制捕获不同类型的车辆交互关系
门控循环单元（GRU）处理时序依赖
MLP层学习复杂交互关系

输出：预测对偶变量的二进制分类 $\tilde{\mu}_t \in \{0,1\}^{n_c}$

技术创新点

对偶性指导的约束筛选：首次将拉格朗日对偶理论应用于MPC约束筛选
注意力机制的交互建模：通过多头注意力捕获车辆间的复杂交互模式
递归架构的时域独立性：通过参数共享实现对预测时域长度的独立性
敏感性分析的安全保证：通过影子价格理论量化约束违反对成本的影响

实验设置

数据集

仿真环境：自定义的无信号交通路口环境
车辆配置：1个自车 + 1-3个目标车辆
模态设置：总共16种模态配置，导致624个碰撞避免约束
数据规模：120,315个数据点，训练集85%，测试集15%

评价指标

可行性：MPC问题可行解的百分比
碰撞率：与目标车辆发生碰撞的时间步百分比
约束比例：平均强制执行的约束百分比
求解时间：MPC问题平均求解时间
任务完成时间：到达目标位置的标准化时间

对比方法

Full MPC：包含所有约束的完整MPC问题
MLP baseline：使用多层感知机的对比方法

实现细节

预测时域：N = 14，采样时间 Δt = 0.2s
网络参数：学习率0.001，批大小1024，训练3000轮
损失权重：wp = 4（偏向正类预测以提高安全性）
求解器：使用Gurobi求解SOCP问题

实验结果

主要结果

性能指标	Full MPC	HMPC
可行性 (%)	98.97	99.79
碰撞率 (%)	0	4.0
平均约束执行率 (%)	100	17.45
平均求解时间 (s)	0.92 ± 0.18	0.063 ± 0.073
RAID-Net查询时间 (s)	-	0.013 ± 0.003
总计算时间 (s)	0.92 ± 0.18	0.076 ± 0.076
标准化任务完成时间	1	0.91