2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli
We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
academic

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

基本信息

  • 论文ID: 2402.01116
  • 标题: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
  • 作者: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
  • 分类: cs.RO cs.LG cs.SY eess.SY
  • 发表时间/会议: arXiv preprint (2024年2月提交,2025年3月最后更新)
  • 论文链接: https://arxiv.org/abs/2402.01116

摘要

本文提出了一个分层架构,用于在复杂多模态交通场景中实现可扩展的实时模型预测控制(MPC)。该架构包含两个关键组件:1) RAID-Net,一个基于注意力机制的递归神经网络,使用拉格朗日对偶性预测自动驾驶车辆与周围车辆在MPC预测时域内的相关交互;2) 一个简化的随机MPC问题,通过消除无关的碰撞避免约束来提升计算效率。该方法在模拟交通路口环境中进行了验证,实现了运动规划问题求解的12倍加速。

研究背景与动机

核心问题

在复杂城市驾驶场景中,自动驾驶车辆需要在高度不确定的环境中安全导航,同时观察和响应异构交通参与者(人类驾驶和自动驾驶车辆)的行为。这些交通参与者具有多模态预测特性,在运动规划中考虑这些因素带来了巨大挑战。

问题重要性

现有的运动规划方法面临可扩展性和实时性的双重挑战:

  1. 分层预测与规划方法:虽然能处理多模态预测,但在复杂场景中缺乏实时可扩展性
  2. 基于模型的集成规划方法:游戏论方法在多车辆场景中计算复杂度过高
  3. 端到端学习方法:虽然可扩展,但缺乏可解释性和安全保证

现有方法局限性

  • 传统MPC方法的约束数量随车辆数量和模态数量呈指数增长(O(NM^V))
  • 在复杂交通场景中,大多数碰撞避免约束实际上是非活跃的
  • 缺乏有效的约束筛选机制来识别真正相关的车辆交互

核心贡献

  1. 提出了RAID-Net架构:基于注意力机制的递归神经网络,能够预测MPC预测时域内自动驾驶车辆与周围车辆的相关交互
  2. 建立了基于对偶性的交互预测理论:利用拉格朗日对偶性和敏感性分析来识别活跃约束
  3. 设计了分层MPC框架:通过约束筛选显著减少计算复杂度,实现12倍求解加速
  4. 构建了交通路口仿真环境:用于训练和评估所提出的算法

方法详解

任务定义

输入:当前环境观测 obtob_t,包括自车状态、周围车辆状态和语义信息 输出:控制输入 utu_t,使自车安全到达目标位置 约束:状态输入约束和多模态碰撞避免约束

模型架构

1. 随机MPC问题建模

考虑V个目标车辆,每个车辆有M种模态,总共M^V种场景配置。优化问题为:

minθtm=1MVE[k=tt+N1Q(xk+1t,mxkref)22+R(ukt,mukref)22]\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]

受约束于:

  • 系统动力学约束
  • 状态输入约束:P((xkt,m,ukt,m)XUk)ϵP((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon
  • 碰撞避免约束:P((xkt,m,okt,jˉ(i,m)i)CAkt,jˉ(i,m)i)ϵP((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon

2. 对偶性理论分析

将MPC问题转换为二阶锥规划(SOCP): minθt12Qtθt22+CtTθts.t.Atθt+RtK\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K

对应的对偶问题为: minμt,ηt[μtTηtT]Rt+12Qt1(AtT[μtTηtT]TCt)22\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2

通过KKT条件,如果[μt]s=0[\mu_t^*]_s = 0,则对应约束可以被消除。

3. RAID-Net架构设计

输入编码

  • 使用基于时间到碰撞(TTC)的自车中心图编码
  • 变换器编码器生成场景表示特征向量 fiRdemf_i \in \mathbb{R}^{d_{em}}

网络结构

  • N个共享参数的解码器序列
  • 多头注意力机制捕获不同类型的车辆交互关系
  • 门控循环单元(GRU)处理时序依赖
  • MLP层学习复杂交互关系

输出:预测对偶变量的二进制分类 μ~t{0,1}nc\tilde{\mu}_t \in \{0,1\}^{n_c}

技术创新点

  1. 对偶性指导的约束筛选:首次将拉格朗日对偶理论应用于MPC约束筛选
  2. 注意力机制的交互建模:通过多头注意力捕获车辆间的复杂交互模式
  3. 递归架构的时域独立性:通过参数共享实现对预测时域长度的独立性
  4. 敏感性分析的安全保证:通过影子价格理论量化约束违反对成本的影响

实验设置

数据集

  • 仿真环境:自定义的无信号交通路口环境
  • 车辆配置:1个自车 + 1-3个目标车辆
  • 模态设置:总共16种模态配置,导致624个碰撞避免约束
  • 数据规模:120,315个数据点,训练集85%,测试集15%

评价指标

  • 可行性:MPC问题可行解的百分比
  • 碰撞率:与目标车辆发生碰撞的时间步百分比
  • 约束比例:平均强制执行的约束百分比
  • 求解时间:MPC问题平均求解时间
  • 任务完成时间:到达目标位置的标准化时间

对比方法

  • Full MPC:包含所有约束的完整MPC问题
  • MLP baseline:使用多层感知机的对比方法

实现细节

  • 预测时域:N = 14,采样时间 Δt = 0.2s
  • 网络参数:学习率0.001,批大小1024,训练3000轮
  • 损失权重:wp = 4(偏向正类预测以提高安全性)
  • 求解器:使用Gurobi求解SOCP问题

实验结果

主要结果

性能指标Full MPCHMPC
可行性 (%)98.9799.79
碰撞率 (%)04.0
平均约束执行率 (%)10017.45
平均求解时间 (s)0.92 ± 0.180.063 ± 0.073
RAID-Net查询时间 (s)-0.013 ± 0.003
总计算时间 (s)0.92 ± 0.180.076 ± 0.076
标准化任务完成时间10.91

关键发现

  1. 12倍加速:HMPC算法实现了12倍的求解时间加速
  2. 高召回率:RAID-Net在测试集上达到94%的召回率,正确预测98.1%的交互对偶变量
  3. 保守预测:17.45%的约束执行率相比1.52%的实际活跃约束率,体现了安全导向的保守策略
  4. 轻微安全代价:4%的碰撞率主要由假阴性分类导致

消融实验

RAID-Net相比标准MLP网络在损失分布上表现更优,验证了注意力机制和递归结构的有效性。

相关工作

主要研究方向

  1. 分层预测与规划:如Trajectron++等方法专注于复杂预测模型
  2. 基于模型的集成方法:游戏论和联合优化方法
  3. 端到端学习方法:如Social Attention等深度学习方法

本文优势

相比现有方法,本文在保持安全性的同时实现了显著的计算效率提升,并提供了可解释的交互预测机制。

结论与讨论

主要结论

  1. 提出了首个基于对偶性理论的MPC约束筛选框架
  2. RAID-Net有效预测了车辆交互,实现了实时性能要求
  3. 在复杂交通场景中实现了12倍的计算加速

局限性

  1. 安全保证不足:缺乏对筛选约束的理论安全保证
  2. 策略过参数化:MPC中的反馈策略可能存在过参数化问题
  3. 泛化能力有限:RAID-Net对不同路口拓扑的泛化能力需要进一步验证
  4. 碰撞风险:4%的碰撞率需要进一步改善

未来方向

  1. 利用DAgger算法解决行为克隆中的分布偏移问题
  2. 在真实交通数据集上测试RAID-Net的泛化性能
  3. 将对偶性交互预测应用于多车协调路径规划
  4. 提供更强的安全理论保证

深度评价

优点

  1. 理论创新:将拉格朗日对偶理论创新性地应用于MPC约束筛选
  2. 实用价值:显著的计算加速使得复杂场景下的实时MPC成为可能
  3. 架构设计:RAID-Net的注意力机制和递归结构设计合理
  4. 实验充分:在仿真环境中进行了全面的性能评估

不足

  1. 安全性权衡:4%的碰撞率对于安全关键应用来说可能不可接受
  2. 仿真局限:仅在简化的交通路口场景中验证,缺乏复杂城市环境的测试
  3. 理论分析不足:对约束筛选错误的理论分析和界限需要加强
  4. 实车验证缺失:缺乏真实车辆平台上的验证

影响力

该工作为自动驾驶中的实时MPC问题提供了新的解决思路,对偶性理论的应用可能启发更多优化问题的高效求解方法。

适用场景

  • 城市交通路口的自动驾驶决策
  • 多机器人协调控制
  • 其他需要实时优化的多智能体系统

参考文献

论文引用了多个重要领域的关键工作,包括:

  • Trajectron++: 动态可行轨迹预测
  • 随机MPC理论基础
  • 注意力机制和Transformer架构
  • 凸优化和对偶理论

该论文在理论创新和实用价值方面都有重要贡献,为自动驾驶中的实时MPC问题提供了有效的解决方案,但在安全保证和实际部署方面还需要进一步改进。