2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet

academic

Control Predictivo de Modelo Multimodal Escalable mediante Predicciones de Interacción Basadas en Dualidad

Información Básica

ID del Artículo: 2402.01116
Título: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
Autores: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
Clasificación: cs.RO cs.LG cs.SY eess.SY
Fecha de Publicación/Conferencia: Preimpresión arXiv (Presentado en febrero de 2024, última actualización en marzo de 2025)
Enlace del Artículo: https://arxiv.org/abs/2402.01116

Resumen

En este artículo se propone una arquitectura jerárquica para implementar control predictivo de modelo (MPC) en tiempo real escalable en escenarios de tráfico multimodal complejo. La arquitectura contiene dos componentes clave: 1) RAID-Net, una red neuronal recurrente basada en mecanismos de atención que utiliza dualidad lagrangiana para predecir las interacciones relevantes entre vehículos autónomos y vehículos circundantes dentro del horizonte de predicción del MPC; 2) un problema MPC estocástico simplificado que mejora la eficiencia computacional mediante la eliminación de restricciones de evitación de colisiones irrelevantes. El método fue validado en un entorno de simulación de intersecciones de tráfico, logrando una aceleración de 12 veces en la resolución de problemas de planificación de movimiento.

Contexto de Investigación y Motivación

Problema Central

En escenarios complejos de conducción urbana, los vehículos autónomos deben navegar de manera segura en entornos altamente inciertos, mientras observan y responden al comportamiento de participantes de tráfico heterogéneos (vehículos conducidos por humanos y vehículos autónomos). Estos participantes de tráfico presentan características de predicción multimodal, lo que presenta desafíos significativos al considerar estos factores en la planificación de movimiento.

Importancia del Problema

Los métodos de planificación de movimiento existentes enfrentan el doble desafío de escalabilidad y capacidad de tiempo real:

Métodos Jerárquicos de Predicción y Planificación: Aunque pueden manejar predicciones multimodales, carecen de escalabilidad en tiempo real en escenarios complejos
Métodos de Planificación Integrada Basados en Modelos: Los enfoques de teoría de juegos tienen una complejidad computacional excesiva en escenarios multiagente
Métodos de Aprendizaje Extremo a Extremo: Aunque son escalables, carecen de interpretabilidad y garantías de seguridad

Limitaciones de Métodos Existentes

El número de restricciones en métodos MPC tradicionales crece exponencialmente con el número de vehículos y modalidades (O(NM^V))
En escenarios de tráfico complejo, la mayoría de las restricciones de evitación de colisiones son en realidad inactivas
Falta de mecanismos efectivos de filtrado de restricciones para identificar interacciones de vehículos verdaderamente relevantes

Contribuciones Principales

Propuesta de la Arquitectura RAID-Net: Red neuronal recurrente basada en mecanismos de atención capaz de predecir interacciones relevantes entre vehículos autónomos y vehículos circundantes dentro del horizonte de predicción del MPC
Establecimiento de Teoría de Predicción de Interacción Basada en Dualidad: Utilización de dualidad lagrangiana y análisis de sensibilidad para identificar restricciones activas
Diseño de Marco MPC Jerárquico: Reducción significativa de la complejidad computacional mediante filtrado de restricciones, logrando aceleración de resolución de 12 veces
Construcción de Entorno de Simulación de Intersecciones de Tráfico: Para entrenamiento y evaluación de los algoritmos propuestos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Observación ambiental actual $ob_t$ , que incluye estado del vehículo propio, estado de vehículos circundantes e información semántica Salida: Entrada de control $u_t$ que permite que el vehículo propio llegue de manera segura a la ubicación objetivo Restricciones: Restricciones de entrada de estado y restricciones multimodales de evitación de colisiones

Arquitectura del Modelo

1. Modelado del Problema MPC Estocástico

Considerando V vehículos objetivo, cada uno con M modalidades, para un total de M^V configuraciones de escenarios. El problema de optimización es:

$\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]$

Sujeto a:

Restricciones de dinámica del sistema
Restricciones de entrada de estado: $P((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon$
Restricciones de evitación de colisiones: $P((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon$

2. Análisis de Teoría de Dualidad

Transformación del problema MPC a programación cónica de segundo orden (SOCP): $\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K$

El problema dual correspondiente es: $\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2$

Mediante condiciones KKT, si $[\mu_t^*]_s = 0$ , la restricción correspondiente puede ser eliminada.

3. Diseño de la Arquitectura RAID-Net

Codificación de Entrada:

Utilización de codificación de gráfico centrado en el vehículo propio basada en tiempo hasta colisión (TTC)
Codificador de transformador genera vector de características de representación de escena $f_i \in \mathbb{R}^{d_{em}}$

Estructura de Red:

Secuencia de N decodificadores con parámetros compartidos
Mecanismo de atención multiencabezado captura relaciones de interacción de vehículos de diferentes tipos
Unidad Recurrente Cerrada (GRU) procesa dependencias temporales
Capa MLP aprende relaciones de interacción complejas

Salida: Predicción de clasificación binaria de variables duales $\tilde{\mu}_t \in \{0,1\}^{n_c}$

Puntos de Innovación Técnica

Filtrado de Restricciones Guiado por Dualidad: Primera aplicación de teoría de dualidad lagrangiana al filtrado de restricciones MPC
Modelado de Interacción mediante Mecanismo de Atención: Captura de patrones de interacción complejos entre vehículos mediante atención multiencabezado
Independencia Temporal de Arquitectura Recurrente: Logro de independencia respecto a la longitud del horizonte de predicción mediante compartición de parámetros
Garantías de Seguridad mediante Análisis de Sensibilidad: Cuantificación del impacto de violaciones de restricciones en el costo mediante teoría de precios sombra

Configuración Experimental

Conjunto de Datos

Entorno de Simulación: Entorno personalizado de intersección de tráfico sin señales
Configuración de Vehículos: 1 vehículo propio + 1-3 vehículos objetivo
Configuración de Modalidades: Total de 16 configuraciones de modalidades, resultando en 624 restricciones de evitación de colisiones
Escala de Datos: 120,315 puntos de datos, 85% conjunto de entrenamiento, 15% conjunto de prueba

Métricas de Evaluación

Viabilidad: Porcentaje de soluciones viables del problema MPC
Tasa de Colisión: Porcentaje de pasos de tiempo con colisión con vehículos objetivo
Proporción de Restricciones: Porcentaje promedio de restricciones aplicadas
Tiempo de Resolución: Tiempo promedio de resolución del problema MPC
Tiempo de Finalización de Tarea: Tiempo normalizado para llegar a la ubicación objetivo

Métodos de Comparación

MPC Completo: Problema MPC completo con todas las restricciones
Línea Base MLP: Método de comparación utilizando perceptrón multicapa

Detalles de Implementación

Horizonte de Predicción: N = 14, tiempo de muestreo Δt = 0.2s
Parámetros de Red: Tasa de aprendizaje 0.001, tamaño de lote 1024, 3000 épocas de entrenamiento
Pesos de Pérdida: wp = 4 (sesgo hacia predicción de clase positiva para mejorar seguridad)
Solucionador: Uso de Gurobi para resolver problemas SOCP

Resultados Experimentales

Resultados Principales

Métrica de Desempeño	MPC Completo	HMPC
Viabilidad (%)	98.97	99.79
Tasa de Colisión (%)	0	4.0
Tasa Promedio de Aplicación de Restricciones (%)	100	17.45
Tiempo Promedio de Resolución (s)	0.92 ± 0.18	0.063 ± 0.073
Tiempo de Consulta RAID-Net (s)	-	0.013 ± 0.003
Tiempo Computacional Total (s)	0.92 ± 0.18	0.076 ± 0.076
Tiempo Normalizado de Finalización de Tarea	1	0.91

Hallazgos Clave

Aceleración de 12 Veces: El algoritmo HMPC logra una aceleración de 12 veces en el tiempo de resolución
Tasa de Recuperación Alta: RAID-Net alcanza 94% de tasa de recuperación en el conjunto de prueba, prediciendo correctamente 98.1% de variables duales de interacción
Predicción Conservadora: La tasa de aplicación de restricciones del 17.45% en comparación con la tasa de restricciones activas reales del 1.52% refleja una estrategia conservadora orientada a la seguridad
Costo de Seguridad Leve: La tasa de colisión del 4% se debe principalmente a clasificaciones de falsos negativos

Experimentos de Ablación

RAID-Net muestra mejor desempeño en comparación con la red MLP estándar en la distribución de pérdidas, validando la efectividad del mecanismo de atención y la estructura recurrente.

Trabajo Relacionado

Direcciones Principales de Investigación

Predicción y Planificación Jerárquica: Métodos como Trajectron++ enfocados en modelos de predicción complejos
Métodos Integrados Basados en Modelos: Enfoques de teoría de juegos y optimización conjunta
Métodos de Aprendizaje Extremo a Extremo: Métodos de aprendizaje profundo como Social Attention

Ventajas de Este Trabajo

En comparación con métodos existentes, este trabajo logra una mejora significativa en eficiencia computacional mientras mantiene la seguridad, y proporciona un mecanismo de predicción de interacción interpretable.

Conclusiones y Discusión

Conclusiones Principales

Propuesta del primer marco de filtrado de restricciones MPC basado en teoría de dualidad
RAID-Net predice efectivamente interacciones de vehículos, logrando requisitos de desempeño en tiempo real
Logro de aceleración computacional de 12 veces en escenarios de tráfico complejo

Limitaciones

Garantías de Seguridad Insuficientes: Falta de garantías de seguridad teóricas para restricciones filtradas
Sobreparametrización de Política: Posible sobreparametrización de la política de retroalimentación en MPC
Capacidad de Generalización Limitada: La capacidad de generalización de RAID-Net a diferentes topologías de intersecciones requiere verificación adicional
Riesgo de Colisión: La tasa de colisión del 4% requiere mejora adicional

Direcciones Futuras

Utilización del algoritmo DAgger para abordar el desplazamiento de distribución en clonación de comportamiento
Prueba del desempeño de generalización de RAID-Net en conjuntos de datos de tráfico real
Aplicación de predicción de interacción basada en dualidad a planificación de rutas coordinadas multiagente
Provisión de garantías teóricas de seguridad más sólidas

Evaluación Profunda

Fortalezas

Innovación Teórica: Aplicación innovadora de teoría de dualidad lagrangiana al filtrado de restricciones MPC
Valor Práctico: La aceleración computacional significativa hace posible MPC en tiempo real en escenarios complejos
Diseño de Arquitectura: El diseño de RAID-Net con mecanismo de atención y estructura recurrente es razonable
Experimentos Completos: Evaluación de desempeño integral en entorno de simulación

Insuficiencias

Compensación de Seguridad: La tasa de colisión del 4% puede ser inaceptable para aplicaciones críticas de seguridad
Limitaciones de Simulación: Validación solo en escenarios simplificados de intersecciones de tráfico, falta de pruebas en entornos urbanos complejos
Análisis Teórico Insuficiente: Se requiere fortalecimiento del análisis teórico y límites de errores de filtrado de restricciones
Ausencia de Verificación en Vehículos Reales: Falta de verificación en plataformas de vehículos reales

Impacto

Este trabajo proporciona nuevas perspectivas de solución para problemas de MPC en tiempo real en conducción autónoma, y la aplicación de teoría de dualidad puede inspirar métodos de resolución eficiente para más problemas de optimización.

Escenarios Aplicables

Toma de decisiones de conducción autónoma en intersecciones de tráfico urbano
Control coordinado de múltiples robots
Otros sistemas multiagente que requieren optimización en tiempo real

Referencias

El artículo cita trabajos clave de múltiples campos importantes, incluyendo:

Trajectron++: Predicción de trayectorias dinámicamente viables
Fundamentos de teoría MPC estocástica
Arquitecturas de mecanismo de atención y Transformer
Optimización convexa y teoría de dualidad

Este artículo realiza contribuciones importantes tanto en innovación teórica como en valor práctico, proporcionando una solución efectiva para problemas de MPC en tiempo real en conducción autónoma, aunque requiere mejoras adicionales en garantías de seguridad y despliegue práctico.