2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet

academic

Contrôle Prédictif Multimodal Scalable via Prédictions d'Interaction Basées sur la Dualité

Informations Fondamentales

ID de l'article: 2402.01116
Titre: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
Auteurs: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
Classification: cs.RO cs.LG cs.SY eess.SY
Date de publication/Conférence: Prépublication arXiv (soumis en février 2024, dernière mise à jour en mars 2025)
Lien de l'article: https://arxiv.org/abs/2402.01116

Résumé

Cet article propose une architecture hiérarchique pour réaliser un contrôle prédictif multimodal scalable en temps réel (MPC) dans des scénarios de circulation complexes. L'architecture comprend deux composants clés : 1) RAID-Net, un réseau neuronal récurrent basé sur les mécanismes d'attention, utilisant la dualité lagrangienne pour prédire les interactions pertinentes entre le véhicule autonome et les véhicules environnants dans l'horizon de prédiction du MPC ; 2) un problème MPC stochastique simplifié qui améliore l'efficacité computationnelle en éliminant les contraintes d'évitement de collision non pertinentes. La méthode a été validée dans un environnement de simulation d'intersection routière, réalisant une accélération de 12 fois pour la résolution des problèmes de planification de mouvement.

Contexte de Recherche et Motivation

Problème Central

Dans les scénarios complexes de conduite urbaine, les véhicules autonomes doivent naviguer en toute sécurité dans un environnement hautement incertain, tout en observant et en répondant aux comportements des participants au trafic hétérogènes (véhicules conduits par des humains et véhicules autonomes). Ces participants au trafic présentent des caractéristiques de prédiction multimodales, et la prise en compte de ces facteurs dans la planification de mouvement pose des défis considérables.

Importance du Problème

Les méthodes de planification de mouvement existantes font face à un double défi d'évolutivité et de temps réel :

Méthodes hiérarchiques de prédiction et planification: Bien qu'elles puissent traiter les prédictions multimodales, elles manquent d'évolutivité en temps réel dans les scénarios complexes
Méthodes de planification intégrée basées sur le modèle: Les approches de théorie des jeux présentent une complexité computationnelle excessive dans les scénarios multi-véhicules
Méthodes d'apprentissage de bout en bout: Bien qu'évolutives, elles manquent d'interprétabilité et de garanties de sécurité

Limitations des Méthodes Existantes

Le nombre de contraintes des méthodes MPC traditionnelles croît exponentiellement avec le nombre de véhicules et de modalités (O(NM^V))
Dans les scénarios de circulation complexes, la plupart des contraintes d'évitement de collision sont en réalité inactives
Absence de mécanisme efficace de filtrage des contraintes pour identifier les interactions véhiculaires véritablement pertinentes

Contributions Principales

Proposition de l'architecture RAID-Net: Un réseau neuronal récurrent basé sur les mécanismes d'attention capable de prédire les interactions pertinentes entre le véhicule autonome et les véhicules environnants dans l'horizon de prédiction du MPC
Établissement d'une théorie de prédiction d'interaction basée sur la dualité: Utilisation de la dualité lagrangienne et de l'analyse de sensibilité pour identifier les contraintes actives
Conception d'un cadre MPC hiérarchique: Réduction significative de la complexité computationnelle par filtrage des contraintes, réalisant une accélération de résolution de 12 fois
Construction d'un environnement de simulation d'intersection routière: Pour l'entraînement et l'évaluation de l'algorithme proposé

Détails de la Méthode

Définition de la Tâche

Entrée: Observation environnementale actuelle $ob_t$ , incluant l'état du véhicule propre, l'état des véhicules environnants et les informations sémantiques Sortie: Entrée de contrôle $u_t$ , permettant au véhicule propre d'atteindre en toute sécurité la position cible Contraintes: Contraintes d'état-entrée et contraintes multimodales d'évitement de collision

Architecture du Modèle

1. Modélisation du Problème MPC Stochastique

Considérant V véhicules cibles, chacun avec M modalités, totalisant M^V configurations de scénarios. Le problème d'optimisation est :

$\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]$

Sujet aux contraintes :

Contraintes de dynamique du système
Contraintes d'état-entrée: $P((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon$
Contraintes d'évitement de collision: $P((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon$

2. Analyse de la Théorie de la Dualité

Transformation du problème MPC en programmation conique du second ordre (SOCP) : $\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K$

Le problème dual correspondant est : $\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2$

Par les conditions KKT, si $[\mu_t^*]_s = 0$ , la contrainte correspondante peut être éliminée.

3. Conception de l'Architecture RAID-Net

Codage d'entrée:

Utilisation d'un codage de graphe centré sur le véhicule propre basé sur le temps jusqu'à la collision (TTC)
Encodeur Transformer générant un vecteur de caractéristiques de représentation de scène $f_i \in \mathbb{R}^{d_{em}}$

Structure du réseau:

Séquence de N décodeurs avec paramètres partagés
Mécanisme d'attention multi-têtes capturant différents types de relations d'interaction véhiculaire
Unité récurrente à porte (GRU) traitant les dépendances temporelles
Couche MLP apprenant les relations d'interaction complexes

Sortie: Classification binaire des variables duales prédites $\tilde{\mu}_t \in \{0,1\}^{n_c}$

Points d'Innovation Technique

Filtrage des contraintes guidé par la dualité: Application novatrice de la théorie de dualité lagrangienne au filtrage des contraintes MPC
Modélisation des interactions par mécanisme d'attention: Capture des motifs d'interaction complexes entre véhicules via attention multi-têtes
Indépendance temporelle de l'architecture récurrente: Réalisation de l'indépendance par rapport à la longueur de l'horizon de prédiction via partage de paramètres
Garanties de sécurité par analyse de sensibilité: Quantification de l'impact des violations de contraintes sur le coût via la théorie des prix fictifs

Configuration Expérimentale

Ensemble de Données

Environnement de simulation: Environnement d'intersection routière sans signalisation personnalisé
Configuration des véhicules: 1 véhicule propre + 1-3 véhicules cibles
Configuration des modalités: 16 configurations de modalités au total, générant 624 contraintes d'évitement de collision
Échelle des données: 120 315 points de données, ensemble d'entraînement 85%, ensemble de test 15%

Métriques d'Évaluation

Faisabilité: Pourcentage de solutions réalisables du problème MPC
Taux de collision: Pourcentage d'étapes temporelles avec collision avec les véhicules cibles
Ratio de contraintes: Pourcentage moyen de contraintes appliquées
Temps de résolution: Temps moyen de résolution du problème MPC
Temps de complétion de tâche: Temps normalisé pour atteindre la position cible

Méthodes de Comparaison

Full MPC: Problème MPC complet incluant toutes les contraintes
Baseline MLP: Méthode de comparaison utilisant un perceptron multicouche

Détails d'Implémentation

Horizon de prédiction: N = 14, temps d'échantillonnage Δt = 0,2s
Paramètres du réseau: Taux d'apprentissage 0,001, taille de lot 1024, 3000 epochs d'entraînement
Poids de perte: wp = 4 (biais vers la prédiction positive pour améliorer la sécurité)
Solveur: Utilisation de Gurobi pour résoudre le problème SOCP

Résultats Expérimentaux

Résultats Principaux

Indicateur de Performance	Full MPC	HMPC
Faisabilité (%)	98,97	99,79
Taux de collision (%)	0	4,0
Taux moyen d'exécution des contraintes (%)	100	17,45
Temps moyen de résolution (s)	0,92 ± 0,18	0,063 ± 0,073
Temps de requête RAID-Net (s)	-	0,013 ± 0,003
Temps de calcul total (s)	0,92 ± 0,18	0,076 ± 0,076
Temps normalisé de complétion de tâche	1	0,91

Découvertes Clés

Accélération de 12 fois: L'algorithme HMPC réalise une accélération de 12 fois du temps de résolution
Taux de rappel élevé: RAID-Net atteint 94% de rappel sur l'ensemble de test, prédisant correctement 98,1% des variables duales d'interaction
Prédiction conservatrice: Le taux d'exécution des contraintes de 17,45% par rapport au taux réel de contraintes actives de 1,52% reflète une stratégie conservatrice orientée vers la sécurité
Coût de sécurité léger: Le taux de collision de 4% est principalement dû aux classifications faux négatifs

Expériences d'Ablation

RAID-Net montre des performances supérieures par rapport au réseau MLP standard en termes de distribution des pertes, validant l'efficacité du mécanisme d'attention et de la structure récurrente.

Travaux Connexes

Directions de Recherche Principales

Prédiction et planification hiérarchiques: Méthodes comme Trajectron++ se concentrant sur des modèles de prédiction complexes
Méthodes intégrées basées sur le modèle: Approches de théorie des jeux et d'optimisation conjointe
Méthodes d'apprentissage de bout en bout: Comme Social Attention et autres méthodes d'apprentissage profond

Avantages de Cet Article

Par rapport aux méthodes existantes, cet article réalise une amélioration significative de l'efficacité computationnelle tout en maintenant la sécurité, et fournit un mécanisme de prédiction d'interaction interprétable.

Conclusion et Discussion

Conclusions Principales

Proposition du premier cadre de filtrage des contraintes MPC basé sur la théorie de la dualité
RAID-Net prédit efficacement les interactions véhiculaires, réalisant les exigences de performance en temps réel
Réalisation d'une accélération computationnelle de 12 fois dans les scénarios de circulation complexes

Limitations

Garanties de sécurité insuffisantes: Absence de garanties théoriques de sécurité pour les contraintes filtrées
Surparamétrage de la politique: La politique de rétroaction dans le MPC peut présenter un problème de surparamétrage
Capacité de généralisation limitée: La capacité de généralisation de RAID-Net à différentes topologies d'intersection nécessite une vérification supplémentaire
Risque de collision: Le taux de collision de 4% nécessite une amélioration supplémentaire

Directions Futures

Utilisation de l'algorithme DAgger pour résoudre le problème de décalage de distribution dans le clonage comportemental
Test de la performance de généralisation de RAID-Net sur des ensembles de données de trafic réel
Application de la prédiction d'interaction basée sur la dualité à la planification de trajectoire multi-véhicules coordonnée
Fourniture de garanties théoriques de sécurité plus fortes

Évaluation Approfondie

Points Forts

Innovation théorique: Application innovante de la théorie de dualité lagrangienne au filtrage des contraintes MPC
Valeur pratique: L'accélération computationnelle significative rend possible le MPC en temps réel dans les scénarios complexes
Conception architecturale: La conception du mécanisme d'attention et de la structure récurrente de RAID-Net est raisonnable
Évaluation expérimentale complète: Évaluation complète des performances dans un environnement de simulation

Insuffisances

Compromis de sécurité: Le taux de collision de 4% peut être inacceptable pour les applications critiques pour la sécurité
Limitations de la simulation: Validation uniquement dans un scénario simplifié d'intersection routière, manque de tests dans des environnements urbains complexes
Analyse théorique insuffisante: L'analyse théorique et les limites des erreurs de filtrage des contraintes nécessitent un renforcement
Absence de vérification sur véhicule réel: Manque de validation sur une plateforme de véhicule réel

Impact

Ce travail fournit une nouvelle approche pour le problème du MPC en temps réel dans la conduite autonome, et l'application de la théorie de la dualité peut inspirer des méthodes plus efficaces de résolution pour d'autres problèmes d'optimisation.

Scénarios d'Application

Prise de décision de conduite autonome aux intersections routières urbaines
Contrôle de coordination multi-robots
Autres systèmes multi-agents nécessitant une optimisation en temps réel

Références

L'article cite plusieurs travaux clés dans les domaines importants, notamment :

Trajectron++: Prédiction de trajectoires dynamiquement réalisables
Fondements théoriques du MPC stochastique
Architecture des mécanismes d'attention et Transformer
Optimisation convexe et théorie de la dualité

Cet article apporte des contributions importantes tant sur le plan théorique que sur le plan de la valeur pratique, fournissant une solution efficace au problème du MPC en temps réel dans la conduite autonome, mais nécessite des améliorations supplémentaires en matière de garanties de sécurité et de déploiement pratique.