2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli
We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
academic

Contrôle Prédictif Multimodal Scalable via Prédictions d'Interaction Basées sur la Dualité

Informations Fondamentales

  • ID de l'article: 2402.01116
  • Titre: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
  • Auteurs: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
  • Classification: cs.RO cs.LG cs.SY eess.SY
  • Date de publication/Conférence: Prépublication arXiv (soumis en février 2024, dernière mise à jour en mars 2025)
  • Lien de l'article: https://arxiv.org/abs/2402.01116

Résumé

Cet article propose une architecture hiérarchique pour réaliser un contrôle prédictif multimodal scalable en temps réel (MPC) dans des scénarios de circulation complexes. L'architecture comprend deux composants clés : 1) RAID-Net, un réseau neuronal récurrent basé sur les mécanismes d'attention, utilisant la dualité lagrangienne pour prédire les interactions pertinentes entre le véhicule autonome et les véhicules environnants dans l'horizon de prédiction du MPC ; 2) un problème MPC stochastique simplifié qui améliore l'efficacité computationnelle en éliminant les contraintes d'évitement de collision non pertinentes. La méthode a été validée dans un environnement de simulation d'intersection routière, réalisant une accélération de 12 fois pour la résolution des problèmes de planification de mouvement.

Contexte de Recherche et Motivation

Problème Central

Dans les scénarios complexes de conduite urbaine, les véhicules autonomes doivent naviguer en toute sécurité dans un environnement hautement incertain, tout en observant et en répondant aux comportements des participants au trafic hétérogènes (véhicules conduits par des humains et véhicules autonomes). Ces participants au trafic présentent des caractéristiques de prédiction multimodales, et la prise en compte de ces facteurs dans la planification de mouvement pose des défis considérables.

Importance du Problème

Les méthodes de planification de mouvement existantes font face à un double défi d'évolutivité et de temps réel :

  1. Méthodes hiérarchiques de prédiction et planification: Bien qu'elles puissent traiter les prédictions multimodales, elles manquent d'évolutivité en temps réel dans les scénarios complexes
  2. Méthodes de planification intégrée basées sur le modèle: Les approches de théorie des jeux présentent une complexité computationnelle excessive dans les scénarios multi-véhicules
  3. Méthodes d'apprentissage de bout en bout: Bien qu'évolutives, elles manquent d'interprétabilité et de garanties de sécurité

Limitations des Méthodes Existantes

  • Le nombre de contraintes des méthodes MPC traditionnelles croît exponentiellement avec le nombre de véhicules et de modalités (O(NM^V))
  • Dans les scénarios de circulation complexes, la plupart des contraintes d'évitement de collision sont en réalité inactives
  • Absence de mécanisme efficace de filtrage des contraintes pour identifier les interactions véhiculaires véritablement pertinentes

Contributions Principales

  1. Proposition de l'architecture RAID-Net: Un réseau neuronal récurrent basé sur les mécanismes d'attention capable de prédire les interactions pertinentes entre le véhicule autonome et les véhicules environnants dans l'horizon de prédiction du MPC
  2. Établissement d'une théorie de prédiction d'interaction basée sur la dualité: Utilisation de la dualité lagrangienne et de l'analyse de sensibilité pour identifier les contraintes actives
  3. Conception d'un cadre MPC hiérarchique: Réduction significative de la complexité computationnelle par filtrage des contraintes, réalisant une accélération de résolution de 12 fois
  4. Construction d'un environnement de simulation d'intersection routière: Pour l'entraînement et l'évaluation de l'algorithme proposé

Détails de la Méthode

Définition de la Tâche

Entrée: Observation environnementale actuelle obtob_t, incluant l'état du véhicule propre, l'état des véhicules environnants et les informations sémantiques Sortie: Entrée de contrôle utu_t, permettant au véhicule propre d'atteindre en toute sécurité la position cible Contraintes: Contraintes d'état-entrée et contraintes multimodales d'évitement de collision

Architecture du Modèle

1. Modélisation du Problème MPC Stochastique

Considérant V véhicules cibles, chacun avec M modalités, totalisant M^V configurations de scénarios. Le problème d'optimisation est :

minθtm=1MVE[k=tt+N1Q(xk+1t,mxkref)22+R(ukt,mukref)22]\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]

Sujet aux contraintes :

  • Contraintes de dynamique du système
  • Contraintes d'état-entrée: P((xkt,m,ukt,m)XUk)ϵP((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon
  • Contraintes d'évitement de collision: P((xkt,m,okt,jˉ(i,m)i)CAkt,jˉ(i,m)i)ϵP((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon

2. Analyse de la Théorie de la Dualité

Transformation du problème MPC en programmation conique du second ordre (SOCP) : minθt12Qtθt22+CtTθts.t.Atθt+RtK\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K

Le problème dual correspondant est : minμt,ηt[μtTηtT]Rt+12Qt1(AtT[μtTηtT]TCt)22\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2

Par les conditions KKT, si [μt]s=0[\mu_t^*]_s = 0, la contrainte correspondante peut être éliminée.

3. Conception de l'Architecture RAID-Net

Codage d'entrée:

  • Utilisation d'un codage de graphe centré sur le véhicule propre basé sur le temps jusqu'à la collision (TTC)
  • Encodeur Transformer générant un vecteur de caractéristiques de représentation de scène fiRdemf_i \in \mathbb{R}^{d_{em}}

Structure du réseau:

  • Séquence de N décodeurs avec paramètres partagés
  • Mécanisme d'attention multi-têtes capturant différents types de relations d'interaction véhiculaire
  • Unité récurrente à porte (GRU) traitant les dépendances temporelles
  • Couche MLP apprenant les relations d'interaction complexes

Sortie: Classification binaire des variables duales prédites μ~t{0,1}nc\tilde{\mu}_t \in \{0,1\}^{n_c}

Points d'Innovation Technique

  1. Filtrage des contraintes guidé par la dualité: Application novatrice de la théorie de dualité lagrangienne au filtrage des contraintes MPC
  2. Modélisation des interactions par mécanisme d'attention: Capture des motifs d'interaction complexes entre véhicules via attention multi-têtes
  3. Indépendance temporelle de l'architecture récurrente: Réalisation de l'indépendance par rapport à la longueur de l'horizon de prédiction via partage de paramètres
  4. Garanties de sécurité par analyse de sensibilité: Quantification de l'impact des violations de contraintes sur le coût via la théorie des prix fictifs

Configuration Expérimentale

Ensemble de Données

  • Environnement de simulation: Environnement d'intersection routière sans signalisation personnalisé
  • Configuration des véhicules: 1 véhicule propre + 1-3 véhicules cibles
  • Configuration des modalités: 16 configurations de modalités au total, générant 624 contraintes d'évitement de collision
  • Échelle des données: 120 315 points de données, ensemble d'entraînement 85%, ensemble de test 15%

Métriques d'Évaluation

  • Faisabilité: Pourcentage de solutions réalisables du problème MPC
  • Taux de collision: Pourcentage d'étapes temporelles avec collision avec les véhicules cibles
  • Ratio de contraintes: Pourcentage moyen de contraintes appliquées
  • Temps de résolution: Temps moyen de résolution du problème MPC
  • Temps de complétion de tâche: Temps normalisé pour atteindre la position cible

Méthodes de Comparaison

  • Full MPC: Problème MPC complet incluant toutes les contraintes
  • Baseline MLP: Méthode de comparaison utilisant un perceptron multicouche

Détails d'Implémentation

  • Horizon de prédiction: N = 14, temps d'échantillonnage Δt = 0,2s
  • Paramètres du réseau: Taux d'apprentissage 0,001, taille de lot 1024, 3000 epochs d'entraînement
  • Poids de perte: wp = 4 (biais vers la prédiction positive pour améliorer la sécurité)
  • Solveur: Utilisation de Gurobi pour résoudre le problème SOCP

Résultats Expérimentaux

Résultats Principaux

Indicateur de PerformanceFull MPCHMPC
Faisabilité (%)98,9799,79
Taux de collision (%)04,0
Taux moyen d'exécution des contraintes (%)10017,45
Temps moyen de résolution (s)0,92 ± 0,180,063 ± 0,073
Temps de requête RAID-Net (s)-0,013 ± 0,003
Temps de calcul total (s)0,92 ± 0,180,076 ± 0,076
Temps normalisé de complétion de tâche10,91

Découvertes Clés

  1. Accélération de 12 fois: L'algorithme HMPC réalise une accélération de 12 fois du temps de résolution
  2. Taux de rappel élevé: RAID-Net atteint 94% de rappel sur l'ensemble de test, prédisant correctement 98,1% des variables duales d'interaction
  3. Prédiction conservatrice: Le taux d'exécution des contraintes de 17,45% par rapport au taux réel de contraintes actives de 1,52% reflète une stratégie conservatrice orientée vers la sécurité
  4. Coût de sécurité léger: Le taux de collision de 4% est principalement dû aux classifications faux négatifs

Expériences d'Ablation

RAID-Net montre des performances supérieures par rapport au réseau MLP standard en termes de distribution des pertes, validant l'efficacité du mécanisme d'attention et de la structure récurrente.

Travaux Connexes

Directions de Recherche Principales

  1. Prédiction et planification hiérarchiques: Méthodes comme Trajectron++ se concentrant sur des modèles de prédiction complexes
  2. Méthodes intégrées basées sur le modèle: Approches de théorie des jeux et d'optimisation conjointe
  3. Méthodes d'apprentissage de bout en bout: Comme Social Attention et autres méthodes d'apprentissage profond

Avantages de Cet Article

Par rapport aux méthodes existantes, cet article réalise une amélioration significative de l'efficacité computationnelle tout en maintenant la sécurité, et fournit un mécanisme de prédiction d'interaction interprétable.

Conclusion et Discussion

Conclusions Principales

  1. Proposition du premier cadre de filtrage des contraintes MPC basé sur la théorie de la dualité
  2. RAID-Net prédit efficacement les interactions véhiculaires, réalisant les exigences de performance en temps réel
  3. Réalisation d'une accélération computationnelle de 12 fois dans les scénarios de circulation complexes

Limitations

  1. Garanties de sécurité insuffisantes: Absence de garanties théoriques de sécurité pour les contraintes filtrées
  2. Surparamétrage de la politique: La politique de rétroaction dans le MPC peut présenter un problème de surparamétrage
  3. Capacité de généralisation limitée: La capacité de généralisation de RAID-Net à différentes topologies d'intersection nécessite une vérification supplémentaire
  4. Risque de collision: Le taux de collision de 4% nécessite une amélioration supplémentaire

Directions Futures

  1. Utilisation de l'algorithme DAgger pour résoudre le problème de décalage de distribution dans le clonage comportemental
  2. Test de la performance de généralisation de RAID-Net sur des ensembles de données de trafic réel
  3. Application de la prédiction d'interaction basée sur la dualité à la planification de trajectoire multi-véhicules coordonnée
  4. Fourniture de garanties théoriques de sécurité plus fortes

Évaluation Approfondie

Points Forts

  1. Innovation théorique: Application innovante de la théorie de dualité lagrangienne au filtrage des contraintes MPC
  2. Valeur pratique: L'accélération computationnelle significative rend possible le MPC en temps réel dans les scénarios complexes
  3. Conception architecturale: La conception du mécanisme d'attention et de la structure récurrente de RAID-Net est raisonnable
  4. Évaluation expérimentale complète: Évaluation complète des performances dans un environnement de simulation

Insuffisances

  1. Compromis de sécurité: Le taux de collision de 4% peut être inacceptable pour les applications critiques pour la sécurité
  2. Limitations de la simulation: Validation uniquement dans un scénario simplifié d'intersection routière, manque de tests dans des environnements urbains complexes
  3. Analyse théorique insuffisante: L'analyse théorique et les limites des erreurs de filtrage des contraintes nécessitent un renforcement
  4. Absence de vérification sur véhicule réel: Manque de validation sur une plateforme de véhicule réel

Impact

Ce travail fournit une nouvelle approche pour le problème du MPC en temps réel dans la conduite autonome, et l'application de la théorie de la dualité peut inspirer des méthodes plus efficaces de résolution pour d'autres problèmes d'optimisation.

Scénarios d'Application

  • Prise de décision de conduite autonome aux intersections routières urbaines
  • Contrôle de coordination multi-robots
  • Autres systèmes multi-agents nécessitant une optimisation en temps réel

Références

L'article cite plusieurs travaux clés dans les domaines importants, notamment :

  • Trajectron++: Prédiction de trajectoires dynamiquement réalisables
  • Fondements théoriques du MPC stochastique
  • Architecture des mécanismes d'attention et Transformer
  • Optimisation convexe et théorie de la dualité

Cet article apporte des contributions importantes tant sur le plan théorique que sur le plan de la valeur pratique, fournissant une solution efficace au problème du MPC en temps réel dans la conduite autonome, mais nécessite des améliorations supplémentaires en matière de garanties de sécurité et de déploiement pratique.