We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
- Paper-ID: 2402.01116
- Titel: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
- Autoren: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
- Klassifizierung: cs.RO cs.LG cs.SY eess.SY
- Veröffentlichungszeitpunkt/Konferenz: arXiv-Preprint (eingereicht Februar 2024, letzte Aktualisierung März 2025)
- Paper-Link: https://arxiv.org/abs/2402.01116
In diesem Beitrag wird eine hierarchische Architektur zur Realisierung skalierbarer Echtzeit-Modellprädiktiver Regelung (MPC) in komplexen multimodalen Verkehrsszenarien vorgestellt. Die Architektur besteht aus zwei Schlüsselkomponenten: 1) RAID-Net, ein auf Aufmerksamkeitsmechanismen basierendes rekurrentes neuronales Netz, das unter Verwendung der Lagrange-Dualität die relevanten Interaktionen zwischen autonomen Fahrzeugen und umgebenden Fahrzeugen innerhalb des MPC-Prognosehorizonts vorhersagt; 2) ein vereinfachtes stochastisches MPC-Problem, das durch Eliminierung irrelevanter Kollisionsvermeidungsrestriktionen die Recheneffizienz verbessert. Das Verfahren wurde in simulierten Verkehrsknotenpunktumgebungen validiert und erreichte eine 12-fache Beschleunigung bei der Lösung von Bewegungsplanungsproblemen.
In komplexen städtischen Fahrsituationen müssen autonome Fahrzeuge in hochgradig unsicheren Umgebungen sicher navigieren und gleichzeitig das Verhalten heterogener Verkehrsteilnehmer (von Menschen gesteuerte und autonome Fahrzeuge) beobachten und darauf reagieren. Diese Verkehrsteilnehmer weisen multimodale Prognoseeigenschaften auf, deren Berücksichtigung in der Bewegungsplanung erhebliche Herausforderungen mit sich bringt.
Bestehende Bewegungsplanungsmethoden sehen sich der doppelten Herausforderung von Skalierbarkeit und Echtzeitfähigkeit gegenüber:
- Hierarchische Prognose- und Planungsmethoden: Obwohl sie multimodale Prognosen verarbeiten können, fehlt ihnen die Echtzeitskalierbarkheit in komplexen Szenarien
- Modellbasierte integrierte Planungsmethoden: Spieltheoretische Ansätze weisen in Mehrfahrzeug-Szenarien zu hohe Rechenkomplexität auf
- End-to-End-Lernmethoden: Obwohl skalierbar, mangelt es ihnen an Interpretierbarkeit und Sicherheitsgarantien
- Die Anzahl der Restriktionen in traditionellen MPC-Methoden wächst exponentiell mit der Anzahl der Fahrzeuge und Modi (O(NM^V))
- In komplexen Verkehrsszenarien sind die meisten Kollisionsvermeidungsrestriktionen tatsächlich inaktiv
- Es fehlt ein wirksamer Restriktionsauswahlmechanismus zur Identifizierung wirklich relevanter Fahrzeuginteraktionen
- Vorschlag der RAID-Net-Architektur: Ein auf Aufmerksamkeitsmechanismen basierendes rekurrentes neuronales Netz, das relevante Interaktionen zwischen autonomen Fahrzeugen und umgebenden Fahrzeugen innerhalb des MPC-Prognosehorizonts vorhersagen kann
- Etablierung einer dualitätsbasierten Interaktionsprognostheorie: Nutzung der Lagrange-Dualität und Sensitivitätsanalyse zur Identifizierung aktiver Restriktionen
- Entwurf eines hierarchischen MPC-Rahmens: Signifikante Reduzierung der Rechenkomplexität durch Restriktionsauswahl, Realisierung einer 12-fachen Lösungsbeschleunigung
- Konstruktion einer Verkehrsknotenpunkt-Simulationsumgebung: Zur Schulung und Bewertung des vorgeschlagenen Algorithmus
Eingabe: Aktuelle Umgebungsbeobachtung obt, einschließlich Eigenfahrzeugzustand, Zustand umgebender Fahrzeuge und semantischer Informationen
Ausgabe: Steuereingang ut, um das Eigenfahrzeug sicher zum Zielort zu bringen
Restriktionen: Zustands-Eingabe-Restriktionen und multimodale Kollisionsvermeidungsrestriktionen
Unter Berücksichtigung von V Zielfahrzeugen mit jeweils M Modi ergeben sich insgesamt M^V Szenariokonfigurationen. Das Optimierungsproblem lautet:
minθt∑m=1MVE[∑k=tt+N−1∥Q(xk+1∣t,m−xkref)∥22+∥R(uk∣t,m−ukref)∥22]
unter Einhaltung von:
- Systemdynamik-Restriktionen
- Zustands-Eingabe-Restriktionen: P((xk∣t,m,uk∣t,m)∈/XUk)≤ϵ
- Kollisionsvermeidungsrestriktionen: P((xk∣t,m,ok∣t,jˉ(i,m)i)∈/CAk∣t,jˉ(i,m)i)≤ϵ
Umwandlung des MPC-Problems in ein Optimierungsproblem zweiter Ordnung (SOCP):
minθt21∥Qtθt∥22+CtTθts.t.Atθt+Rt∈K
Das entsprechende duale Problem lautet:
minμt,ηt[μtTηtT]Rt+21∥Qt−1(AtT[μtTηtT]T−Ct)∥22
Durch KKT-Bedingungen kann eine Restriktion eliminiert werden, wenn [μt∗]s=0.
Eingabekodierung:
- Verwendung einer auf Zeit bis Kollision (TTC) basierenden Eigenfahrzeug-zentrierten Graphenkodierung
- Transformer-Encoder generiert Szenario-Darstellungsmerkmalsvektor fi∈Rdem
Netzwerkstruktur:
- N Decoder-Sequenzen mit gemeinsamen Parametern
- Multi-Head-Aufmerksamkeitsmechanismus erfasst verschiedene Arten von Fahrzeuginteraktionsbeziehungen
- Gated Recurrent Unit (GRU) verarbeitet zeitliche Abhängigkeiten
- MLP-Schicht erlernt komplexe Interaktionsmuster
Ausgabe: Binärklassifizierung der vorhergesagten dualen Variablen μ~t∈{0,1}nc
- Dualitätsgesteuerte Restriktionsauswahl: Erstmalige Anwendung der Lagrange-Dualtheorie auf MPC-Restriktionsauswahl
- Aufmerksamkeitsmechanismus-basierte Interaktionsmodellierung: Erfassung komplexer Fahrzeuginteraktionsmuster durch Multi-Head-Aufmerksamkeit
- Zeitliche Unabhängigkeit der rekurrenten Architektur: Realisierung der Unabhängigkeit von der Länge des Prognosehorizonts durch Parameterfreigabe
- Sicherheitsgarantien durch Sensitivitätsanalyse: Quantifizierung des Einflusses von Restriktionsverletzungen auf Kosten durch Schattenpreistheorie
- Simulationsumgebung: Benutzerdefinierte signalfreie Verkehrsknotenpunktumgebung
- Fahrzeugkonfiguration: 1 Eigenfahrzeug + 1-3 Zielfahrzeuge
- Moduseinstellung: Insgesamt 16 Moduskonfigurationen, was zu 624 Kollisionsvermeidungsrestriktionen führt
- Datengröße: 120.315 Datenpunkte, 85% Trainingssatz, 15% Testsatz
- Machbarkeit: Prozentsatz der MPC-Probleme mit zulässigen Lösungen
- Kollisionsrate: Prozentsatz der Zeitschritte mit Kollisionen mit Zielfahrzeugen
- Restriktionsquote: Durchschnittlicher Prozentsatz durchgesetzter Restriktionen
- Lösungszeit: Durchschnittliche Lösungszeit des MPC-Problems
- Aufgabenabschlusszeit: Normalisierte Zeit zum Erreichen des Zielorts
- Full MPC: Vollständiges MPC-Problem mit allen Restriktionen
- MLP-Baseline: Vergleichsmethode mit mehrschichtigen Perzeptronen
- Prognosehorizont: N = 14, Abtastzeit Δt = 0,2s
- Netzwerkparameter: Lernrate 0,001, Batch-Größe 1024, 3000 Trainingsepochen
- Verlustgewichte: wp = 4 (Gewichtung positiver Klassenvorhersagen zur Verbesserung der Sicherheit)
- Solver: Verwendung von Gurobi zur Lösung von SOCP-Problemen
| Leistungsindikator | Full MPC | HMPC |
|---|
| Machbarkeit (%) | 98,97 | 99,79 |
| Kollisionsrate (%) | 0 | 4,0 |
| Durchschnittliche Restriktionsdurchsetzungsquote (%) | 100 | 17,45 |
| Durchschnittliche Lösungszeit (s) | 0,92 ± 0,18 | 0,063 ± 0,073 |
| RAID-Net-Abfragezeitzeit (s) | - | 0,013 ± 0,003 |
| Gesamtrechenzeit (s) | 0,92 ± 0,18 | 0,076 ± 0,076 |
| Normalisierte Aufgabenabschlusszeit | 1 | 0,91 |
- 12-fache Beschleunigung: Der HMPC-Algorithmus erreicht eine 12-fache Beschleunigung der Lösungszeit
- Hohe Rückrufquote: RAID-Net erreicht auf dem Testsatz eine Rückrufquote von 94% und sagt korrekt 98,1% der Interaktionsdualvariablen voraus
- Konservative Vorhersage: Die Restriktionsdurchsetzungsquote von 17,45% im Vergleich zur tatsächlichen aktiven Restriktionsquote von 1,52% spiegelt eine sicherheitsorientierte konservative Strategie wider
- Geringer Sicherheitskompromiss: Die 4%ige Kollisionsrate wird hauptsächlich durch Fehlklassifizierungen verursacht
RAID-Net zeigt überlegene Leistung gegenüber standardmäßigen MLP-Netzwerken in der Verlustverteilung und validiert die Wirksamkeit des Aufmerksamkeitsmechanismus und der rekurrenten Struktur.
- Hierarchische Prognose und Planung: Wie Trajectron++ konzentriert sich auf komplexe Prognosemodelle
- Modellbasierte integrierte Methoden: Spieltheoretische und gemeinsame Optimierungsmethoden
- End-to-End-Lernmethoden: Wie Social Attention und andere Deep-Learning-Methoden
Im Vergleich zu bestehenden Methoden erreicht dieser Beitrag eine signifikante Verbesserung der Recheneffizienz bei Beibehaltung der Sicherheit und bietet einen interpretierbaren Interaktionsprognosemechanismus.
- Vorschlag des ersten auf Dualtheorie basierenden MPC-Restriktionsauswahlrahmens
- RAID-Net sagt Fahrzeuginteraktionen effektiv voraus und erfüllt Echtzeitanforderungen
- Realisierung einer 12-fachen Rechenbeschleunigung in komplexen Verkehrsszenarien
- Unzureichende Sicherheitsgarantien: Mangel an theoretischen Sicherheitsgarantien für ausgewählte Restriktionen
- Überparametrisierung der Strategie: Feedback-Strategie in MPC kann überparametrisiert sein
- Begrenzte Verallgemeinerungsfähigkeit: Die Verallgemeinerungsfähigkeit von RAID-Net auf verschiedene Knotenpunkttopologien bedarf weiterer Überprüfung
- Kollisionsrisiko: Die 4%ige Kollisionsrate bedarf weiterer Verbesserung
- Verwendung des DAgger-Algorithmus zur Behebung von Verteilungsversatz beim Verhaltenklonen
- Testen der Verallgemeinerungsfähigkeit von RAID-Net auf echten Verkehrsdatensätzen
- Anwendung der dualitätsbasierten Interaktionsprognose auf Multi-Fahrzeug-Koordinationspfadplanung
- Bereitstellung stärkerer theoretischer Sicherheitsgarantien
- Theoretische Innovation: Innovative Anwendung der Lagrange-Dualtheorie auf MPC-Restriktionsauswahl
- Praktischer Wert: Signifikante Rechenbeschleunigung ermöglicht Echtzeit-MPC in komplexen Szenarien
- Architektur-Design: Vernünftiges Design des RAID-Net-Aufmerksamkeitsmechanismus und der rekurrenten Struktur
- Umfassende Experimente: Vollständige Leistungsbewertung in der Simulationsumgebung
- Sicherheitskompromiss: Die 4%ige Kollisionsrate kann für sicherheitskritische Anwendungen inakzeptabel sein
- Simulationsbeschränkungen: Validierung nur in vereinfachten Verkehrsknotenpunktszenarien, fehlende Tests in komplexen städtischen Umgebungen
- Unzureichende theoretische Analyse: Theoretische Analyse und Grenzen von Restriktionsauswahlfehlern müssen gestärkt werden
- Fehlende Fahrzeugvalidierung: Validierung auf echten Fahrzeugplattformen fehlt
Diese Arbeit bietet neue Lösungsansätze für das Echtzeit-MPC-Problem in der autonomen Fahrzeugsteuerung. Die Anwendung der Dualtheorie könnte weitere effiziente Lösungsmethoden für Optimierungsprobleme inspirieren.
- Autonome Fahrzeugentscheidungsfindung an städtischen Verkehrsknotenpunkten
- Multi-Roboter-Koordinationsregelung
- Andere Multi-Agent-Systeme, die Echtzeitoptimierung erfordern
Das Papier zitiert wichtige Arbeiten aus mehreren Bereichen, darunter:
- Trajectron++: Dynamisch machbare Trajektorienprognoose
- Grundlagen der stochastischen MPC-Theorie
- Aufmerksamkeitsmechanismen und Transformer-Architektur
- Konvexe Optimierung und Dualtheorie
Dieses Papier leistet wichtige Beiträge sowohl in theoretischer Innovation als auch in praktischem Wert und bietet eine wirksame Lösung für das Echtzeit-MPC-Problem in der autonomen Fahrzeugsteuerung. Es bedarf jedoch weiterer Verbesserungen bei Sicherheitsgarantien und praktischer Bereitstellung.