We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
- ID Articolo: 2402.01116
- Titolo: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
- Autori: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
- Classificazione: cs.RO cs.LG cs.SY eess.SY
- Data di Pubblicazione/Conferenza: preprint arXiv (sottomesso febbraio 2024, ultimo aggiornamento marzo 2025)
- Link Articolo: https://arxiv.org/abs/2402.01116
Questo articolo propone un'architettura gerarchica per implementare il controllo predittivo del modello (MPC) in tempo reale scalabile in scenari di traffico complessi e multi-modali. L'architettura contiene due componenti chiave: 1) RAID-Net, una rete neurale ricorrente basata su meccanismi di attenzione, che utilizza la dualità lagrangiana per prevedere le interazioni rilevanti tra il veicolo autonomo e i veicoli circostanti nell'orizzonte di predizione dell'MPC; 2) un problema MPC stocastico semplificato che migliora l'efficienza computazionale eliminando i vincoli di evitamento delle collisioni irrilevanti. Il metodo è stato validato in ambienti di simulazione di intersezioni stradali, ottenendo un'accelerazione di 12 volte nella risoluzione dei problemi di pianificazione del movimento.
Negli scenari complessi di guida urbana, i veicoli autonomi devono navigare in sicurezza in ambienti altamente incerti, osservando e rispondendo al comportamento di partecipanti al traffico eterogenei (conducenti umani e veicoli autonomi). Questi partecipanti al traffico presentano caratteristiche di predizione multi-modale, e considerare questi fattori nella pianificazione del movimento presenta sfide significative.
I metodi di pianificazione del movimento esistenti affrontano la doppia sfida della scalabilità e della capacità in tempo reale:
- Metodi di Predizione e Pianificazione Gerarchici: sebbene possano gestire previsioni multi-modali, mancano di scalabilità in tempo reale in scenari complessi
- Metodi di Pianificazione Integrata Basati su Modello: gli approcci basati sulla teoria dei giochi hanno una complessità computazionale eccessiva in scenari multi-veicolo
- Metodi di Apprendimento End-to-End: sebbene scalabili, mancano di interpretabilità e garanzie di sicurezza
- Il numero di vincoli nei metodi MPC tradizionali cresce esponenzialmente con il numero di veicoli e modalità (O(NM^V))
- Negli scenari di traffico complessi, la maggior parte dei vincoli di evitamento delle collisioni è effettivamente inattiva
- Manca un meccanismo efficace di filtro dei vincoli per identificare le vere interazioni rilevanti tra veicoli
- Propone l'architettura RAID-Net: una rete neurale ricorrente basata su meccanismi di attenzione in grado di prevedere le interazioni rilevanti tra il veicolo autonomo e i veicoli circostanti nell'orizzonte di predizione dell'MPC
- Stabilisce la teoria di predizione delle interazioni basata sulla dualità: utilizza la dualità lagrangiana e l'analisi di sensibilità per identificare i vincoli attivi
- Progetta un framework MPC gerarchico: riduce significativamente la complessità computazionale attraverso il filtro dei vincoli, ottenendo un'accelerazione di risoluzione di 12 volte
- Costruisce un ambiente di simulazione di intersezioni stradali: utilizzato per l'addestramento e la valutazione degli algoritmi proposti
Input: osservazione ambientale corrente obt, incluso lo stato del veicolo proprio, lo stato dei veicoli circostanti e informazioni semantiche
Output: input di controllo ut, che consente al veicolo proprio di raggiungere in sicurezza la posizione target
Vincoli: vincoli di stato-input e vincoli multi-modali di evitamento delle collisioni
Considerando V veicoli target, ciascuno con M modalità, per un totale di M^V configurazioni di scenario. Il problema di ottimizzazione è:
minθt∑m=1MVE[∑k=tt+N−1∥Q(xk+1∣t,m−xkref)∥22+∥R(uk∣t,m−ukref)∥22]
Soggetto a:
- Vincoli di dinamica del sistema
- Vincoli stato-input: P((xk∣t,m,uk∣t,m)∈/XUk)≤ϵ
- Vincoli di evitamento delle collisioni: P((xk∣t,m,ok∣t,jˉ(i,m)i)∈/CAk∣t,jˉ(i,m)i)≤ϵ
Trasformazione del problema MPC in programmazione conica di secondo ordine (SOCP):
minθt21∥Qtθt∥22+CtTθts.t.Atθt+Rt∈K
Il problema duale corrispondente è:
minμt,ηt[μtTηtT]Rt+21∥Qt−1(AtT[μtTηtT]T−Ct)∥22
Attraverso le condizioni KKT, se [μt∗]s=0, il vincolo corrispondente può essere eliminato.
Codifica dell'Input:
- Utilizza la codifica del grafo centrato sul veicolo proprio basata sul tempo al collisione (TTC)
- L'encoder transformer genera il vettore di caratteristiche di rappresentazione della scena fi∈Rdem
Struttura della Rete:
- Sequenza di N decoder con parametri condivisi
- Meccanismo di attenzione multi-testa per catturare diversi tipi di relazioni di interazione tra veicoli
- Unità ricorrente gated (GRU) per elaborare le dipendenze temporali
- Strato MLP per apprendere relazioni di interazione complesse
Output: classificazione binaria della predizione della variabile duale μ~t∈{0,1}nc
- Filtro dei Vincoli Guidato dalla Dualità: prima applicazione della teoria della dualità lagrangiana al filtro dei vincoli MPC
- Modellazione delle Interazioni tramite Meccanismo di Attenzione: cattura i modelli di interazione complessi tra veicoli attraverso attenzione multi-testa
- Indipendenza Temporale dell'Architettura Ricorrente: realizza l'indipendenza dalla lunghezza dell'orizzonte di predizione attraverso la condivisione dei parametri
- Garanzie di Sicurezza tramite Analisi di Sensibilità: quantifica l'impatto della violazione dei vincoli sul costo attraverso la teoria dei prezzi ombra
- Ambiente di Simulazione: ambiente personalizzato di intersezione stradale senza segnali
- Configurazione dei Veicoli: 1 veicolo proprio + 1-3 veicoli target
- Configurazione Modalità: 16 configurazioni di modalità totali, che portano a 624 vincoli di evitamento delle collisioni
- Scala dei Dati: 120.315 punti dati, 85% set di addestramento, 15% set di test
- Fattibilità: percentuale di soluzioni fattibili del problema MPC
- Tasso di Collisione: percentuale di step temporali con collisioni con veicoli target
- Rapporto di Vincoli: percentuale media di vincoli applicati
- Tempo di Risoluzione: tempo medio di risoluzione del problema MPC
- Tempo di Completamento del Compito: tempo normalizzato per raggiungere la posizione target
- Full MPC: problema MPC completo con tutti i vincoli
- Baseline MLP: metodo di confronto utilizzando percettrone multistrato
- Orizzonte di Predizione: N = 14, tempo di campionamento Δt = 0,2s
- Parametri della Rete: tasso di apprendimento 0,001, dimensione batch 1024, 3000 epoche di addestramento
- Pesi di Perdita: wp = 4 (orientato verso la predizione della classe positiva per migliorare la sicurezza)
- Solver: utilizzo di Gurobi per risolvere il problema SOCP
| Metrica di Prestazione | Full MPC | HMPC |
|---|
| Fattibilità (%) | 98,97 | 99,79 |
| Tasso di Collisione (%) | 0 | 4,0 |
| Tasso Medio di Applicazione dei Vincoli (%) | 100 | 17,45 |
| Tempo Medio di Risoluzione (s) | 0,92 ± 0,18 | 0,063 ± 0,073 |
| Tempo di Query RAID-Net (s) | - | 0,013 ± 0,003 |
| Tempo Computazionale Totale (s) | 0,92 ± 0,18 | 0,076 ± 0,076 |
| Tempo Normalizzato di Completamento del Compito | 1 | 0,91 |
- Accelerazione di 12 Volte: l'algoritmo HMPC realizza un'accelerazione di 12 volte nel tempo di risoluzione
- Tasso di Richiamo Elevato: RAID-Net raggiunge un tasso di richiamo del 94% sul set di test, prevedendo correttamente il 98,1% delle variabili duali di interazione
- Predizione Conservativa: il tasso di applicazione dei vincoli del 17,45% rispetto al tasso di vincoli effettivamente attivi dell'1,52% riflette una strategia conservativa orientata alla sicurezza
- Costo di Sicurezza Lieve: il tasso di collisione del 4% è principalmente causato da classificazioni false negative
RAID-Net mostra prestazioni superiori rispetto alla rete MLP standard nella distribuzione della perdita, convalidando l'efficacia del meccanismo di attenzione e della struttura ricorrente.
- Predizione e Pianificazione Gerarchiche: metodi come Trajectron++ focalizzati su modelli di predizione complessi
- Metodi Integrati Basati su Modello: approcci basati sulla teoria dei giochi e ottimizzazione congiunta
- Metodi di Apprendimento End-to-End: come Social Attention e altri metodi di apprendimento profondo
Rispetto ai metodi esistenti, questo articolo realizza un miglioramento significativo dell'efficienza computazionale mantenendo la sicurezza e fornisce un meccanismo di predizione delle interazioni interpretabile.
- Propone il primo framework di filtro dei vincoli MPC basato sulla teoria della dualità
- RAID-Net predice efficacemente le interazioni tra veicoli, realizzando i requisiti di prestazione in tempo reale
- Realizza un'accelerazione computazionale di 12 volte negli scenari di traffico complessi
- Garanzie di Sicurezza Insufficienti: mancano garanzie di sicurezza teoriche per i vincoli filtrati
- Sovraparametrizzazione della Strategia: la strategia di feedback nell'MPC potrebbe presentare problemi di sovraparametrizzazione
- Capacità di Generalizzazione Limitata: la capacità di generalizzazione di RAID-Net a diverse topologie di intersezioni richiede ulteriore verifica
- Rischio di Collisione: il tasso di collisione del 4% richiede ulteriori miglioramenti
- Risolvere lo spostamento di distribuzione nella clonazione comportamentale utilizzando l'algoritmo DAgger
- Testare le prestazioni di generalizzazione di RAID-Net su dataset di traffico reali
- Applicare la predizione delle interazioni basata sulla dualità alla pianificazione dei percorsi multi-veicolo coordinati
- Fornire garanzie teoriche di sicurezza più forti
- Innovazione Teorica: applicazione innovativa della teoria della dualità lagrangiana al filtro dei vincoli MPC
- Valore Pratico: l'accelerazione computazionale significativa rende possibile l'MPC in tempo reale in scenari complessi
- Progettazione dell'Architettura: la progettazione del meccanismo di attenzione e della struttura ricorrente di RAID-Net è razionale
- Esperimenti Completi: valutazione completa delle prestazioni in ambienti di simulazione
- Compromesso di Sicurezza: il tasso di collisione del 4% potrebbe non essere accettabile per applicazioni critiche per la sicurezza
- Limitazioni della Simulazione: validazione solo in scenari semplificati di intersezioni stradali, mancanza di test in ambienti urbani complessi
- Analisi Teorica Insufficiente: l'analisi teorica e i limiti degli errori di filtro dei vincoli necessitano di rafforzamento
- Mancanza di Verifica su Veicoli Reali: assenza di verifica su piattaforme di veicoli reali
Questo lavoro fornisce un nuovo approccio alla risoluzione del problema dell'MPC in tempo reale nella guida autonoma, e l'applicazione della teoria della dualità potrebbe ispirare metodi di risoluzione efficienti per più problemi di ottimizzazione.
- Decisioni di guida autonoma in intersezioni stradali urbane
- Controllo coordinato di multi-robot
- Altri sistemi multi-agente che richiedono ottimizzazione in tempo reale
L'articolo cita lavori chiave da più domini importanti, inclusi:
- Trajectron++: predizione di traiettorie dinamicamente fattibili
- Fondamenti della teoria MPC stocastica
- Meccanismi di attenzione e architetture Transformer
- Ottimizzazione convessa e teoria della dualità
Questo articolo fornisce contributi significativi sia nell'innovazione teorica che nel valore pratico, offrendo una soluzione efficace al problema dell'MPC in tempo reale nella guida autonoma, ma richiede ulteriori miglioramenti nelle garanzie di sicurezza e nel dispiegamento pratico.