Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic
Ricorsioni Riccati Doppiamente Regolarizzate per il Controllo Ottimale con Metodi di Punto Interno
Questo articolo deriva estensioni in forma chiusa delle ricorsioni di Riccati per risolvere problemi LQR doppiamente regolarizzati (incluse versioni sequenziali e parallele). Gli autori dimostrano come utilizzare questi metodi per risolvere problemi generali di controllo ottimale discreto nel tempo, non convessi e vincolati, mediante metodi di punto interno regolarizzati, garantendo che ogni passo sia una direzione di discesa per la funzione barriera-Lagrangiana aumentata. L'articolo fornisce implementazioni con licenza MIT in C++ e JAX.
Il problema centrale affrontato da questa ricerca è come risolvere efficientemente problemi di controllo ottimale discreto nel tempo non convessi con vincoli di uguaglianza e disuguaglianza. I metodi tradizionali presentano le seguenti sfide nel trattare tali problemi:
Problemi di Efficienza Computazionale: I metodi di punto interno standard nel risolvere problemi di controllo ottimale richiedono la soluzione di sistemi lineari di grandi dimensioni, con elevata complessità computazionale
Stabilità Numerica: Quando i parametri di regolarizzazione tendono a zero, i metodi tradizionali possono presentare instabilità numerica
Difficoltà di Parallelizzazione: I metodi esistenti hanno difficoltà a sfruttare pienamente le risorse di calcolo parallelo
I problemi di controllo ottimale hanno applicazioni diffuse in robotica, aerospaziale, guida autonoma e altri campi. La risoluzione efficiente di tali problemi è cruciale per i sistemi di controllo in tempo reale, in particolare negli scenari che richiedono la gestione di vincoli complessi.
Algoritmo DDP: Sebbene sia il metodo più comunemente utilizzato nella pratica, come metodo single-shooting non può avviare a caldo indipendentemente le traiettorie di stato
Metodi LQR Standard: Applicabili solo a sistemi lineari senza vincoli o con vincoli semplici
Metodi di Punto Interno Esistenti: Risolutori generici come IPOPT non possono sfruttare pienamente le caratteristiche strutturali dei problemi di controllo ottimale
Contributo Teorico: Derivazione di estensioni in forma chiusa delle ricorsioni di Riccati per risolvere problemi LQR doppiamente regolarizzati, incluse versioni sequenziali e parallele
Innovazione Algoritmica: Proposta di un metodo di punto interno regolarizzato che garantisce direzioni di discesa, utilizzando la funzione barriera-Lagrangiana aumentata come funzione di merito
Stabilità Numerica: Progettazione di un algoritmo numericamente stabile quando il parametro di regolarizzazione δ→0, in grado di recuperare l'algoritmo LQR standard
Algoritmo Parallelo: Implementazione di un algoritmo di risoluzione con complessità temporale parallela O(log N) basato su scansioni associative
Contributo Software: Fornitura di implementazioni open-source in C++ e JAX, supportando operazioni efficienti di algebra lineare sparsa
Mediante eliminazione di variabili, il sistema lineare del metodo di punto interno viene trasformato in un problema LQR doppiamente regolarizzato:
[PCCT−δI][xy]=−[sc]
dove δ>0 è il parametro di regolarizzazione, la matrice P ha struttura a blocchi diagonali, e C contiene le matrici Jacobiane dei vincoli di dinamica.
Progettazione della Stabilità Numerica: Evitare problemi numerici quando δ→0 mediante riparametrizzazione
Garanzia di Direzione di Discesa: Prova teorica che la direzione di ricerca è una direzione di discesa per la funzione barriera-Lagrangiana aumentata
Risoluzione Strutturata: Sfruttamento completo della struttura temporale del problema di controllo ottimale, evitando la risoluzione di sistemi lineari densi di grandi dimensioni
Progettazione Parallela: Realizzazione di parallelizzazione efficiente basata su scansione associativa dalla programmazione funzionale
Verifica Sperimentale Limitata: Principalmente verifica teorica e test numerici semplici, mancanza di confronti su problemi pratici su larga scala
Analisi delle Prestazioni Insufficiente: Mancanza di analisi dettagliata dei tempi di calcolo e dell'utilizzo della memoria
Discussione Insufficiente dell'Ambito di Applicabilità: Mancanza di discussione approfondita su quali tipi di problemi di controllo ottimale sono più adatti per questo metodo
Mancanza di Guida nella Scelta dei Parametri: Discussione limitata sulle strategie per la scelta del parametro di regolarizzazione
Wächter & Biegler (2006): Risolutore di punto interno IPOPT
Valutazione Complessiva: Questo è un articolo eccellente con contributi teorici significativi e innovazione tecnica evidente. Gli autori hanno con successo introdotto tecniche di regolarizzazione doppia nelle ricorsioni di Riccati, mantenendo la stabilità numerica e realizzando parallelizzazione efficiente. Sebbene vi sia spazio per miglioramenti nella verifica su applicazioni pratiche, il suo valore teorico e il contributo open-source lo rendono un progresso importante nel campo dei metodi numerici per il controllo ottimale.