2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban

We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.

academic

Ricorsioni Riccati Doppiamente Regolarizzate per il Controllo Ottimale con Metodi di Punto Interno

Informazioni Fondamentali

ID Articolo: 2509.16370
Titolo: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
Autori: João Sousa-Pinto, Dominique Orban
Classificazione: math.OC cs.MS cs.RO cs.SY eess.SY
Data di Pubblicazione: 15 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2509.16370

Riassunto

Questo articolo deriva estensioni in forma chiusa delle ricorsioni di Riccati per risolvere problemi LQR doppiamente regolarizzati (incluse versioni sequenziali e parallele). Gli autori dimostrano come utilizzare questi metodi per risolvere problemi generali di controllo ottimale discreto nel tempo, non convessi e vincolati, mediante metodi di punto interno regolarizzati, garantendo che ogni passo sia una direzione di discesa per la funzione barriera-Lagrangiana aumentata. L'articolo fornisce implementazioni con licenza MIT in C++ e JAX.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questa ricerca è come risolvere efficientemente problemi di controllo ottimale discreto nel tempo non convessi con vincoli di uguaglianza e disuguaglianza. I metodi tradizionali presentano le seguenti sfide nel trattare tali problemi:

Problemi di Efficienza Computazionale: I metodi di punto interno standard nel risolvere problemi di controllo ottimale richiedono la soluzione di sistemi lineari di grandi dimensioni, con elevata complessità computazionale
Stabilità Numerica: Quando i parametri di regolarizzazione tendono a zero, i metodi tradizionali possono presentare instabilità numerica
Difficoltà di Parallelizzazione: I metodi esistenti hanno difficoltà a sfruttare pienamente le risorse di calcolo parallelo

Importanza del Problema

I problemi di controllo ottimale hanno applicazioni diffuse in robotica, aerospaziale, guida autonoma e altri campi. La risoluzione efficiente di tali problemi è cruciale per i sistemi di controllo in tempo reale, in particolare negli scenari che richiedono la gestione di vincoli complessi.

Limitazioni dei Metodi Esistenti

Algoritmo DDP: Sebbene sia il metodo più comunemente utilizzato nella pratica, come metodo single-shooting non può avviare a caldo indipendentemente le traiettorie di stato
Metodi LQR Standard: Applicabili solo a sistemi lineari senza vincoli o con vincoli semplici
Metodi di Punto Interno Esistenti: Risolutori generici come IPOPT non possono sfruttare pienamente le caratteristiche strutturali dei problemi di controllo ottimale

Contributi Principali

Contributo Teorico: Derivazione di estensioni in forma chiusa delle ricorsioni di Riccati per risolvere problemi LQR doppiamente regolarizzati, incluse versioni sequenziali e parallele
Innovazione Algoritmica: Proposta di un metodo di punto interno regolarizzato che garantisce direzioni di discesa, utilizzando la funzione barriera-Lagrangiana aumentata come funzione di merito
Stabilità Numerica: Progettazione di un algoritmo numericamente stabile quando il parametro di regolarizzazione δ→0, in grado di recuperare l'algoritmo LQR standard
Algoritmo Parallelo: Implementazione di un algoritmo di risoluzione con complessità temporale parallela O(log N) basato su scansioni associative
Contributo Software: Fornitura di implementazioni open-source in C++ e JAX, supportando operazioni efficienti di algebra lineare sparsa

Dettagli del Metodo

Definizione del Problema

Si consideri il problema di controllo ottimale discreto nel tempo:

$\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)$

Vincoli:

Stato iniziale: $x_0 = s_0$
Vincoli di dinamica: $x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}$
Vincoli di uguaglianza: $c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}$
Vincoli di disuguaglianza: $g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}$
Vincoli terminali: $c_N(x_N) = 0, g_N(x_N) \leq 0$

Quadro del Metodo di Punto Interno Regolarizzato

Funzione Barriera-Lagrangiana Aumentata

Definire la funzione barriera-Lagrangiana: $L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)$

Versione aumentata: $A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)$

Risoluzione del Sistema Lineare

Ogni iterazione richiede la risoluzione del sistema lineare: $\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)$

Problema LQR Doppiamente Regolarizzato

Mediante eliminazione di variabili, il sistema lineare del metodo di punto interno viene trasformato in un problema LQR doppiamente regolarizzato: $\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}$

dove $\delta > 0$ è il parametro di regolarizzazione, la matrice $P$ ha struttura a blocchi diagonali, e $C$ contiene le matrici Jacobiane dei vincoli di dinamica.

Algoritmo Sequenziale

Ricorsione all'Indietro

Definire variabili chiave:

$V_i = \frac{1}{\delta}(F_i - I)$ : approssimazione della funzione di valore
$v_i = \frac{1}{\delta}(f_i + c_i)$ : vettore di offset

Formule ricorsive:

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)

Ricorsione in Avanti

Recuperare la traiettoria ottimale mediante la legge di controllo $u_i = K_i x_i + k_i$ e l'equazione di transizione di stato.

Algoritmo Parallelo

Parallelizzazione mediante Scansione Associativa

Utilizzo di scansione associativa per ottenere complessità temporale parallela O(log N):

Funzioni di Valore Intervallari: Definire $V_{i \to j}(x_i, x_j)$ rappresentante la funzione di valore dalla fase i alla fase j
Regole di Composizione: Stabilire operazioni di composizione per funzioni di valore intervallari, soddisfacendo l'associatività
Calcolo Parallelo: Calcolare in parallelo tutti i $V_{i \to N+1}$ mediante scansione associativa inversa

Composizione di Funzioni Affini

Trasformare la ricorsione in avanti in composizione di funzioni affini: $x_{i+1} = M_i x_i + m_i$

Utilizzare scansione associativa per comporre in parallelo tutte le trasformazioni affini, realizzando propagazione in avanti parallela O(log N).

Punti di Innovazione Tecnica

Progettazione della Stabilità Numerica: Evitare problemi numerici quando $\delta \to 0$ mediante riparametrizzazione
Garanzia di Direzione di Discesa: Prova teorica che la direzione di ricerca è una direzione di discesa per la funzione barriera-Lagrangiana aumentata
Risoluzione Strutturata: Sfruttamento completo della struttura temporale del problema di controllo ottimale, evitando la risoluzione di sistemi lineari densi di grandi dimensioni
Progettazione Parallela: Realizzazione di parallelizzazione efficiente basata su scansione associativa dalla programmazione funzionale

Configurazione Sperimentale

Dettagli di Implementazione

L'articolo fornisce due implementazioni:

Implementazione C++:
- Basata sul framework SIP (Simple Interior Point)
- Supporto per integrazione del risolutore sparso QDLDL
- Evita allocazione dinamica di memoria a runtime
- Supporto per risolutori KKT personalizzati
Implementazione JAX:
- Supporto per differenziazione automatica
- Accelerazione GPU/TPU
- Suite completa di test unitari

Metodi di Verifica

Verifica della correttezza dell'algoritmo su esempi casuali che soddisfano la definitezza positiva richiesta
Verifica della coerenza con l'algoritmo LQR standard quando $\delta = 0$
Test di stabilità numerica

Risultati Sperimentali

Verifica della Correttezza

L'articolo verifica la correttezza dell'algoritmo nei seguenti modi:

Verifica Teorica: Quando $\delta = 0$ , l'algoritmo degenera nell'algoritmo LQR standard
Verifica Numerica: Verifica della correttezza della soluzione su casi di test generati casualmente
Test Unitari: L'implementazione JAX include una suite completa di test unitari

Garanzia di Direzione di Discesa

Il Teorema 1.2 dimostra che quando $\Delta x \neq 0$ o $\Delta s \neq 0$ , la derivata direzionale soddisfa: $D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0$

Questo garantisce la convergenza globale dell'algoritmo.

Analisi della Complessità

Algoritmo Sequenziale: Complessità temporale O(N)
Algoritmo Parallelo: Complessità temporale parallela O(log N)
Complessità Spaziale: O(N), lineare rispetto alla dimensione del problema

Lavori Correlati

Principali Direzioni di Ricerca

Metodi LQR Classici: Kalman (1960) ha derivato per primo le ricorsioni di Riccati
Applicazione di Metodi di Punto Interno: Rao et al. (1998) hanno applicato per primo i metodi di punto interno al controllo predittivo del modello
LQR Parallelo: Särkkä e García-Fernández (2021) hanno proposto il primo algoritmo LQR parallelo O(log N)
Risolutori Strutturati: Lavori recenti come FATROP esplorano il trattamento strutturato dei vincoli

Vantaggi Relativi di Questo Articolo

Completezza Teorica: Fornisce analisi teorica completa e garanzie di convergenza
Stabilità Numerica: Risolve il problema dell'instabilità numerica quando il parametro di regolarizzazione tende a zero
Praticità: Fornisce implementazioni open-source complete
Generalità: Può gestire problemi generali di controllo ottimale non convessi con vincoli

Conclusioni e Discussione

Conclusioni Principali

Derivazione riuscita di estensioni in forma chiusa delle ricorsioni di Riccati per problemi LQR doppiamente regolarizzati
Stabilimento della connessione con metodi di punto interno regolarizzati, garantendo la convergenza dell'algoritmo
Realizzazione di un algoritmo efficiente con complessità temporale parallela O(log N)
Fornitura di implementazioni open-source numericamente stabili e pratiche

Limitazioni

Restrizioni sul Tipo di Vincoli: Il metodo è principalmente applicabile a problemi che possono essere trasformati in forma LQR
Requisiti di Definitezza Positiva: L'algoritmo richiede l'assunzione di definitezza positiva della matrice Hessiana
Prestazioni Pratiche: L'articolo manca di confronti di prestazioni su problemi pratici su larga scala

Direzioni Future

Estensione a Vincoli più Generali: Gestione di vincoli di percorso e vincoli terminali più complessi
Regolarizzazione Adattiva: Sviluppo di strategie per la selezione adattiva dei parametri di regolarizzazione
Verifica su Applicazioni Pratiche: Validazione del metodo su applicazioni pratiche come il controllo robotico

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Prima combinazione di tecniche di regolarizzazione doppia con ricorsioni di Riccati, con analisi teorica completa
Progettazione Algoritmica Elegante: Sfruttamento intelligente della struttura temporale dei problemi di controllo ottimale
Considerazioni Numeriche Attente: Particolare attenzione ai problemi di stabilità numerica
Qualità Implementativa Elevata: Fornitura di implementazioni open-source di alta qualità in due linguaggi
Innovazione nella Parallelizzazione: Il metodo di parallelizzazione basato su scansione associativa ha valore sia teorico che pratico

Insufficienze

Verifica Sperimentale Limitata: Principalmente verifica teorica e test numerici semplici, mancanza di confronti su problemi pratici su larga scala
Analisi delle Prestazioni Insufficiente: Mancanza di analisi dettagliata dei tempi di calcolo e dell'utilizzo della memoria
Discussione Insufficiente dell'Ambito di Applicabilità: Mancanza di discussione approfondita su quali tipi di problemi di controllo ottimale sono più adatti per questo metodo
Mancanza di Guida nella Scelta dei Parametri: Discussione limitata sulle strategie per la scelta del parametro di regolarizzazione

Impatto

Valore Accademico: Fornisce nuovi strumenti teorici per i metodi numerici di controllo ottimale
Valore Pratico: L'implementazione open-source facilita la diffusione e l'applicazione del metodo
Riproducibilità: La descrizione dettagliata dell'algoritmo e il codice open-source garantiscono la riproducibilità
Potenziale Ispiratore: L'idea di regolarizzazione doppia potrebbe ispirare la risoluzione di altri problemi di ottimizzazione

Scenari di Applicabilità

Sistemi di Controllo in Tempo Reale: Applicazioni di controllo predittivo del modello che richiedono risoluzione rapida
Ottimizzazione su Larga Scala: Problemi di controllo ottimale con lungo orizzonte temporale
Ambienti di Calcolo Parallelo: Scenari di applicazione che possono sfruttare pienamente risorse multi-core o GPU
Ottimizzazione Vincolata: Problemi di controllo che richiedono la gestione di vincoli di uguaglianza e disuguaglianza complessi

Riferimenti Bibliografici

L'articolo cita importanti letteratura nel campo, inclusa:

Kalman (1960): Fondamenti della teoria del controllo ottimale
Blelloch (1989): Teoria degli algoritmi paralleli con scansione associativa
Särkkä & García-Fernández (2021): Algoritmi LQR paralleli
Wächter & Biegler (2006): Risolutore di punto interno IPOPT

Valutazione Complessiva: Questo è un articolo eccellente con contributi teorici significativi e innovazione tecnica evidente. Gli autori hanno con successo introdotto tecniche di regolarizzazione doppia nelle ricorsioni di Riccati, mantenendo la stabilità numerica e realizzando parallelizzazione efficiente. Sebbene vi sia spazio per miglioramenti nella verifica su applicazioni pratiche, il suo valore teorico e il contributo open-source lo rendono un progresso importante nel campo dei metodi numerici per il controllo ottimale.