2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic

Ricorsioni Riccati Doppiamente Regolarizzate per il Controllo Ottimale con Metodi di Punto Interno

Informazioni Fondamentali

  • ID Articolo: 2509.16370
  • Titolo: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
  • Autori: João Sousa-Pinto, Dominique Orban
  • Classificazione: math.OC cs.MS cs.RO cs.SY eess.SY
  • Data di Pubblicazione: 15 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2509.16370

Riassunto

Questo articolo deriva estensioni in forma chiusa delle ricorsioni di Riccati per risolvere problemi LQR doppiamente regolarizzati (incluse versioni sequenziali e parallele). Gli autori dimostrano come utilizzare questi metodi per risolvere problemi generali di controllo ottimale discreto nel tempo, non convessi e vincolati, mediante metodi di punto interno regolarizzati, garantendo che ogni passo sia una direzione di discesa per la funzione barriera-Lagrangiana aumentata. L'articolo fornisce implementazioni con licenza MIT in C++ e JAX.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questa ricerca è come risolvere efficientemente problemi di controllo ottimale discreto nel tempo non convessi con vincoli di uguaglianza e disuguaglianza. I metodi tradizionali presentano le seguenti sfide nel trattare tali problemi:

  1. Problemi di Efficienza Computazionale: I metodi di punto interno standard nel risolvere problemi di controllo ottimale richiedono la soluzione di sistemi lineari di grandi dimensioni, con elevata complessità computazionale
  2. Stabilità Numerica: Quando i parametri di regolarizzazione tendono a zero, i metodi tradizionali possono presentare instabilità numerica
  3. Difficoltà di Parallelizzazione: I metodi esistenti hanno difficoltà a sfruttare pienamente le risorse di calcolo parallelo

Importanza del Problema

I problemi di controllo ottimale hanno applicazioni diffuse in robotica, aerospaziale, guida autonoma e altri campi. La risoluzione efficiente di tali problemi è cruciale per i sistemi di controllo in tempo reale, in particolare negli scenari che richiedono la gestione di vincoli complessi.

Limitazioni dei Metodi Esistenti

  1. Algoritmo DDP: Sebbene sia il metodo più comunemente utilizzato nella pratica, come metodo single-shooting non può avviare a caldo indipendentemente le traiettorie di stato
  2. Metodi LQR Standard: Applicabili solo a sistemi lineari senza vincoli o con vincoli semplici
  3. Metodi di Punto Interno Esistenti: Risolutori generici come IPOPT non possono sfruttare pienamente le caratteristiche strutturali dei problemi di controllo ottimale

Contributi Principali

  1. Contributo Teorico: Derivazione di estensioni in forma chiusa delle ricorsioni di Riccati per risolvere problemi LQR doppiamente regolarizzati, incluse versioni sequenziali e parallele
  2. Innovazione Algoritmica: Proposta di un metodo di punto interno regolarizzato che garantisce direzioni di discesa, utilizzando la funzione barriera-Lagrangiana aumentata come funzione di merito
  3. Stabilità Numerica: Progettazione di un algoritmo numericamente stabile quando il parametro di regolarizzazione δ→0, in grado di recuperare l'algoritmo LQR standard
  4. Algoritmo Parallelo: Implementazione di un algoritmo di risoluzione con complessità temporale parallela O(log N) basato su scansioni associative
  5. Contributo Software: Fornitura di implementazioni open-source in C++ e JAX, supportando operazioni efficienti di algebra lineare sparsa

Dettagli del Metodo

Definizione del Problema

Si consideri il problema di controllo ottimale discreto nel tempo:

minx0,u0,,xNi=0N1fi(xi,ui)+fN(xN)\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)

Vincoli:

  • Stato iniziale: x0=s0x_0 = s_0
  • Vincoli di dinamica: xi+1=di(xi,ui),i{0,,N1}x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}
  • Vincoli di uguaglianza: ci(xi,ui)=0,i{0,,N1}c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}
  • Vincoli di disuguaglianza: gi(xi,ui)0,i{0,,N1}g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}
  • Vincoli terminali: cN(xN)=0,gN(xN)0c_N(x_N) = 0, g_N(x_N) \leq 0

Quadro del Metodo di Punto Interno Regolarizzato

Funzione Barriera-Lagrangiana Aumentata

Definire la funzione barriera-Lagrangiana: L(x,s,y,z;μ)=f(x)μilog(si)+yTc(x)+zT(g(x)+s)L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)

Versione aumentata: A(x,s,y,z;μ,η)=L(x,s,y,z;μ)+η2(c(x)2+g(x)+s2)A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)

Risoluzione del Sistema Lineare

Ogni iterazione richiede la risoluzione del sistema lineare: [P0CTGT0S1Z0IC01ηI0GI01ηI][ΔxΔsΔyΔz]=L(x,s,y,z;μ)\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)

Problema LQR Doppiamente Regolarizzato

Mediante eliminazione di variabili, il sistema lineare del metodo di punto interno viene trasformato in un problema LQR doppiamente regolarizzato: [PCTCδI][xy]=[sc]\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}

dove δ>0\delta > 0 è il parametro di regolarizzazione, la matrice PP ha struttura a blocchi diagonali, e CC contiene le matrici Jacobiane dei vincoli di dinamica.

Algoritmo Sequenziale

Ricorsione all'Indietro

Definire variabili chiave:

  • Vi=1δ(FiI)V_i = \frac{1}{\delta}(F_i - I): approssimazione della funzione di valore
  • vi=1δ(fi+ci)v_i = \frac{1}{\delta}(f_i + c_i): vettore di offset

Formule ricorsive:

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)

Ricorsione in Avanti

Recuperare la traiettoria ottimale mediante la legge di controllo ui=Kixi+kiu_i = K_i x_i + k_i e l'equazione di transizione di stato.

Algoritmo Parallelo

Parallelizzazione mediante Scansione Associativa

Utilizzo di scansione associativa per ottenere complessità temporale parallela O(log N):

  1. Funzioni di Valore Intervallari: Definire Vij(xi,xj)V_{i \to j}(x_i, x_j) rappresentante la funzione di valore dalla fase i alla fase j
  2. Regole di Composizione: Stabilire operazioni di composizione per funzioni di valore intervallari, soddisfacendo l'associatività
  3. Calcolo Parallelo: Calcolare in parallelo tutti i ViN+1V_{i \to N+1} mediante scansione associativa inversa

Composizione di Funzioni Affini

Trasformare la ricorsione in avanti in composizione di funzioni affini: xi+1=Mixi+mix_{i+1} = M_i x_i + m_i

Utilizzare scansione associativa per comporre in parallelo tutte le trasformazioni affini, realizzando propagazione in avanti parallela O(log N).

Punti di Innovazione Tecnica

  1. Progettazione della Stabilità Numerica: Evitare problemi numerici quando δ0\delta \to 0 mediante riparametrizzazione
  2. Garanzia di Direzione di Discesa: Prova teorica che la direzione di ricerca è una direzione di discesa per la funzione barriera-Lagrangiana aumentata
  3. Risoluzione Strutturata: Sfruttamento completo della struttura temporale del problema di controllo ottimale, evitando la risoluzione di sistemi lineari densi di grandi dimensioni
  4. Progettazione Parallela: Realizzazione di parallelizzazione efficiente basata su scansione associativa dalla programmazione funzionale

Configurazione Sperimentale

Dettagli di Implementazione

L'articolo fornisce due implementazioni:

  1. Implementazione C++:
    • Basata sul framework SIP (Simple Interior Point)
    • Supporto per integrazione del risolutore sparso QDLDL
    • Evita allocazione dinamica di memoria a runtime
    • Supporto per risolutori KKT personalizzati
  2. Implementazione JAX:
    • Supporto per differenziazione automatica
    • Accelerazione GPU/TPU
    • Suite completa di test unitari

Metodi di Verifica

  • Verifica della correttezza dell'algoritmo su esempi casuali che soddisfano la definitezza positiva richiesta
  • Verifica della coerenza con l'algoritmo LQR standard quando δ=0\delta = 0
  • Test di stabilità numerica

Risultati Sperimentali

Verifica della Correttezza

L'articolo verifica la correttezza dell'algoritmo nei seguenti modi:

  1. Verifica Teorica: Quando δ=0\delta = 0, l'algoritmo degenera nell'algoritmo LQR standard
  2. Verifica Numerica: Verifica della correttezza della soluzione su casi di test generati casualmente
  3. Test Unitari: L'implementazione JAX include una suite completa di test unitari

Garanzia di Direzione di Discesa

Il Teorema 1.2 dimostra che quando Δx0\Delta x \neq 0 o Δs0\Delta s \neq 0, la derivata direzionale soddisfa: D(A(,,y,z;μ,η);(Δx,Δs))(x,s)<0D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0

Questo garantisce la convergenza globale dell'algoritmo.

Analisi della Complessità

  • Algoritmo Sequenziale: Complessità temporale O(N)
  • Algoritmo Parallelo: Complessità temporale parallela O(log N)
  • Complessità Spaziale: O(N), lineare rispetto alla dimensione del problema

Lavori Correlati

Principali Direzioni di Ricerca

  1. Metodi LQR Classici: Kalman (1960) ha derivato per primo le ricorsioni di Riccati
  2. Applicazione di Metodi di Punto Interno: Rao et al. (1998) hanno applicato per primo i metodi di punto interno al controllo predittivo del modello
  3. LQR Parallelo: Särkkä e García-Fernández (2021) hanno proposto il primo algoritmo LQR parallelo O(log N)
  4. Risolutori Strutturati: Lavori recenti come FATROP esplorano il trattamento strutturato dei vincoli

Vantaggi Relativi di Questo Articolo

  1. Completezza Teorica: Fornisce analisi teorica completa e garanzie di convergenza
  2. Stabilità Numerica: Risolve il problema dell'instabilità numerica quando il parametro di regolarizzazione tende a zero
  3. Praticità: Fornisce implementazioni open-source complete
  4. Generalità: Può gestire problemi generali di controllo ottimale non convessi con vincoli

Conclusioni e Discussione

Conclusioni Principali

  1. Derivazione riuscita di estensioni in forma chiusa delle ricorsioni di Riccati per problemi LQR doppiamente regolarizzati
  2. Stabilimento della connessione con metodi di punto interno regolarizzati, garantendo la convergenza dell'algoritmo
  3. Realizzazione di un algoritmo efficiente con complessità temporale parallela O(log N)
  4. Fornitura di implementazioni open-source numericamente stabili e pratiche

Limitazioni

  1. Restrizioni sul Tipo di Vincoli: Il metodo è principalmente applicabile a problemi che possono essere trasformati in forma LQR
  2. Requisiti di Definitezza Positiva: L'algoritmo richiede l'assunzione di definitezza positiva della matrice Hessiana
  3. Prestazioni Pratiche: L'articolo manca di confronti di prestazioni su problemi pratici su larga scala

Direzioni Future

  1. Estensione a Vincoli più Generali: Gestione di vincoli di percorso e vincoli terminali più complessi
  2. Regolarizzazione Adattiva: Sviluppo di strategie per la selezione adattiva dei parametri di regolarizzazione
  3. Verifica su Applicazioni Pratiche: Validazione del metodo su applicazioni pratiche come il controllo robotico

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Prima combinazione di tecniche di regolarizzazione doppia con ricorsioni di Riccati, con analisi teorica completa
  2. Progettazione Algoritmica Elegante: Sfruttamento intelligente della struttura temporale dei problemi di controllo ottimale
  3. Considerazioni Numeriche Attente: Particolare attenzione ai problemi di stabilità numerica
  4. Qualità Implementativa Elevata: Fornitura di implementazioni open-source di alta qualità in due linguaggi
  5. Innovazione nella Parallelizzazione: Il metodo di parallelizzazione basato su scansione associativa ha valore sia teorico che pratico

Insufficienze

  1. Verifica Sperimentale Limitata: Principalmente verifica teorica e test numerici semplici, mancanza di confronti su problemi pratici su larga scala
  2. Analisi delle Prestazioni Insufficiente: Mancanza di analisi dettagliata dei tempi di calcolo e dell'utilizzo della memoria
  3. Discussione Insufficiente dell'Ambito di Applicabilità: Mancanza di discussione approfondita su quali tipi di problemi di controllo ottimale sono più adatti per questo metodo
  4. Mancanza di Guida nella Scelta dei Parametri: Discussione limitata sulle strategie per la scelta del parametro di regolarizzazione

Impatto

  1. Valore Accademico: Fornisce nuovi strumenti teorici per i metodi numerici di controllo ottimale
  2. Valore Pratico: L'implementazione open-source facilita la diffusione e l'applicazione del metodo
  3. Riproducibilità: La descrizione dettagliata dell'algoritmo e il codice open-source garantiscono la riproducibilità
  4. Potenziale Ispiratore: L'idea di regolarizzazione doppia potrebbe ispirare la risoluzione di altri problemi di ottimizzazione

Scenari di Applicabilità

  1. Sistemi di Controllo in Tempo Reale: Applicazioni di controllo predittivo del modello che richiedono risoluzione rapida
  2. Ottimizzazione su Larga Scala: Problemi di controllo ottimale con lungo orizzonte temporale
  3. Ambienti di Calcolo Parallelo: Scenari di applicazione che possono sfruttare pienamente risorse multi-core o GPU
  4. Ottimizzazione Vincolata: Problemi di controllo che richiedono la gestione di vincoli di uguaglianza e disuguaglianza complessi

Riferimenti Bibliografici

L'articolo cita importanti letteratura nel campo, inclusa:

  • Kalman (1960): Fondamenti della teoria del controllo ottimale
  • Blelloch (1989): Teoria degli algoritmi paralleli con scansione associativa
  • Särkkä & García-Fernández (2021): Algoritmi LQR paralleli
  • Wächter & Biegler (2006): Risolutore di punto interno IPOPT

Valutazione Complessiva: Questo è un articolo eccellente con contributi teorici significativi e innovazione tecnica evidente. Gli autori hanno con successo introdotto tecniche di regolarizzazione doppia nelle ricorsioni di Riccati, mantenendo la stabilità numerica e realizzando parallelizzazione efficiente. Sebbene vi sia spazio per miglioramenti nella verifica su applicazioni pratiche, il suo valore teorico e il contributo open-source lo rendono un progresso importante nel campo dei metodi numerici per il controllo ottimale.