2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban

We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.

academic

Recursiones de Riccati Dualmente Regularizadas para Control Óptimo de Punto Interior

Información Básica

ID del Artículo: 2509.16370
Título: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
Autores: João Sousa-Pinto, Dominique Orban
Clasificación: math.OC cs.MS cs.RO cs.SY eess.SY
Fecha de Publicación: 15 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2509.16370

Resumen

Este artículo deriva extensiones de forma cerrada de las recursiones de Riccati para resolver problemas LQR dualmente regularizados (incluyendo versiones secuencial y paralela). Los autores demuestran cómo utilizar estos métodos mediante métodos de punto interior regularizados para resolver problemas generales de control óptimo discreto en tiempo, no convexos y con restricciones, garantizando que cada paso sea una dirección de descenso de la función de barrera-Lagrangiano aumentada. El artículo proporciona implementaciones con licencia MIT en C++ y JAX.

Antecedentes de Investigación y Motivación

Problema Central

La investigación aborda el problema central de cómo resolver eficientemente problemas de control óptimo discreto en tiempo, no convexos, con restricciones de igualdad y desigualdad. Los métodos tradicionales enfrentan los siguientes desafíos:

Problemas de Eficiencia Computacional: Los métodos de punto interior estándar requieren resolver sistemas lineales de gran escala al tratar problemas de control óptimo, con alta complejidad computacional
Estabilidad Numérica: Cuando los parámetros de regularización tienden a cero, los métodos tradicionales pueden presentar inestabilidad numérica
Dificultades de Paralelización: Los métodos existentes tienen dificultades para aprovechar plenamente los recursos de computación paralela

Importancia del Problema

Los problemas de control óptimo tienen aplicaciones amplias en robótica, aeronáutica, conducción autónoma y otros campos. Resolver eficientemente estos problemas es crucial para sistemas de control en tiempo real, especialmente en escenarios que requieren manejar restricciones complejas.

Limitaciones de Métodos Existentes

Algoritmo DDP: Aunque es el método más utilizado en la práctica, como método de disparo único, no puede inicializar independientemente trayectorias de estado
Métodos LQR Estándar: Solo aplicables a sistemas lineales sin restricciones o con restricciones simples
Métodos de Punto Interior Existentes: Solucionadores de propósito general como IPOPT no pueden aprovechar plenamente las características estructurales de los problemas de control óptimo

Contribuciones Principales

Contribución Teórica: Derivación de extensiones de forma cerrada de recursiones de Riccati para resolver problemas LQR dualmente regularizados, incluyendo versiones secuencial y paralela
Innovación Algorítmica: Propuesta de método de punto interior regularizado que garantiza dirección de descenso, utilizando la función de barrera-Lagrangiano aumentada como función de mérito
Estabilidad Numérica: Diseño de algoritmo numéricamente estable cuando el parámetro de regularización δ→0, capaz de recuperar el algoritmo LQR estándar
Algoritmo Paralelizado: Implementación de algoritmo de resolución con complejidad de tiempo paralelo O(log N) basado en escaneos asociativos
Contribución de Software: Proporciona implementación de código abierto en C++ y JAX, soportando operaciones eficientes de álgebra lineal dispersa

Detalles del Método

Definición de la Tarea

Considere el problema de control óptimo discreto en tiempo:

$\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)$

Restricciones:

Estado inicial: $x_0 = s_0$
Restricciones de dinámica: $x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}$
Restricciones de igualdad: $c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}$
Restricciones de desigualdad: $g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}$
Restricciones terminales: $c_N(x_N) = 0, g_N(x_N) \leq 0$

Marco del Método de Punto Interior Regularizado

Función de Barrera-Lagrangiano Aumentada

Defina la función de barrera-Lagrangiano: $L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)$

Versión aumentada: $A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)$

Resolución de Sistema Lineal

Cada iteración requiere resolver el sistema lineal: $\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)$

Problema LQR Dualmente Regularizado

Mediante eliminación de variables, el sistema lineal del método de punto interior se transforma en un problema LQR dualmente regularizado: $\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}$

donde $\delta > 0$ es el parámetro de regularización, la matriz $P$ tiene estructura de bloque diagonal, y $C$ contiene las matrices Jacobianas de las restricciones de dinámica.

Algoritmo Secuencial

Recursión Hacia Atrás

Defina variables clave:

$V_i = \frac{1}{\delta}(F_i - I)$ : aproximación de función de valor
$v_i = \frac{1}{\delta}(f_i + c_i)$ : vector de desplazamiento

Fórmulas de recursión:

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)

Recursión Hacia Adelante

Recupere la trayectoria óptima mediante la ley de control $u_i = K_i x_i + k_i$ y la ecuación de transición de estado.

Algoritmo Paralelo

Paralelización mediante Escaneo Asociativo

Implementación de complejidad de tiempo paralelo O(log N):

Funciones de Valor de Intervalo: Defina $V_{i \to j}(x_i, x_j)$ representando la función de valor desde la etapa i hasta j
Reglas de Combinación: Establezca operaciones de combinación de funciones de valor de intervalo que satisfagan asociatividad
Computación Paralela: Calcule en paralelo todos los $V_{i \to N+1}$ mediante escaneo asociativo inverso

Composición de Funciones Afines

Transforme la recursión hacia adelante en composición de funciones afines: $x_{i+1} = M_i x_i + m_i$

Utilice escaneo asociativo para componer en paralelo todas las transformaciones afines, implementando propagación hacia adelante paralela O(log N).

Puntos Técnicos de Innovación

Diseño de Estabilidad Numérica: Reparametrización para evitar problemas numéricos cuando $\delta \to 0$
Garantía de Dirección de Descenso: Prueba teórica de que la dirección de búsqueda es una dirección de descenso de la función de barrera-Lagrangiano aumentada
Resolución Estructurada: Aprovechamiento pleno de la estructura temporal del problema de control óptimo, evitando resolver sistemas lineales densos de gran escala
Diseño de Paralelización: Implementación de paralelización eficiente basada en escaneos asociativos de programación funcional

Configuración Experimental

Detalles de Implementación

El artículo proporciona dos conjuntos de implementaciones:

Implementación en C++:
- Basada en marco SIP (Simple Interior Point)
- Soporte para integración de solucionador disperso QDLDL
- Evita asignación dinámica de memoria en tiempo de ejecución
- Soporte para solucionadores KKT personalizados
Implementación en JAX:
- Soporte para diferenciación automática
- Aceleración GPU/TPU
- Suite completa de pruebas unitarias

Métodos de Verificación

Verificación de corrección del algoritmo en ejemplos aleatorios que satisfacen la definitud positiva requerida
Verificación de consistencia con algoritmo LQR estándar cuando $\delta = 0$
Pruebas de estabilidad numérica

Resultados Experimentales

Verificación de Corrección

El artículo verifica la corrección del algoritmo mediante:

Verificación Teórica: Cuando $\delta = 0$ , el algoritmo se degenera en el algoritmo LQR estándar
Verificación Numérica: Verificación de corrección de soluciones en casos de prueba generados aleatoriamente
Pruebas Unitarias: La implementación en JAX incluye suite completa de pruebas unitarias

Garantía de Dirección de Descenso

El Teorema 1.2 prueba que cuando $\Delta x \neq 0$ o $\Delta s \neq 0$ , la derivada direccional satisface: $D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0$

Esto garantiza la convergencia global del algoritmo.

Análisis de Complejidad

Algoritmo Secuencial: Complejidad de tiempo O(N)
Algoritmo Paralelo: Complejidad de tiempo paralelo O(log N)
Complejidad de Espacio: O(N), relacionada linealmente con el tamaño del problema

Trabajo Relacionado

Direcciones de Investigación Principales

Métodos LQR Clásicos: Kalman (1960) derivó por primera vez las recursiones de Riccati
Aplicación de Métodos de Punto Interior: Rao et al. (1998) aplicaron por primera vez métodos de punto interior a control predictivo de modelos
LQR Paralelo: Särkkä y García-Fernández (2021) propusieron el primer algoritmo LQR paralelo O(log N)
Solucionadores Estructurados: Trabajos recientes como FATROP exploran manejo de restricciones estructuradas

Ventajas Relativas de Este Artículo

Completitud Teórica: Proporciona análisis teórico completo y garantías de convergencia
Estabilidad Numérica: Resuelve problemas numéricos cuando el parámetro de regularización tiende a cero
Practicidad: Proporciona implementación de código abierto completa
Generalidad: Puede manejar problemas generales de control óptimo con restricciones no convexas

Conclusiones y Discusión

Conclusiones Principales

Derivación exitosa de extensiones de forma cerrada de recursiones de Riccati para problemas LQR dualmente regularizados
Establecimiento de conexión con métodos de punto interior regularizados, garantizando convergencia del algoritmo
Implementación de algoritmo eficiente con complejidad de tiempo paralelo O(log N)
Proporciona implementación de código abierto numéricamente estable y práctica

Limitaciones

Restricción de Tipos de Restricciones: El método es principalmente aplicable a problemas que pueden transformarse en forma LQR
Requisito de Definitud Positiva: El algoritmo requiere suposición de definitud positiva de la matriz Hessiana
Desempeño Práctico: El artículo carece de comparaciones de desempeño en problemas reales a gran escala

Direcciones Futuras

Extensión a Restricciones Más Generales: Manejo de restricciones de trayectoria y restricciones terminales más complejas
Regularización Adaptativa: Desarrollo de estrategias para selección adaptativa de parámetros de regularización
Verificación de Aplicaciones Prácticas: Validación de efectividad del método en aplicaciones prácticas como control robótico

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Primera combinación de técnicas de regularización dual con recursiones de Riccati, análisis teórico completo
Diseño Algorítmico Elegante: Aprovechamiento ingenioso de la estructura temporal del problema de control óptimo
Consideraciones Numéricas Exhaustivas: Atención especial a problemas de estabilidad numérica
Calidad de Implementación Alta: Proporciona implementaciones de código abierto de alta calidad en dos lenguajes
Innovación en Paralelización: Método de paralelización basado en escaneos asociativos con valor teórico y práctico

Insuficiencias

Verificación Experimental Limitada: Principalmente verificación teórica y pruebas numéricas simples, carece de comparaciones en problemas reales a gran escala
Análisis de Desempeño Insuficiente: Sin análisis detallado de tiempo de computación y uso de memoria
Discusión Insuficiente del Rango de Aplicabilidad: Falta discusión profunda sobre qué tipos de problemas de control óptimo son más adecuados para este método
Falta de Orientación en Selección de Parámetros: Discusión limitada sobre estrategias de selección del parámetro de regularización

Impacto

Valor Académico: Proporciona nuevas herramientas teóricas para métodos numéricos de control óptimo
Valor Práctico: La implementación de código abierto facilita la promoción y aplicación del método
Reproducibilidad: Descripción detallada del algoritmo y código abierto garantizan reproducibilidad
Inspiración: La idea de regularización dual puede inspirar soluciones para otros problemas de optimización

Escenarios de Aplicabilidad

Sistemas de Control en Tiempo Real: Aplicaciones de control predictivo de modelos que requieren resolución rápida
Optimización a Gran Escala: Problemas de control óptimo con horizonte temporal largo
Entornos de Computación Paralela: Escenarios de aplicación que pueden aprovechar plenamente recursos de múltiples núcleos o GPU
Optimización con Restricciones: Problemas de control que requieren manejar restricciones complejas de igualdad y desigualdad

Referencias

El artículo cita literatura importante en el campo, incluyendo:

Kalman (1960): Fundamentos de teoría de control óptimo
Blelloch (1989): Teoría de algoritmos paralelos con escaneos asociativos
Särkkä & García-Fernández (2021): Algoritmos LQR paralelos
Wächter & Biegler (2006): Solucionador de punto interior IPOPT

Evaluación General: Este es un artículo excelente con contribuciones teóricas destacadas e innovaciones técnicas evidentes. Los autores han introducido exitosamente técnicas de regularización dual en recursiones de Riccati, manteniendo estabilidad numérica e implementando paralelización eficiente. Aunque hay espacio para mejora en verificación de aplicaciones prácticas, su valor teórico y contribución de código abierto lo convierten en un progreso importante en el campo de métodos numéricos para control óptimo.