2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic

Recursiones de Riccati Dualmente Regularizadas para Control Óptimo de Punto Interior

Información Básica

  • ID del Artículo: 2509.16370
  • Título: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
  • Autores: João Sousa-Pinto, Dominique Orban
  • Clasificación: math.OC cs.MS cs.RO cs.SY eess.SY
  • Fecha de Publicación: 15 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2509.16370

Resumen

Este artículo deriva extensiones de forma cerrada de las recursiones de Riccati para resolver problemas LQR dualmente regularizados (incluyendo versiones secuencial y paralela). Los autores demuestran cómo utilizar estos métodos mediante métodos de punto interior regularizados para resolver problemas generales de control óptimo discreto en tiempo, no convexos y con restricciones, garantizando que cada paso sea una dirección de descenso de la función de barrera-Lagrangiano aumentada. El artículo proporciona implementaciones con licencia MIT en C++ y JAX.

Antecedentes de Investigación y Motivación

Problema Central

La investigación aborda el problema central de cómo resolver eficientemente problemas de control óptimo discreto en tiempo, no convexos, con restricciones de igualdad y desigualdad. Los métodos tradicionales enfrentan los siguientes desafíos:

  1. Problemas de Eficiencia Computacional: Los métodos de punto interior estándar requieren resolver sistemas lineales de gran escala al tratar problemas de control óptimo, con alta complejidad computacional
  2. Estabilidad Numérica: Cuando los parámetros de regularización tienden a cero, los métodos tradicionales pueden presentar inestabilidad numérica
  3. Dificultades de Paralelización: Los métodos existentes tienen dificultades para aprovechar plenamente los recursos de computación paralela

Importancia del Problema

Los problemas de control óptimo tienen aplicaciones amplias en robótica, aeronáutica, conducción autónoma y otros campos. Resolver eficientemente estos problemas es crucial para sistemas de control en tiempo real, especialmente en escenarios que requieren manejar restricciones complejas.

Limitaciones de Métodos Existentes

  1. Algoritmo DDP: Aunque es el método más utilizado en la práctica, como método de disparo único, no puede inicializar independientemente trayectorias de estado
  2. Métodos LQR Estándar: Solo aplicables a sistemas lineales sin restricciones o con restricciones simples
  3. Métodos de Punto Interior Existentes: Solucionadores de propósito general como IPOPT no pueden aprovechar plenamente las características estructurales de los problemas de control óptimo

Contribuciones Principales

  1. Contribución Teórica: Derivación de extensiones de forma cerrada de recursiones de Riccati para resolver problemas LQR dualmente regularizados, incluyendo versiones secuencial y paralela
  2. Innovación Algorítmica: Propuesta de método de punto interior regularizado que garantiza dirección de descenso, utilizando la función de barrera-Lagrangiano aumentada como función de mérito
  3. Estabilidad Numérica: Diseño de algoritmo numéricamente estable cuando el parámetro de regularización δ→0, capaz de recuperar el algoritmo LQR estándar
  4. Algoritmo Paralelizado: Implementación de algoritmo de resolución con complejidad de tiempo paralelo O(log N) basado en escaneos asociativos
  5. Contribución de Software: Proporciona implementación de código abierto en C++ y JAX, soportando operaciones eficientes de álgebra lineal dispersa

Detalles del Método

Definición de la Tarea

Considere el problema de control óptimo discreto en tiempo:

minx0,u0,,xNi=0N1fi(xi,ui)+fN(xN)\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)

Restricciones:

  • Estado inicial: x0=s0x_0 = s_0
  • Restricciones de dinámica: xi+1=di(xi,ui),i{0,,N1}x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}
  • Restricciones de igualdad: ci(xi,ui)=0,i{0,,N1}c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}
  • Restricciones de desigualdad: gi(xi,ui)0,i{0,,N1}g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}
  • Restricciones terminales: cN(xN)=0,gN(xN)0c_N(x_N) = 0, g_N(x_N) \leq 0

Marco del Método de Punto Interior Regularizado

Función de Barrera-Lagrangiano Aumentada

Defina la función de barrera-Lagrangiano: L(x,s,y,z;μ)=f(x)μilog(si)+yTc(x)+zT(g(x)+s)L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)

Versión aumentada: A(x,s,y,z;μ,η)=L(x,s,y,z;μ)+η2(c(x)2+g(x)+s2)A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)

Resolución de Sistema Lineal

Cada iteración requiere resolver el sistema lineal: [P0CTGT0S1Z0IC01ηI0GI01ηI][ΔxΔsΔyΔz]=L(x,s,y,z;μ)\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)

Problema LQR Dualmente Regularizado

Mediante eliminación de variables, el sistema lineal del método de punto interior se transforma en un problema LQR dualmente regularizado: [PCTCδI][xy]=[sc]\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}

donde δ>0\delta > 0 es el parámetro de regularización, la matriz PP tiene estructura de bloque diagonal, y CC contiene las matrices Jacobianas de las restricciones de dinámica.

Algoritmo Secuencial

Recursión Hacia Atrás

Defina variables clave:

  • Vi=1δ(FiI)V_i = \frac{1}{\delta}(F_i - I): aproximación de función de valor
  • vi=1δ(fi+ci)v_i = \frac{1}{\delta}(f_i + c_i): vector de desplazamiento

Fórmulas de recursión:

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)

Recursión Hacia Adelante

Recupere la trayectoria óptima mediante la ley de control ui=Kixi+kiu_i = K_i x_i + k_i y la ecuación de transición de estado.

Algoritmo Paralelo

Paralelización mediante Escaneo Asociativo

Implementación de complejidad de tiempo paralelo O(log N):

  1. Funciones de Valor de Intervalo: Defina Vij(xi,xj)V_{i \to j}(x_i, x_j) representando la función de valor desde la etapa i hasta j
  2. Reglas de Combinación: Establezca operaciones de combinación de funciones de valor de intervalo que satisfagan asociatividad
  3. Computación Paralela: Calcule en paralelo todos los ViN+1V_{i \to N+1} mediante escaneo asociativo inverso

Composición de Funciones Afines

Transforme la recursión hacia adelante en composición de funciones afines: xi+1=Mixi+mix_{i+1} = M_i x_i + m_i

Utilice escaneo asociativo para componer en paralelo todas las transformaciones afines, implementando propagación hacia adelante paralela O(log N).

Puntos Técnicos de Innovación

  1. Diseño de Estabilidad Numérica: Reparametrización para evitar problemas numéricos cuando δ0\delta \to 0
  2. Garantía de Dirección de Descenso: Prueba teórica de que la dirección de búsqueda es una dirección de descenso de la función de barrera-Lagrangiano aumentada
  3. Resolución Estructurada: Aprovechamiento pleno de la estructura temporal del problema de control óptimo, evitando resolver sistemas lineales densos de gran escala
  4. Diseño de Paralelización: Implementación de paralelización eficiente basada en escaneos asociativos de programación funcional

Configuración Experimental

Detalles de Implementación

El artículo proporciona dos conjuntos de implementaciones:

  1. Implementación en C++:
    • Basada en marco SIP (Simple Interior Point)
    • Soporte para integración de solucionador disperso QDLDL
    • Evita asignación dinámica de memoria en tiempo de ejecución
    • Soporte para solucionadores KKT personalizados
  2. Implementación en JAX:
    • Soporte para diferenciación automática
    • Aceleración GPU/TPU
    • Suite completa de pruebas unitarias

Métodos de Verificación

  • Verificación de corrección del algoritmo en ejemplos aleatorios que satisfacen la definitud positiva requerida
  • Verificación de consistencia con algoritmo LQR estándar cuando δ=0\delta = 0
  • Pruebas de estabilidad numérica

Resultados Experimentales

Verificación de Corrección

El artículo verifica la corrección del algoritmo mediante:

  1. Verificación Teórica: Cuando δ=0\delta = 0, el algoritmo se degenera en el algoritmo LQR estándar
  2. Verificación Numérica: Verificación de corrección de soluciones en casos de prueba generados aleatoriamente
  3. Pruebas Unitarias: La implementación en JAX incluye suite completa de pruebas unitarias

Garantía de Dirección de Descenso

El Teorema 1.2 prueba que cuando Δx0\Delta x \neq 0 o Δs0\Delta s \neq 0, la derivada direccional satisface: D(A(,,y,z;μ,η);(Δx,Δs))(x,s)<0D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0

Esto garantiza la convergencia global del algoritmo.

Análisis de Complejidad

  • Algoritmo Secuencial: Complejidad de tiempo O(N)
  • Algoritmo Paralelo: Complejidad de tiempo paralelo O(log N)
  • Complejidad de Espacio: O(N), relacionada linealmente con el tamaño del problema

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Métodos LQR Clásicos: Kalman (1960) derivó por primera vez las recursiones de Riccati
  2. Aplicación de Métodos de Punto Interior: Rao et al. (1998) aplicaron por primera vez métodos de punto interior a control predictivo de modelos
  3. LQR Paralelo: Särkkä y García-Fernández (2021) propusieron el primer algoritmo LQR paralelo O(log N)
  4. Solucionadores Estructurados: Trabajos recientes como FATROP exploran manejo de restricciones estructuradas

Ventajas Relativas de Este Artículo

  1. Completitud Teórica: Proporciona análisis teórico completo y garantías de convergencia
  2. Estabilidad Numérica: Resuelve problemas numéricos cuando el parámetro de regularización tiende a cero
  3. Practicidad: Proporciona implementación de código abierto completa
  4. Generalidad: Puede manejar problemas generales de control óptimo con restricciones no convexas

Conclusiones y Discusión

Conclusiones Principales

  1. Derivación exitosa de extensiones de forma cerrada de recursiones de Riccati para problemas LQR dualmente regularizados
  2. Establecimiento de conexión con métodos de punto interior regularizados, garantizando convergencia del algoritmo
  3. Implementación de algoritmo eficiente con complejidad de tiempo paralelo O(log N)
  4. Proporciona implementación de código abierto numéricamente estable y práctica

Limitaciones

  1. Restricción de Tipos de Restricciones: El método es principalmente aplicable a problemas que pueden transformarse en forma LQR
  2. Requisito de Definitud Positiva: El algoritmo requiere suposición de definitud positiva de la matriz Hessiana
  3. Desempeño Práctico: El artículo carece de comparaciones de desempeño en problemas reales a gran escala

Direcciones Futuras

  1. Extensión a Restricciones Más Generales: Manejo de restricciones de trayectoria y restricciones terminales más complejas
  2. Regularización Adaptativa: Desarrollo de estrategias para selección adaptativa de parámetros de regularización
  3. Verificación de Aplicaciones Prácticas: Validación de efectividad del método en aplicaciones prácticas como control robótico

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Primera combinación de técnicas de regularización dual con recursiones de Riccati, análisis teórico completo
  2. Diseño Algorítmico Elegante: Aprovechamiento ingenioso de la estructura temporal del problema de control óptimo
  3. Consideraciones Numéricas Exhaustivas: Atención especial a problemas de estabilidad numérica
  4. Calidad de Implementación Alta: Proporciona implementaciones de código abierto de alta calidad en dos lenguajes
  5. Innovación en Paralelización: Método de paralelización basado en escaneos asociativos con valor teórico y práctico

Insuficiencias

  1. Verificación Experimental Limitada: Principalmente verificación teórica y pruebas numéricas simples, carece de comparaciones en problemas reales a gran escala
  2. Análisis de Desempeño Insuficiente: Sin análisis detallado de tiempo de computación y uso de memoria
  3. Discusión Insuficiente del Rango de Aplicabilidad: Falta discusión profunda sobre qué tipos de problemas de control óptimo son más adecuados para este método
  4. Falta de Orientación en Selección de Parámetros: Discusión limitada sobre estrategias de selección del parámetro de regularización

Impacto

  1. Valor Académico: Proporciona nuevas herramientas teóricas para métodos numéricos de control óptimo
  2. Valor Práctico: La implementación de código abierto facilita la promoción y aplicación del método
  3. Reproducibilidad: Descripción detallada del algoritmo y código abierto garantizan reproducibilidad
  4. Inspiración: La idea de regularización dual puede inspirar soluciones para otros problemas de optimización

Escenarios de Aplicabilidad

  1. Sistemas de Control en Tiempo Real: Aplicaciones de control predictivo de modelos que requieren resolución rápida
  2. Optimización a Gran Escala: Problemas de control óptimo con horizonte temporal largo
  3. Entornos de Computación Paralela: Escenarios de aplicación que pueden aprovechar plenamente recursos de múltiples núcleos o GPU
  4. Optimización con Restricciones: Problemas de control que requieren manejar restricciones complejas de igualdad y desigualdad

Referencias

El artículo cita literatura importante en el campo, incluyendo:

  • Kalman (1960): Fundamentos de teoría de control óptimo
  • Blelloch (1989): Teoría de algoritmos paralelos con escaneos asociativos
  • Särkkä & García-Fernández (2021): Algoritmos LQR paralelos
  • Wächter & Biegler (2006): Solucionador de punto interior IPOPT

Evaluación General: Este es un artículo excelente con contribuciones teóricas destacadas e innovaciones técnicas evidentes. Los autores han introducido exitosamente técnicas de regularización dual en recursiones de Riccati, manteniendo estabilidad numérica e implementando paralelización eficiente. Aunque hay espacio para mejora en verificación de aplicaciones prácticas, su valor teórico y contribución de código abierto lo convierten en un progreso importante en el campo de métodos numéricos para control óptimo.