Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic
Recursiones de Riccati Dualmente Regularizadas para Control Óptimo de Punto Interior
Este artículo deriva extensiones de forma cerrada de las recursiones de Riccati para resolver problemas LQR dualmente regularizados (incluyendo versiones secuencial y paralela). Los autores demuestran cómo utilizar estos métodos mediante métodos de punto interior regularizados para resolver problemas generales de control óptimo discreto en tiempo, no convexos y con restricciones, garantizando que cada paso sea una dirección de descenso de la función de barrera-Lagrangiano aumentada. El artículo proporciona implementaciones con licencia MIT en C++ y JAX.
La investigación aborda el problema central de cómo resolver eficientemente problemas de control óptimo discreto en tiempo, no convexos, con restricciones de igualdad y desigualdad. Los métodos tradicionales enfrentan los siguientes desafíos:
Problemas de Eficiencia Computacional: Los métodos de punto interior estándar requieren resolver sistemas lineales de gran escala al tratar problemas de control óptimo, con alta complejidad computacional
Estabilidad Numérica: Cuando los parámetros de regularización tienden a cero, los métodos tradicionales pueden presentar inestabilidad numérica
Dificultades de Paralelización: Los métodos existentes tienen dificultades para aprovechar plenamente los recursos de computación paralela
Los problemas de control óptimo tienen aplicaciones amplias en robótica, aeronáutica, conducción autónoma y otros campos. Resolver eficientemente estos problemas es crucial para sistemas de control en tiempo real, especialmente en escenarios que requieren manejar restricciones complejas.
Algoritmo DDP: Aunque es el método más utilizado en la práctica, como método de disparo único, no puede inicializar independientemente trayectorias de estado
Métodos LQR Estándar: Solo aplicables a sistemas lineales sin restricciones o con restricciones simples
Métodos de Punto Interior Existentes: Solucionadores de propósito general como IPOPT no pueden aprovechar plenamente las características estructurales de los problemas de control óptimo
Contribución Teórica: Derivación de extensiones de forma cerrada de recursiones de Riccati para resolver problemas LQR dualmente regularizados, incluyendo versiones secuencial y paralela
Innovación Algorítmica: Propuesta de método de punto interior regularizado que garantiza dirección de descenso, utilizando la función de barrera-Lagrangiano aumentada como función de mérito
Estabilidad Numérica: Diseño de algoritmo numéricamente estable cuando el parámetro de regularización δ→0, capaz de recuperar el algoritmo LQR estándar
Algoritmo Paralelizado: Implementación de algoritmo de resolución con complejidad de tiempo paralelo O(log N) basado en escaneos asociativos
Contribución de Software: Proporciona implementación de código abierto en C++ y JAX, soportando operaciones eficientes de álgebra lineal dispersa
Mediante eliminación de variables, el sistema lineal del método de punto interior se transforma en un problema LQR dualmente regularizado:
[PCCT−δI][xy]=−[sc]
donde δ>0 es el parámetro de regularización, la matriz P tiene estructura de bloque diagonal, y C contiene las matrices Jacobianas de las restricciones de dinámica.
Diseño de Estabilidad Numérica: Reparametrización para evitar problemas numéricos cuando δ→0
Garantía de Dirección de Descenso: Prueba teórica de que la dirección de búsqueda es una dirección de descenso de la función de barrera-Lagrangiano aumentada
Resolución Estructurada: Aprovechamiento pleno de la estructura temporal del problema de control óptimo, evitando resolver sistemas lineales densos de gran escala
Diseño de Paralelización: Implementación de paralelización eficiente basada en escaneos asociativos de programación funcional
Verificación Experimental Limitada: Principalmente verificación teórica y pruebas numéricas simples, carece de comparaciones en problemas reales a gran escala
Análisis de Desempeño Insuficiente: Sin análisis detallado de tiempo de computación y uso de memoria
Discusión Insuficiente del Rango de Aplicabilidad: Falta discusión profunda sobre qué tipos de problemas de control óptimo son más adecuados para este método
Falta de Orientación en Selección de Parámetros: Discusión limitada sobre estrategias de selección del parámetro de regularización
Wächter & Biegler (2006): Solucionador de punto interior IPOPT
Evaluación General: Este es un artículo excelente con contribuciones teóricas destacadas e innovaciones técnicas evidentes. Los autores han introducido exitosamente técnicas de regularización dual en recursiones de Riccati, manteniendo estabilidad numérica e implementando paralelización eficiente. Aunque hay espacio para mejora en verificación de aplicaciones prácticas, su valor teórico y contribución de código abierto lo convierten en un progreso importante en el campo de métodos numéricos para control óptimo.