2025-11-13T08:28:10.831761

Optimal Control with Lyapunov Stability Guarantees for Space Applications

Abhijeet, Mohamed, Sharma et al.

This paper investigates the infinite horizon optimal control problem (OCP) for space applications characterized by nonlinear dynamics. The proposed approach divides the problem into a finite horizon OCP with a regularized terminal cost, guiding the system towards a terminal set, and an infinite horizon linear regulation phase within this set. This strategy guarantees global asymptotic stability under specific assumptions. Our method maintains the system's fully nonlinear dynamics until it reaches the terminal set, where the system dynamics is linearized. As the terminal set converges to the origin, the difference in optimal cost incurred reduces to zero, guaranteeing an efficient and stable solution. The approach is tested through simulations on three problems: spacecraft attitude control, rendezvous maneuver, and soft landing. In spacecraft attitude control, we focus on achieving precise orientation and stabilization. For rendezvous maneuvers, we address the navigation of a chaser to meet a target spacecraft. For the soft landing problem, we ensure a controlled descent and touchdown on a planetary surface. We provide numerical results confirming the effectiveness of the proposed method in managing these nonlinear dynamics problems, offering robust solutions essential for successful space missions.

academic

Control Óptimo con Garantías de Estabilidad de Lyapunov para Aplicaciones Espaciales

Información Básica

ID del Artículo: 2510.08854
Título: Optimal Control with Lyapunov Stability Guarantees for Space Applications
Autores: Abhijeet, Mohamed Naveed Gul Mohamed, Aayushman Sharma, Suman Chakravorty (Universidad de Texas A&M)
Clasificación: math.OC (Optimización y Control), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
Fecha de Publicación: 9 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.08854v1

Resumen

Este artículo investiga el problema de control óptimo en horizonte infinito (OCP) para aplicaciones espaciales con dinámicas no lineales. El método propuesto descompone el problema en dos fases: un OCP en horizonte finito con costo terminal regularizado que guía el sistema hacia un conjunto terminal, y una fase de regulación lineal en horizonte infinito dentro de ese conjunto. La estrategia garantiza estabilidad asintótica global bajo ciertos supuestos. El método mantiene la dinámica completamente no lineal del sistema antes de alcanzar el conjunto terminal, y luego linealiza la dinámica del sistema. Conforme el conjunto terminal converge al origen, la diferencia de costo óptimo resultante tiende a cero, garantizando una solución eficiente y estable. El método se valida mediante simulaciones de tres problemas: control de actitud de naves espaciales, maniobras de encuentro y aterrizaje suave.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Desafíos de Control en Misiones Espaciales: La exploración espacial requiere estrategias de control avanzadas para garantizar el éxito de las misiones, desde la orientación precisa de naves espaciales hasta maniobras finas de acoplamiento y aterrizaje, superando los desafíos inherentes del entorno espacial.
Limitaciones de Métodos Tradicionales:
- Método de Disparo (Shooting Method): Efectivo en control de actitud y optimización de trayectorias, pero con poca adaptabilidad y sensibilidad a conjeturas iniciales
- Métodos Directos (SQP, Punto Interior): Pueden manejar restricciones, pero no garantizan estabilidad asintótica global ni proporcionan retroalimentación
- Aprendizaje por Refuerzo (RL): Alta dependencia de datos, resultados inconsistentes
Requisitos de Estabilidad a Largo Plazo: Las misiones espaciales requieren que el sistema pueda alcanzar un estado terminal específico desde cualquier estado inicial arbitrario, lo que hace que la estabilidad asintótica global sea particularmente valiosa para misiones espaciales.

Motivación de la Investigación

Ante las limitaciones de los métodos existentes para resolver problemas de control óptimo y la necesidad de estabilidad a largo plazo, este artículo reformula el problema como un OCP en horizonte infinito, adoptando un enfoque manejable que asegure retroalimentación y garantice estabilidad asintótica global.

Contribuciones Principales

Propone un nuevo marco de resolución para control óptimo no lineal en horizonte infinito: Descompone el problema en horizonte infinito en un OCP no lineal en horizonte finito y regulación lineal en dos fases
Establece garantías teóricas: Demuestra que el método propuesto satisface la ecuación de Bellman, proporciona una función de Lyapunov de control (CLF) y garantiza estabilidad asintótica global
Desarrolla un algoritmo práctico: Método híbrido que combina el regulador lineal cuadrático iterativo (iLQR) y el regulador lineal cuadrático (LQR)
Valida la efectividad del método: Verifica el método en tres aplicaciones espaciales clave: control de actitud de naves espaciales, maniobras de encuentro y aterrizaje suave
Proporciona análisis de convergencia: Demuestra que cuando el parámetro del conjunto terminal M→0, el costo del OCP de construcción alternativa (AC-OCP) converge al costo real del OCP en horizonte infinito

Explicación Detallada del Método

Definición de la Tarea

Problema de Control Óptimo en Horizonte Infinito definido como:

J*∞(x) = min{ut} Σ(t=0 a ∞) c(xt, ut); dado x0 = x
sujeto a: xt+1 = f(xt, ut)

Donde:

xt ∈ Rn: vector de estado del sistema
ut ∈ Rp: entrada de control
c(xt, ut): función de costo incremental

Arquitectura del Modelo

1. Problema de Control Óptimo de Construcción Alternativa (AC-OCP)

Convierte el problema en horizonte infinito a:

JM∞(x) = min{ut}(T-1, t=0), T [Σ(t=0 a T-1) c(xt, ut) + max(J̄∞(xT), M)]
sujeto a: xt+1 = f(xt, ut), xT ∈ ΩM

Donde ΩM = {x | J̄∞(x) ≤ M} es el conjunto terminal.

2. Estrategia de Resolución en Dos Fases

Primera Fase: OCP No Lineal en Horizonte Finito

Utiliza iLQR para resolver el problema en horizonte finito:

JT∞(x) = min{ut}(T-1, t=0) [Σ(t=0 a T-1) c(xt, ut) + J̄∞(xT)]

Segunda Fase: Regulación Lineal

Utiliza controlador LQR dentro del conjunto terminal ΩM
Linealización del sistema: J̄∞(x) = xTP∞x, donde P∞ es la solución de la ecuación de Riccati en estado estacionario

3. Implementación del Algoritmo iLQR

Propagación Hacia Adelante:

uk+1_t = uk_t + αkt + Kt(xk+1_t - xk_t)
xk+1_t+1 = f(xk+1_t, uk+1_t)

Propagación Hacia Atrás: Calcula derivadas parciales de la función Q y actualiza ganancias:

kt = -Q^(-1)_utut * Qut
Kt = -Q^(-1)_utut * Qutxt

Puntos de Innovación Técnica

Optimización de Tiempo Terminal Libre: Optimiza el tiempo de transferencia T para asegurar una transición suave al conjunto terminal
Optimalidad Asintótica: Demuestra que limM→0 JM∞(x) = J*∞(x)
Garantía de Estabilidad: La función de costo del AC-OCP satisface la ecuación de Bellman, actuando como CLF para garantizar estabilidad asintótica global
Manejo de Dinámicas Híbridas: Mantiene la dinámica completamente no lineal fuera del conjunto terminal, con linealización dentro del conjunto terminal

Configuración Experimental

Escenarios de Aplicación

El artículo valida el método en tres aplicaciones espaciales clave:

Control de Actitud de Naves Espaciales
Maniobras de Encuentro
Aterrizaje Suave

Dinámicas del Sistema

1. Control de Actitud

Vector de estado: ψ, θ, φ, ω1, ω2, ω3T

Dinámicas de ángulos de Euler y dinámicas de velocidad angular
Matriz de momentos de inercia: J = diag4500, 2000, 7500
Horizonte temporal: 200 segundos, paso de discretización: 0.1 segundos

2. Maniobra de Encuentro

El estado incluye error de posición relativa er, error de velocidad relativa ev y masa m

Dinámicas de órbita elíptica
Horizonte temporal: 6000 segundos, paso de discretización: 2 segundos

3. Aterrizaje Suave

Combina dinámicas de actitud y posición

Gravedad de Marte: gref = 0, 0, -3.7114T
Incluye cambio de masa y restricciones de empuje
Horizonte temporal: 30 segundos, paso de discretización: 0.2 segundos

Métricas de Evaluación

Función de Costo Total: costo cuadrático c(x,u) = ½(xTQx + uTRu)
Error de Estado Terminal
Suavidad de Entrada de Control
Análisis de Convergencia

Resultados Experimentales

Resultados Principales

1. Control de Actitud

Impacto del Tiempo de Transferencia: De 10 a 80 segundos, el costo total disminuye de 6.45×10^5 a 5.20×10^5
Convergencia de Estado:
- Transferencia de 10 segundos: error terminal 34.86°, -33.19°, -36.71°, 2.79°/s, 6.02°/s, 0.97°/s
- Transferencia de 80 segundos: error terminal -0.77°, -0.15°, 0.55°, -0.05°/s, 0.02°/s, -0.05°/s

2. Maniobra de Encuentro

Costo Disminuye con Tiempo de Transferencia: Tiempos de transferencia más largos resultan en costos más bajos y errores más pequeños
Comparación de Estado Terminal:
- 600 segundos: error de posición ~1400km, error de velocidad ~5000m/s
- 2400 segundos: error de posición ~1m, error de velocidad ~2m/s

3. Aterrizaje Suave

Aterrizaje Exitoso: r3=0 en 29.9 segundos (aterrizaje)
Precisión Terminal: error de posición -0.06m, -0.03m, 1.09m, error de velocidad -0.007m/s, -0.008m/s, -0.99m/s
Manejo de Restricciones: Restricciones de altitud manejadas mediante función de penalización exponencial

Hallazgos Clave

Importancia de la Optimización del Tiempo de Transferencia: Tiempos de transferencia más largos permiten que el sistema se linealice más cerca del origen, reduciendo significativamente el costo de regulación
Transición Suave: Un tiempo de transferencia apropiado evita cambios abruptos en la entrada de control
Robustez: El método muestra buen desempeño bajo diferentes condiciones iniciales y parámetros del sistema

Trabajo Relacionado

Direcciones Principales de Investigación

Métodos de Control Óptimo Tradicionales: Método de disparo, métodos directos (SQP, punto interior)
Métodos Modernos: Aprendizaje por refuerzo, control predictivo de modelos
Teoría de Estabilidad: Métodos de Lyapunov, funciones de Lyapunov de control

Ventajas de Este Artículo

Comparado con método de disparo: proporciona control de retroalimentación y mejor robustez
Comparado con métodos directos: garantiza estabilidad asintótica global
Comparado con aprendizaje por refuerzo: garantías teóricas y resultados deterministas

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Establece un marco manejable para resolver OCP no lineal en horizonte infinito
Valor Práctico: Valida la efectividad del método en aplicaciones espaciales clave
Garantía de Estabilidad: Proporciona garantías teóricas de estabilidad asintótica global

Limitaciones

Restricciones de Linealización: La linealización de ciertos sistemas (como sistemas no holonómicos) puede no ser controlable
Manejo de Restricciones: Las restricciones duras deben convertirse en restricciones suaves (como la restricción de altitud en aterrizaje suave)
Complejidad Computacional: Requiere optimizar el tiempo de transferencia, aumentando la carga computacional

Direcciones Futuras

Extensión a Restricciones Más Complejas: Manejo de restricciones de trayectoria y sistemas híbridos
Implementación en Tiempo Real: Desarrollo de algoritmos rápidos adecuados para aplicaciones en línea
Mejora de Robustez: Consideración de incertidumbre de modelos y perturbaciones externas

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona un marco matemático completo y pruebas de convergencia
Practicidad: Valida el método en tres aplicaciones espaciales diferentes
Innovación: Combina ingeniosamente las ventajas de métodos en horizonte finito e infinito
Garantía de Estabilidad: Asegura estabilidad asintótica global mediante CLF

Deficiencias

Condiciones de Supuestos: Depende de controlabilidad del sistema y propiedades específicas de la función de costo
Ajuste de Parámetros: La selección del parámetro del conjunto terminal M carece de orientación clara
Eficiencia Computacional: La optimización del tiempo de transferencia puede requerir múltiples iteraciones de resolución

Impacto

Valor Académico: Proporciona un nuevo marco teórico para control no lineal en horizonte infinito
Significado de Ingeniería: Ofrece un método de diseño práctico para control de misiones espaciales
Extensibilidad: El método puede generalizarse a otros problemas de control que requieren estabilidad a largo plazo

Escenarios Aplicables

Misiones espaciales de operación a largo plazo
Sistemas de control que requieren garantías de estabilidad global
Sistemas complejos con dinámicas no lineales
Misiones críticas con requisitos extremos de seguridad

Referencias

El artículo cita 23 referencias relacionadas, abarcando trabajos importantes en teoría de control óptimo, control de naves espaciales, métodos de optimización numérica y otros campos, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes tanto en teoría como en aplicaciones. Los autores convierten ingeniosamente el problema en horizonte infinito en un problema manejable en horizonte finito, mientras garantizan estabilidad. La validación en tres aplicaciones espaciales importantes demuestra el valor práctico del método. A pesar de algunas limitaciones, en general proporciona herramientas teóricas y métodos prácticos valiosos para el campo del control espacial.