2025-11-13T08:28:10.831761

Optimal Control with Lyapunov Stability Guarantees for Space Applications

Abhijeet, Mohamed, Sharma et al.
This paper investigates the infinite horizon optimal control problem (OCP) for space applications characterized by nonlinear dynamics. The proposed approach divides the problem into a finite horizon OCP with a regularized terminal cost, guiding the system towards a terminal set, and an infinite horizon linear regulation phase within this set. This strategy guarantees global asymptotic stability under specific assumptions. Our method maintains the system's fully nonlinear dynamics until it reaches the terminal set, where the system dynamics is linearized. As the terminal set converges to the origin, the difference in optimal cost incurred reduces to zero, guaranteeing an efficient and stable solution. The approach is tested through simulations on three problems: spacecraft attitude control, rendezvous maneuver, and soft landing. In spacecraft attitude control, we focus on achieving precise orientation and stabilization. For rendezvous maneuvers, we address the navigation of a chaser to meet a target spacecraft. For the soft landing problem, we ensure a controlled descent and touchdown on a planetary surface. We provide numerical results confirming the effectiveness of the proposed method in managing these nonlinear dynamics problems, offering robust solutions essential for successful space missions.
academic

Control Óptimo con Garantías de Estabilidad de Lyapunov para Aplicaciones Espaciales

Información Básica

  • ID del Artículo: 2510.08854
  • Título: Optimal Control with Lyapunov Stability Guarantees for Space Applications
  • Autores: Abhijeet, Mohamed Naveed Gul Mohamed, Aayushman Sharma, Suman Chakravorty (Universidad de Texas A&M)
  • Clasificación: math.OC (Optimización y Control), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
  • Fecha de Publicación: 9 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.08854v1

Resumen

Este artículo investiga el problema de control óptimo en horizonte infinito (OCP) para aplicaciones espaciales con dinámicas no lineales. El método propuesto descompone el problema en dos fases: un OCP en horizonte finito con costo terminal regularizado que guía el sistema hacia un conjunto terminal, y una fase de regulación lineal en horizonte infinito dentro de ese conjunto. La estrategia garantiza estabilidad asintótica global bajo ciertos supuestos. El método mantiene la dinámica completamente no lineal del sistema antes de alcanzar el conjunto terminal, y luego linealiza la dinámica del sistema. Conforme el conjunto terminal converge al origen, la diferencia de costo óptimo resultante tiende a cero, garantizando una solución eficiente y estable. El método se valida mediante simulaciones de tres problemas: control de actitud de naves espaciales, maniobras de encuentro y aterrizaje suave.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Desafíos de Control en Misiones Espaciales: La exploración espacial requiere estrategias de control avanzadas para garantizar el éxito de las misiones, desde la orientación precisa de naves espaciales hasta maniobras finas de acoplamiento y aterrizaje, superando los desafíos inherentes del entorno espacial.
  2. Limitaciones de Métodos Tradicionales:
    • Método de Disparo (Shooting Method): Efectivo en control de actitud y optimización de trayectorias, pero con poca adaptabilidad y sensibilidad a conjeturas iniciales
    • Métodos Directos (SQP, Punto Interior): Pueden manejar restricciones, pero no garantizan estabilidad asintótica global ni proporcionan retroalimentación
    • Aprendizaje por Refuerzo (RL): Alta dependencia de datos, resultados inconsistentes
  3. Requisitos de Estabilidad a Largo Plazo: Las misiones espaciales requieren que el sistema pueda alcanzar un estado terminal específico desde cualquier estado inicial arbitrario, lo que hace que la estabilidad asintótica global sea particularmente valiosa para misiones espaciales.

Motivación de la Investigación

Ante las limitaciones de los métodos existentes para resolver problemas de control óptimo y la necesidad de estabilidad a largo plazo, este artículo reformula el problema como un OCP en horizonte infinito, adoptando un enfoque manejable que asegure retroalimentación y garantice estabilidad asintótica global.

Contribuciones Principales

  1. Propone un nuevo marco de resolución para control óptimo no lineal en horizonte infinito: Descompone el problema en horizonte infinito en un OCP no lineal en horizonte finito y regulación lineal en dos fases
  2. Establece garantías teóricas: Demuestra que el método propuesto satisface la ecuación de Bellman, proporciona una función de Lyapunov de control (CLF) y garantiza estabilidad asintótica global
  3. Desarrolla un algoritmo práctico: Método híbrido que combina el regulador lineal cuadrático iterativo (iLQR) y el regulador lineal cuadrático (LQR)
  4. Valida la efectividad del método: Verifica el método en tres aplicaciones espaciales clave: control de actitud de naves espaciales, maniobras de encuentro y aterrizaje suave
  5. Proporciona análisis de convergencia: Demuestra que cuando el parámetro del conjunto terminal M→0, el costo del OCP de construcción alternativa (AC-OCP) converge al costo real del OCP en horizonte infinito

Explicación Detallada del Método

Definición de la Tarea

Problema de Control Óptimo en Horizonte Infinito definido como:

J*∞(x) = min{ut} Σ(t=0 a ∞) c(xt, ut); dado x0 = x
sujeto a: xt+1 = f(xt, ut)

Donde:

  • xt ∈ Rn: vector de estado del sistema
  • ut ∈ Rp: entrada de control
  • c(xt, ut): función de costo incremental

Arquitectura del Modelo

1. Problema de Control Óptimo de Construcción Alternativa (AC-OCP)

Convierte el problema en horizonte infinito a:

JM∞(x) = min{ut}(T-1, t=0), T [Σ(t=0 a T-1) c(xt, ut) + max(J̄∞(xT), M)]
sujeto a: xt+1 = f(xt, ut), xT ∈ ΩM

Donde ΩM = {x | J̄∞(x) ≤ M} es el conjunto terminal.

2. Estrategia de Resolución en Dos Fases

Primera Fase: OCP No Lineal en Horizonte Finito

  • Utiliza iLQR para resolver el problema en horizonte finito:
JT∞(x) = min{ut}(T-1, t=0) [Σ(t=0 a T-1) c(xt, ut) + J̄∞(xT)]

Segunda Fase: Regulación Lineal

  • Utiliza controlador LQR dentro del conjunto terminal ΩM
  • Linealización del sistema: J̄∞(x) = xTP∞x, donde P∞ es la solución de la ecuación de Riccati en estado estacionario

3. Implementación del Algoritmo iLQR

Propagación Hacia Adelante:

uk+1_t = uk_t + αkt + Kt(xk+1_t - xk_t)
xk+1_t+1 = f(xk+1_t, uk+1_t)

Propagación Hacia Atrás: Calcula derivadas parciales de la función Q y actualiza ganancias:

kt = -Q^(-1)_utut * Qut
Kt = -Q^(-1)_utut * Qutxt

Puntos de Innovación Técnica

  1. Optimización de Tiempo Terminal Libre: Optimiza el tiempo de transferencia T para asegurar una transición suave al conjunto terminal
  2. Optimalidad Asintótica: Demuestra que limM→0 JM∞(x) = J*∞(x)
  3. Garantía de Estabilidad: La función de costo del AC-OCP satisface la ecuación de Bellman, actuando como CLF para garantizar estabilidad asintótica global
  4. Manejo de Dinámicas Híbridas: Mantiene la dinámica completamente no lineal fuera del conjunto terminal, con linealización dentro del conjunto terminal

Configuración Experimental

Escenarios de Aplicación

El artículo valida el método en tres aplicaciones espaciales clave:

  1. Control de Actitud de Naves Espaciales
  2. Maniobras de Encuentro
  3. Aterrizaje Suave

Dinámicas del Sistema

1. Control de Actitud

Vector de estado: ψ, θ, φ, ω1, ω2, ω3T

  • Dinámicas de ángulos de Euler y dinámicas de velocidad angular
  • Matriz de momentos de inercia: J = diag4500, 2000, 7500
  • Horizonte temporal: 200 segundos, paso de discretización: 0.1 segundos

2. Maniobra de Encuentro

El estado incluye error de posición relativa er, error de velocidad relativa ev y masa m

  • Dinámicas de órbita elíptica
  • Horizonte temporal: 6000 segundos, paso de discretización: 2 segundos

3. Aterrizaje Suave

Combina dinámicas de actitud y posición

  • Gravedad de Marte: gref = 0, 0, -3.7114T
  • Incluye cambio de masa y restricciones de empuje
  • Horizonte temporal: 30 segundos, paso de discretización: 0.2 segundos

Métricas de Evaluación

  • Función de Costo Total: costo cuadrático c(x,u) = ½(xTQx + uTRu)
  • Error de Estado Terminal
  • Suavidad de Entrada de Control
  • Análisis de Convergencia

Resultados Experimentales

Resultados Principales

1. Control de Actitud

  • Impacto del Tiempo de Transferencia: De 10 a 80 segundos, el costo total disminuye de 6.45×10^5 a 5.20×10^5
  • Convergencia de Estado:
    • Transferencia de 10 segundos: error terminal 34.86°, -33.19°, -36.71°, 2.79°/s, 6.02°/s, 0.97°/s
    • Transferencia de 80 segundos: error terminal -0.77°, -0.15°, 0.55°, -0.05°/s, 0.02°/s, -0.05°/s

2. Maniobra de Encuentro

  • Costo Disminuye con Tiempo de Transferencia: Tiempos de transferencia más largos resultan en costos más bajos y errores más pequeños
  • Comparación de Estado Terminal:
    • 600 segundos: error de posición ~1400km, error de velocidad ~5000m/s
    • 2400 segundos: error de posición ~1m, error de velocidad ~2m/s

3. Aterrizaje Suave

  • Aterrizaje Exitoso: r3=0 en 29.9 segundos (aterrizaje)
  • Precisión Terminal: error de posición -0.06m, -0.03m, 1.09m, error de velocidad -0.007m/s, -0.008m/s, -0.99m/s
  • Manejo de Restricciones: Restricciones de altitud manejadas mediante función de penalización exponencial

Hallazgos Clave

  1. Importancia de la Optimización del Tiempo de Transferencia: Tiempos de transferencia más largos permiten que el sistema se linealice más cerca del origen, reduciendo significativamente el costo de regulación
  2. Transición Suave: Un tiempo de transferencia apropiado evita cambios abruptos en la entrada de control
  3. Robustez: El método muestra buen desempeño bajo diferentes condiciones iniciales y parámetros del sistema

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Métodos de Control Óptimo Tradicionales: Método de disparo, métodos directos (SQP, punto interior)
  2. Métodos Modernos: Aprendizaje por refuerzo, control predictivo de modelos
  3. Teoría de Estabilidad: Métodos de Lyapunov, funciones de Lyapunov de control

Ventajas de Este Artículo

  • Comparado con método de disparo: proporciona control de retroalimentación y mejor robustez
  • Comparado con métodos directos: garantiza estabilidad asintótica global
  • Comparado con aprendizaje por refuerzo: garantías teóricas y resultados deterministas

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Establece un marco manejable para resolver OCP no lineal en horizonte infinito
  2. Valor Práctico: Valida la efectividad del método en aplicaciones espaciales clave
  3. Garantía de Estabilidad: Proporciona garantías teóricas de estabilidad asintótica global

Limitaciones

  1. Restricciones de Linealización: La linealización de ciertos sistemas (como sistemas no holonómicos) puede no ser controlable
  2. Manejo de Restricciones: Las restricciones duras deben convertirse en restricciones suaves (como la restricción de altitud en aterrizaje suave)
  3. Complejidad Computacional: Requiere optimizar el tiempo de transferencia, aumentando la carga computacional

Direcciones Futuras

  1. Extensión a Restricciones Más Complejas: Manejo de restricciones de trayectoria y sistemas híbridos
  2. Implementación en Tiempo Real: Desarrollo de algoritmos rápidos adecuados para aplicaciones en línea
  3. Mejora de Robustez: Consideración de incertidumbre de modelos y perturbaciones externas

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona un marco matemático completo y pruebas de convergencia
  2. Practicidad: Valida el método en tres aplicaciones espaciales diferentes
  3. Innovación: Combina ingeniosamente las ventajas de métodos en horizonte finito e infinito
  4. Garantía de Estabilidad: Asegura estabilidad asintótica global mediante CLF

Deficiencias

  1. Condiciones de Supuestos: Depende de controlabilidad del sistema y propiedades específicas de la función de costo
  2. Ajuste de Parámetros: La selección del parámetro del conjunto terminal M carece de orientación clara
  3. Eficiencia Computacional: La optimización del tiempo de transferencia puede requerir múltiples iteraciones de resolución

Impacto

  1. Valor Académico: Proporciona un nuevo marco teórico para control no lineal en horizonte infinito
  2. Significado de Ingeniería: Ofrece un método de diseño práctico para control de misiones espaciales
  3. Extensibilidad: El método puede generalizarse a otros problemas de control que requieren estabilidad a largo plazo

Escenarios Aplicables

  • Misiones espaciales de operación a largo plazo
  • Sistemas de control que requieren garantías de estabilidad global
  • Sistemas complejos con dinámicas no lineales
  • Misiones críticas con requisitos extremos de seguridad

Referencias

El artículo cita 23 referencias relacionadas, abarcando trabajos importantes en teoría de control óptimo, control de naves espaciales, métodos de optimización numérica y otros campos, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad con contribuciones importantes tanto en teoría como en aplicaciones. Los autores convierten ingeniosamente el problema en horizonte infinito en un problema manejable en horizonte finito, mientras garantizan estabilidad. La validación en tres aplicaciones espaciales importantes demuestra el valor práctico del método. A pesar de algunas limitaciones, en general proporciona herramientas teóricas y métodos prácticos valiosos para el campo del control espacial.