2025-11-13T08:28:10.831761

Optimal Control with Lyapunov Stability Guarantees for Space Applications

Abhijeet, Mohamed, Sharma et al.
This paper investigates the infinite horizon optimal control problem (OCP) for space applications characterized by nonlinear dynamics. The proposed approach divides the problem into a finite horizon OCP with a regularized terminal cost, guiding the system towards a terminal set, and an infinite horizon linear regulation phase within this set. This strategy guarantees global asymptotic stability under specific assumptions. Our method maintains the system's fully nonlinear dynamics until it reaches the terminal set, where the system dynamics is linearized. As the terminal set converges to the origin, the difference in optimal cost incurred reduces to zero, guaranteeing an efficient and stable solution. The approach is tested through simulations on three problems: spacecraft attitude control, rendezvous maneuver, and soft landing. In spacecraft attitude control, we focus on achieving precise orientation and stabilization. For rendezvous maneuvers, we address the navigation of a chaser to meet a target spacecraft. For the soft landing problem, we ensure a controlled descent and touchdown on a planetary surface. We provide numerical results confirming the effectiveness of the proposed method in managing these nonlinear dynamics problems, offering robust solutions essential for successful space missions.
academic

Оптимальное управление с гарантиями устойчивости Ляпунова для космических приложений

Основная информация

  • ID статьи: 2510.08854
  • Название: Optimal Control with Lyapunov Stability Guarantees for Space Applications
  • Авторы: Abhijeet, Mohamed Naveed Gul Mohamed, Aayushman Sharma, Suman Chakravorty (Техасский университет A&M)
  • Классификация: math.OC (Оптимизация и управление), cs.SY (Системы и управление), eess.SY (Системы и управление)
  • Дата публикации: 9 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.08854v1

Аннотация

В данной работе исследуется задача оптимального управления (ОУ) на бесконечном временном горизонте для нелинейных динамических систем в космических приложениях. Предложенный метод разделяет задачу на два этапа: конечный горизонт ОУ с регуляризованной терминальной стоимостью, направляющий систему в терминальное множество, и бесконечный горизонт линейного регулирования внутри этого множества. Стратегия гарантирует глобальную асимптотическую устойчивость при определённых предположениях. Метод сохраняет полностью нелинейную динамику системы до достижения терминального множества, а затем линеаризует динамику. По мере сходимости терминального множества к началу координат разность оптимальных стоимостей стремится к нулю, гарантируя эффективное и устойчивое решение. Метод верифицирован на трёх задачах моделирования: управление ориентацией космического аппарата, манёвры сближения и мягкая посадка.

Исследовательский контекст и мотивация

Постановка проблемы

  1. Задачи управления в космических миссиях: Космические исследования требуют передовых стратегий управления для обеспечения успеха миссии, от точной ориентации космического аппарата до тонких манёвров стыковки и посадки, требующих преодоления присущих вызовов космической среды.
  2. Ограничения традиционных методов:
    • Метод стрельбы (Shooting Method): Эффективен в управлении ориентацией и оптимизации траектории, но обладает низкой адаптивностью и чувствителен к начальному приближению
    • Прямые методы (SQP, метод внутренней точки): Могут обрабатывать ограничения, но не гарантируют глобальную асимптотическую устойчивость или обратную связь
    • Обучение с подкреплением (RL): Зависит от данных, результаты непостоянны
  3. Требование долгосрочной устойчивости: Космические миссии требуют, чтобы система могла переходить из произвольного начального состояния в определённое терминальное состояние, что делает глобальную асимптотическую устойчивость особенно ценной для космических задач.

Исследовательская мотивация

В ответ на ограничения существующих методов при решении задач оптимального управления и требование долгосрочной устойчивости, в данной работе задача переформулируется как ОУ на бесконечном горизонте с применением управляемого подхода, обеспечивающего обратную связь и гарантирующего глобальную асимптотическую устойчивость.

Основные вклады

  1. Предложена новая схема решения нелинейного оптимального управления на бесконечном горизонте: Разложение задачи на бесконечного горизонта на конечный горизонт нелинейного ОУ и линейное регулирование
  2. Установлены теоретические гарантии: Доказано, что предложенный метод удовлетворяет уравнению Беллмана, предоставляет функцию Ляпунова управления (CLF) и гарантирует глобальную асимптотическую устойчивость
  3. Разработан практический алгоритм: Гибридный метод, сочетающий итеративный линейно-квадратичный регулятор (iLQR) и линейно-квадратичный регулятор (LQR)
  4. Верифицирована эффективность метода: На трёх ключевых космических приложениях: управление ориентацией космического аппарата, манёвры сближения и мягкая посадка
  5. Предоставлен анализ сходимости: Доказано, что при M→0 стоимость альтернативной конструкции ОУ (AC-OCP) сходится к стоимости истинного ОУ на бесконечном горизонте

Описание методологии

Определение задачи

Задача оптимального управления на бесконечном горизонте определяется как:

J*∞(x) = min{ut} Σ(t=0 to ∞) c(xt, ut); given x0 = x
subject to: xt+1 = f(xt, ut)

где:

  • xt ∈ Rn: вектор состояния системы
  • ut ∈ Rp: управляющее воздействие
  • c(xt, ut): функция пошагового критерия

Архитектура модели

1. Альтернативная конструкция задачи оптимального управления (AC-OCP)

Преобразование задачи на бесконечном горизонте в:

JM∞(x) = min{ut}(T-1, t=0), T [Σ(t=0 to T-1) c(xt, ut) + max(J̄∞(xT), M)]
subject to: xt+1 = f(xt, ut), xT ∈ ΩM

где ΩM = {x | J̄∞(x) ≤ M} — терминальное множество.

2. Двухэтапная стратегия решения

Первый этап: нелинейное ОУ на конечном горизонте

  • Решение конечного горизонта с использованием iLQR:
JT∞(x) = min{ut}(T-1, t=0) [Σ(t=0 to T-1) c(xt, ut) + J̄∞(xT)]

Второй этап: линейное регулирование

  • Использование контроллера LQR внутри терминального множества ΩM
  • Линеаризация системы: J̄∞(x) = xTP∞x, где P∞ — решение стационарного уравнения Риккати

3. Реализация алгоритма iLQR

Прямой проход:

uk+1_t = uk_t + αkt + Kt(xk+1_t - xk_t)
xk+1_t+1 = f(xk+1_t, uk+1_t)

Обратный проход: Вычисление частных производных Q-функции и обновление коэффициентов усиления:

kt = -Q^(-1)_utut * Qut
Kt = -Q^(-1)_utut * Qutxt

Технические инновации

  1. Оптимизация свободного терминального времени: Оптимизация времени переходного процесса T для обеспечения плавного перехода в терминальное множество
  2. Асимптотическая оптимальность: Доказано, что limM→0 JM∞(x) = J*∞(x)
  3. Гарантия устойчивости: Функция стоимости AC-OCP удовлетворяет уравнению Беллмана, действуя как CLF и гарантируя глобальную асимптотическую устойчивость
  4. Обработка гибридной динамики: Сохранение полностью нелинейной динамики вне терминального множества и линеаризация внутри него

Экспериментальная установка

Сценарии применения

Метод верифицирован на трёх ключевых космических приложениях:

  1. Управление ориентацией космического аппарата
  2. Манёвры сближения
  3. Мягкая посадка

Динамика системы

1. Управление ориентацией

Вектор состояния: ψ, θ, φ, ω1, ω2, ω3T

  • Динамика углов Эйлера и угловых скоростей
  • Матрица моментов инерции: J = diag4500, 2000, 7500
  • Временной горизонт: 200 секунд, шаг дискретизации: 0.1 секунды

2. Манёвры сближения

Состояние включает ошибку относительного положения er, ошибку относительной скорости ev и массу m

  • Динамика эллиптической орбиты
  • Временной горизонт: 6000 секунд, шаг дискретизации: 2 секунды

3. Мягкая посадка

Комбинация динамики ориентации и положения

  • Гравитация Марса: gref = 0, 0, -3.7114T
  • Включает изменение массы и ограничения тяги
  • Временной горизонт: 30 секунд, шаг дискретизации: 0.2 секунды

Метрики оценки

  • Общая функция стоимости: Квадратичный критерий c(x,u) = ½(xTQx + uTRu)
  • Ошибка терминального состояния
  • Гладкость управляющего воздействия
  • Анализ сходимости

Результаты экспериментов

Основные результаты

1. Управление ориентацией

  • Влияние времени переходного процесса: От 10 до 80 секунд, общая стоимость снижается с 6.45×10^5 до 5.20×10^5
  • Сходимость состояния:
    • Переходный процесс 10 секунд: ошибка терминального состояния 34.86°, -33.19°, -36.71°, 2.79°/s, 6.02°/s, 0.97°/s
    • Переходный процесс 80 секунд: ошибка терминального состояния -0.77°, -0.15°, 0.55°, -0.05°/s, 0.02°/s, -0.05°/s

2. Манёвры сближения

  • Снижение стоимости с увеличением времени переходного процесса: Более длительное время переходного процесса приводит к более низкой стоимости и меньшей ошибке
  • Сравнение терминального состояния:
    • 600 секунд: ошибка положения ~1400 км, ошибка скорости ~5000 м/с
    • 2400 секунд: ошибка положения ~1 м, ошибка скорости ~2 м/с

3. Мягкая посадка

  • Успешная посадка: r3=0 в момент времени 29.9 секунд
  • Точность терминального состояния: ошибка положения -0.06 м, -0.03 м, 1.09 м, ошибка скорости -0.007 м/с, -0.008 м/с, -0.99 м/с
  • Обработка ограничений: Ограничения высоты обрабатываются через экспоненциальную штрафную функцию

Ключевые выводы

  1. Важность оптимизации времени переходного процесса: Более длительное время переходного процесса позволяет системе линеаризоваться ближе к началу координат, значительно снижая стоимость регулирования
  2. Плавный переход: Надлежащее время переходного процесса избегает резких изменений управляющего воздействия
  3. Робастность: Метод демонстрирует хорошие результаты при различных начальных условиях и параметрах системы

Связанные работы

Основные направления исследований

  1. Традиционные методы оптимального управления: Метод стрельбы, прямые методы (SQP, метод внутренней точки)
  2. Современные методы: Обучение с подкреплением, модельное предсказывающее управление
  3. Теория устойчивости: Методы Ляпунова, функции Ляпунова управления

Преимущества данной работы

  • По сравнению с методом стрельбы: обеспечивает управление с обратной связью и лучшую робастность
  • По сравнению с прямыми методами: гарантирует глобальную асимптотическую устойчивость
  • По сравнению с обучением с подкреплением: теоретические гарантии и детерминированные результаты

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: Установлена управляемая схема решения нелинейного ОУ на бесконечном горизонте
  2. Практическая ценность: Верифицирована эффективность метода на ключевых космических приложениях
  3. Гарантия устойчивости: Предоставлены теоретические гарантии глобальной асимптотической устойчивости

Ограничения

  1. Ограничения линеаризации: Линеаризация некоторых систем (например, неголономных) может быть неуправляемой
  2. Обработка ограничений: Жёсткие ограничения требуют преобразования в мягкие (например, ограничение высоты при мягкой посадке)
  3. Вычислительная сложность: Оптимизация времени переходного процесса увеличивает вычислительную нагрузку

Направления будущих исследований

  1. Расширение на более сложные ограничения: Обработка ограничений пути и гибридных систем
  2. Реальная реализация: Разработка быстрых алгоритмов для онлайн-приложений
  3. Повышение робастности: Учёт неопределённостей модели и внешних возмущений

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Предоставлена полная математическая схема и доказательства сходимости
  2. Практическая применимость: Верифицирована на трёх различных космических приложениях
  3. Инновационность: Умелое сочетание преимуществ методов конечного и бесконечного горизонтов
  4. Гарантия устойчивости: Обеспечена глобальная асимптотическая устойчивость через CLF

Недостатки

  1. Условия предположений: Зависит от управляемости системы и специфических свойств функции стоимости
  2. Настройка параметров: Отсутствуют чёткие рекомендации по выбору параметра терминального множества M
  3. Вычислительная эффективность: Оптимизация времени переходного процесса может требовать многократного решения

Влияние

  1. Академическая ценность: Предоставлена новая теоретическая схема для нелинейного управления на бесконечном горизонте
  2. Инженерное значение: Предложен практический метод проектирования для управления космическими миссиями
  3. Масштабируемость: Метод может быть обобщён на другие задачи управления, требующие долгосрочной устойчивости

Области применения

  • Долгосрочные космические миссии
  • Системы управления, требующие гарантий глобальной устойчивости
  • Сложные системы с нелинейной динамикой
  • Критические миссии с высокими требованиями безопасности

Библиография

Статья цитирует 23 связанные работы, охватывающие теорию оптимального управления, управление космическими аппаратами, методы численной оптимизации и другие важные работы в этих областях, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная статья с важными вкладами как в теорию, так и в приложения. Авторы умело преобразовали задачу на бесконечном горизонте в управляемую задачу на конечном горизонте, сохраняя гарантии устойчивости. Верификация на трёх важных космических приложениях демонстрирует практическую ценность метода. Несмотря на некоторые ограничения, работа в целом предоставляет ценные теоретические инструменты и практические методы для области управления космическими аппаратами.