Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic
Двойная регуляризация рекурсий Риккати для оптимального управления внутренней точки
В данной статье выводятся замкнутые расширения рекурсий Риккати для решения двойной регуляризации задачи LQR (включая последовательную и параллельную версии). Авторы показывают, как использовать эти методы для решения общих ограниченных, невыпуклых, дискретных по времени задач оптимального управления с помощью регуляризованного метода внутренней точки, гарантируя, что каждый шаг является направлением убывания расширенной барьерно-лагранжевой функции. Статья содержит реализацию с лицензией MIT на C++ и JAX.
Основная проблема, которую решает данное исследование, заключается в эффективном решении невыпуклых дискретных по времени задач оптимального управления с ограничениями равенства и неравенства. Традиционные методы сталкиваются со следующими проблемами при решении таких задач:
Проблемы вычислительной эффективности: Стандартные методы внутренней точки требуют решения крупномасштабных линейных систем при работе с задачами оптимального управления, что приводит к высокой вычислительной сложности
Численная нестабильность: Традиционные методы могут проявлять численную нестабильность при стремлении параметра регуляризации к нулю
Сложность параллелизации: Существующие методы затрудняются в полном использовании ресурсов параллельных вычислений
Задачи оптимального управления имеют широкое применение в робототехнике, аэрокосмической промышленности, автономном вождении и других областях. Эффективное решение таких задач критически важно для систем управления в реальном времени, особенно в сценариях, требующих обработки сложных ограничений.
Алгоритм DDP: Хотя это наиболее часто используемый метод на практике, как однократный метод стрельбы он не может независимо выполнять горячий старт траектории состояния
Стандартные методы LQR: Применимы только к линейным системам без ограничений или с простыми ограничениями
Существующие методы внутренней точки: Такие как универсальные решатели IPOPT, не могут полностью использовать структурные особенности задач оптимального управления
Теоретический вклад: Выведены замкнутые расширения рекурсий Риккати для решения двойной регуляризации задачи LQR, включая последовательную и параллельную версии
Алгоритмическое инновация: Предложен регуляризованный метод внутренней точки, гарантирующий направление убывания, с использованием расширенной барьерно-лагранжевой функции в качестве функции достоинства
Численная стабильность: Разработан алгоритм, численно стабильный при δ→0, способный восстановить стандартный алгоритм LQR
Параллельный алгоритм: Реализован алгоритм с временной сложностью O(log N) для параллельных вычислений на основе ассоциативных сканирований
Программный вклад: Предоставлена реализация с открытым исходным кодом на C++ и JAX, поддерживающая эффективные операции разреженной линейной алгебры
Преобразование прямой рекурсии в композицию аффинных функций:
xi+1=Mixi+mi
Использование ассоциативного сканирования для параллельной композиции всех аффинных преобразований, достигая O(log N) параллельного прямого распространения.
Проектирование численной стабильности: Переопределение параметров для избежания численных проблем при δ→0
Гарантия направления убывания: Теоретическое доказательство того, что направление поиска является направлением убывания расширенной барьерно-лагранжевой функции
Структурированное решение: Полное использование временной структуры задачи оптимального управления, избегание решения крупномасштабных плотных линейных систем
Проектирование параллелизации: Эффективная параллелизация на основе ассоциативного сканирования из функционального программирования
Ограниченная экспериментальная верификация: В основном теоретическая верификация и простые численные тесты, отсутствует сравнение на крупномасштабных практических задачах
Недостаточный анализ производительности: Отсутствует детальный анализ времени вычисления и использования памяти
Недостаточное обсуждение области применения: Недостаточно глубокое обсуждение того, для каких типов задач оптимального управления наиболее подходит данный метод
Отсутствие руководства по выбору параметров: Мало обсуждений по стратегиям выбора параметра регуляризации
Wächter & Biegler (2006): Решатель внутренней точки IPOPT
Общая оценка: Это отличная статья с выдающимся теоретическим вкладом и явными техническими инновациями. Авторы успешно внедрили технику двойной регуляризации в рекурсии Риккати, не только сохраняя численную стабильность, но и достигая эффективной параллелизации. Хотя в области верификации на практических приложениях есть место для улучшения, её теоретическая ценность и вклад в открытый исходный код делают её важным прогрессом в области численных методов оптимального управления.