2025-11-27T20:22:18.861495

The LQR-Schr{Ã¶}dinger Bridge

Lambert

We consider the Schr{Ã¶}dinger bridge problem in discrete time, where the pathwise cost is replaced by a sum of quadratic functions, taking the form of a linear quadratic regulator (LQR) cost. This cost comprises potential terms that act as attractors and kinetic terms that control the diffusion of the process. When the two boundary marginals are Gaussian, we show that the LQR-Schr{Ã¶}dinger bridge problem can be solved in closed form. We follow the dynamic programming principle, interpreting the Kantorovich potentials as cost-to-go functions. Under the LQR-Gaussian assumption, these potentials can be propagated exactly in a backward and forward passes, leading to a system of dual Riccati equations, well known in estimation and control. This system converges rapidly in practice. We then show that the optimal process is Markovian and compute its transition kernel in closed form as well as the Gaussian marginals. Through numerical experiments, we demonstrate that this approach can be used to construct complex, non-homogeneous Gaussian processes with acceleration and loops, given well-chosen attractive potentials. Moreover, this approach allows extending the Bures transport between Gaussian distributions to more complex geometries with negative curvature.

academic

Мост LQR-Шрёдингера

Основная информация

ID статьи: 2506.17273
Название: The LQR-Schrödinger Bridge
Автор: Marc Lambert (INRIA - Ecole Normale Supérieure - PSL Research university, DGA - French Procurement Agency)
Классификация: math.OC (Оптимизация и управление)
Дата публикации: 24 ноября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2506.17273

Аннотация

В данной работе исследуется задача моста Шрёдингера в дискретном времени, где стоимость пути заменяется суммой квадратичных функций, формально аналогичных стоимости линейно-квадратичного регулятора (LQR). Эта стоимость включает потенциальный член, действующий как аттрактор, и кинетический член, управляющий диффузией процесса. Когда обе граничные маргинальные распределения являются гауссовыми, авторы доказывают, что задача LQR-моста Шрёдингера имеет замкнутое решение. Следуя принципу динамического программирования, потенциалы Канторовича интерпретируются как функции стоимости до конца (cost-to-go), которые при гауссовых предположениях LQR могут точно распространяться посредством прямого и обратного проходов, что приводит к двойственной системе уравнений Риккати, хорошо известной в теории оценивания и управления. Эта система быстро сходится на практике. Авторы далее доказывают, что оптимальный процесс является марковским и вычисляют в замкнутом виде его переходное ядро и гауссовы маргинальные распределения. Посредством численных экспериментов авторы демонстрируют, что метод может использоваться для построения сложных неоднородных гауссовых процессов с ускорением и циклическими свойствами, а также для расширения транспорта Бюреса между гауссовыми распределениями на более сложные геометрические задачи с отрицательной кривизной.

Исследовательский контекст и мотивация

Исследуемая проблема

Задача моста Шрёдингера восходит к пионерской работе Шрёдингера 1931 года и направлена на определение наиболее вероятного случайного процесса при наблюдении маргинальных распределений в два момента времени (начальный момент p₀ и конечный момент pₖ). Это задача оптимального транспорта с энтропийной регуляризацией.

Важность проблемы

Теоретическое значение: Система Шрёдингера тесно связана с энтропийно-регуляризованным оптимальным транспортом и алгоритмом Синхорна, являясь центральной проблемой современной теории оптимального транспорта
Практическая ценность: Широкое применение в теории управления, планировании пути, управлении ковариацией и других областях
Вычислительная эффективность: Поиск специальных случаев, допускающих эффективное решение, имеет решающее значение для практических приложений

Ограничения существующих методов

Ограничения на опорную меру: Когда опорная мера является броуновским движением, можно эффективно использовать алгоритм Синхорна, но когда опорная мера является линейным случайным процессом, задача становится более сложной
Вычислительная сложность: Существующие методы, такие как Chen et al. (2016) и Bakolas (2016), хотя и выводят прямо-обратные уравнения Риккати, описывают эволюцию матрицы ковариации состояния замкнутой системы в прямом уравнении, а не эволюцию потенциала Канторовича
Гибкость моделирования: Отсутствует метод прямого управления геометрическими характеристиками процесса через стоимость пути

Мотивация исследования

В данной работе предлагается альтернативный подход: вместо задания опорной меры через линейный случайный процесс, совместное распределение определяется через стоимость пути LQR. Эта установка не только позволяет управлять достижением конечного значения ковариации состояния, но и направлять её движение вдоль определённого пути или канала, обеспечивая более гибкую схему моделирования.

Основные вклады

Теоретический вклад: Предложена новая формулировка задачи LQR-моста Шрёдингера, где опорная мера определяется через стоимость пути LQR (включающую потенциальный и кинетический члены)
Замкнутое решение: Доказано, что при гауссовых маргинальных распределениях и квадратичной стоимости LQR потенциалы Канторовича могут точно распространяться, что приводит к двойственной системе дискретных алгебраических уравнений Риккати:
- Обратное уравнение: $P_k^⊖ = Q_k/ε + P_{k+1}^⊖ - P_{k+1}^⊖(R_k/ε + P_{k+1}^⊖)^{-1}P_{k+1}^⊖$
- Прямое уравнение: $P_{k+1}^{⊕-1} = εR_k^{-1} + P_k^{⊕-1} - P_k^{⊕-1}(εQ_k^{-1} + P_k^{⊕-1})P_k^{⊕-1}$
Характеризация оптимального процесса: Доказано, что оптимальный процесс является марковским, и вычислено в замкнутом виде его переходное ядро и гауссовы маргинальные распределения
Геометрическое расширение: Показано, что метод может расширить транспорт Бюреса между гауссовыми распределениями на более сложные геометрические задачи с отрицательной кривизной
Демонстрация приложений: Численные эксперименты подтверждают, что метод может конструировать сложные неоднородные гауссовы процессы, реализуя отслеживание пути, избежание препятствий, циклические траектории и другие функции

Подробное описание метода

Определение задачи

Входные данные:

Начальное и конечное гауссовы маргинальные распределения: $p_0 = \mathcal{N}(μ_0, Σ_0)$ , $p_K = \mathcal{N}(μ_K, Σ_K)$
Параметры стоимости LQR: матрица потенциала $Q_k$ , контрольные точки $x_k^*$ , матрица кинетической энергии $R_k$
Параметр температуры $ε > 0$

Выходные данные:

Оптимальное распределение пути $p^*(x_0, ..., x_K)$
Переходное ядро $p^*(x_{k+1}|x_k)$
Гауссовы маргинальные распределения в промежуточные моменты времени

Ограничения:

Маргинальные ограничения: $\int p(x_0, ..., x_K)dx_1...dx_K = p_0(x_0)$ , $\int p(x_0, ..., x_K)dx_0...dx_{K-1} = p_K(x_K)$

Архитектура модели

1. Структура стоимости LQR

Стоимость пути определяется как сумма попарных членов: $\ell(x_0, ..., x_K) = \sum_{k=0}^{K-1} \ell_k(x_k, x_{k+1})$

где одношаговая стоимость имеет вид: $\ell_k(x_k, x_{k+1}) = \frac{1}{2}(x_k - x_k^*)^T Q_k(x_k - x_k^*) + \frac{1}{2}(x_{k+1} - x_k)^T R_k(x_{k+1} - x_k)$

Потенциальный член (левый): притягивает процесс к контрольным точкам $x_k^*$ посредством матрицы штрафа $Q_k$
Кинетический член (правый): ограничивает диффузию процесса посредством матрицы штрафа $R_k$

2. Двойственная формулировка Канторовича

Двойственная форма задачи моста Шрёдингера: $\min_{p \in \mathcal{P}(p_0, p_K)} εKL(p \| \exp(-\ell/ε))$

Оптимальное решение имеет форму Гиббса: $p^*(x_0, ..., x_K) \propto φ_0(x_0) r(x_0, ..., x_K) φ_K(x_K)$

где $φ_0, φ_K$ — потенциалы Гиббса, $r = \exp(-\ell/ε)$ — ненормализованная опорная мера.

3. Параметризация гауссовых потенциалов

При гауссовых предположениях потенциалы Канторовича имеют квадратичную форму, представимую симметричными положительно определёнными матрицами:

Начальный потенциал: $φ_0 = \mathcal{N}(α_0, P_0^{-1})$
Конечный потенциал: $φ_K = \mathcal{N}(α_K, P_K^{-1})$
Потенциал прямого распространения: $φ_k^⊕ = \mathcal{N}(α_k^⊕, P_k^{⊕-1})$
Потенциал обратного распространения: $φ_k^⊖ = \mathcal{N}(α_k^⊖, P_k^{⊖-1})$

Технические инновации

1. Двойственные уравнения Риккати

Обратное распространение (уравнение 1): $P_k^⊖ = Q_k/ε + P_{k+1}^⊖ - P_{k+1}^⊖(R_k/ε + P_{k+1}^⊖)^{-1}P_{k+1}^⊖}$

с соответствующим обновлением дрейфового члена: $α_k^⊖ = α_{k+1}^⊖ + P_k^{⊖-1}Q_k/ε(x_k^* - α_{k+1}^⊖)$

Прямое распространение (уравнение 2): $P_{k+1}^{⊕-1} = εR_k^{-1} + P_k^{⊕-1} - P_k^{⊕-1}(εQ_k^{-1} + P_k^{⊕-1})P_k^{⊕-1}$

с соответствующим обновлением дрейфового члена: $α_{k+1}^⊕ = (Q_k/ε + P_k^⊕)^{-1}(Q_k/ε x_k^* + P_k^⊕ α_k^⊕)$

2. Новая интерпретация двойственности Калмана

Прямое уравнение демонстрирует двойственность с обратным уравнением: роли $R$ и $Q$ меняются местами. Это обеспечивает новую интерпретацию двойственности Калмана:

$Q_k^{-1}$ может интерпретироваться как неопределённость априорной информации (ковариация)
Если $Q_k^{-1} = 0$ , то можно идеально предсказать положение траектории в точке $x_k^*$
В противном случае можно оценить только окрестность вокруг $x_k^*$

3. Оптимальное переходное ядро

Оптимальное переходное ядро имеет замкнутое решение: $p^*(x_{k+1}|x_k) = \mathcal{N}(x_{k+1}|x_k + β_k + K_k x_k, S_k^{-1})$

где:

$S_k = R_k/ε + P_{k+1}^⊖$
$K_k = S_k^{-1}R_k/ε$ (коэффициент усиления LQR)
$β_k = S_k^{-1}P_{k+1}^⊖} α_{k+1}$ (дрейфовый член)

4. Отличие от существующих методов

Chen et al. (2016): прямое уравнение описывает эволюцию ковариации состояния замкнутой системы
Данная работа: прямое уравнение описывает эволюцию прямого потенциала Канторовича, стоимость пути вводит дополнительную связь

Экспериментальная установка

Набор данных

Эксперименты проводятся в двумерном пространстве ( $d=2$ ) с использованием синтетических гауссовых распределений.

Параметры

Маргинальные распределения:
- Начальное и конечное гауссовы распределения $\mathcal{N}(μ_0, Σ_0)$ и $\mathcal{N}(μ_K, Σ_K)$ представлены красными эллипсами
- Потенциалы инициализируются как $\mathcal{N}(μ_0, Σ_0^{-1})$ и $\mathcal{N}(μ_K, Σ_K^{-1})$
Количество точек пути: $K+1 \in [15, 100]$ в зависимости от требований визуализации
Параметр температуры:
- Низкая температура: $ε = 0.001$ (требует примерно 5 итераций)
- Высокая температура: $ε = 1$ (обычно сходится за 1 итерацию)
Матрицы стоимости:
- Матрица диффузии: $R_k = rI$ (диагональная константа)
- Матрица потенциала: $Q_k = qI$ (диагональная константа или нулевая в некоторые моменты)

Сценарии экспериментов

Разработано несколько типичных сценариев для тестирования производительности метода:

Оптимальный транспорт: проверка связи с транспортом Бюреса
Отслеживание волнистого пути: использование плотных контрольных точек
Зигзагообразный паттерн: сценарий избежания препятствий
Scoubidou: циклическая траектория
Скрученное препятствие: неизотропная матрица потенциала

Результаты экспериментов

Основные результаты

1. Оптимальный транспорт и геометрическое расширение (рис. 2)

Броуновский мост (высокая температура):

Параметры: $ε=1$ , $q=0$ , $r=100$
Результат: стандартный броуновский мост между двумя мерами Дирака, путь является случайным процессом
При $ε→0$ сжимается в евклидову геодезическую

Геометрия с отрицательной кривизной (низкая температура):

Параметры: $ε=0.001$ , $q=0.3$ , $r=10$
Результат: транспорт между двумя гауссовыми распределениями с добавленным промежуточным потенциалом притяжения; геодезическая отклоняется от транспорта Бюреса, демонстрируя свойства отрицательной кривизны
Подтверждает, что метод расширяется на более сложные геометрии

2. Конструирование сложных случайных процессов (рис. 3-4)

Сценарии низкой температуры ( $ε=0.001$ ):

Волнистый путь ( $r=1$ $r = 1$ , $q=10$ $q = 10$ , $K=15$ $K = 15$ ):
- Использует $K$ плотных контрольных точек для направления
- Процесс почти детерминирован, ковариация уменьшается из-за высоких значений потенциала
- Демонстрирует способность точного отслеживания пути
Зигзагообразный паттерн ( $r=10$ $r = 10$ , $q=0.1$ $q = 0.1$ , $K=100$ $K = 100$ ):
- Использует 2 контрольные точки для направления гауссова процесса
- Успешно реализует избежание препятствий
Scoubidou ( $r=10$ $r = 10$ , $q=0.2$ $q = 0.2$ , $K=100$ $K = 100$ ):
- Использует 3 контрольные точки
- Формирует циклическую структуру траектории
Скрученное препятствие ( $r=10$ $r = 10$ , $q=0.2$ $q = 0.2$ , $K=200$ $K = 200$ ):
- Использует 1 контрольную точку с неизотропной матрицей потенциала
- Ковариация маргинального распределения гауссова процесса скручивается вблизи потенциала
- Демонстрирует способность управления ковариацией

Сценарии высокой температуры ( $ε=1$ ):

При тех же параметрах процесс более диффузный
Ограничение контрольными точками ослабляется
Волнистый путь больше не детерминирован
Диффузия значительно усиливается в других сценариях

Экспериментальные находки

Быстрая сходимость: при высокой температуре или большом $K$ обычно сходится за 1 итерацию; при низкой температуре и малом $K$ требуется примерно 5 итераций
Эффект температуры:
- Низкая температура: процесс близок к детерминированному, потенциал оказывает значительное влияние, ковариация уменьшается
- Высокая температура: процесс имеет сильную диффузию, ограничение потенциалом ослабляется
Управление потенциалом:
- Высокое значение $q$ : сильное притяжение, уменьшение ковариации, более детерминированная траектория
- Низкое значение $q$ : слабое ограничение, сохранение большей случайности
- Неизотропная $Q_k$ : может управлять формой и направлением ковариации
Геометрическая гибкость:
- При $Q_k=0$ восстанавливается геодезическая Бюреса
- Активация потенциала производит геометрию с отрицательной кривизной
- Через стратегическое размещение аттракторов и регулировку силы потенциала можно проектировать сложные траектории

Связанные работы

1. Мост Шрёдингера и оптимальный транспорт

Schrödinger (1931): пионерская работа, предложившая метод максимальной энтропии для определения наиболее вероятного процесса при заданных маргинальных распределениях
Léonard (2001, 2014): двойственная формулировка Канторовича и теоретические основы
Peyré & Cuturi (2019): связь энтропийно-регуляризованного оптимального транспорта с алгоритмом Синхорна
Sinkhorn (1964), Cuturi (2013): эффективное решение дискретной задачи оптимального транспорта

2. Мост Шрёдингера для линейных случайных процессов

Levy et al. (1990): моделирование и оценивание дискретных гауссовых взаимных процессов
Jamison (1975), Beghi (1996): преобразование Дуба и условие марковских процессов
Chen et al. (2016): доказательство эквивалентности моста Шрёдингера задаче стохастического управления с квадратичной стоимостью управления, вывод прямо-обратных уравнений Риккати
Bakolas (2016): оптимальное управление ковариацией с интегральными квадратичными ограничениями на состояние
Bunne et al. (2022): замкнутое решение моста Шрёдингера между гауссовыми мерами

3. Теория управления

Kalman (1960): основополагающая работа по управлению LQR и уравнениям Риккати
Hotz & Skelton (1985): теория управления ковариацией
Okamoto & Tsiotras (2019): планирование пути случайного транспортного средства с направлением ковариацией

4. Обучение с подкреплением и управление с максимальной энтропией

Ziebart et al. (2010): принцип максимальной причинной энтропии
Haarnoja et al. (2018): алгоритм мягкого актёра-критика
Lambert et al. (2024): вариационное динамическое программирование

Преимущества данной работы

Единая схема: объединяет управление LQR, оптимальный транспорт и мост Шрёдингера в единую схему
Замкнутое решение: получено полностью аналитическое решение при гауссовых предположениях
Вычислительная эффективность: уравнения Риккати могут быть решены эффективно с быстрой сходимостью
Гибкость моделирования: потенциальный член обеспечивает дополнительную степень свободы управления, позволяя проектировать сложные геометрии
Новые теоретические идеи: раскрывает новую интерпретацию двойственности Калмана

Заключение и обсуждение

Основные выводы

Теоретические результаты: успешно интегрирована идея управления LQR в схему оптимального транспорта, получено полностью замкнутое решение при гауссово-LQR установке
Эффективность алгоритма: выведённые двойственные уравнения Риккати реализуются без приближений, на практике сходятся быстро
Геометрическое богатство: введение потенциального члена производит богатую геометрическую структуру; через стратегическое размещение аттракторов можно управлять, деформировать или уменьшать ковариацию гауссовых распределений
Потенциал приложений: метод применим к отслеживанию пути, направлению ковариацией, избежанию препятствий и другим практическим задачам

Ограничения

Предположение об управляемости скорости: текущие результаты ограничены установкой, где скорость непосредственно управляема ( $u_k \propto x_{k+1} - x_k$ ); расширение на случай управления через канал оставляется на будущее
Дискретное время: результаты выведены только для дискретного времени; обобщение на непрерывное время требует дальнейших исследований
Гауссово предположение: метод зависит от гауссовости маргинальных распределений; обобщение на негауссовы случаи представляет вызов
Экспериментальная проверка: численные эксперименты проводятся в основном в двумерном пространстве; производительность в высоких размерностях требует дальнейшей проверки

Направления будущих исследований

Расширение управления: интеграция априорной информации о процессе (например, известной пассивной динамики), ограничение оптимизации на стратегии управления $p(u|x)$
Непрерывное время: обобщение на непрерывное время
Негауссовы случаи: исследование приближённых методов для негауссовых маргинальных распределений
Разработка приложений: практические приложения в планировании пути робота, финансовом моделировании и других областях
Углубление теории: дальнейшее исследование геометрической структуры, индуцированной потенциалом, и её свойств

Глубокая оценка

Достоинства

Значительный теоретический вклад:
- Предложена новая перспектива на задачу моста Шрёдингера, где опорная мера определяется через стоимость пути LQR
- Раскрыта глубокая связь двойственных уравнений Риккати, обеспечена новая интерпретация двойственности Калмана
- Полное замкнутое решение элегантно в теории и эффективно в вычислениях
Методологические инновации:
- Введение потенциального члена является ключевой инновацией, обеспечивающей дополнительную степень свободы моделирования
- Искусное сочетание динамического программирования, оптимального транспорта и теории управления
- Процедура рекурсивной нормализации проста и эффективна
Математическая строгость:
- Вывод ясен и полон, постепенно уточняется от общего моста Шрёдингера к гауссово-LQR случаю
- Полное использование свойств гауссовых распределений (произведение, формулы свёртки)
- Применение формулы Вудбери демонстрирует техническое мастерство
Хорошо спроектированные эксперименты:
- Сценарии целенаправленно спроектированы, демонстрируя разнообразные возможности метода
- Сравнение параметров температуры ясно показывает различные режимы поведения метода
- Визуализация интуитивна и эффективна
Высокое качество написания:
- Система обозначений ясна (особенно нотация в стиле вероятностных графических моделей)
- Логическая структура разумна, постепенно переходит от простого к сложному
- Достаточно обсуждается связь с соответствующими работами

Недостатки

Ограничения экспериментов:
- Проверка только в двумерном пространстве; численная стабильность и вычислительная эффективность в высоких размерностях неизвестны
- Отсутствует количественное сравнение с другими методами (например, Chen et al. 2016)
- Не предоставлены теоретические гарантии сходимости (хотя на практике сходимость быстрая)
Теоретические ограничения:
- Предположение об управляемости скорости довольно сильно, ограничивая область применения
- Дискретное время; обобщение на непрерывное время нетривиально
- Гауссово предположение ограничивает универсальность метода
Технические детали:
- Условие $P_0^⊖ \prec Σ_0^{-1}$ в обновлении потенциала недостаточно обсуждается
- Проблемы численной стабильности (например, обращение матриц) не анализируются подробно
- Влияние стратегии инициализации не исследуется систематически
Руководство по приложениям:
- Отсутствует систематическое руководство по выбору параметров ( $Q_k$ , $R_k$ , $ε$ ) для конкретных приложений
- Принципы проектирования контрольных точек $x_k^*$ недостаточно обсуждаются
- Интерфейс с практическими задачами управления требует большего объяснения

Влияние

Теоретическое влияние:
- Обеспечивает новую исследовательскую перспективу на задачу моста Шрёдингера
- Углубляет связь между оптимальным транспортом и теорией управления
- Может вдохновить исследования приближённых методов для негауссовых случаев
Влияние методов:
- Обеспечивает эффективно реализуемый алгоритм (код открыт)
- Может служить базовым методом или компонентом для других методов
- Зрелые численные методы для уравнений Риккати могут быть непосредственно применены
Влияние приложений:
- Планирование пути робота: направление ковариацией и избежание препятствий
- Финансовое моделирование: условие случайных процессов
- Машинное обучение: генеративные модели и вариационный вывод
- Инженерия управления: проектирование неоднородных систем
Воспроизводимость:
- Алгоритм ясно описан, легко реализуется
- Код открыт на GitHub
- Параметры экспериментов подробны, результаты можно повторить

Применимые сценарии

Наиболее подходящие:
- Задачи оптимального транспорта между гауссовыми распределениями
- Планирование пути, требующее управления ковариацией
- Стохастическое управление с ограничениями пути
- Моделирование неоднородных гауссовых процессов
Потенциально применимые:
- Как инициализация или приближение для негауссовых случаев
- В сочетании с методами частиц для обработки многомодальных распределений
- В адаптивном управлении в реальном времени (через итеративное обновление)
Неприменимые:
- Негауссовы маргинальные распределения (требуется расширение)
- Задачи, требующие управления через канал (текущая версия)
- Задачи в экстремально высоких размерностях (сложность матричных операций)

Библиография

Ключевые ссылки

Основы моста Шрёдингера:
- Léonard, C. (2014). A survey of the Schrödinger problem and some of its connections with optimal transport.
- Chen, Y., Georgiou, T. T., & Pavon, M. (2021). Stochastic control liaisons: Richard Sinkhorn meets Gaspard Monge on a Schrödinger bridge.
Оптимальный транспорт:
- Peyré, G., & Cuturi, M. (2019). Computational optimal transport: With applications to data science.
- Villani, C. (2008). Optimal Transport: Old and New.
Теория управления:
- Kalman, R. E. (1960). Contributions to the theory of optimal control.
- Lancaster, P., & Rodman, L. (2002). Algebraic Riccati Equations.
Связанные методы:
- Chen, Y., Georgiou, T. T., & Pavon, M. (2016). Optimal steering of a linear stochastic system to a final probability distribution.
- Bunne, C., et al. (2022). The Schrödinger bridge between Gaussian measures has a closed form.

Общая оценка: Это высокачественная теоретическая работа, успешно объединившая схему управления LQR из теории управления с задачей моста Шрёдингера из оптимального транспорта, получив элегантное замкнутое решение при гауссовых предположениях. Вывод двойственных уравнений Риккати и новая интерпретация двойственности Калмана имеют важное теоретическое значение. Хотя численные эксперименты ограничены низкими размерностями, они эффективно демонстрируют гибкость и потенциал метода. Основные ограничения связаны с гауссовым предположением и предположением об управляемости скорости, но как специальный случай эта работа обеспечивает прочную основу для исследования более общих задач. Открытый код повышает её практическую ценность и воспроизводимость.