We consider the Schr{ö}dinger bridge problem in discrete time, where the pathwise cost is replaced by a sum of quadratic functions, taking the form of a linear quadratic regulator (LQR) cost. This cost comprises potential terms that act as attractors and kinetic terms that control the diffusion of the process. When the two boundary marginals are Gaussian, we show that the LQR-Schr{ö}dinger bridge problem can be solved in closed form. We follow the dynamic programming principle, interpreting the Kantorovich potentials as cost-to-go functions. Under the LQR-Gaussian assumption, these potentials can be propagated exactly in a backward and forward passes, leading to a system of dual Riccati equations, well known in estimation and control. This system converges rapidly in practice. We then show that the optimal process is Markovian and compute its transition kernel in closed form as well as the Gaussian marginals. Through numerical experiments, we demonstrate that this approach can be used to construct complex, non-homogeneous Gaussian processes with acceleration and loops, given well-chosen attractive potentials. Moreover, this approach allows extending the Bures transport between Gaussian distributions to more complex geometries with negative curvature.
- ID статьи: 2506.17273
- Название: The LQR-Schrödinger Bridge
- Автор: Marc Lambert (INRIA - Ecole Normale Supérieure - PSL Research university, DGA - French Procurement Agency)
- Классификация: math.OC (Оптимизация и управление)
- Дата публикации: 24 ноября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2506.17273
В данной работе исследуется задача моста Шрёдингера в дискретном времени, где стоимость пути заменяется суммой квадратичных функций, формально аналогичных стоимости линейно-квадратичного регулятора (LQR). Эта стоимость включает потенциальный член, действующий как аттрактор, и кинетический член, управляющий диффузией процесса. Когда обе граничные маргинальные распределения являются гауссовыми, авторы доказывают, что задача LQR-моста Шрёдингера имеет замкнутое решение. Следуя принципу динамического программирования, потенциалы Канторовича интерпретируются как функции стоимости до конца (cost-to-go), которые при гауссовых предположениях LQR могут точно распространяться посредством прямого и обратного проходов, что приводит к двойственной системе уравнений Риккати, хорошо известной в теории оценивания и управления. Эта система быстро сходится на практике. Авторы далее доказывают, что оптимальный процесс является марковским и вычисляют в замкнутом виде его переходное ядро и гауссовы маргинальные распределения. Посредством численных экспериментов авторы демонстрируют, что метод может использоваться для построения сложных неоднородных гауссовых процессов с ускорением и циклическими свойствами, а также для расширения транспорта Бюреса между гауссовыми распределениями на более сложные геометрические задачи с отрицательной кривизной.
Задача моста Шрёдингера восходит к пионерской работе Шрёдингера 1931 года и направлена на определение наиболее вероятного случайного процесса при наблюдении маргинальных распределений в два момента времени (начальный момент p₀ и конечный момент pₖ). Это задача оптимального транспорта с энтропийной регуляризацией.
- Теоретическое значение: Система Шрёдингера тесно связана с энтропийно-регуляризованным оптимальным транспортом и алгоритмом Синхорна, являясь центральной проблемой современной теории оптимального транспорта
- Практическая ценность: Широкое применение в теории управления, планировании пути, управлении ковариацией и других областях
- Вычислительная эффективность: Поиск специальных случаев, допускающих эффективное решение, имеет решающее значение для практических приложений
- Ограничения на опорную меру: Когда опорная мера является броуновским движением, можно эффективно использовать алгоритм Синхорна, но когда опорная мера является линейным случайным процессом, задача становится более сложной
- Вычислительная сложность: Существующие методы, такие как Chen et al. (2016) и Bakolas (2016), хотя и выводят прямо-обратные уравнения Риккати, описывают эволюцию матрицы ковариации состояния замкнутой системы в прямом уравнении, а не эволюцию потенциала Канторовича
- Гибкость моделирования: Отсутствует метод прямого управления геометрическими характеристиками процесса через стоимость пути
В данной работе предлагается альтернативный подход: вместо задания опорной меры через линейный случайный процесс, совместное распределение определяется через стоимость пути LQR. Эта установка не только позволяет управлять достижением конечного значения ковариации состояния, но и направлять её движение вдоль определённого пути или канала, обеспечивая более гибкую схему моделирования.
- Теоретический вклад: Предложена новая формулировка задачи LQR-моста Шрёдингера, где опорная мера определяется через стоимость пути LQR (включающую потенциальный и кинетический члены)
- Замкнутое решение: Доказано, что при гауссовых маргинальных распределениях и квадратичной стоимости LQR потенциалы Канторовича могут точно распространяться, что приводит к двойственной системе дискретных алгебраических уравнений Риккати:
- Обратное уравнение: Pk⊖=Qk/ε+Pk+1⊖−Pk+1⊖(Rk/ε+Pk+1⊖)−1Pk+1⊖
- Прямое уравнение: Pk+1⊕−1=εRk−1+Pk⊕−1−Pk⊕−1(εQk−1+Pk⊕−1)Pk⊕−1
- Характеризация оптимального процесса: Доказано, что оптимальный процесс является марковским, и вычислено в замкнутом виде его переходное ядро и гауссовы маргинальные распределения
- Геометрическое расширение: Показано, что метод может расширить транспорт Бюреса между гауссовыми распределениями на более сложные геометрические задачи с отрицательной кривизной
- Демонстрация приложений: Численные эксперименты подтверждают, что метод может конструировать сложные неоднородные гауссовы процессы, реализуя отслеживание пути, избежание препятствий, циклические траектории и другие функции
Входные данные:
- Начальное и конечное гауссовы маргинальные распределения: p0=N(μ0,Σ0), pK=N(μK,ΣK)
- Параметры стоимости LQR: матрица потенциала Qk, контрольные точки xk∗, матрица кинетической энергии Rk
- Параметр температуры ε>0
Выходные данные:
- Оптимальное распределение пути p∗(x0,...,xK)
- Переходное ядро p∗(xk+1∣xk)
- Гауссовы маргинальные распределения в промежуточные моменты времени
Ограничения:
- Маргинальные ограничения: ∫p(x0,...,xK)dx1...dxK=p0(x0), ∫p(x0,...,xK)dx0...dxK−1=pK(xK)
Стоимость пути определяется как сумма попарных членов:
ℓ(x0,...,xK)=∑k=0K−1ℓk(xk,xk+1)
где одношаговая стоимость имеет вид:
ℓk(xk,xk+1)=21(xk−xk∗)TQk(xk−xk∗)+21(xk+1−xk)TRk(xk+1−xk)
- Потенциальный член (левый): притягивает процесс к контрольным точкам xk∗ посредством матрицы штрафа Qk
- Кинетический член (правый): ограничивает диффузию процесса посредством матрицы штрафа Rk
Двойственная форма задачи моста Шрёдингера:
minp∈P(p0,pK)εKL(p∥exp(−ℓ/ε))
Оптимальное решение имеет форму Гиббса:
p∗(x0,...,xK)∝φ0(x0)r(x0,...,xK)φK(xK)
где φ0,φK — потенциалы Гиббса, r=exp(−ℓ/ε) — ненормализованная опорная мера.
При гауссовых предположениях потенциалы Канторовича имеют квадратичную форму, представимую симметричными положительно определёнными матрицами:
- Начальный потенциал: φ0=N(α0,P0−1)
- Конечный потенциал: φK=N(αK,PK−1)
- Потенциал прямого распространения: φk⊕=N(αk⊕,Pk⊕−1)
- Потенциал обратного распространения: φk⊖=N(αk⊖,Pk⊖−1)
Обратное распространение (уравнение 1):
P_k^⊖ = Q_k/ε + P_{k+1}^⊖ - P_{k+1}^⊖(R_k/ε + P_{k+1}^⊖)^{-1}P_{k+1}^⊖}
с соответствующим обновлением дрейфового члена:
αk⊖=αk+1⊖+Pk⊖−1Qk/ε(xk∗−αk+1⊖)
Прямое распространение (уравнение 2):
Pk+1⊕−1=εRk−1+Pk⊕−1−Pk⊕−1(εQk−1+Pk⊕−1)Pk⊕−1
с соответствующим обновлением дрейфового члена:
αk+1⊕=(Qk/ε+Pk⊕)−1(Qk/εxk∗+Pk⊕αk⊕)
Прямое уравнение демонстрирует двойственность с обратным уравнением: роли R и Q меняются местами. Это обеспечивает новую интерпретацию двойственности Калмана:
- Qk−1 может интерпретироваться как неопределённость априорной информации (ковариация)
- Если Qk−1=0, то можно идеально предсказать положение траектории в точке xk∗
- В противном случае можно оценить только окрестность вокруг xk∗
Оптимальное переходное ядро имеет замкнутое решение:
p∗(xk+1∣xk)=N(xk+1∣xk+βk+Kkxk,Sk−1)
где:
- Sk=Rk/ε+Pk+1⊖
- Kk=Sk−1Rk/ε (коэффициент усиления LQR)
- β_k = S_k^{-1}P_{k+1}^⊖} α_{k+1} (дрейфовый член)
- Chen et al. (2016): прямое уравнение описывает эволюцию ковариации состояния замкнутой системы
- Данная работа: прямое уравнение описывает эволюцию прямого потенциала Канторовича, стоимость пути вводит дополнительную связь
Эксперименты проводятся в двумерном пространстве (d=2) с использованием синтетических гауссовых распределений.
- Маргинальные распределения:
- Начальное и конечное гауссовы распределения N(μ0,Σ0) и N(μK,ΣK) представлены красными эллипсами
- Потенциалы инициализируются как N(μ0,Σ0−1) и N(μK,ΣK−1)
- Количество точек пути: K+1∈[15,100] в зависимости от требований визуализации
- Параметр температуры:
- Низкая температура: ε=0.001 (требует примерно 5 итераций)
- Высокая температура: ε=1 (обычно сходится за 1 итерацию)
- Матрицы стоимости:
- Матрица диффузии: Rk=rI (диагональная константа)
- Матрица потенциала: Qk=qI (диагональная константа или нулевая в некоторые моменты)
Разработано несколько типичных сценариев для тестирования производительности метода:
- Оптимальный транспорт: проверка связи с транспортом Бюреса
- Отслеживание волнистого пути: использование плотных контрольных точек
- Зигзагообразный паттерн: сценарий избежания препятствий
- Scoubidou: циклическая траектория
- Скрученное препятствие: неизотропная матрица потенциала
Броуновский мост (высокая температура):
- Параметры: ε=1, q=0, r=100
- Результат: стандартный броуновский мост между двумя мерами Дирака, путь является случайным процессом
- При ε→0 сжимается в евклидову геодезическую
Геометрия с отрицательной кривизной (низкая температура):
- Параметры: ε=0.001, q=0.3, r=10
- Результат: транспорт между двумя гауссовыми распределениями с добавленным промежуточным потенциалом притяжения; геодезическая отклоняется от транспорта Бюреса, демонстрируя свойства отрицательной кривизны
- Подтверждает, что метод расширяется на более сложные геометрии
Сценарии низкой температуры (ε=0.001):
- Волнистый путь (r=1, q=10, K=15):
- Использует K плотных контрольных точек для направления
- Процесс почти детерминирован, ковариация уменьшается из-за высоких значений потенциала
- Демонстрирует способность точного отслеживания пути
- Зигзагообразный паттерн (r=10, q=0.1, K=100):
- Использует 2 контрольные точки для направления гауссова процесса
- Успешно реализует избежание препятствий
- Scoubidou (r=10, q=0.2, K=100):
- Использует 3 контрольные точки
- Формирует циклическую структуру траектории
- Скрученное препятствие (r=10, q=0.2, K=200):
- Использует 1 контрольную точку с неизотропной матрицей потенциала
- Ковариация маргинального распределения гауссова процесса скручивается вблизи потенциала
- Демонстрирует способность управления ковариацией
Сценарии высокой температуры (ε=1):
- При тех же параметрах процесс более диффузный
- Ограничение контрольными точками ослабляется
- Волнистый путь больше не детерминирован
- Диффузия значительно усиливается в других сценариях
- Быстрая сходимость: при высокой температуре или большом K обычно сходится за 1 итерацию; при низкой температуре и малом K требуется примерно 5 итераций
- Эффект температуры:
- Низкая температура: процесс близок к детерминированному, потенциал оказывает значительное влияние, ковариация уменьшается
- Высокая температура: процесс имеет сильную диффузию, ограничение потенциалом ослабляется
- Управление потенциалом:
- Высокое значение q: сильное притяжение, уменьшение ковариации, более детерминированная траектория
- Низкое значение q: слабое ограничение, сохранение большей случайности
- Неизотропная Qk: может управлять формой и направлением ковариации
- Геометрическая гибкость:
- При Qk=0 восстанавливается геодезическая Бюреса
- Активация потенциала производит геометрию с отрицательной кривизной
- Через стратегическое размещение аттракторов и регулировку силы потенциала можно проектировать сложные траектории
- Schrödinger (1931): пионерская работа, предложившая метод максимальной энтропии для определения наиболее вероятного процесса при заданных маргинальных распределениях
- Léonard (2001, 2014): двойственная формулировка Канторовича и теоретические основы
- Peyré & Cuturi (2019): связь энтропийно-регуляризованного оптимального транспорта с алгоритмом Синхорна
- Sinkhorn (1964), Cuturi (2013): эффективное решение дискретной задачи оптимального транспорта
- Levy et al. (1990): моделирование и оценивание дискретных гауссовых взаимных процессов
- Jamison (1975), Beghi (1996): преобразование Дуба и условие марковских процессов
- Chen et al. (2016): доказательство эквивалентности моста Шрёдингера задаче стохастического управления с квадратичной стоимостью управления, вывод прямо-обратных уравнений Риккати
- Bakolas (2016): оптимальное управление ковариацией с интегральными квадратичными ограничениями на состояние
- Bunne et al. (2022): замкнутое решение моста Шрёдингера между гауссовыми мерами
- Kalman (1960): основополагающая работа по управлению LQR и уравнениям Риккати
- Hotz & Skelton (1985): теория управления ковариацией
- Okamoto & Tsiotras (2019): планирование пути случайного транспортного средства с направлением ковариацией
- Ziebart et al. (2010): принцип максимальной причинной энтропии
- Haarnoja et al. (2018): алгоритм мягкого актёра-критика
- Lambert et al. (2024): вариационное динамическое программирование
- Единая схема: объединяет управление LQR, оптимальный транспорт и мост Шрёдингера в единую схему
- Замкнутое решение: получено полностью аналитическое решение при гауссовых предположениях
- Вычислительная эффективность: уравнения Риккати могут быть решены эффективно с быстрой сходимостью
- Гибкость моделирования: потенциальный член обеспечивает дополнительную степень свободы управления, позволяя проектировать сложные геометрии
- Новые теоретические идеи: раскрывает новую интерпретацию двойственности Калмана
- Теоретические результаты: успешно интегрирована идея управления LQR в схему оптимального транспорта, получено полностью замкнутое решение при гауссово-LQR установке
- Эффективность алгоритма: выведённые двойственные уравнения Риккати реализуются без приближений, на практике сходятся быстро
- Геометрическое богатство: введение потенциального члена производит богатую геометрическую структуру; через стратегическое размещение аттракторов можно управлять, деформировать или уменьшать ковариацию гауссовых распределений
- Потенциал приложений: метод применим к отслеживанию пути, направлению ковариацией, избежанию препятствий и другим практическим задачам
- Предположение об управляемости скорости: текущие результаты ограничены установкой, где скорость непосредственно управляема (uk∝xk+1−xk); расширение на случай управления через канал оставляется на будущее
- Дискретное время: результаты выведены только для дискретного времени; обобщение на непрерывное время требует дальнейших исследований
- Гауссово предположение: метод зависит от гауссовости маргинальных распределений; обобщение на негауссовы случаи представляет вызов
- Экспериментальная проверка: численные эксперименты проводятся в основном в двумерном пространстве; производительность в высоких размерностях требует дальнейшей проверки
- Расширение управления: интеграция априорной информации о процессе (например, известной пассивной динамики), ограничение оптимизации на стратегии управления p(u∣x)
- Непрерывное время: обобщение на непрерывное время
- Негауссовы случаи: исследование приближённых методов для негауссовых маргинальных распределений
- Разработка приложений: практические приложения в планировании пути робота, финансовом моделировании и других областях
- Углубление теории: дальнейшее исследование геометрической структуры, индуцированной потенциалом, и её свойств
- Значительный теоретический вклад:
- Предложена новая перспектива на задачу моста Шрёдингера, где опорная мера определяется через стоимость пути LQR
- Раскрыта глубокая связь двойственных уравнений Риккати, обеспечена новая интерпретация двойственности Калмана
- Полное замкнутое решение элегантно в теории и эффективно в вычислениях
- Методологические инновации:
- Введение потенциального члена является ключевой инновацией, обеспечивающей дополнительную степень свободы моделирования
- Искусное сочетание динамического программирования, оптимального транспорта и теории управления
- Процедура рекурсивной нормализации проста и эффективна
- Математическая строгость:
- Вывод ясен и полон, постепенно уточняется от общего моста Шрёдингера к гауссово-LQR случаю
- Полное использование свойств гауссовых распределений (произведение, формулы свёртки)
- Применение формулы Вудбери демонстрирует техническое мастерство
- Хорошо спроектированные эксперименты:
- Сценарии целенаправленно спроектированы, демонстрируя разнообразные возможности метода
- Сравнение параметров температуры ясно показывает различные режимы поведения метода
- Визуализация интуитивна и эффективна
- Высокое качество написания:
- Система обозначений ясна (особенно нотация в стиле вероятностных графических моделей)
- Логическая структура разумна, постепенно переходит от простого к сложному
- Достаточно обсуждается связь с соответствующими работами
- Ограничения экспериментов:
- Проверка только в двумерном пространстве; численная стабильность и вычислительная эффективность в высоких размерностях неизвестны
- Отсутствует количественное сравнение с другими методами (например, Chen et al. 2016)
- Не предоставлены теоретические гарантии сходимости (хотя на практике сходимость быстрая)
- Теоретические ограничения:
- Предположение об управляемости скорости довольно сильно, ограничивая область применения
- Дискретное время; обобщение на непрерывное время нетривиально
- Гауссово предположение ограничивает универсальность метода
- Технические детали:
- Условие P0⊖≺Σ0−1 в обновлении потенциала недостаточно обсуждается
- Проблемы численной стабильности (например, обращение матриц) не анализируются подробно
- Влияние стратегии инициализации не исследуется систематически
- Руководство по приложениям:
- Отсутствует систематическое руководство по выбору параметров (Qk, Rk, ε) для конкретных приложений
- Принципы проектирования контрольных точек xk∗ недостаточно обсуждаются
- Интерфейс с практическими задачами управления требует большего объяснения
- Теоретическое влияние:
- Обеспечивает новую исследовательскую перспективу на задачу моста Шрёдингера
- Углубляет связь между оптимальным транспортом и теорией управления
- Может вдохновить исследования приближённых методов для негауссовых случаев
- Влияние методов:
- Обеспечивает эффективно реализуемый алгоритм (код открыт)
- Может служить базовым методом или компонентом для других методов
- Зрелые численные методы для уравнений Риккати могут быть непосредственно применены
- Влияние приложений:
- Планирование пути робота: направление ковариацией и избежание препятствий
- Финансовое моделирование: условие случайных процессов
- Машинное обучение: генеративные модели и вариационный вывод
- Инженерия управления: проектирование неоднородных систем
- Воспроизводимость:
- Алгоритм ясно описан, легко реализуется
- Код открыт на GitHub
- Параметры экспериментов подробны, результаты можно повторить
- Наиболее подходящие:
- Задачи оптимального транспорта между гауссовыми распределениями
- Планирование пути, требующее управления ковариацией
- Стохастическое управление с ограничениями пути
- Моделирование неоднородных гауссовых процессов
- Потенциально применимые:
- Как инициализация или приближение для негауссовых случаев
- В сочетании с методами частиц для обработки многомодальных распределений
- В адаптивном управлении в реальном времени (через итеративное обновление)
- Неприменимые:
- Негауссовы маргинальные распределения (требуется расширение)
- Задачи, требующие управления через канал (текущая версия)
- Задачи в экстремально высоких размерностях (сложность матричных операций)
- Основы моста Шрёдингера:
- Léonard, C. (2014). A survey of the Schrödinger problem and some of its connections with optimal transport.
- Chen, Y., Georgiou, T. T., & Pavon, M. (2021). Stochastic control liaisons: Richard Sinkhorn meets Gaspard Monge on a Schrödinger bridge.
- Оптимальный транспорт:
- Peyré, G., & Cuturi, M. (2019). Computational optimal transport: With applications to data science.
- Villani, C. (2008). Optimal Transport: Old and New.
- Теория управления:
- Kalman, R. E. (1960). Contributions to the theory of optimal control.
- Lancaster, P., & Rodman, L. (2002). Algebraic Riccati Equations.
- Связанные методы:
- Chen, Y., Georgiou, T. T., & Pavon, M. (2016). Optimal steering of a linear stochastic system to a final probability distribution.
- Bunne, C., et al. (2022). The Schrödinger bridge between Gaussian measures has a closed form.
Общая оценка: Это высокачественная теоретическая работа, успешно объединившая схему управления LQR из теории управления с задачей моста Шрёдингера из оптимального транспорта, получив элегантное замкнутое решение при гауссовых предположениях. Вывод двойственных уравнений Риккати и новая интерпретация двойственности Калмана имеют важное теоретическое значение. Хотя численные эксперименты ограничены низкими размерностями, они эффективно демонстрируют гибкость и потенциал метода. Основные ограничения связаны с гауссовым предположением и предположением об управляемости скорости, но как специальный случай эта работа обеспечивает прочную основу для исследования более общих задач. Открытый код повышает её практическую ценность и воспроизводимость.