Integration Matters for Learning PDEs with Backwards SDEs
Park, Tu
Backward stochastic differential equation (BSDE)-based deep learning methods provide an alternative to Physics-Informed Neural Networks (PINNs) for solving high-dimensional partial differential equations (PDEs), offering potential algorithmic advantages in settings such as stochastic optimal control, where the PDEs of interest are tied to an underlying dynamical system. However, standard BSDE-based solvers have empirically been shown to underperform relative to PINNs in the literature. In this paper, we identify the root cause of this performance gap as a discretization bias introduced by the standard Euler-Maruyama (EM) integration scheme applied to one-step self-consistency BSDE losses, which shifts the optimization landscape off target. We find that this bias cannot be satisfactorily addressed through finer step-sizes or multi-step self-consistency losses. To properly handle this issue, we propose a Stratonovich-based BSDE formulation, which we implement with stochastic Heun integration. We show that our proposed approach completely eliminates the bias issues faced by EM integration. Furthermore, our empirical results show that our Heun-based BSDE method consistently outperforms EM-based variants and achieves competitive results with PINNs across multiple high-dimensional benchmarks. Our findings highlight the critical role of integration schemes in BSDE-based PDE solvers, an algorithmic detail that has received little attention thus far in the literature.
academic
Интеграция имеет значение для обучения УЧП с обратными СДУ
В данной работе исследуются методы глубокого обучения на основе обратных стохастических дифференциальных уравнений (ОСДУ) для решения высокомерных задач уравнений в частных производных (УЧП). Несмотря на алгоритмические преимущества метода ОСДУ в сценариях стохастического оптимального управления, его эмпирическая производительность всегда была ниже, чем у физико-информированных нейронных сетей (ПИНН). Авторы выявили коренную причину разрыва в производительности: стандартная схема интеграции Эйлера-Марuyамы (ЭМ) вводит дискретизационное смещение в одношаговую самосогласованную потерю ОСДУ, которое не может быть удовлетворительно устранено путем уменьшения размера шага или использования многошаговых самосогласованных потерь. Для решения этой проблемы авторы предлагают формулировку ОСДУ на основе Стратоновича и реализацию с использованием стохастической интеграции Хойна, полностью устраняющей проблему смещения ЭМ. Экспериментальные результаты показывают, что метод Heun-BSDE постоянно превосходит варианты EM на нескольких высокомерных эталонных тестах и достигает конкурентных результатов с ПИНН.
Численное решение уравнений в частных производных (УЧП) является основой научного и инженерного моделирования, однако традиционные численные методы сталкиваются с проклятием размерности и становятся вычислительно неосуществимыми для высокомерных УЧП. В последние годы методы глубокого обучения предложили два основных альтернативных подхода:
Физико-информированные нейронные сети (ПИНН): прямая минимизация остатка УЧП на случайно выбранных точках конфигурации
Метод ОСДУ: переформулировка УЧП как прямого-обратного стохастического дифференциального уравнения, минимизация разницы между предсказанием и граничным условием путем моделирования стохастического процесса
Хотя метод ОСДУ имеет преимущества в следующих сценариях:
Высокомерные задачи с известной базовой динамической системой (например, стохастическое оптимальное управление)
Задачи, где УЧП можно получить путем моделирования, но нельзя получить явно (управление без модели)
Однако существующие исследования (например, Nüsken & Richter 2023) обнаружили, что метод ОСДУ значительно уступает ПИНН на эталонных тестах. Предложенный в этой литературе метод интерполяционной потери имеет два критических недостатка:
Не объясняет коренную причину разрыва в производительности
Вводит гиперпараметр, требующий настройки (длину временного диапазона), что усложняет обучение
В данной работе выявлена ключевая причина разрыва в производительности — выбор схемы стохастической интеграции. Стандартная схема ЭМ вводит неустранимое дискретизационное смещение в одношаговую самосогласованную потерю ОСДУ, которое имеет тот же порядок, что и остаток УЧП, и не может быть устранено путем уменьшения размера шага.
Теоретический анализ: Первый систематический анализ дискретизационного смещения схем стохастической интеграции ЭМ и Хойна при применении к одношаговой самосогласованной потере ОСДУ
Доказано, что схема ЭМ вводит ненулевой член смещения того же порядка, что и остаток УЧП (теорема 4.2)
Доказано, что схема Хойна полностью устраняет эту проблему смещения (теорема 4.4)
Методологическое инновация: Предложена формулировка ОСДУ на основе Стратоновича с интеграцией стохастического метода Хойна
Интерпретация прямого и обратного СДУ как СДУ Стратоновича (а не СДУ Ито)
Использование стохастического метода Хойна для численной интеграции, устранение смещения одношаговой потери
Анализ многошаговой потери: Глубокий анализ компромиссов многошаговой самосогласованной потери (раздел 5)
Раскрытие компромиссов производительности метода ЭМ при различных длинах временного диапазона k
Доказано, что метод Хойна сохраняет согласованность как в одношаговом, так и в многошаговом случаях
Эмпирическая верификация: Верификация на нескольких высокомерных эталонах (уравнения HJB, BSB, BZ, размерность до 100)
Heun-BSDE постоянно превосходит EM-BSDE
Достигает конкурентной производительности с ПИНН, восстанавливая паритет производительности
Ключевое понимание: Член смещения 21tr[(H⋅∇2uθ)2] имеет тот же порядок, что и член остатка УЧП, и не может быть устранен путем уменьшения размера шага τ.
Модифицированное обратное СДУ:
В соответствии с правилом цепи Стратоновича,
du(Xt∘,t)=h∘[u](Xt∘,t)dt+∇u(Xt∘,t)Tg(Xt∘,t)∘dBt
где
h∘[u](x,t):=h[u](x,t)−21tr(H(x,t)∇2u(x,t))
Дискретизация стохастического метода Хойна:
Zˉn+1θ=Z^nθ+τFθ(Z^nθ,tn)+τGθ(Z^nθ,tn)wnZ^n+1θ=Z^nθ+2τ(Fθ(Z^nθ,tn)+Fθ(Zˉn+1θ,tn+1))+2τ(Gθ(Z^nθ,tn)+Gθ(Zˉn+1θ,tn+1))wn
Прорывной результат: Метод Хойна полностью устраняет член смещения из метода ЭМ, так что главный член одношаговой потери содержит только квадрат остатка УЧП.
Предложения E.8-E.10: Для метода Хойна,
LХойнN(θ)≤LХойн,τ(θ)+O(τ1/2)
Ключевой вывод: В установке Хойна одношаговая и полнодиапазонная потери сохраняют одинаковое отношение на уровне СДУ и дискретизации, устраняя необходимость выбора временного диапазона k.
3. Полностью связанное ОСДУ Бендера и Чжана (BZ) (10 и 100 измерений):
Прямой процесс зависит от обратного процесса, тестирование более сложных связанных сценариев
4. Задача оптимального управления маятником:
Демонстрация применения в нелинейных задачах управления
Исходный ОСДУ (E и др. 2017, Han и др. 2018): обучение независимой сети для каждого временного шага для предсказания Yt и Zt
Самосогласованный ОСДУ (Raissi 2024, Nüsken & Richter 2023): единая параметризация сети для всех пространственно-временных точек, использование самосогласованной потери
Связь с данной работой: Сосредоточение на самосогласованном методе, первое систематическое исследование влияния схемы интеграции
Выявление коренной причины: Разрыв в производительности между ОСДУ и ПИНН обусловлен дискретизационным смещением интеграции ЭМ в одношаговой самосогласованной потере
Теоретический вклад: Строгое доказательство того, что ЭМ вводит неустранимое смещение, а Хойн полностью его устраняет
Методологическое инновация: ОСДУ Стратоновича + интеграция Хойна восстанавливает паритет производительности между ОСДУ и ПИНН
Эмпирическая верификация: Теоретические предсказания подтверждены на нескольких высокомерных эталонах
Практическое руководство: Выбор схемы интеграции критичен для решателей ОСДУ
Raissi и др. (2017-2019): Основополагающие работы по методу ПИНН
E, Han, Jentzen (2017): Исходный метод глубокого ОСДУ
Nüsken & Richter (2023): Метод интерполяционной потери, работа, на которую данная статья напрямую отвечает
Kloeden & Platen (1992): Классический учебник по численному решению стохастических дифференциальных уравнений
Chassagneux и др. (2022): Дискретизация Рунге-Кутта для ОСДУ
Общая оценка: Это высококачественная статья, сочетающая теорию и эмпирику, которая выявляет и решает ключевое узкое место в методе ОСДУ. Теоретический анализ строг, дизайн экспериментов всеобъемлющ, и работа вносит важный вклад в область. Основные недостатки заключаются в вычислительных затратах и проблемах численной стабильности, требующих дальнейшей инженерной оптимизации. Статья предоставляет чёткое методологическое руководство для конструкции решателей ОСДУ и, как ожидается, окажет практическое влияние в специфических приложениях, таких как управление без модели.