Control of Conditional Processes and Fleming--Viot Dynamics
Jettkant
We discuss equivalent formulations of the control of conditional processes introduced by Lions. In this problem, a controlled diffusion process is killed once it hits the boundary of a given domain and the controller's reward is computed based on the conditional distribution given the process's survival. So far there is no clarity regarding the relationship between the open- and closed-loop formulation of this nonstandard control problem. We provide a short proof of their equivalence using measurable selection and mimicking arguments. In addition, we link the closed-loop formulation to Fleming--Viot dynamics of McKean--Vlasov type, where upon being killed the diffusion process is reinserted into the domain according to the current law of the process itself. This connection offers a new interpretation of the control problem and opens it up to applications that feature costs caused by reinsertion.
academic
Управление условными процессами и динамика Флеминга–Виота
В данной работе рассматривается эквивалентная формулировка задачи управления условными процессами, введённой Лионсом. В этой задаче управляемый диффузионный процесс «убивается» при достижении границы заданной области, а вознаграждение контроллера вычисляется на основе условного распределения при условии выживания процесса. До настоящего времени связь между открытым и замкнутым контуром управления для этой нестандартной задачи управления оставалась неясной. Автор использует измеримый выбор и аргументы моделирования для предоставления краткого доказательства их эквивалентности. Кроме того, устанавливается связь между замкнутой формулировкой и динамикой Флеминга–Виота типа Маккина–Власова, где убитые диффузионные процессы переинсертируются в область в соответствии с текущим распределением самого процесса. Эта связь предоставляет новую интерпретацию задачи управления и расширяет её на приложения с затратами на переинсерцию.
Данная работа исследует задачу управления условными процессами, введённую Лионсом в его лекциях в Коллеж де Франс. Особенность этой задачи заключается в следующем:
Механизм убивания: управляемый диффузионный процесс «убивается» при выходе из заданной области D
Условное вознаграждение: вознаграждение контроллера вычисляется на основе условного распределения μₜ = L(Xₜ|τ > t)
Нестандартный характер: это нестандартная задача стохастического управления, отличающаяся от классического управления Маккина–Власова
Доказательство эквивалентности: доказано, что открытый и замкнутый контур управления в задаче управления условными процессами эквивалентны (V = V_closed)
Методологическое инновация: улучшение метода Лакера путём введения вспомогательного процесса (X,Λ), избегающего использования функций обновления
Связь с Флемингом–Виотом: установлена соответствие между замкнутым управлением и динамикой Флеминга–Виота типа Маккина–Власова
Расширение приложений: предоставлена теоретическая база для приложений с затратами на переинсерцию
Теорема 2.4 (эквивалентность): При надлежащих предположениях для любого допустимого управления (α,μ) существует управление с обратной связью (α̃,μ) такое, что J(α̃,μ) ≥ J(α,μ). В частности, V_closed = V.
Теорема 3.4 (существование и единственность Флеминга–Виота): SDE Маккина–Власова (3.1) имеет сильное решение и единственность по траекториям, более того, L(Xₜ) = L(X'ₜ|τ' > t).
Данная работа успешно решает центральную теоретическую проблему в задаче управления условными процессами, поставленной Лионсом, устанавливает эквивалентность открытого и замкнутого контура управления и предоставляет новую интерпретационную перспективу через динамику Флеминга–Виота. Технически введение метода вспомогательного процесса упрощает сложность доказательств и предоставляет ценный инструмент для связанных исследований. Теоретические результаты не только обладают математической элегантностью, но также прокладывают путь для практических приложений с затратами на переинсерцию.