Control of Conditional Processes and Fleming--Viot Dynamics
Jettkant
We discuss equivalent formulations of the control of conditional processes introduced by Lions. In this problem, a controlled diffusion process is killed once it hits the boundary of a given domain and the controller's reward is computed based on the conditional distribution given the process's survival. So far there is no clarity regarding the relationship between the open- and closed-loop formulation of this nonstandard control problem. We provide a short proof of their equivalence using measurable selection and mimicking arguments. In addition, we link the closed-loop formulation to Fleming--Viot dynamics of McKean--Vlasov type, where upon being killed the diffusion process is reinserted into the domain according to the current law of the process itself. This connection offers a new interpretation of the control problem and opens it up to applications that feature costs caused by reinsertion.
academic
Control de Procesos Condicionales y Dinámica de Fleming--Viot
Este artículo aborda formulaciones equivalentes del problema de control de procesos condicionales introducido por Lions. En este problema, un proceso de difusión controlado es "eliminado" una vez que toca la frontera de una región dada, y la recompensa del controlador se calcula basándose en la distribución condicional bajo la condición de que el proceso sobreviva. Actualmente, la relación entre las formulaciones de bucle abierto y bucle cerrado para este problema de control no estándar permanece poco clara. El autor proporciona una prueba breve de su equivalencia utilizando selección medible y argumentos de simulación. Además, vincula la formulación de bucle cerrado con dinámicas de Fleming-Viot de tipo McKean-Vlasov, donde los procesos de difusión eliminados se reinsertan en la región de acuerdo con la distribución actual del propio proceso. Esta conexión proporciona una nueva interpretación del problema de control y lo extiende a aplicaciones con costos de reinserción.
Este artículo estudia el problema de control de procesos condicionales introducido por Lions en sus conferencias en el Collège de France. La particularidad de este problema radica en:
Mecanismo de Eliminación: Un proceso de difusión controlado es "eliminado" una vez que abandona una región dada D
Recompensa Condicional: La recompensa del controlador se calcula basándose en la distribución condicional μₜ = L(Xₜ|τ > t) bajo la condición de supervivencia del proceso
Naturaleza No Estándar: Este es un problema de control estocástico no estándar, diferente del control McKean-Vlasov clásico
Prueba de Equivalencia: Se demuestra la equivalencia entre las formulaciones de bucle abierto y bucle cerrado en el problema de control de procesos condicionales (V = V_closed)
Innovación Metodológica: Se mejora el método de Lacker introduciendo un proceso auxiliar (X,Λ) que evita el uso de funciones de actualización
Conexión con Fleming-Viot: Se establece la correspondencia entre el control de bucle cerrado y la dinámica de Fleming-Viot de tipo McKean-Vlasov
Extensión de Aplicaciones: Se proporciona un marco teórico para aplicaciones que incluyen costos de reinserción
Teorema 2.4 (Equivalencia): Bajo supuestos apropiados, para cualquier control factible (α,μ), existe un control de bucle cerrado (α̃,μ) tal que J(α̃,μ) ≥ J(α,μ). En particular, V_closed = V.
Teorema 3.4 (Existencia y Unicidad de Fleming-Viot): La SDE McKean-Vlasov (3.1) admite una solución fuerte con unicidad de trayectorias, además, L(Xₜ) = L(X'ₜ|τ' > t).
Este artículo resuelve exitosamente el problema teórico central en el problema de control de procesos condicionales propuesto por Lions, estableciendo la equivalencia entre control de bucle abierto y bucle cerrado, y proporcionando una nueva perspectiva interpretativa a través de la dinámica de Fleming-Viot. Técnicamente, la introducción del método de proceso auxiliar simplifica la complejidad de la prueba, proporcionando una herramienta valiosa para investigación relacionada. Los resultados teóricos no solo poseen belleza matemática, sino que también allanan el camino para aplicaciones prácticas que incluyen costos de reinserción.