Control of Conditional Processes and Fleming--Viot Dynamics
Jettkant
We discuss equivalent formulations of the control of conditional processes introduced by Lions. In this problem, a controlled diffusion process is killed once it hits the boundary of a given domain and the controller's reward is computed based on the conditional distribution given the process's survival. So far there is no clarity regarding the relationship between the open- and closed-loop formulation of this nonstandard control problem. We provide a short proof of their equivalence using measurable selection and mimicking arguments. In addition, we link the closed-loop formulation to Fleming--Viot dynamics of McKean--Vlasov type, where upon being killed the diffusion process is reinserted into the domain according to the current law of the process itself. This connection offers a new interpretation of the control problem and opens it up to applications that feature costs caused by reinsertion.
academic
Contrôle des Processus Conditionnels et Dynamiques de Fleming-Viot
Cet article traite des formulations équivalentes du problème de contrôle des processus conditionnels introduit par Lions. Dans ce problème, un processus de diffusion contrôlé est « tué » dès qu'il atteint la frontière d'une région donnée, et la récompense du contrôleur est calculée en fonction de la distribution conditionnelle sous la condition que le processus survive. La relation entre les formulations en boucle ouverte et en boucle fermée pour ce problème de contrôle non standard reste actuellement peu claire. L'auteur fournit une preuve brève de leur équivalence en utilisant des arguments de sélection mesurable et de simulation. De plus, la formulation en boucle fermée est reliée aux dynamiques de Fleming-Viot de type McKean-Vlasov, où les processus de diffusion tués sont réinsérés dans la région selon la distribution actuelle du processus lui-même. Cette connexion offre une nouvelle interprétation du problème de contrôle et l'étend à des applications avec coûts de réinsertion.
Cet article étudie le problème de contrôle des processus conditionnels introduit par Lions lors de ses conférences au Collège de France. La particularité de ce problème réside dans:
Mécanisme de mort: Un processus de diffusion contrôlé est « tué » dès qu'il quitte une région donnée D
Récompense conditionnelle: La récompense du contrôleur est calculée en fonction de la distribution conditionnelle μₜ = L(Xₜ|τ > t)
Nature non standard: Il s'agit d'un problème de contrôle stochastique non standard, différent du contrôle McKean-Vlasov classique
Preuve d'équivalence: Démonstration de l'équivalence entre les formulations en boucle ouverte et en boucle fermée du problème de contrôle des processus conditionnels (V = V_closed)
Innovation méthodologique: Amélioration de la méthode de Lacker en introduisant un processus auxiliaire (X,Λ) qui évite l'utilisation de fonctions de mise à jour
Connexion Fleming-Viot: Établissement d'une correspondance entre le contrôle en boucle fermée et les dynamiques de Fleming-Viot de type McKean-Vlasov
Extension applicative: Fourniture d'un cadre théorique pour les applications incluant des coûts de réinsertion
Théorème 2.4 (Équivalence): Sous les hypothèses appropriées, pour tout contrôle réalisable (α,μ), il existe un contrôle en boucle fermée (α̃,μ) tel que J(α̃,μ) ≥ J(α,μ). En particulier, V_closed = V.
Théorème 3.4 (Existence et Unicité de Fleming-Viot): L'EDS McKean-Vlasov (3.1) admet une solution forte avec unicité des trajectoires, de plus, L(Xₜ) = L(X'ₜ|τ' > t).
Conditions aux Limites: Nécessité de la condition de cône de Poincaré-Zaremba, plus faible que les conditions de frontière lisse mais toujours restrictive
Hypothèses de Bornitude: Les coefficients de dérive doivent être bornés, bien que l'extension à certains cas non bornés soit possible
Portée Applicative: L'analyse détaillée des applications avec coûts de réinsertion est laissée aux travaux futurs
Cet article résout avec succès le problème théorique central du contrôle des processus conditionnels posé par Lions, établissant l'équivalence entre les contrôles en boucle ouverte et en boucle fermée, et fournissant une nouvelle perspective d'interprétation via les dynamiques de Fleming-Viot. Sur le plan technique, l'introduction de la méthode du processus auxiliaire simplifie la complexité des preuves et fournit un outil précieux pour les recherches connexes. Les résultats théoriques possèdent non seulement une élégance mathématique, mais ouvrent également la voie aux applications pratiques incluant les coûts de réinsertion.