On Minimum-Dispersion Control of Nonlinear Diffusion Processes
Chertovskih, Pogodaev, Staritsyn et al.
This work collects some methodological insights for numerical solution of a "minimum-dispersion" control problem for nonlinear stochastic differential equations, a particular relaxation of the covariance steering task. The main ingredient of our approach is the theoretical foundation called $\infty$-order variational analysis. This framework consists in establishing an exact representation of the increment ($\infty$-order variation) of the objective functional using the duality, implied by the transformation of the nonlinear stochastic control problem to a linear deterministic control of the Fokker-Planck equation. The resulting formula for the cost increment analytically represents a "law-feedback" control for the diffusion process. This control mechanism enables us to learn time-dependent coefficients for a predefined Markovian control structure using Monte Carlo simulations with a modest population of samples. Numerical experiments prove the vitality of our approach.
academic
अरैखिक विसरण प्रक्रियाओं के न्यूनतम-विक्षेपण नियंत्रण पर
यह अनुसंधान अरैखिक स्टोकेस्टिक अवकल समीकरणों की "न्यूनतम विक्षेपण" नियंत्रण समस्या के लिए संख्यात्मक समाधान की पद्धति संबंधी अंतर्दृष्टि प्रस्तुत करता है, जो सहप्रसरण निर्देशन कार्य का एक विशेष शिथिलीकरण रूप है। इस विधि का मूल ∞-क्रम भिन्नता विश्लेषण के सैद्धांतिक आधार पर है, अरैखिक स्टोकेस्टिक नियंत्रण समस्या को Fokker-Planck समीकरण के रैखिक निर्धारक नियंत्रण में परिवर्तित करके, उद्देश्य फलन वृद्धि का सटीक प्रतिनिधित्व स्थापित करता है। परिणामी लागत वृद्धि सूत्र विश्लेषणात्मक रूप से विसरण प्रक्रिया के "नियम प्रतिक्रिया" नियंत्रण को प्रदर्शित करता है। यह नियंत्रण तंत्र पूर्वनिर्धारित मार्कोव नियंत्रण संरचना के समय-परिवर्तनशील गुणांकों को कम नमूनों के मोंटे कार्लो सिमुलेशन के माध्यम से सीखने में सक्षम बनाता है। संख्यात्मक प्रयोग इस विधि की प्रभावशीलता को प्रमाणित करते हैं।
यह अनुसंधान मुख्य रूप से सहप्रसरण निर्देशन समस्या (Covariance Steering Problem, CSP) के अरैखिक विस्तार को हल करता है। CSP का मूल दिए गए प्रारंभिक गाऊसी संभाव्यता वितरण के मामले में, स्टोकेस्टिक प्रक्रिया की स्थिति को पूर्वनिर्धारित माध्य और सहप्रसरण मैट्रिक्स वाली टर्मिनल स्थिति में निर्देशित करना है।
व्यावहारिक अनुप्रयोग मूल्य: जैसे शोर वातावरण में विमान की सुरक्षित लैंडिंग, निर्दिष्ट "सुरक्षा क्षेत्र" के भीतर उचित संभाव्यता के साथ कार्य पूरा करने की आवश्यकता
सैद्धांतिक महत्व: CSP को द्रव्यमान परिवहन बाधा के तहत स्टोकेस्टिक इष्टतम नियंत्रण समस्या के रूप में देखा जा सकता है
तकनीकी चुनौती: अरैखिक गतिविज्ञान गाऊसी संरचना को नष्ट करता है, जिससे द्वितीय-क्रम सांख्यिकी संभाव्यता वितरण के आकार को चिह्नित करने के लिए अपर्याप्त है
रैखिक मामला: CSP के पास गाऊसी प्रारंभिक वितरण, रैखिक गतिविज्ञान और रैखिक द्विघात लागत फलन के मामले में बंद-रूप समाधान है, Riccati समीकरण के माध्यम से हल किया जाता है
अरैखिक प्रसंस्करण: मौजूदा अरैखिक विधियां मुख्य रूप से राज्य गतिविज्ञान रैखिकीकरण को अपनाती हैं, अभी भी रैखिक मामले के तर्क पर निर्भर करती हैं
उच्च-क्रम सांख्यिकी: अरैखिक मामले में उच्च-क्रम क्षणों पर विचार करने की आवश्यकता है, लेकिन मौजूदा विधियों की क्षमता सीमित है
"न्यूनतम विक्षेपण नियंत्रण" को CSP के शिथिलीकरण रूप के रूप में प्रस्तावित करना, स्टोकेस्टिक समूह के माध्य को पूर्वनिर्धारित लक्ष्य की ओर निर्देशित करते समय, माध्य के चारों ओर विक्षेपण के उपयुक्त उच्च-क्रम सांख्यिकीय माप पर विचार करना।
∞-क्रम भिन्नता विश्लेषण ढांचा: द्वैत पर आधारित उद्देश्य फलन वृद्धि के सटीक प्रतिनिधित्व का सिद्धांत स्थापित करना
नियम प्रतिक्रिया नियंत्रण तंत्र: Fokker-Planck समीकरण द्वैत के माध्यम से विश्लेषणात्मक रूप के अवरोही नियंत्रण संरचना को व्युत्पन्न करना
संख्यात्मक कार्यान्वयन एल्गोरिदम: मोंटे कार्लो विधि और Krasovskii-Subbotin नमूनाकरण एल्गोरिदम को जोड़ने वाली व्यावहारिक संख्यात्मक योजना
आयाम श्राप का शमन: संभाव्यता ढांचे के माध्यम से उच्च-आयामी समस्याओं को प्रभावी ढंग से संभालना, पारंपरिक PDE संख्यात्मक विधियों की कम्प्यूटेशनल जटिलता से बचना
अरैखिक स्टोकेस्टिक नियंत्रण समस्या को समतुल्य राज्य रैखिक निर्धारक अनुकूलन समस्या में रूपांतरित करना:
(RP)minu∈UJ[u]=∫RdℓdμT[u]
बाधा के अधीन: ∂tμ=Lt∗(ut)μ, जहां Lt∗(υ) दीर्घवृत्तीय संचालक Lt(υ) का औपचारिक सहायक है।
द्वैत के माध्यम से लागत फलन वृद्धि का सटीक प्रतिनिधित्व स्थापित करना। मान लें uˉ,u∈U क्रमशः संदर्भ नियंत्रण और लक्ष्य नियंत्रण हैं, तब:
ΔJ=∫I∫Rn(Hˉs(x,us)−Hˉs(x,uˉs))dμs(x)ds
जहां Hˉs(x,υ)=Hs(x,∇xpˉs(x),υ) Hamilton-Pontryagin फलन का संकुचित रूप है।
इनपुट: प्रारंभिक अनुमान ū ∈ U, सहिष्णुता ε > 0
आउटपुट: अनुक्रम {uk} जैसे कि I[uk+1] < I[uk]
1. प्रारंभिकीकरण: k ← 0, u0 ← ū
2. दोहराएं:
- pk ← p[uk] की गणना करें
- अनुकूलन समस्या (9) से vk_s[μ] को हल करें
- μk+1 ← μ̂[vk], uk+1 ← vk[μk+1] को अपडेट करें
- k ← k + 1
3. जब तक |I[uk-1] - I[uk]| < ε
यद्यपि सन्निकटन कार्यान्वयन एकरस अवरोही संपत्ति को खो देता है, फिर भी अपेक्षाकृत मोटे pˉ और μ सन्निकटन के तहत भी, विधि आश्चर्यजनक मजबूती प्रदर्शित करती है, "औसत" अर्थ में उचित तेजी से अभिसरण प्रदर्शित करती है।
हाल के वर्षों में, Fokker-Planck समीकरण पर आधारित नियंत्रण विधियां बहु-आयामी स्टोकेस्टिक प्रणालियों, समूह गति नियंत्रण आदि क्षेत्रों में व्यापक रूप से लागू की गई हैं, संबंधित कार्य में Annunziato & Borzì (2013), Roy आदि (2016-2018) आदि शामिल हैं।
पेपर 23 महत्वपूर्ण संदर्भों का हवाला देता है, जो स्टोकेस्टिक नियंत्रण सिद्धांत, Fokker-Planck समीकरण, सहप्रसरण नियंत्रण आदि संबंधित क्षेत्रों के शास्त्रीय और अग्रणी कार्यों को शामिल करते हैं, अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह एक उत्कृष्ट पेपर है जो सिद्धांत और अनुप्रयोग को संतुलित करता है, अरैखिक स्टोकेस्टिक नियंत्रण क्षेत्र में नए सैद्धांतिक ढांचे और व्यावहारिक संख्यात्मक विधियां प्रस्तावित करता है। यद्यपि प्रयोग सत्यापन और सैद्धांतिक विश्लेषण के पहलुओं में सुधार की गुंजाइश है, लेकिन इसके मूल विचार और पद्धति इस क्षेत्र में महत्वपूर्ण प्रगति प्रदान करते हैं।