2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

वितरणात्मक रूप से मजबूत नियंत्रण अंत-से-अंत सांख्यिकीय रूप से गारंटीकृत मीट्रिक लर्निंग के साथ

मूल जानकारी

पेपर ID: 2510.10214
शीर्षक: वितरणात्मक रूप से मजबूत नियंत्रण अंत-से-अंत सांख्यिकीय रूप से गारंटीकृत मीट्रिक लर्निंग के साथ
लेखक: Jingyi Wu, Chao Ning, Yang Shi
वर्गीकरण: math.OC cs.AI cs.SY eess.SY
प्रकाशन समय: 25 अक्टूबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10214v1

सारांश

वासरस्टीन वितरणात्मक मजबूत नियंत्रण (DRC) यादृच्छिक गतिशील प्रणालियों में अनिश्चितता को संभालने के लिए एक सिद्धांतपूर्ण प्रतिमान के रूप में हाल ही में व्यापक ध्यान आकर्षित कर रहा है। हालांकि, मौजूदा विधियां एकसमान वितरण विस्थापन के माध्यम से डेटा-संचालित अस्पष्टता समुच्चय का निर्माण करती हैं, और फिर उन्हें क्रमिक रूप से डाउनस्ट्रीम नियंत्रण संश्लेषण में एकीकृत करती हैं। अस्पष्टता समुच्चय निर्माण और नियंत्रण उद्देश्य के बीच यह पृथक्करण आंतरिक रूप से संरचनात्मक विसंगति का परिचय देता है, जिससे रूढ़िवादी नियंत्रण रणनीतियां और उप-इष्टतम प्रदर्शन होता है। इस सीमा को संबोधित करने के लिए, यह पेपर एक नोवल अंत-से-अंत परिमित-क्षितिज वासरस्टीन DRC ढांचा प्रस्तावित करता है, जो बंद-लूप तरीके से विषमदैशिक वासरस्टीन मीट्रिक लर्निंग को डाउनस्ट्रीम नियंत्रण कार्य के साथ एकीकृत करता है, जिससे अस्पष्टता समुच्चय प्रदर्शन-महत्वपूर्ण दिशाओं के साथ व्यवस्थित रूप से समायोजित हो सकता है, अधिक प्रभावी नियंत्रण रणनीतियां उत्पन्न करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

यादृच्छिक नियंत्रण रोबोटिक्स, ऊर्जा प्रणालियों और वित्त जैसे क्षेत्रों में अनिश्चितता के तहत निर्णय लेने के लिए व्यापक रूप से लागू होता है। पारंपरिक सिद्धांत मानते हैं कि नियंत्रण अनिश्चितता की संभाव्यता वितरण पूरी तरह से ज्ञात है, लेकिन व्यवहार में, यह वितरण शायद ही कभी उपलब्ध होता है, और नियंत्रक को सीमित डेटा से अनुमानित जानकारी के आधार पर डिजाइन करना चाहिए। इस अनुमान की आंतरिक अपूर्णता अनुमानित वितरण और वास्तविक वितरण के बीच विचलन की ओर ले जाती है, जिससे नियंत्रण प्रदर्शन में उल्लेखनीय कमी आती है।

मौजूदा विधियों की सीमाएं

पारंपरिक वासरस्टीन DRC की रूढ़िवादिता: मौजूदा विधियां समदैशिक वासरस्टीन गोलों को अपनाती हैं, सभी दिशाओं में वितरण विस्थापन को समान रूप से महत्वपूर्ण मानती हैं, नियंत्रण प्रदर्शन पर उनके गैर-समान प्रभाव को नजरअंदाज करती हैं
क्रमिक प्रसंस्करण की संरचनात्मक विसंगति: अस्पष्टता समुच्चय निर्माण और नियंत्रण संश्लेषण का पृथक्करण कार्य-अज्ञेयवादी अस्पष्टता समुच्चय डिजाइन की ओर ले जाता है, अत्यधिक रूढ़िवादी नियंत्रण रणनीतियां उत्पन्न करता है
अंत-से-अंत नियंत्रण का सामान्यीकरण सीमा: मौजूदा अंत-से-अंत नियंत्रण विधियां आमतौर पर एकल प्रारंभिक स्थिति से प्रशिक्षित होती हैं, अधिकतर फिट होने के लिए प्रवण होती हैं, व्यावहारिक प्रयोज्यता को सीमित करती हैं

अनुसंधान प्रेरणा

यह पेपर अस्पष्टता समुच्चय डिजाइन और नियंत्रण प्रदर्शन के बीच पृथक्करण को पाटने का लक्ष्य रखता है, वासरस्टीन-आधारित DRC को अंत-से-अंत लर्निंग के साथ एकीकृत करता है, नियंत्रण प्रदर्शन प्रतिक्रिया के माध्यम से वासरस्टीन मीट्रिक को समायोजित करता है, जबकि सांख्यिकीय परिमित-नमूना गारंटियां बनाए रखता है।

मुख्य योगदान

अंत-से-अंत वासरस्टीन DRC ढांचे का पहला उदाहरण: द्वि-स्तरीय अनुकूलन के माध्यम से अस्पष्टता समुच्चय डिजाइन और नियंत्रण को प्रतिक्रिया तरीके से युग्मित करने वाला पहला ढांचा प्रस्तावित करता है, और विविध प्रारंभिक स्थितियों में सामान्यीकरण करता है
नियंत्रण कार्य-उन्मुख विषमदैशिक वासरस्टीन अस्पष्टता समुच्चय: त्रिज्या समायोजन तंत्र प्रस्तावित करता है, सांख्यिकीय परिमित-नमूना गारंटियां सैद्धांतिक रूप से स्थापित करता है
कठोर सैद्धांतिक आधार: विषमदैशिक मीट्रिक की निरंतरता साबित करता है, एल्गोरिदम अभिसरण स्थापित करता है, सीखे गए मीट्रिक की गैर-स्पर्शोन्मुख सांख्यिकीय सुसंगतता प्राप्त करता है

विधि विवरण

कार्य परिभाषा

योजक विक्षोभ के साथ रैखिक प्रणाली पर विचार करें: $x_{t+1} = Ax_t + Bu_t + w_t$

जहां $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ क्रमशः प्रणाली स्थिति, इनपुट और अनिश्चित विक्षोभ हैं। प्रणाली बाधाओं के अधीन है: $F_x^T x_t + F_u^T u_t + f \leq 0$

मॉडल आर्किटेक्चर

1. विषमदैशिक वासरस्टीन अस्पष्टता समुच्चय

विषमदैशिक वासरस्टीन दूरी परिभाषित करें: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

जहां $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ सकारात्मक निश्चित मैट्रिक्स $\Lambda$ द्वारा प्रेरित भारित मानदंड है।

इसके आधार पर विषमदैशिक अस्पष्टता समुच्चय का निर्माण करें: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. द्वि-स्तरीय अनुकूलन ढांचा

आंतरिक समस्या: दिए गए मीट्रिक मैट्रिक्स $\Lambda$ के तहत DRC समस्या को हल करें: $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

बाहरी समस्या: इष्टतम मीट्रिक मैट्रिक्स सीखें: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. समाधान एल्गोरिदम

यादृच्छिक संवर्धित लैग्रेंजियन एल्गोरिदम विकसित किया गया, जिसमें शामिल हैं:

बाहरी: सुरक्षा सुरक्षा के साथ द्वि-चर और दंड पैरामीटर अपडेट
आंतरिक: संरक्षणात्मक जैकोबियन मैट्रिक्स के छोटे-बैच अनुमान के माध्यम से

तकनीकी नवाचार बिंदु

ज्यामिति-जागरूक त्रिज्या समायोजन: $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ समायोजन तंत्र प्रस्तावित करता है, सांख्यिकीय गारंटियां सुनिश्चित करता है
संरक्षणात्मक जैकोबियन गणना: पथ-अवकलनीयता सिद्धांत के माध्यम से गैर-चिकनी अनुकूलन समस्याओं को संभालता है
बहु-प्रारंभिक स्थिति प्रशिक्षण: अधिकतर फिट होने से बचाता है, सामान्यीकरण क्षमता में सुधार करता है

प्रायोगिक सेटअप

प्रायोगिक परिदृश्य

1. संख्यात्मक प्रयोग

प्रणाली गतिशीलता: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
बाधाएं: $x_1 \leq 20, x_2 \geq -3.2$
विक्षोभ वितरण: $w \sim \mathcal{N}(0, 2I_2)$
प्रारंभिक स्थिति क्षेत्र: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. सूची नियंत्रण

समय क्षितिज: $T = 5$
लागत गुणांक: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
मांग वितरण: काटा गया गाऊसी वितरण $\mathcal{N}(5,3)$ समर्थन में $[1,10]$
प्रारंभिक सूची: $X_0 = [1,5]$

मूल्यांकन मेट्रिक्स

औसत बंद-लूप लागत
बाधा उल्लंघन दर
लागत वितरण की मजबूती

तुलना विधियां

W-DRC: पारंपरिक वासरस्टीन वितरणात्मक मजबूत नियंत्रण
E2E-Pointwise-DRC: निश्चित प्रारंभिक स्थिति के अंत-से-अंत लर्निंग वेरिएंट
E2E-Regionwise-DRC: इस पेपर द्वारा प्रस्तावित विधि

प्रायोगिक परिणाम

मुख्य परिणाम

संख्यात्मक प्रयोग

विधि	औसत लागत	बाधा उल्लंघन दर
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

यह पेपर की विधि पारंपरिक विधि की तुलना में 90.2% लागत में कमी, लर्निंग आधारभूत की तुलना में 45.5% कमी।

सूची नियंत्रण

विधि	औसत लागत
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

यह पेपर की विधि पारंपरिक विधि की तुलना में 50.8% लागत में कमी, लर्निंग आधारभूत की तुलना में 27.6% कमी।

प्रायोगिक निष्कर्ष

सुसंगत श्रेष्ठता: सभी प्रारंभिक स्थितियों में, यह पेपर की विधि सबसे कम लागत प्राप्त करती है
सामान्यीकरण क्षमता: बहु-प्रारंभिक स्थिति प्रशिक्षण अदेखी प्रारंभिक स्थितियों के लिए सामान्यीकरण क्षमता में उल्लेखनीय सुधार करता है
सुरक्षा रखरखाव: सभी विधियां 10% से कम बाधा उल्लंघन दर की सुरक्षा आवश्यकता बनाए रखती हैं

सैद्धांतिक विश्लेषण

सांख्यिकीय गारंटियां

प्रमेय 1: हल्के-पूंछ धारणा के तहत, विषमदैशिक वासरस्टीन अस्पष्टता समुच्चय समान परिमित-नमूना गारंटियां संतुष्ट करते हैं: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$

अभिसरण विश्लेषण

प्रमेय 6: उपयुक्त धारणाओं के तहत, एल्गोरिदम बाहरी समस्या के Clarke स्थिर बिंदु में अभिसरित होता है, सामान्यीकृत KKT शर्तों को संतुष्ट करता है।

प्रमेय 8: घातीय अभिसरण दर स्थापित करता है: $\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}$

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पहली अंत-से-अंत वासरस्टीन DRC ढांचा सफलतापूर्वक प्रस्तावित किया
विषमदैशिक अस्पष्टता समुच्चय की सांख्यिकीय वैधता के सैद्धांतिक गारंटियां
कई नियंत्रण कार्यों पर श्रेष्ठ प्रदर्शन का प्रायोगिक सत्यापन

सीमाएं

वर्तमान ढांचा रैखिक प्रणालियों तक सीमित है
एल्गोरिदम की कम्प्यूटेशनल जटिलता अधिक है
सांख्यिकीय गुणों को सुनिश्चित करने के लिए पर्याप्त प्रशिक्षण डेटा की आवश्यकता है

भविष्य की दिशाएं

गैर-रैखिक प्रणालियों तक विस्तार
अधिक कुशल समाधान एल्गोरिदम विकसित करना
ऑनलाइन लर्निंग और अनुकूली अपडेट तंत्र की खोज

गहन मूल्यांकन

लाभ

सैद्धांतिक कठोरता: सांख्यिकीय गारंटियां, निरंतरता और अभिसरण सहित पूर्ण सैद्धांतिक विश्लेषण प्रदान करता है
विधि नवाचार: पहली बार अंत-से-अंत लर्निंग को वासरस्टीन DRC के साथ जोड़ता है
प्रायोगिक पूर्णता: संख्यात्मक और व्यावहारिक नियंत्रण समस्याओं पर प्रभावशीलता सत्यापित करता है
व्यावहारिक मूल्य: सुरक्षा बाधाओं को बनाए रखते हुए नियंत्रण प्रदर्शन में उल्लेखनीय सुधार

कमियां

कम्प्यूटेशनल जटिलता: द्वि-स्तरीय अनुकूलन संरचना कम्प्यूटेशनल बोझ बढ़ाती है
प्रयोज्यता की सीमा: वर्तमान में केवल रैखिक प्रणालियों के लिए उपयुक्त है
पैरामीटर संवेदनशीलता: एल्गोरिदम प्रदर्शन हाइपरपैरामीटर के प्रति संवेदनशील हो सकता है

प्रभाव

यह कार्य वितरणात्मक मजबूत नियंत्रण क्षेत्र के लिए एक नई दिशा खोलता है, नियंत्रण सिद्धांत और मशीन लर्निंग के अंतःविषय अनुसंधान पर महत्वपूर्ण प्रभाव डालेगा। इसके अंत-से-अंत लर्निंग विचार अन्य मजबूत नियंत्रण समस्याओं तक सामान्यीकृत किए जा सकते हैं।

प्रयोज्य परिदृश्य

अनिश्चितता के साथ रैखिक नियंत्रण प्रणालियां
कई परिचालन स्थितियों में प्रदर्शन बनाए रखने की आवश्यकता वाले अनुप्रयोग
उच्च सुरक्षा आवश्यकताओं वाले नियंत्रण कार्य

संदर्भ

पेपर 45 संबंधित संदर्भों का हवाला देता है, जिसमें वितरणात्मक मजबूत अनुकूलन, मॉडल पूर्वानुमानित नियंत्रण, सुदृढ़ शिक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।