2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

التحكم الموزع القوي مع تعلم المقاييس المضمون إحصائياً من النهاية إلى النهاية

المعلومات الأساسية

  • معرّف الورقة: 2510.10214
  • العنوان: التحكم الموزع القوي مع تعلم المقاييس المضمون إحصائياً من النهاية إلى النهاية
  • المؤلفون: Jingyi Wu, Chao Ning, Yang Shi
  • التصنيفات: math.OC cs.AI cs.SY eess.SY
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.10214v1

الملخص

لقد حظي التحكم الموزع القوي بمسافة Wasserstein (DRC) باهتمام كبير مؤخراً كنموذج منهجي لمعالجة عدم اليقين في الأنظمة الديناميكية العشوائية. ومع ذلك، تقوم الطرق الموجودة ببناء مجموعات غموض مدفوعة بالبيانات من خلال إزاحات توزيع موحدة، ثم دمجها بشكل متسلسل في تركيب التحكم اللاحق. يؤدي هذا الفصل المتأصل بين بناء مجموعة الغموض والهدف التحكمي إلى عدم توافق هيكلي يسبب استراتيجيات تحكم محافظة وأداء دون الأمثل. لمعالجة هذا القيد، تقترح هذه الورقة إطار عمل Wasserstein DRC محدود الأفق جديد من النهاية إلى النهاية يدمج تعلم مقاييس Wasserstein الخواص بطريقة حلقة مغلقة مع مهام التحكم اللاحقة، مما يسمح لمجموعة الغموض بالتعديل المنهجي على طول الاتجاهات الحرجة للأداء، مما ينتج عنه استراتيجيات تحكم أكثر فعالية.

الخلفية البحثية والدافع

خلفية المشكلة

يتم تطبيق التحكم العشوائي على نطاق واسع في الروبوتات وأنظمة الطاقة والتمويل وغيرها، لاتخاذ القرارات تحت عدم اليقين. تفترض النظرية التقليدية أن التوزيع الاحتمالي الذي يحكم عدم اليقين معروف بالكامل، لكن في الممارسة العملية، نادراً ما يكون هذا التوزيع متاحاً، ويجب تصميم المتحكم بناءً على معلومات تقريبية مستنتجة من بيانات محدودة. تؤدي عدم الكمال المتأصلة في هذا التقريب إلى فجوة بين التوزيع المقدر والتوزيع الحقيقي، مما يقلل بشكل كبير من أداء التحكم.

قيود الطرق الموجودة

  1. محافظية Wasserstein DRC التقليدية: تستخدم الطرق الموجودة كرات Wasserstein متساوية الخواص، وتعامل جميع اتجاهات إزاحة التوزيع على أنها متساوية الأهمية، متجاهلة تأثيرها غير المتساوي على أداء التحكم
  2. عدم التوافق الهيكلي للمعالجة المتسلسلة: يؤدي الفصل بين بناء مجموعة الغموض والتركيب التحكمي إلى تصميم مجموعة غموض مستقل عن المهام، مما ينتج عنه استراتيجيات تحكم محافظة بشكل مفرط
  3. قيود التعميم في التحكم من النهاية إلى النهاية: عادة ما تتدرب طرق التحكم من النهاية إلى النهاية الموجودة من حالة ابتدائية واحدة، مما يسهل الإفراط في التدريب ويحد من القابلية العملية

دافع البحث

تهدف هذه الورقة إلى سد الفجوة بين تصميم مجموعة الغموض وأداء التحكم، من خلال دمج DRC القائم على Wasserstein مع التعلم من النهاية إلى النهاية، وتعديل مقياس Wasserstein بناءً على ملاحظات أداء التحكم، مع الحفاظ على الضمانات الإحصائية للعينات المحدودة.

المساهمات الأساسية

  1. إطار عمل Wasserstein DRC من النهاية إلى النهاية الرائد: يقترح أول إطار عمل يربط بطريقة تغذية راجعة بين تصميم مجموعة الغموض والتحكم من خلال تحسين ثنائي المستوى، مع التعميم على ظروف ابتدائية متنوعة
  2. مجموعة غموض Wasserstein الخواص الموجهة نحو مهام التحكم: يقترح آلية تعديل نصف القطر مع إنشاء ضمانات إحصائية محدودة العينة نظرياً
  3. أساس نظري صارم: يثبت الاستمرارية للمقاييس الخواص، ويؤسس تقارب الخوارزمية، ويشتق الاتساق الإحصائي غير المقارب لمقياس التعلم

شرح الطريقة

تعريف المهمة

ضع في الاعتبار نظام خطي مع اضطرابات إضافية: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

حيث xtRnxx_t \in \mathbb{R}^{n_x}، utRnuu_t \in \mathbb{R}^{n_u}، wtRnxw_t \in \mathbb{R}^{n_x} تمثل حالة النظام والمدخل والاضطراب غير المؤكد على التوالي. يخضع النظام للقيود: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

معمارية النموذج

1. مجموعة غموض Wasserstein الخواص

تحديد مسافة Wasserstein الخواص: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

حيث Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\| هو المعيار المرجح المستحث بواسطة مصفوفة محددة موجبة Λ\Lambda.

بناء مجموعة الغموض الخواص على أساسها: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. إطار التحسين ثنائي المستوى

المشكلة الداخلية: حل مشكلة DRC مع مصفوفة مقياس معينة Λ\Lambda: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

المشكلة الخارجية: تعلم مصفوفة المقياس الأمثل: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. خوارزمية الحل

تطوير خوارزمية لاغرانج معززة عشوائية تتضمن:

  • المستوى الخارجي: تحديث متغيرات ثنائية وعوامل عقوبة محمية بشكل آمن
  • المستوى الداخلي: من خلال تقدير دفعة صغيرة من مصفوفة جاكوبيان المحافظة

نقاط الابتكار التقني

  1. تعديل نصف القطر الموجه هندسياً: يقترح آلية التعديل ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon، مما يضمن الضمانات الإحصائية
  2. حساب جاكوبيان المحافظ: معالجة مشاكل التحسين غير الملساء من خلال نظرية التفاضل على المسارات
  3. التدريب على ظروف ابتدائية متعددة: تجنب الإفراط في التدريب وتحسين القدرة على التعميم

إعداد التجارب

سيناريوهات التجارب

1. التجارب الرقمية

  • الديناميكية النظامية: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • القيود: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • توزيع الاضطراب: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • منطقة الحالة الابتدائية: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. التحكم بالمخزون

  • الأفق الزمني: T=5T = 5
  • معاملات التكلفة: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • توزيع الطلب: توزيع غاوسي مقطوع N(5,3)\mathcal{N}(5,3) مدعوم على [1,10][1,10]
  • المخزون الابتدائي: X0=[1,5]X_0 = [1,5]

مؤشرات التقييم

  • متوسط التكلفة في الحلقة المغلقة
  • معدل انتهاك القيود
  • متانة توزيع التكلفة

طرق المقارنة

  1. W-DRC: التحكم الموزع القوي بمسافة Wasserstein التقليدي
  2. E2E-Pointwise-DRC: متغير التعلم من النهاية إلى النهاية بحالة ابتدائية ثابتة
  3. E2E-Regionwise-DRC: الطريقة المقترحة في هذه الورقة

نتائج التجارب

النتائج الرئيسية

التجارب الرقمية

الطريقةمتوسط التكلفةمعدل انتهاك القيود
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

تحقق الطريقة المقترحة تخفيضاً في التكلفة بنسبة 90.2% مقارنة بالطريقة التقليدية، و45.5% مقارنة بخط الأساس للتعلم.

التحكم بالمخزون

الطريقةمتوسط التكلفة
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

تحقق الطريقة المقترحة تخفيضاً في التكلفة بنسبة 50.8% مقارنة بالطريقة التقليدية، و27.6% مقارنة بخط الأساس للتعلم.

النتائج التجريبية

  1. التفوق المتسق: تحقق الطريقة المقترحة أقل تكلفة عبر جميع الحالات الابتدائية
  2. القدرة على التعميم: يحسن التدريب على ظروف ابتدائية متعددة بشكل كبير القدرة على التعميم على حالات ابتدائية غير مرئية
  3. الحفاظ على الأمان: تحافظ جميع الطرق على معدل انتهاك قيود أقل من 10% لتلبية متطلبات السلامة

التحليل النظري

الضمانات الإحصائية

النظرية 1: تحت افتراضات الذيل الخفيف، تحقق مجموعة غموض Wasserstein الخواص نفس الضمانات المحدودة العينة: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

تحليل التقارب

النظرية 6: تحت الافتراضات المناسبة، تتقارب الخوارزمية إلى نقطة استقرار Clarke للمشكلة الخارجية، مما يرضي شروط KKT المعممة.

النظرية 8: تؤسس معدل التقارب الأسي: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

الأعمال ذات الصلة

التحكم الموزع القوي

  • طرق DRC القائمة على معلومات اللحظات
  • تطور Wasserstein DRC وتطبيقاته في MPC والتعلم المعزز

التحكم من النهاية إلى النهاية

  • طرق التحكم الاسمية من النهاية إلى النهاية
  • آليات السلامة للتحكم القوي من النهاية إلى النهاية

تجمع هذه الورقة لأول مرة بين Wasserstein DRC والتعلم من النهاية إلى النهاية، مما يملأ الفراغ في هذا المجال المتقاطع.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجاح اقتراح أول إطار عمل Wasserstein DRC من النهاية إلى النهاية
  2. الضمانات النظرية لصحة مجموعة الغموض الخواص إحصائياً
  3. التحقق التجريبي من الأداء المتفوقة على مهام تحكم متعددة

القيود

  1. يقتصر الإطار الحالي على الأنظمة الخطية
  2. التعقيد الحسابي للخوارزمية مرتفع نسبياً
  3. يتطلب بيانات تدريب كافية لضمان الخصائص الإحصائية

الاتجاهات المستقبلية

  1. التوسع إلى الأنظمة غير الخطية
  2. تطوير خوارزميات حل أكثر كفاءة
  3. استكشاف آليات التعلم عبر الإنترنت والتحديث التكيفي

التقييم المتعمق

المزايا

  1. الصرامة النظرية: توفير تحليل نظري شامل يتضمن الضمانات الإحصائية والاستمرارية والتقارب
  2. ابتكار الطريقة: أول دمج لتعلم النهاية إلى النهاية مع Wasserstein DRC
  3. كفاية التجارب: التحقق من الفعالية على مشاكل تحكم رقمية وعملية
  4. القيمة العملية: تحسين كبير في أداء التحكم مع الحفاظ على قيود السلامة

أوجه القصور

  1. التعقيد الحسابي: تزيد بنية التحسين ثنائي المستوى من العبء الحسابي
  2. نطاق التطبيق: ينطبق حالياً فقط على الأنظمة الخطية
  3. حساسية المعاملات: قد تكون أداء الخوارزمية حساسة للمعاملات الفائقة

التأثير

يفتح هذا العمل اتجاهاً جديداً في مجال التحكم الموزع القوي، وسيكون له تأثير مهم على البحث المتقاطع بين نظرية التحكم والتعلم الآلي. يمكن تعميم فكرة التعلم من النهاية إلى النهاية على مشاكل تحكم قوية أخرى.

السيناريوهات المعمول بها

  • الأنظمة التحكمية الخطية ذات عدم اليقين
  • التطبيقات التي تتطلب الحفاظ على الأداء في ظروف تشغيل متعددة
  • مهام التحكم ذات متطلبات السلامة العالية

المراجع

تستشهد الورقة بـ 45 مرجعاً ذا صلة، تغطي التحسين الموزع القوي والتحكم التنبؤي بالنموذج والتعلم المعزز وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.