2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

Distributiv robuste Kontrolle mit End-to-End statistisch garantiertem Metrik-Lernen

Grundlegende Informationen

  • Papier-ID: 2510.10214
  • Titel: Distributiv robuste Kontrolle mit End-to-End statistisch garantiertem Metrik-Lernen
  • Autoren: Jingyi Wu, Chao Ning, Yang Shi
  • Klassifizierung: math.OC cs.AI cs.SY eess.SY
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Papier-Link: https://arxiv.org/abs/2510.10214v1

Zusammenfassung

Die Wasserstein-Distributiv-robuste Kontrolle (DRC) hat sich in letzter Zeit als prinzipielles Paradigma zur Behandlung von Unsicherheiten in stochastischen dynamischen Systemen großer Aufmerksamkeit erfreut. Bestehende Methoden konstruieren jedoch datengesteuerte Ambiguitätsmengen durch gleichmäßige Verteilungsverschiebungen und integrieren diese dann sequenziell in die nachgelagerte Kontrollsynthese. Diese Trennung zwischen Ambiguitätsmengenkonstruktion und Kontrollzielen führt inhärent zu struktureller Fehlausrichtung, was zu konservativen Kontrollstrategien und suboptimaler Leistung führt. Um diese Einschränkung zu beheben, wird in diesem Papier ein neuartiger End-to-End-Finite-Horizont-Wasserstein-DRC-Rahmen vorgeschlagen, der anisotropes Wasserstein-Metrik-Lernen mit der nachgelagerten Kontrollaufgabe auf geschlossene Weise integriert, wodurch sich die Ambiguitätsmenge systematisch entlang leistungskritischer Richtungen anpasst und effektivere Kontrollstrategien erzeugt.

Forschungshintergrund und Motivation

Problemhintergrund

Stochastische Kontrolle wird häufig in Robotik, Energiesystemen und Finanzen eingesetzt, um Entscheidungen unter Unsicherheit zu treffen. Die klassische Theorie geht davon aus, dass die Wahrscheinlichkeitsverteilung der Kontrollunsicherheit vollständig bekannt ist, aber in der Praxis ist diese Verteilung selten verfügbar, und der Regler muss auf der Grundlage von aus endlichen Daten abgeleiteten Näherungsinformationen ausgelegt werden. Diese inhärente Unvollkommenheit der Näherung führt zu Abweichungen zwischen der geschätzten und der wahren Verteilung, was die Kontrollleistung erheblich beeinträchtigt.

Einschränkungen bestehender Methoden

  1. Konservativität der traditionellen Wasserstein-DRC: Bestehende Methoden verwenden isotrope Wasserstein-Bälle und behandeln Verteilungsverschiebungen in alle Richtungen als gleich wichtig, ignorieren aber deren ungleichmäßige Auswirkungen auf die Kontrollleistung
  2. Strukturelle Fehlausrichtung der sequenziellen Verarbeitung: Die Trennung von Ambiguitätsmengenkonstruktion und Kontrollsynthese führt zu aufgabenunabhängigem Ambiguitätsmengenentwurf und erzeugt übermäßig konservative Kontrollstrategien
  3. Verallgemeinerungsbeschränkungen der End-to-End-Kontrolle: Bestehende End-to-End-Kontrollmethoden werden typischerweise aus einer einzelnen Anfangsbedingung trainiert, sind anfällig für Überanpassung und begrenzen die praktische Anwendbarkeit

Forschungsmotivation

Dieses Papier zielt darauf ab, die Trennung zwischen Ambiguitätsmengenentwurf und Kontrollleistung zu überbrücken, indem Wasserstein-basierte DRC mit End-to-End-Lernen integriert wird, wobei die Wasserstein-Metrik durch Kontrollleistungs-Rückkopplung angepasst wird, während statistische Garantien mit endlichen Stichproben beibehalten werden.

Kernbeiträge

  1. Erstmaliger End-to-End-Wasserstein-DRC-Rahmen: Vorschlag des ersten Rahmens, der Ambiguitätsmengenentwurf und Kontrolle durch Zweischicht-Optimierung auf Rückkopplungsbasis koppelt und über vielfältige Anfangsbedingungen verallgemeinert
  2. Aufgabenorientierte anisotrope Wasserstein-Ambiguitätsmenge: Vorschlag eines Radiusanpassungsmechanismus mit theoretisch etablierten statistischen Garantien mit endlichen Stichproben
  3. Strenge theoretische Grundlagen: Beweis der Kontinuität anisotroper Metriken, Etablierung der Algorithmuskonvergenz, Ableitung der nicht-asymptotischen statistischen Konsistenz der gelernten Metrik

Methodische Details

Aufgabendefinition

Betrachten Sie ein lineares System mit additiven Störungen: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

wobei xtRnxx_t \in \mathbb{R}^{n_x}, utRnuu_t \in \mathbb{R}^{n_u}, wtRnxw_t \in \mathbb{R}^{n_x} jeweils den Systemzustand, die Eingabe und die Unsicherheitsstörung darstellen. Das System unterliegt den Beschränkungen: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

Modellarchitektur

1. Anisotrope Wasserstein-Ambiguitätsmenge

Definieren Sie die anisotrope Wasserstein-Distanz: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

wobei Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\| die durch eine positiv definite Matrix Λ\Lambda induzierte gewichtete Norm ist.

Konstruieren Sie basierend darauf die anisotrope Ambiguitätsmenge: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. Zweischicht-Optimierungsrahmen

Inneres Problem: Lösen Sie das DRC-Problem für eine gegebene Metrik-Matrix Λ\Lambda: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

Äußeres Problem: Lernen Sie die optimale Metrik-Matrix: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. Lösungsalgorithmus

Ein stochastischer erweiterter Lagrange-Algorithmus wurde entwickelt, bestehend aus:

  • Äußere Schicht: Sicherheitsgeschützte Zweivariablen- und Strafparameter-Aktualisierungen
  • Innere Schicht: Kleine-Batch-Schätzung durch konservative Jacobi-Matrizen

Technische Innovationen

  1. Geometrisch bewusste Radiusanpassung: Vorschlag des Anpassungsmechanismus ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon, der statistische Garantien sichert
  2. Konservative Jacobi-Berechnung: Behandlung nicht-glatter Optimierungsprobleme durch Pfaddifferenzierbarkeitstheorie
  3. Training mit mehreren Anfangsbedingungen: Vermeidung von Überanpassung und Verbesserung der Verallgemeinerungsfähigkeit

Experimentelle Einrichtung

Experimentelle Szenarien

1. Numerische Experimente

  • Systemdynamik: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • Beschränkungen: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • Störungsverteilung: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • Anfangszustandsregion: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. Bestandskontrolle

  • Zeithorizont: T=5T = 5
  • Kostenkoeffizienten: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • Nachfrageverteilung: Abgeschnittene Gaußverteilung N(5,3)\mathcal{N}(5,3) mit Träger auf [1,10][1,10]
  • Anfangsbestand: X0=[1,5]X_0 = [1,5]

Bewertungsmetriken

  • Durchschnittliche Regelschleifenkosten
  • Beschränkungsverletzungsrate
  • Robustheit der Kostenverteilung

Vergleichsmethoden

  1. W-DRC: Traditionelle Wasserstein-Distributiv-robuste Kontrolle
  2. E2E-Pointwise-DRC: End-to-End-Lernvariante mit fester Anfangsbedingung
  3. E2E-Regionwise-DRC: Die in diesem Papier vorgeschlagene Methode

Experimentelle Ergebnisse

Hauptergebnisse

Numerische Experimente

MethodeDurchschnittliche KostenBeschränkungsverletzungsrate
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

Die vorgeschlagene Methode reduziert die Kosten um 90,2% gegenüber der traditionellen Methode und um 45,5% gegenüber der Lern-Baseline.

Bestandskontrolle

MethodeDurchschnittliche Kosten
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

Die vorgeschlagene Methode reduziert die Kosten um 50,8% gegenüber der traditionellen Methode und um 27,6% gegenüber der Lern-Baseline.

Experimentelle Erkenntnisse

  1. Konsistente Überlegenheit: Die vorgeschlagene Methode erreicht die niedrigsten Kosten über alle Anfangszustände hinweg
  2. Verallgemeinerungsfähigkeit: Das Training mit mehreren Anfangsbedingungen verbessert die Verallgemeinerungsfähigkeit auf ungesehene Anfangszustände erheblich
  3. Sicherheitserhaltung: Alle Methoden halten eine Beschränkungsverletzungsrate unter 10% ein

Theoretische Analyse

Statistische Garantien

Satz 1: Unter leichten Schwanzannahmen erfüllt die anisotrope Wasserstein-Ambiguitätsmenge die gleichen Garantien mit endlichen Stichproben: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

Konvergenzanalyse

Satz 6: Unter geeigneten Annahmen konvergiert der Algorithmus zu einem Clarke-stationären Punkt des äußeren Problems und erfüllt verallgemeinerte KKT-Bedingungen.

Satz 8: Etabliert eine exponentielle Konvergenzrate: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

Verwandte Arbeiten

Distributiv robuste Kontrolle

  • Auf Momenteninformationen basierende DRC-Methoden
  • Entwicklung der Wasserstein-DRC und ihre Anwendung in MPC und verstärktem Lernen

End-to-End-Kontrolle

  • Nominale End-to-End-Kontrollmethoden
  • Robuste End-to-End-Kontrollmechanismen mit Sicherheit

Dieses Papier verbindet erstmals Wasserstein-DRC mit End-to-End-Lernen und füllt eine Lücke in diesem interdisziplinären Bereich.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreicher Vorschlag des ersten End-to-End-Wasserstein-DRC-Rahmens
  2. Theoretische Garantie der statistischen Gültigkeit anisotroper Ambiguitätsmengen
  3. Experimentelle Validierung überlegener Leistung bei verschiedenen Kontrollaufgaben

Einschränkungen

  1. Der aktuelle Rahmen ist auf lineare Systeme beschränkt
  2. Die Rechenkomplexität des Algorithmus ist relativ hoch
  3. Ausreichende Trainingsdaten sind erforderlich, um statistische Eigenschaften zu gewährleisten

Zukünftige Richtungen

  1. Erweiterung auf nichtlineare Systeme
  2. Entwicklung effizienterer Lösungsalgorithmen
  3. Erforschung von Online-Lernen und adaptiven Aktualisierungsmechanismen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Umfassende theoretische Analyse einschließlich statistischer Garantien, Kontinuität und Konvergenz
  2. Methodische Innovation: Erstmalige Kombination von End-to-End-Lernen mit Wasserstein-DRC
  3. Experimentelle Vollständigkeit: Validierung der Wirksamkeit bei numerischen und praktischen Kontrollproblemen
  4. Praktischer Wert: Signifikante Verbesserung der Kontrollleistung bei Beibehaltung von Sicherheitsbeschränkungen

Mängel

  1. Rechenkomplexität: Die Zweischicht-Optimierungsstruktur erhöht die Rechenlast
  2. Anwendungsbereich: Derzeit nur auf lineare Systeme anwendbar
  3. Parameterempfindlichkeit: Die Algorithmusleistung kann gegenüber Hyperparametern empfindlich sein

Auswirkungen

Diese Arbeit eröffnet eine neue Richtung im Bereich der distributiv robusten Kontrolle und wird bedeutende Auswirkungen auf die interdisziplinäre Forschung zwischen Kontrolltheorie und maschinellem Lernen haben. Ihre End-to-End-Lernidee kann auf andere robuste Kontrollprobleme verallgemeinert werden.

Anwendungsszenarien

  • Lineare Kontrollsysteme mit Unsicherheiten
  • Anwendungen, die unter verschiedenen Betriebsbedingungen Leistung beibehalten müssen
  • Kontrollaufgaben mit hohen Sicherheitsanforderungen

Literaturverzeichnis

Das Papier zitiert 45 relevante Referenzen, die wichtige Arbeiten in den Bereichen distributiv robuste Optimierung, modellprädiktive Kontrolle und verstärktes Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.