2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

Distributiv robuste Kontrolle mit End-to-End statistisch garantiertem Metrik-Lernen

Grundlegende Informationen

Papier-ID: 2510.10214
Titel: Distributiv robuste Kontrolle mit End-to-End statistisch garantiertem Metrik-Lernen
Autoren: Jingyi Wu, Chao Ning, Yang Shi
Klassifizierung: math.OC cs.AI cs.SY eess.SY
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Papier-Link: https://arxiv.org/abs/2510.10214v1

Zusammenfassung

Die Wasserstein-Distributiv-robuste Kontrolle (DRC) hat sich in letzter Zeit als prinzipielles Paradigma zur Behandlung von Unsicherheiten in stochastischen dynamischen Systemen großer Aufmerksamkeit erfreut. Bestehende Methoden konstruieren jedoch datengesteuerte Ambiguitätsmengen durch gleichmäßige Verteilungsverschiebungen und integrieren diese dann sequenziell in die nachgelagerte Kontrollsynthese. Diese Trennung zwischen Ambiguitätsmengenkonstruktion und Kontrollzielen führt inhärent zu struktureller Fehlausrichtung, was zu konservativen Kontrollstrategien und suboptimaler Leistung führt. Um diese Einschränkung zu beheben, wird in diesem Papier ein neuartiger End-to-End-Finite-Horizont-Wasserstein-DRC-Rahmen vorgeschlagen, der anisotropes Wasserstein-Metrik-Lernen mit der nachgelagerten Kontrollaufgabe auf geschlossene Weise integriert, wodurch sich die Ambiguitätsmenge systematisch entlang leistungskritischer Richtungen anpasst und effektivere Kontrollstrategien erzeugt.

Forschungshintergrund und Motivation

Problemhintergrund

Stochastische Kontrolle wird häufig in Robotik, Energiesystemen und Finanzen eingesetzt, um Entscheidungen unter Unsicherheit zu treffen. Die klassische Theorie geht davon aus, dass die Wahrscheinlichkeitsverteilung der Kontrollunsicherheit vollständig bekannt ist, aber in der Praxis ist diese Verteilung selten verfügbar, und der Regler muss auf der Grundlage von aus endlichen Daten abgeleiteten Näherungsinformationen ausgelegt werden. Diese inhärente Unvollkommenheit der Näherung führt zu Abweichungen zwischen der geschätzten und der wahren Verteilung, was die Kontrollleistung erheblich beeinträchtigt.

Einschränkungen bestehender Methoden

Konservativität der traditionellen Wasserstein-DRC: Bestehende Methoden verwenden isotrope Wasserstein-Bälle und behandeln Verteilungsverschiebungen in alle Richtungen als gleich wichtig, ignorieren aber deren ungleichmäßige Auswirkungen auf die Kontrollleistung
Strukturelle Fehlausrichtung der sequenziellen Verarbeitung: Die Trennung von Ambiguitätsmengenkonstruktion und Kontrollsynthese führt zu aufgabenunabhängigem Ambiguitätsmengenentwurf und erzeugt übermäßig konservative Kontrollstrategien
Verallgemeinerungsbeschränkungen der End-to-End-Kontrolle: Bestehende End-to-End-Kontrollmethoden werden typischerweise aus einer einzelnen Anfangsbedingung trainiert, sind anfällig für Überanpassung und begrenzen die praktische Anwendbarkeit

Forschungsmotivation

Dieses Papier zielt darauf ab, die Trennung zwischen Ambiguitätsmengenentwurf und Kontrollleistung zu überbrücken, indem Wasserstein-basierte DRC mit End-to-End-Lernen integriert wird, wobei die Wasserstein-Metrik durch Kontrollleistungs-Rückkopplung angepasst wird, während statistische Garantien mit endlichen Stichproben beibehalten werden.

Kernbeiträge

Erstmaliger End-to-End-Wasserstein-DRC-Rahmen: Vorschlag des ersten Rahmens, der Ambiguitätsmengenentwurf und Kontrolle durch Zweischicht-Optimierung auf Rückkopplungsbasis koppelt und über vielfältige Anfangsbedingungen verallgemeinert
Aufgabenorientierte anisotrope Wasserstein-Ambiguitätsmenge: Vorschlag eines Radiusanpassungsmechanismus mit theoretisch etablierten statistischen Garantien mit endlichen Stichproben
Strenge theoretische Grundlagen: Beweis der Kontinuität anisotroper Metriken, Etablierung der Algorithmuskonvergenz, Ableitung der nicht-asymptotischen statistischen Konsistenz der gelernten Metrik

Methodische Details

Aufgabendefinition

Betrachten Sie ein lineares System mit additiven Störungen: $x_{t+1} = Ax_t + Bu_t + w_t$

wobei $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ jeweils den Systemzustand, die Eingabe und die Unsicherheitsstörung darstellen. Das System unterliegt den Beschränkungen: $F_x^T x_t + F_u^T u_t + f \leq 0$

Modellarchitektur

1. Anisotrope Wasserstein-Ambiguitätsmenge

Definieren Sie die anisotrope Wasserstein-Distanz: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

wobei $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ die durch eine positiv definite Matrix $\Lambda$ induzierte gewichtete Norm ist.

Konstruieren Sie basierend darauf die anisotrope Ambiguitätsmenge: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. Zweischicht-Optimierungsrahmen

Inneres Problem: Lösen Sie das DRC-Problem für eine gegebene Metrik-Matrix $\Lambda$ : $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

Äußeres Problem: Lernen Sie die optimale Metrik-Matrix: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. Lösungsalgorithmus

Ein stochastischer erweiterter Lagrange-Algorithmus wurde entwickelt, bestehend aus:

Äußere Schicht: Sicherheitsgeschützte Zweivariablen- und Strafparameter-Aktualisierungen
Innere Schicht: Kleine-Batch-Schätzung durch konservative Jacobi-Matrizen

Technische Innovationen

Geometrisch bewusste Radiusanpassung: Vorschlag des Anpassungsmechanismus $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ , der statistische Garantien sichert
Konservative Jacobi-Berechnung: Behandlung nicht-glatter Optimierungsprobleme durch Pfaddifferenzierbarkeitstheorie
Training mit mehreren Anfangsbedingungen: Vermeidung von Überanpassung und Verbesserung der Verallgemeinerungsfähigkeit

Experimentelle Einrichtung

Experimentelle Szenarien

1. Numerische Experimente

Systemdynamik: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
Beschränkungen: $x_1 \leq 20, x_2 \geq -3.2$
Störungsverteilung: $w \sim \mathcal{N}(0, 2I_2)$
Anfangszustandsregion: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. Bestandskontrolle

Zeithorizont: $T = 5$
Kostenkoeffizienten: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
Nachfrageverteilung: Abgeschnittene Gaußverteilung $\mathcal{N}(5,3)$ mit Träger auf $[1,10]$
Anfangsbestand: $X_0 = [1,5]$

Bewertungsmetriken

Durchschnittliche Regelschleifenkosten
Beschränkungsverletzungsrate
Robustheit der Kostenverteilung

Vergleichsmethoden

W-DRC: Traditionelle Wasserstein-Distributiv-robuste Kontrolle
E2E-Pointwise-DRC: End-to-End-Lernvariante mit fester Anfangsbedingung
E2E-Regionwise-DRC: Die in diesem Papier vorgeschlagene Methode

Experimentelle Ergebnisse

Hauptergebnisse

Numerische Experimente

Methode	Durchschnittliche Kosten	Beschränkungsverletzungsrate
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

Die vorgeschlagene Methode reduziert die Kosten um 90,2% gegenüber der traditionellen Methode und um 45,5% gegenüber der Lern-Baseline.

Bestandskontrolle

Methode	Durchschnittliche Kosten
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

Die vorgeschlagene Methode reduziert die Kosten um 50,8% gegenüber der traditionellen Methode und um 27,6% gegenüber der Lern-Baseline.

Experimentelle Erkenntnisse

Konsistente Überlegenheit: Die vorgeschlagene Methode erreicht die niedrigsten Kosten über alle Anfangszustände hinweg
Verallgemeinerungsfähigkeit: Das Training mit mehreren Anfangsbedingungen verbessert die Verallgemeinerungsfähigkeit auf ungesehene Anfangszustände erheblich
Sicherheitserhaltung: Alle Methoden halten eine Beschränkungsverletzungsrate unter 10% ein

Theoretische Analyse

Statistische Garantien

Satz 1: Unter leichten Schwanzannahmen erfüllt die anisotrope Wasserstein-Ambiguitätsmenge die gleichen Garantien mit endlichen Stichproben: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$

Konvergenzanalyse

Satz 6: Unter geeigneten Annahmen konvergiert der Algorithmus zu einem Clarke-stationären Punkt des äußeren Problems und erfüllt verallgemeinerte KKT-Bedingungen.

Satz 8: Etabliert eine exponentielle Konvergenzrate: $\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}$

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreicher Vorschlag des ersten End-to-End-Wasserstein-DRC-Rahmens
Theoretische Garantie der statistischen Gültigkeit anisotroper Ambiguitätsmengen
Experimentelle Validierung überlegener Leistung bei verschiedenen Kontrollaufgaben

Einschränkungen

Der aktuelle Rahmen ist auf lineare Systeme beschränkt
Die Rechenkomplexität des Algorithmus ist relativ hoch
Ausreichende Trainingsdaten sind erforderlich, um statistische Eigenschaften zu gewährleisten

Zukünftige Richtungen

Erweiterung auf nichtlineare Systeme
Entwicklung effizienterer Lösungsalgorithmen
Erforschung von Online-Lernen und adaptiven Aktualisierungsmechanismen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Umfassende theoretische Analyse einschließlich statistischer Garantien, Kontinuität und Konvergenz
Methodische Innovation: Erstmalige Kombination von End-to-End-Lernen mit Wasserstein-DRC
Experimentelle Vollständigkeit: Validierung der Wirksamkeit bei numerischen und praktischen Kontrollproblemen
Praktischer Wert: Signifikante Verbesserung der Kontrollleistung bei Beibehaltung von Sicherheitsbeschränkungen

Mängel

Rechenkomplexität: Die Zweischicht-Optimierungsstruktur erhöht die Rechenlast
Anwendungsbereich: Derzeit nur auf lineare Systeme anwendbar
Parameterempfindlichkeit: Die Algorithmusleistung kann gegenüber Hyperparametern empfindlich sein

Auswirkungen

Diese Arbeit eröffnet eine neue Richtung im Bereich der distributiv robusten Kontrolle und wird bedeutende Auswirkungen auf die interdisziplinäre Forschung zwischen Kontrolltheorie und maschinellem Lernen haben. Ihre End-to-End-Lernidee kann auf andere robuste Kontrollprobleme verallgemeinert werden.

Anwendungsszenarien

Lineare Kontrollsysteme mit Unsicherheiten
Anwendungen, die unter verschiedenen Betriebsbedingungen Leistung beibehalten müssen
Kontrollaufgaben mit hohen Sicherheitsanforderungen

Literaturverzeichnis

Das Papier zitiert 45 relevante Referenzen, die wichtige Arbeiten in den Bereichen distributiv robuste Optimierung, modellprädiktive Kontrolle und verstärktes Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.