Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic
Distributiv robuste Kontrolle mit End-to-End statistisch garantiertem Metrik-Lernen
Die Wasserstein-Distributiv-robuste Kontrolle (DRC) hat sich in letzter Zeit als prinzipielles Paradigma zur Behandlung von Unsicherheiten in stochastischen dynamischen Systemen großer Aufmerksamkeit erfreut. Bestehende Methoden konstruieren jedoch datengesteuerte Ambiguitätsmengen durch gleichmäßige Verteilungsverschiebungen und integrieren diese dann sequenziell in die nachgelagerte Kontrollsynthese. Diese Trennung zwischen Ambiguitätsmengenkonstruktion und Kontrollzielen führt inhärent zu struktureller Fehlausrichtung, was zu konservativen Kontrollstrategien und suboptimaler Leistung führt. Um diese Einschränkung zu beheben, wird in diesem Papier ein neuartiger End-to-End-Finite-Horizont-Wasserstein-DRC-Rahmen vorgeschlagen, der anisotropes Wasserstein-Metrik-Lernen mit der nachgelagerten Kontrollaufgabe auf geschlossene Weise integriert, wodurch sich die Ambiguitätsmenge systematisch entlang leistungskritischer Richtungen anpasst und effektivere Kontrollstrategien erzeugt.
Stochastische Kontrolle wird häufig in Robotik, Energiesystemen und Finanzen eingesetzt, um Entscheidungen unter Unsicherheit zu treffen. Die klassische Theorie geht davon aus, dass die Wahrscheinlichkeitsverteilung der Kontrollunsicherheit vollständig bekannt ist, aber in der Praxis ist diese Verteilung selten verfügbar, und der Regler muss auf der Grundlage von aus endlichen Daten abgeleiteten Näherungsinformationen ausgelegt werden. Diese inhärente Unvollkommenheit der Näherung führt zu Abweichungen zwischen der geschätzten und der wahren Verteilung, was die Kontrollleistung erheblich beeinträchtigt.
Konservativität der traditionellen Wasserstein-DRC: Bestehende Methoden verwenden isotrope Wasserstein-Bälle und behandeln Verteilungsverschiebungen in alle Richtungen als gleich wichtig, ignorieren aber deren ungleichmäßige Auswirkungen auf die Kontrollleistung
Strukturelle Fehlausrichtung der sequenziellen Verarbeitung: Die Trennung von Ambiguitätsmengenkonstruktion und Kontrollsynthese führt zu aufgabenunabhängigem Ambiguitätsmengenentwurf und erzeugt übermäßig konservative Kontrollstrategien
Verallgemeinerungsbeschränkungen der End-to-End-Kontrolle: Bestehende End-to-End-Kontrollmethoden werden typischerweise aus einer einzelnen Anfangsbedingung trainiert, sind anfällig für Überanpassung und begrenzen die praktische Anwendbarkeit
Dieses Papier zielt darauf ab, die Trennung zwischen Ambiguitätsmengenentwurf und Kontrollleistung zu überbrücken, indem Wasserstein-basierte DRC mit End-to-End-Lernen integriert wird, wobei die Wasserstein-Metrik durch Kontrollleistungs-Rückkopplung angepasst wird, während statistische Garantien mit endlichen Stichproben beibehalten werden.
Erstmaliger End-to-End-Wasserstein-DRC-Rahmen: Vorschlag des ersten Rahmens, der Ambiguitätsmengenentwurf und Kontrolle durch Zweischicht-Optimierung auf Rückkopplungsbasis koppelt und über vielfältige Anfangsbedingungen verallgemeinert
Aufgabenorientierte anisotrope Wasserstein-Ambiguitätsmenge: Vorschlag eines Radiusanpassungsmechanismus mit theoretisch etablierten statistischen Garantien mit endlichen Stichproben
Strenge theoretische Grundlagen: Beweis der Kontinuität anisotroper Metriken, Etablierung der Algorithmuskonvergenz, Ableitung der nicht-asymptotischen statistischen Konsistenz der gelernten Metrik
Betrachten Sie ein lineares System mit additiven Störungen:
xt+1=Axt+But+wt
wobei xt∈Rnx, ut∈Rnu, wt∈Rnx jeweils den Systemzustand, die Eingabe und die Unsicherheitsstörung darstellen. Das System unterliegt den Beschränkungen:
FxTxt+FuTut+f≤0
Konsistente Überlegenheit: Die vorgeschlagene Methode erreicht die niedrigsten Kosten über alle Anfangszustände hinweg
Verallgemeinerungsfähigkeit: Das Training mit mehreren Anfangsbedingungen verbessert die Verallgemeinerungsfähigkeit auf ungesehene Anfangszustände erheblich
Sicherheitserhaltung: Alle Methoden halten eine Beschränkungsverletzungsrate unter 10% ein
Satz 1: Unter leichten Schwanzannahmen erfüllt die anisotrope Wasserstein-Ambiguitätsmenge die gleichen Garantien mit endlichen Stichproben:
PN{P∈Bε(Λ)Λ(P^N)}≥{1−c1exp(−c2Nεmax{m,2}),1−c1exp(−c2Nεa),ε≤1ε>1
Satz 6: Unter geeigneten Annahmen konvergiert der Algorithmus zu einem Clarke-stationären Punkt des äußeren Problems und erfüllt verallgemeinerte KKT-Bedingungen.
Satz 8: Etabliert eine exponentielle Konvergenzrate:
Prob{d(τN,Φ∗)≥ϵ}≤c(ϵ)e−β(ϵ)N
Diese Arbeit eröffnet eine neue Richtung im Bereich der distributiv robusten Kontrolle und wird bedeutende Auswirkungen auf die interdisziplinäre Forschung zwischen Kontrolltheorie und maschinellem Lernen haben. Ihre End-to-End-Lernidee kann auf andere robuste Kontrollprobleme verallgemeinert werden.
Das Papier zitiert 45 relevante Referenzen, die wichtige Arbeiten in den Bereichen distributiv robuste Optimierung, modellprädiktive Kontrolle und verstärktes Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.