Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic
Controllo Distributivamente Robusto con Apprendimento Metrico Garantito Statisticamente End-to-End
Il controllo distributivamente robusto (DRC) di Wasserstein è emerso come un paradigma principiato per affrontare l'incertezza nei sistemi dinamici stocastici. Tuttavia, i metodi esistenti costruiscono insiemi di ambiguità guidati dai dati attraverso spostamenti di distribuzione uniformi, integrandoli successivamente nella sintesi di controllo a valle. Questa separazione tra la costruzione dell'insieme di ambiguità e gli obiettivi di controllo introduce intrinsecamente un disallineamento strutturale, determinando strategie di controllo conservative e prestazioni subottimali. Per affrontare questa limitazione, il presente articolo propone un nuovo framework end-to-end Wasserstein DRC a orizzonte temporale finito, che integra in modo retroattivo l'apprendimento metrico Wasserstein anisotropo con il compito di controllo a valle, consentendo all'insieme di ambiguità di adattarsi sistematicamente lungo le direzioni critiche per le prestazioni, producendo strategie di controllo più efficaci.
Il controllo stocastico trova applicazione diffusa in robotica, sistemi energetici e finanza per il processo decisionale sotto incertezza. La teoria tradizionale presuppone che la distribuzione di probabilità dell'incertezza di controllo sia completamente nota, ma nella pratica, tale distribuzione è raramente disponibile e il controllore deve essere progettato sulla base di informazioni approssimative dedotte da dati limitati. L'imperfezione intrinseca di questa approssimazione determina una discrepanza tra la distribuzione stimata e quella vera, riducendo significativamente le prestazioni di controllo.
Conservatività del Wasserstein DRC tradizionale: I metodi esistenti adottano sfere Wasserstein isotrope, trattando tutti gli spostamenti di distribuzione in tutte le direzioni come ugualmente importanti, ignorando i loro effetti non uniformi sulle prestazioni di controllo
Disallineamento strutturale dell'elaborazione sequenziale: La separazione tra la costruzione dell'insieme di ambiguità e la sintesi di controllo porta a una progettazione dell'insieme di ambiguità indipendente dal compito, producendo strategie di controllo eccessivamente conservative
Limitazioni di generalizzazione del controllo end-to-end: I metodi di controllo end-to-end esistenti sono tipicamente addestrati da una singola condizione iniziale, tendendo a un overfitting che limita l'applicabilità pratica
Il presente articolo mira a colmare la separazione tra la progettazione dell'insieme di ambiguità e le prestazioni di controllo, integrando il DRC basato su Wasserstein con l'apprendimento end-to-end, adattando la metrica Wasserstein attraverso il feedback delle prestazioni di controllo, mantenendo al contempo garanzie statistiche a campione finito.
Framework Wasserstein DRC end-to-end pioneristico: Propone il primo framework che accoppia in modo retroattivo la progettazione dell'insieme di ambiguità e il controllo attraverso ottimizzazione a due livelli, generalizzando su condizioni iniziali diversificate
Insieme di ambiguità Wasserstein anisotropo orientato al compito di controllo: Propone un meccanismo di adattamento del raggio con garanzie statistiche a campione finito stabilite teoricamente
Fondamenti teorici rigorosi: Dimostra la continuità della metrica anisotropa, stabilisce la convergenza dell'algoritmo, derivando la coerenza statistica non asintotica della metrica appresa
Si consideri un sistema lineare con perturbazioni additive:
xt+1=Axt+But+wt
dove xt∈Rnx, ut∈Rnu, wt∈Rnx rappresentano rispettivamente lo stato del sistema, l'ingresso e la perturbazione incerta. Il sistema è soggetto ai vincoli:
FxTxt+FuTut+f≤0
Superiorità coerente: Il metodo proposto raggiunge il costo più basso su tutti gli stati iniziali
Capacità di generalizzazione: L'addestramento con condizioni iniziali multiple migliora significativamente la capacità di generalizzazione su stati iniziali non visti
Mantenimento della sicurezza: Tutti i metodi mantengono un tasso di violazione dei vincoli inferiore al 10%, soddisfacendo i requisiti di sicurezza
Teorema 1: Sotto l'ipotesi di coda leggera, l'insieme di ambiguità Wasserstein anisotropo soddisfa le stesse garanzie a campione finito:
PN{P∈Bε(Λ)Λ(P^N)}≥{1−c1exp(−c2Nεmax{m,2}),1−c1exp(−c2Nεa),ε≤1ε>1
Teorema 6: Sotto ipotesi appropriate, l'algoritmo converge a un punto stabile di Clarke del problema esterno, soddisfacendo le condizioni KKT generalizzate.
Teorema 8: Stabilisce il tasso di convergenza esponenziale:
Prob{d(τN,Φ∗)≥ϵ}≤c(ϵ)e−β(ϵ)N
Meccanismi di sicurezza per il controllo end-to-end robusto
Il presente articolo combina per la prima volta il Wasserstein DRC con l'apprendimento end-to-end, colmando il vuoto in questo campo di ricerca interdisciplinare.
Questo lavoro apre una nuova direzione nel campo del controllo distributivamente robusto, avendo un impatto significativo sulla ricerca interdisciplinare tra la teoria del controllo e l'apprendimento automatico. L'idea di apprendimento end-to-end può essere generalizzata ad altri problemi di controllo robusto.
L'articolo cita 45 lavori correlati, coprendo importanti contributi in ottimizzazione distributivamente robusta, controllo predittivo del modello, apprendimento per rinforzo e altri campi, fornendo una base teorica solida per la ricerca.