2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

Controllo Distributivamente Robusto con Apprendimento Metrico Garantito Statisticamente End-to-End

Informazioni Fondamentali

ID Articolo: 2510.10214
Titolo: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Autori: Jingyi Wu, Chao Ning, Yang Shi
Classificazione: math.OC cs.AI cs.SY eess.SY
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10214v1

Riassunto

Il controllo distributivamente robusto (DRC) di Wasserstein è emerso come un paradigma principiato per affrontare l'incertezza nei sistemi dinamici stocastici. Tuttavia, i metodi esistenti costruiscono insiemi di ambiguità guidati dai dati attraverso spostamenti di distribuzione uniformi, integrandoli successivamente nella sintesi di controllo a valle. Questa separazione tra la costruzione dell'insieme di ambiguità e gli obiettivi di controllo introduce intrinsecamente un disallineamento strutturale, determinando strategie di controllo conservative e prestazioni subottimali. Per affrontare questa limitazione, il presente articolo propone un nuovo framework end-to-end Wasserstein DRC a orizzonte temporale finito, che integra in modo retroattivo l'apprendimento metrico Wasserstein anisotropo con il compito di controllo a valle, consentendo all'insieme di ambiguità di adattarsi sistematicamente lungo le direzioni critiche per le prestazioni, producendo strategie di controllo più efficaci.

Contesto di Ricerca e Motivazione

Contesto del Problema

Il controllo stocastico trova applicazione diffusa in robotica, sistemi energetici e finanza per il processo decisionale sotto incertezza. La teoria tradizionale presuppone che la distribuzione di probabilità dell'incertezza di controllo sia completamente nota, ma nella pratica, tale distribuzione è raramente disponibile e il controllore deve essere progettato sulla base di informazioni approssimative dedotte da dati limitati. L'imperfezione intrinseca di questa approssimazione determina una discrepanza tra la distribuzione stimata e quella vera, riducendo significativamente le prestazioni di controllo.

Limitazioni dei Metodi Esistenti

Conservatività del Wasserstein DRC tradizionale: I metodi esistenti adottano sfere Wasserstein isotrope, trattando tutti gli spostamenti di distribuzione in tutte le direzioni come ugualmente importanti, ignorando i loro effetti non uniformi sulle prestazioni di controllo
Disallineamento strutturale dell'elaborazione sequenziale: La separazione tra la costruzione dell'insieme di ambiguità e la sintesi di controllo porta a una progettazione dell'insieme di ambiguità indipendente dal compito, producendo strategie di controllo eccessivamente conservative
Limitazioni di generalizzazione del controllo end-to-end: I metodi di controllo end-to-end esistenti sono tipicamente addestrati da una singola condizione iniziale, tendendo a un overfitting che limita l'applicabilità pratica

Motivazione della Ricerca

Il presente articolo mira a colmare la separazione tra la progettazione dell'insieme di ambiguità e le prestazioni di controllo, integrando il DRC basato su Wasserstein con l'apprendimento end-to-end, adattando la metrica Wasserstein attraverso il feedback delle prestazioni di controllo, mantenendo al contempo garanzie statistiche a campione finito.

Contributi Fondamentali

Framework Wasserstein DRC end-to-end pioneristico: Propone il primo framework che accoppia in modo retroattivo la progettazione dell'insieme di ambiguità e il controllo attraverso ottimizzazione a due livelli, generalizzando su condizioni iniziali diversificate
Insieme di ambiguità Wasserstein anisotropo orientato al compito di controllo: Propone un meccanismo di adattamento del raggio con garanzie statistiche a campione finito stabilite teoricamente
Fondamenti teorici rigorosi: Dimostra la continuità della metrica anisotropa, stabilisce la convergenza dell'algoritmo, derivando la coerenza statistica non asintotica della metrica appresa

Dettagli del Metodo

Definizione del Compito

Si consideri un sistema lineare con perturbazioni additive: $x_{t+1} = Ax_t + Bu_t + w_t$

dove $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ rappresentano rispettivamente lo stato del sistema, l'ingresso e la perturbazione incerta. Il sistema è soggetto ai vincoli: $F_x^T x_t + F_u^T u_t + f \leq 0$

Architettura del Modello

1. Insieme di Ambiguità Wasserstein Anisotropo

Si definisce la distanza Wasserstein anisotropa: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

dove $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ è la norma ponderata indotta dalla matrice definita positiva $\Lambda$ .

Si costruisce l'insieme di ambiguità anisotropo: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. Framework di Ottimizzazione a Due Livelli

Problema interno: Risolvere il problema DRC dato la matrice metrica $\Lambda$ : $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

Problema esterno: Apprendere la matrice metrica ottimale: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. Algoritmo di Soluzione

Si sviluppa un algoritmo lagrangiano aumentato stocastico, contenente:

Livello esterno: Aggiornamenti di variabili duali e parametri di penalità con protezione di sicurezza
Livello interno: Attraverso stime batch ridotte della matrice jacobiana conservativa

Punti di Innovazione Tecnica

Adattamento del raggio consapevole della geometria: Propone il meccanismo di adattamento $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ , assicurando garanzie statistiche
Calcolo jacobiano conservativo: Affrontare problemi di ottimizzazione non liscia attraverso la teoria della differenziabilità del percorso
Addestramento con condizioni iniziali multiple: Evitare l'overfitting, migliorando la capacità di generalizzazione

Configurazione Sperimentale

Scenari Sperimentali

1. Esperimenti Numerici

Dinamica del sistema: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
Vincoli: $x_1 \leq 20, x_2 \geq -3.2$
Distribuzione delle perturbazioni: $w \sim \mathcal{N}(0, 2I_2)$
Regione dello stato iniziale: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. Controllo dell'Inventario

Orizzonte temporale: $T = 5$
Coefficienti di costo: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
Distribuzione della domanda: Distribuzione gaussiana troncata $\mathcal{N}(5,3)$ con supporto in $[1,10]$
Inventario iniziale: $X_0 = [1,5]$

Metriche di Valutazione

Costo medio in anello chiuso
Tasso di violazione dei vincoli
Robustezza della distribuzione dei costi

Metodi di Confronto

W-DRC: Controllo distributivamente robusto Wasserstein tradizionale
E2E-Pointwise-DRC: Variante di apprendimento end-to-end con stato iniziale fisso
E2E-Regionwise-DRC: Metodo proposto nel presente articolo

Risultati Sperimentali

Risultati Principali

Esperimenti Numerici

Metodo	Costo Medio	Tasso di Violazione dei Vincoli
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

Il metodo proposto riduce il costo del 90.2% rispetto al metodo tradizionale e del 45.5% rispetto alla linea di base di apprendimento.

Controllo dell'Inventario

Metodo	Costo Medio
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

Il metodo proposto riduce il costo del 50.8% rispetto al metodo tradizionale e del 27.6% rispetto alla linea di base di apprendimento.

Risultati Sperimentali

Superiorità coerente: Il metodo proposto raggiunge il costo più basso su tutti gli stati iniziali
Capacità di generalizzazione: L'addestramento con condizioni iniziali multiple migliora significativamente la capacità di generalizzazione su stati iniziali non visti
Mantenimento della sicurezza: Tutti i metodi mantengono un tasso di violazione dei vincoli inferiore al 10%, soddisfacendo i requisiti di sicurezza

Analisi Teorica

Garanzie Statistiche

Teorema 1: Sotto l'ipotesi di coda leggera, l'insieme di ambiguità Wasserstein anisotropo soddisfa le stesse garanzie a campione finito: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$

Analisi di Convergenza

Teorema 6: Sotto ipotesi appropriate, l'algoritmo converge a un punto stabile di Clarke del problema esterno, soddisfacendo le condizioni KKT generalizzate.

Teorema 8: Stabilisce il tasso di convergenza esponenziale: $\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}$

Lavori Correlati

Controllo Distributivamente Robusto

Metodi DRC basati su informazioni sui momenti
Sviluppo del Wasserstein DRC e sue applicazioni in MPC e apprendimento per rinforzo

Controllo End-to-End

Metodi di controllo end-to-end nominali
Meccanismi di sicurezza per il controllo end-to-end robusto

Il presente articolo combina per la prima volta il Wasserstein DRC con l'apprendimento end-to-end, colmando il vuoto in questo campo di ricerca interdisciplinare.

Conclusioni e Discussione

Conclusioni Principali

Propone con successo il primo framework Wasserstein DRC end-to-end
Garantisce teoricamente la validità statistica dell'insieme di ambiguità anisotropo
Verifica sperimentalmente le prestazioni superiori su molteplici compiti di controllo

Limitazioni

Il framework attuale è limitato ai sistemi lineari
La complessità computazionale dell'algoritmo è relativamente elevata
Richiede dati di addestramento sufficienti per garantire le proprietà statistiche

Direzioni Future

Estensione ai sistemi non lineari
Sviluppo di algoritmi di soluzione più efficienti
Esplorazione di meccanismi di apprendimento online e aggiornamento adattivo

Valutazione Approfondita

Punti di Forza

Rigore teorico: Fornisce un'analisi teorica completa, includendo garanzie statistiche, continuità e convergenza
Innovazione metodologica: Combina per la prima volta l'apprendimento end-to-end con il Wasserstein DRC
Completezza sperimentale: Verifica l'efficacia su problemi di controllo numerici e pratici
Valore pratico: Migliora significativamente le prestazioni di controllo mantenendo i vincoli di sicurezza

Insufficienze

Complessità computazionale: La struttura di ottimizzazione a due livelli aumenta l'onere computazionale
Ambito di applicabilità: Attualmente applicabile solo ai sistemi lineari
Sensibilità ai parametri: Le prestazioni dell'algoritmo potrebbero essere sensibili agli iperparametri

Impatto

Questo lavoro apre una nuova direzione nel campo del controllo distributivamente robusto, avendo un impatto significativo sulla ricerca interdisciplinare tra la teoria del controllo e l'apprendimento automatico. L'idea di apprendimento end-to-end può essere generalizzata ad altri problemi di controllo robusto.

Scenari di Applicazione

Sistemi di controllo lineare con incertezza
Applicazioni che richiedono il mantenimento delle prestazioni in diverse condizioni operative
Compiti di controllo con elevati requisiti di sicurezza

Bibliografia

L'articolo cita 45 lavori correlati, coprendo importanti contributi in ottimizzazione distributivamente robusta, controllo predittivo del modello, apprendimento per rinforzo e altri campi, fornendo una base teorica solida per la ricerca.