2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

Controllo Distributivamente Robusto con Apprendimento Metrico Garantito Statisticamente End-to-End

Informazioni Fondamentali

  • ID Articolo: 2510.10214
  • Titolo: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
  • Autori: Jingyi Wu, Chao Ning, Yang Shi
  • Classificazione: math.OC cs.AI cs.SY eess.SY
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10214v1

Riassunto

Il controllo distributivamente robusto (DRC) di Wasserstein è emerso come un paradigma principiato per affrontare l'incertezza nei sistemi dinamici stocastici. Tuttavia, i metodi esistenti costruiscono insiemi di ambiguità guidati dai dati attraverso spostamenti di distribuzione uniformi, integrandoli successivamente nella sintesi di controllo a valle. Questa separazione tra la costruzione dell'insieme di ambiguità e gli obiettivi di controllo introduce intrinsecamente un disallineamento strutturale, determinando strategie di controllo conservative e prestazioni subottimali. Per affrontare questa limitazione, il presente articolo propone un nuovo framework end-to-end Wasserstein DRC a orizzonte temporale finito, che integra in modo retroattivo l'apprendimento metrico Wasserstein anisotropo con il compito di controllo a valle, consentendo all'insieme di ambiguità di adattarsi sistematicamente lungo le direzioni critiche per le prestazioni, producendo strategie di controllo più efficaci.

Contesto di Ricerca e Motivazione

Contesto del Problema

Il controllo stocastico trova applicazione diffusa in robotica, sistemi energetici e finanza per il processo decisionale sotto incertezza. La teoria tradizionale presuppone che la distribuzione di probabilità dell'incertezza di controllo sia completamente nota, ma nella pratica, tale distribuzione è raramente disponibile e il controllore deve essere progettato sulla base di informazioni approssimative dedotte da dati limitati. L'imperfezione intrinseca di questa approssimazione determina una discrepanza tra la distribuzione stimata e quella vera, riducendo significativamente le prestazioni di controllo.

Limitazioni dei Metodi Esistenti

  1. Conservatività del Wasserstein DRC tradizionale: I metodi esistenti adottano sfere Wasserstein isotrope, trattando tutti gli spostamenti di distribuzione in tutte le direzioni come ugualmente importanti, ignorando i loro effetti non uniformi sulle prestazioni di controllo
  2. Disallineamento strutturale dell'elaborazione sequenziale: La separazione tra la costruzione dell'insieme di ambiguità e la sintesi di controllo porta a una progettazione dell'insieme di ambiguità indipendente dal compito, producendo strategie di controllo eccessivamente conservative
  3. Limitazioni di generalizzazione del controllo end-to-end: I metodi di controllo end-to-end esistenti sono tipicamente addestrati da una singola condizione iniziale, tendendo a un overfitting che limita l'applicabilità pratica

Motivazione della Ricerca

Il presente articolo mira a colmare la separazione tra la progettazione dell'insieme di ambiguità e le prestazioni di controllo, integrando il DRC basato su Wasserstein con l'apprendimento end-to-end, adattando la metrica Wasserstein attraverso il feedback delle prestazioni di controllo, mantenendo al contempo garanzie statistiche a campione finito.

Contributi Fondamentali

  1. Framework Wasserstein DRC end-to-end pioneristico: Propone il primo framework che accoppia in modo retroattivo la progettazione dell'insieme di ambiguità e il controllo attraverso ottimizzazione a due livelli, generalizzando su condizioni iniziali diversificate
  2. Insieme di ambiguità Wasserstein anisotropo orientato al compito di controllo: Propone un meccanismo di adattamento del raggio con garanzie statistiche a campione finito stabilite teoricamente
  3. Fondamenti teorici rigorosi: Dimostra la continuità della metrica anisotropa, stabilisce la convergenza dell'algoritmo, derivando la coerenza statistica non asintotica della metrica appresa

Dettagli del Metodo

Definizione del Compito

Si consideri un sistema lineare con perturbazioni additive: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

dove xtRnxx_t \in \mathbb{R}^{n_x}, utRnuu_t \in \mathbb{R}^{n_u}, wtRnxw_t \in \mathbb{R}^{n_x} rappresentano rispettivamente lo stato del sistema, l'ingresso e la perturbazione incerta. Il sistema è soggetto ai vincoli: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

Architettura del Modello

1. Insieme di Ambiguità Wasserstein Anisotropo

Si definisce la distanza Wasserstein anisotropa: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

dove Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\| è la norma ponderata indotta dalla matrice definita positiva Λ\Lambda.

Si costruisce l'insieme di ambiguità anisotropo: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. Framework di Ottimizzazione a Due Livelli

Problema interno: Risolvere il problema DRC dato la matrice metrica Λ\Lambda: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

Problema esterno: Apprendere la matrice metrica ottimale: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. Algoritmo di Soluzione

Si sviluppa un algoritmo lagrangiano aumentato stocastico, contenente:

  • Livello esterno: Aggiornamenti di variabili duali e parametri di penalità con protezione di sicurezza
  • Livello interno: Attraverso stime batch ridotte della matrice jacobiana conservativa

Punti di Innovazione Tecnica

  1. Adattamento del raggio consapevole della geometria: Propone il meccanismo di adattamento ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon, assicurando garanzie statistiche
  2. Calcolo jacobiano conservativo: Affrontare problemi di ottimizzazione non liscia attraverso la teoria della differenziabilità del percorso
  3. Addestramento con condizioni iniziali multiple: Evitare l'overfitting, migliorando la capacità di generalizzazione

Configurazione Sperimentale

Scenari Sperimentali

1. Esperimenti Numerici

  • Dinamica del sistema: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • Vincoli: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • Distribuzione delle perturbazioni: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • Regione dello stato iniziale: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. Controllo dell'Inventario

  • Orizzonte temporale: T=5T = 5
  • Coefficienti di costo: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • Distribuzione della domanda: Distribuzione gaussiana troncata N(5,3)\mathcal{N}(5,3) con supporto in [1,10][1,10]
  • Inventario iniziale: X0=[1,5]X_0 = [1,5]

Metriche di Valutazione

  • Costo medio in anello chiuso
  • Tasso di violazione dei vincoli
  • Robustezza della distribuzione dei costi

Metodi di Confronto

  1. W-DRC: Controllo distributivamente robusto Wasserstein tradizionale
  2. E2E-Pointwise-DRC: Variante di apprendimento end-to-end con stato iniziale fisso
  3. E2E-Regionwise-DRC: Metodo proposto nel presente articolo

Risultati Sperimentali

Risultati Principali

Esperimenti Numerici

MetodoCosto MedioTasso di Violazione dei Vincoli
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

Il metodo proposto riduce il costo del 90.2% rispetto al metodo tradizionale e del 45.5% rispetto alla linea di base di apprendimento.

Controllo dell'Inventario

MetodoCosto Medio
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

Il metodo proposto riduce il costo del 50.8% rispetto al metodo tradizionale e del 27.6% rispetto alla linea di base di apprendimento.

Risultati Sperimentali

  1. Superiorità coerente: Il metodo proposto raggiunge il costo più basso su tutti gli stati iniziali
  2. Capacità di generalizzazione: L'addestramento con condizioni iniziali multiple migliora significativamente la capacità di generalizzazione su stati iniziali non visti
  3. Mantenimento della sicurezza: Tutti i metodi mantengono un tasso di violazione dei vincoli inferiore al 10%, soddisfacendo i requisiti di sicurezza

Analisi Teorica

Garanzie Statistiche

Teorema 1: Sotto l'ipotesi di coda leggera, l'insieme di ambiguità Wasserstein anisotropo soddisfa le stesse garanzie a campione finito: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

Analisi di Convergenza

Teorema 6: Sotto ipotesi appropriate, l'algoritmo converge a un punto stabile di Clarke del problema esterno, soddisfacendo le condizioni KKT generalizzate.

Teorema 8: Stabilisce il tasso di convergenza esponenziale: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

Lavori Correlati

Controllo Distributivamente Robusto

  • Metodi DRC basati su informazioni sui momenti
  • Sviluppo del Wasserstein DRC e sue applicazioni in MPC e apprendimento per rinforzo

Controllo End-to-End

  • Metodi di controllo end-to-end nominali
  • Meccanismi di sicurezza per il controllo end-to-end robusto

Il presente articolo combina per la prima volta il Wasserstein DRC con l'apprendimento end-to-end, colmando il vuoto in questo campo di ricerca interdisciplinare.

Conclusioni e Discussione

Conclusioni Principali

  1. Propone con successo il primo framework Wasserstein DRC end-to-end
  2. Garantisce teoricamente la validità statistica dell'insieme di ambiguità anisotropo
  3. Verifica sperimentalmente le prestazioni superiori su molteplici compiti di controllo

Limitazioni

  1. Il framework attuale è limitato ai sistemi lineari
  2. La complessità computazionale dell'algoritmo è relativamente elevata
  3. Richiede dati di addestramento sufficienti per garantire le proprietà statistiche

Direzioni Future

  1. Estensione ai sistemi non lineari
  2. Sviluppo di algoritmi di soluzione più efficienti
  3. Esplorazione di meccanismi di apprendimento online e aggiornamento adattivo

Valutazione Approfondita

Punti di Forza

  1. Rigore teorico: Fornisce un'analisi teorica completa, includendo garanzie statistiche, continuità e convergenza
  2. Innovazione metodologica: Combina per la prima volta l'apprendimento end-to-end con il Wasserstein DRC
  3. Completezza sperimentale: Verifica l'efficacia su problemi di controllo numerici e pratici
  4. Valore pratico: Migliora significativamente le prestazioni di controllo mantenendo i vincoli di sicurezza

Insufficienze

  1. Complessità computazionale: La struttura di ottimizzazione a due livelli aumenta l'onere computazionale
  2. Ambito di applicabilità: Attualmente applicabile solo ai sistemi lineari
  3. Sensibilità ai parametri: Le prestazioni dell'algoritmo potrebbero essere sensibili agli iperparametri

Impatto

Questo lavoro apre una nuova direzione nel campo del controllo distributivamente robusto, avendo un impatto significativo sulla ricerca interdisciplinare tra la teoria del controllo e l'apprendimento automatico. L'idea di apprendimento end-to-end può essere generalizzata ad altri problemi di controllo robusto.

Scenari di Applicazione

  • Sistemi di controllo lineare con incertezza
  • Applicazioni che richiedono il mantenimento delle prestazioni in diverse condizioni operative
  • Compiti di controllo con elevati requisiti di sicurezza

Bibliografia

L'articolo cita 45 lavori correlati, coprendo importanti contributi in ottimizzazione distributivamente robusta, controllo predittivo del modello, apprendimento per rinforzo e altri campi, fornendo una base teorica solida per la ricerca.