Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic
Contrôle Distributionnellement Robuste avec Apprentissage de Métrique Garanti Statistiquement de Bout en Bout
Le contrôle distributionnellement robuste (DRC) de Wasserstein s'est récemment imposé comme un paradigme rigoureux pour traiter l'incertitude dans les systèmes dynamiques stochastiques. Cependant, les méthodes existantes construisent des ensembles d'ambiguïté pilotés par les données via des décalages de distribution uniformes, puis les intègrent séquentiellement dans la synthèse de contrôle en aval. Cette séparation entre la construction de l'ensemble d'ambiguïté et l'objectif de contrôle introduit intrinsèquement un désalignement structurel, conduisant à des stratégies de contrôle conservatrices et à des performances sous-optimales. Pour résoudre cette limitation, cet article propose un nouveau cadre de contrôle DRC de Wasserstein à horizon fini de bout en bout, qui intègre de manière fermée l'apprentissage de métrique de Wasserstein anisotrope avec la tâche de contrôle en aval, permettant à l'ensemble d'ambiguïté de s'ajuster systématiquement le long des directions critiques pour la performance, produisant des stratégies de contrôle plus efficaces.
Le contrôle stochastique est largement appliqué en robotique, systèmes énergétiques et finance pour la prise de décision sous incertitude. La théorie traditionnelle suppose que la distribution de probabilité caractérisant l'incertitude de contrôle est entièrement connue, mais en pratique, cette distribution est rarement disponible et le contrôleur doit être conçu sur la base d'informations approximatives déduites de données finies. L'imperfection inhérente à cette approximation entraîne une divergence entre la distribution estimée et la distribution réelle, réduisant considérablement la performance de contrôle.
Conservatisme du DRC Wasserstein traditionnel: Les méthodes existantes emploient des boules de Wasserstein isotropes, traitant tous les décalages de distribution dans toutes les directions comme également importants, ignorant leurs effets non uniformes sur la performance de contrôle
Désalignement structurel du traitement séquentiel: La séparation entre la construction de l'ensemble d'ambiguïté et la synthèse de contrôle conduit à une conception d'ensemble d'ambiguïté indépendante de la tâche, produisant des stratégies de contrôle excessivement conservatrices
Limitations de généralisation du contrôle de bout en bout: Les méthodes de contrôle de bout en bout existantes s'entraînent généralement à partir d'une seule condition initiale, ce qui les rend sujettes au surapprentissage et limite l'applicabilité pratique
Cet article vise à combler la séparation entre la conception de l'ensemble d'ambiguïté et la performance de contrôle, en intégrant le DRC basé sur Wasserstein avec l'apprentissage de bout en bout, en ajustant la métrique de Wasserstein par rétroaction de performance de contrôle, tout en maintenant des garanties statistiques sur échantillons finis.
Cadre DRC Wasserstein de bout en bout novateur: Propose le premier cadre couplant de manière rétroactive la conception de l'ensemble d'ambiguïté et le contrôle via optimisation bicouche, avec généralisation sur des conditions initiales diversifiées
Ensemble d'ambiguïté Wasserstein anisotrope orienté vers la tâche de contrôle: Propose un mécanisme d'ajustement de rayon avec garanties statistiques sur échantillons finis établies théoriquement
Fondations théoriques rigoureuses: Prouve la continuité de la métrique anisotrope, établit la convergence de l'algorithme, dérive la cohérence statistique non asymptotique de la métrique apprise
Considérez un système linéaire avec perturbations additives:
xt+1=Axt+But+wt
où xt∈Rnx, ut∈Rnu, wt∈Rnx désignent respectivement l'état du système, l'entrée et la perturbation d'incertitude. Le système est soumis aux contraintes:
FxTxt+FuTut+f≤0
Supériorité Cohérente: La méthode proposée réalise le coût le plus bas pour tous les états initiaux
Capacité de Généralisation: L'entraînement sur conditions initiales multiples améliore significativement la généralisation aux états initiaux non observés
Maintien de la Sécurité: Toutes les méthodes maintiennent un taux de violation de contrainte inférieur à 10%, satisfaisant les exigences de sécurité
Théorème 1: Sous l'hypothèse de queue légère, l'ensemble d'ambiguïté Wasserstein anisotrope satisfait les mêmes garanties sur échantillons finis:
PN{P∈Bε(Λ)Λ(P^N)}≥{1−c1exp(−c2Nεmax{m,2}),1−c1exp(−c2Nεa),ε≤1ε>1
Théorème 6: Sous des hypothèses appropriées, l'algorithme converge vers un point stationnaire de Clarke du problème externe, satisfaisant les conditions KKT généralisées.
Théorème 8: Établit un taux de convergence exponentielle:
Prob{d(τN,Φ∗)≥ϵ}≤c(ϵ)e−β(ϵ)N
Mécanismes de sécurité du contrôle de bout en bout robuste
Cet article combine pour la première fois le DRC Wasserstein avec l'apprentissage de bout en bout, comblant un vide dans ce domaine interdisciplinaire.
Ce travail ouvre une nouvelle direction dans le domaine du contrôle distributionnellement robuste et aura un impact important sur la recherche interdisciplinaire entre la théorie du contrôle et l'apprentissage automatique. Son approche d'apprentissage de bout en bout peut être généralisée à d'autres problèmes de contrôle robuste.
L'article cite 45 références connexes, couvrant des travaux importants dans plusieurs domaines incluant l'optimisation distributionnellement robuste, le contrôle prédictif, l'apprentissage par renforcement, fournissant une base théorique solide pour la recherche.