2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

Contrôle Distributionnellement Robuste avec Apprentissage de Métrique Garanti Statistiquement de Bout en Bout

Informations Fondamentales

  • ID de l'article: 2510.10214
  • Titre: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
  • Auteurs: Jingyi Wu, Chao Ning, Yang Shi
  • Classification: math.OC cs.AI cs.SY eess.SY
  • Date de publication: 11 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.10214v1

Résumé

Le contrôle distributionnellement robuste (DRC) de Wasserstein s'est récemment imposé comme un paradigme rigoureux pour traiter l'incertitude dans les systèmes dynamiques stochastiques. Cependant, les méthodes existantes construisent des ensembles d'ambiguïté pilotés par les données via des décalages de distribution uniformes, puis les intègrent séquentiellement dans la synthèse de contrôle en aval. Cette séparation entre la construction de l'ensemble d'ambiguïté et l'objectif de contrôle introduit intrinsèquement un désalignement structurel, conduisant à des stratégies de contrôle conservatrices et à des performances sous-optimales. Pour résoudre cette limitation, cet article propose un nouveau cadre de contrôle DRC de Wasserstein à horizon fini de bout en bout, qui intègre de manière fermée l'apprentissage de métrique de Wasserstein anisotrope avec la tâche de contrôle en aval, permettant à l'ensemble d'ambiguïté de s'ajuster systématiquement le long des directions critiques pour la performance, produisant des stratégies de contrôle plus efficaces.

Contexte et Motivation de la Recherche

Contexte du Problème

Le contrôle stochastique est largement appliqué en robotique, systèmes énergétiques et finance pour la prise de décision sous incertitude. La théorie traditionnelle suppose que la distribution de probabilité caractérisant l'incertitude de contrôle est entièrement connue, mais en pratique, cette distribution est rarement disponible et le contrôleur doit être conçu sur la base d'informations approximatives déduites de données finies. L'imperfection inhérente à cette approximation entraîne une divergence entre la distribution estimée et la distribution réelle, réduisant considérablement la performance de contrôle.

Limitations des Méthodes Existantes

  1. Conservatisme du DRC Wasserstein traditionnel: Les méthodes existantes emploient des boules de Wasserstein isotropes, traitant tous les décalages de distribution dans toutes les directions comme également importants, ignorant leurs effets non uniformes sur la performance de contrôle
  2. Désalignement structurel du traitement séquentiel: La séparation entre la construction de l'ensemble d'ambiguïté et la synthèse de contrôle conduit à une conception d'ensemble d'ambiguïté indépendante de la tâche, produisant des stratégies de contrôle excessivement conservatrices
  3. Limitations de généralisation du contrôle de bout en bout: Les méthodes de contrôle de bout en bout existantes s'entraînent généralement à partir d'une seule condition initiale, ce qui les rend sujettes au surapprentissage et limite l'applicabilité pratique

Motivation de la Recherche

Cet article vise à combler la séparation entre la conception de l'ensemble d'ambiguïté et la performance de contrôle, en intégrant le DRC basé sur Wasserstein avec l'apprentissage de bout en bout, en ajustant la métrique de Wasserstein par rétroaction de performance de contrôle, tout en maintenant des garanties statistiques sur échantillons finis.

Contributions Principales

  1. Cadre DRC Wasserstein de bout en bout novateur: Propose le premier cadre couplant de manière rétroactive la conception de l'ensemble d'ambiguïté et le contrôle via optimisation bicouche, avec généralisation sur des conditions initiales diversifiées
  2. Ensemble d'ambiguïté Wasserstein anisotrope orienté vers la tâche de contrôle: Propose un mécanisme d'ajustement de rayon avec garanties statistiques sur échantillons finis établies théoriquement
  3. Fondations théoriques rigoureuses: Prouve la continuité de la métrique anisotrope, établit la convergence de l'algorithme, dérive la cohérence statistique non asymptotique de la métrique apprise

Détails de la Méthode

Définition de la Tâche

Considérez un système linéaire avec perturbations additives: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

xtRnxx_t \in \mathbb{R}^{n_x}, utRnuu_t \in \mathbb{R}^{n_u}, wtRnxw_t \in \mathbb{R}^{n_x} désignent respectivement l'état du système, l'entrée et la perturbation d'incertitude. Le système est soumis aux contraintes: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

Architecture du Modèle

1. Ensemble d'Ambiguïté Wasserstein Anisotrope

Définissez la distance de Wasserstein anisotrope: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\| est la norme pondérée induite par la matrice définie positive Λ\Lambda.

Construisez l'ensemble d'ambiguïté anisotrope sur cette base: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. Cadre d'Optimisation Bicouche

Problème interne: Résoudre le problème DRC pour une matrice de métrique Λ\Lambda donnée: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

Problème externe: Apprendre la matrice de métrique optimale: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. Algorithme de Résolution

Développez un algorithme lagrangien augmenté stochastique comprenant:

  • Couche externe: Mise à jour des variables duales et paramètres de pénalité avec protection de sécurité
  • Couche interne: Estimation par petits lots de la matrice jacobienne conservatrice

Points d'Innovation Technique

  1. Ajustement de rayon sensible à la géométrie: Propose le mécanisme d'ajustement ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon, garantissant les garanties statistiques
  2. Calcul jacobien conservateur: Traite les problèmes d'optimisation non-lisse via la théorie de la différentiabilité de chemin
  3. Entraînement sur conditions initiales multiples: Évite le surapprentissage, améliore la capacité de généralisation

Configuration Expérimentale

Scénarios Expérimentaux

1. Expériences Numériques

  • Dynamique du système: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • Contraintes: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • Distribution de perturbation: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • Région d'état initial: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. Contrôle d'Inventaire

  • Horizon temporel: T=5T = 5
  • Coefficients de coût: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • Distribution de demande: Distribution gaussienne tronquée N(5,3)\mathcal{N}(5,3) supportée sur [1,10][1,10]
  • Inventaire initial: X0=[1,5]X_0 = [1,5]

Métriques d'Évaluation

  • Coût moyen en boucle fermée
  • Taux de violation de contrainte
  • Robustesse de la distribution de coût

Méthodes de Comparaison

  1. W-DRC: Contrôle distributionnellement robuste Wasserstein traditionnel
  2. E2E-Pointwise-DRC: Variante d'apprentissage de bout en bout avec condition initiale fixe
  3. E2E-Regionwise-DRC: Méthode proposée dans cet article

Résultats Expérimentaux

Résultats Principaux

Expériences Numériques

MéthodeCoût MoyenTaux de Violation
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

La méthode proposée réduit le coût de 90.2% par rapport à la méthode traditionnelle et de 45.5% par rapport à la ligne de base d'apprentissage.

Contrôle d'Inventaire

MéthodeCoût Moyen
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

La méthode proposée réduit le coût de 50.8% par rapport à la méthode traditionnelle et de 27.6% par rapport à la ligne de base d'apprentissage.

Découvertes Expérimentales

  1. Supériorité Cohérente: La méthode proposée réalise le coût le plus bas pour tous les états initiaux
  2. Capacité de Généralisation: L'entraînement sur conditions initiales multiples améliore significativement la généralisation aux états initiaux non observés
  3. Maintien de la Sécurité: Toutes les méthodes maintiennent un taux de violation de contrainte inférieur à 10%, satisfaisant les exigences de sécurité

Analyse Théorique

Garanties Statistiques

Théorème 1: Sous l'hypothèse de queue légère, l'ensemble d'ambiguïté Wasserstein anisotrope satisfait les mêmes garanties sur échantillons finis: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

Analyse de Convergence

Théorème 6: Sous des hypothèses appropriées, l'algorithme converge vers un point stationnaire de Clarke du problème externe, satisfaisant les conditions KKT généralisées.

Théorème 8: Établit un taux de convergence exponentielle: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

Travaux Connexes

Contrôle Distributionnellement Robuste

  • Méthodes DRC basées sur l'information de moments
  • Développement du DRC Wasserstein et ses applications en contrôle prédictif, apprentissage par renforcement

Contrôle de Bout en Bout

  • Méthodes de contrôle de bout en bout nominales
  • Mécanismes de sécurité du contrôle de bout en bout robuste

Cet article combine pour la première fois le DRC Wasserstein avec l'apprentissage de bout en bout, comblant un vide dans ce domaine interdisciplinaire.

Conclusion et Discussion

Conclusions Principales

  1. Propose avec succès le premier cadre DRC Wasserstein de bout en bout
  2. Garantit théoriquement la validité statistique de l'ensemble d'ambiguïté anisotrope
  3. Valide expérimentalement la performance supérieure sur diverses tâches de contrôle

Limitations

  1. Le cadre actuel est limité aux systèmes linéaires
  2. La complexité computationnelle de l'algorithme est relativement élevée
  3. Nécessite suffisamment de données d'entraînement pour garantir les propriétés statistiques

Directions Futures

  1. Extension aux systèmes non linéaires
  2. Développement d'algorithmes de résolution plus efficaces
  3. Exploration de mécanismes d'apprentissage en ligne et de mise à jour adaptative

Évaluation Approfondie

Avantages

  1. Rigueur Théorique: Fournit une analyse théorique complète, incluant garanties statistiques, continuité et convergence
  2. Innovativité de la Méthode: Combine pour la première fois l'apprentissage de bout en bout avec le DRC Wasserstein
  3. Suffisance Expérimentale: Valide l'efficacité sur problèmes de contrôle numériques et pratiques
  4. Valeur Pratique: Améliore significativement la performance de contrôle tout en maintenant les contraintes de sécurité

Insuffisances

  1. Complexité Computationnelle: La structure d'optimisation bicouche augmente la charge computationnelle
  2. Portée d'Application: Actuellement applicable uniquement aux systèmes linéaires
  3. Sensibilité aux Paramètres: La performance de l'algorithme peut être sensible aux hyperparamètres

Impact

Ce travail ouvre une nouvelle direction dans le domaine du contrôle distributionnellement robuste et aura un impact important sur la recherche interdisciplinaire entre la théorie du contrôle et l'apprentissage automatique. Son approche d'apprentissage de bout en bout peut être généralisée à d'autres problèmes de contrôle robuste.

Scénarios d'Application

  • Systèmes de contrôle linéaire avec incertitude
  • Applications nécessitant de maintenir la performance sous diverses conditions opérationnelles
  • Tâches de contrôle avec exigences élevées de sécurité

Références

L'article cite 45 références connexes, couvrant des travaux importants dans plusieurs domaines incluant l'optimisation distributionnellement robuste, le contrôle prédictif, l'apprentissage par renforcement, fournissant une base théorique solide pour la recherche.