2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

Contrôle Distributionnellement Robuste avec Apprentissage de Métrique Garanti Statistiquement de Bout en Bout

Informations Fondamentales

ID de l'article: 2510.10214
Titre: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Auteurs: Jingyi Wu, Chao Ning, Yang Shi
Classification: math.OC cs.AI cs.SY eess.SY
Date de publication: 11 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.10214v1

Résumé

Le contrôle distributionnellement robuste (DRC) de Wasserstein s'est récemment imposé comme un paradigme rigoureux pour traiter l'incertitude dans les systèmes dynamiques stochastiques. Cependant, les méthodes existantes construisent des ensembles d'ambiguïté pilotés par les données via des décalages de distribution uniformes, puis les intègrent séquentiellement dans la synthèse de contrôle en aval. Cette séparation entre la construction de l'ensemble d'ambiguïté et l'objectif de contrôle introduit intrinsèquement un désalignement structurel, conduisant à des stratégies de contrôle conservatrices et à des performances sous-optimales. Pour résoudre cette limitation, cet article propose un nouveau cadre de contrôle DRC de Wasserstein à horizon fini de bout en bout, qui intègre de manière fermée l'apprentissage de métrique de Wasserstein anisotrope avec la tâche de contrôle en aval, permettant à l'ensemble d'ambiguïté de s'ajuster systématiquement le long des directions critiques pour la performance, produisant des stratégies de contrôle plus efficaces.

Contexte et Motivation de la Recherche

Contexte du Problème

Le contrôle stochastique est largement appliqué en robotique, systèmes énergétiques et finance pour la prise de décision sous incertitude. La théorie traditionnelle suppose que la distribution de probabilité caractérisant l'incertitude de contrôle est entièrement connue, mais en pratique, cette distribution est rarement disponible et le contrôleur doit être conçu sur la base d'informations approximatives déduites de données finies. L'imperfection inhérente à cette approximation entraîne une divergence entre la distribution estimée et la distribution réelle, réduisant considérablement la performance de contrôle.

Limitations des Méthodes Existantes

Conservatisme du DRC Wasserstein traditionnel: Les méthodes existantes emploient des boules de Wasserstein isotropes, traitant tous les décalages de distribution dans toutes les directions comme également importants, ignorant leurs effets non uniformes sur la performance de contrôle
Désalignement structurel du traitement séquentiel: La séparation entre la construction de l'ensemble d'ambiguïté et la synthèse de contrôle conduit à une conception d'ensemble d'ambiguïté indépendante de la tâche, produisant des stratégies de contrôle excessivement conservatrices
Limitations de généralisation du contrôle de bout en bout: Les méthodes de contrôle de bout en bout existantes s'entraînent généralement à partir d'une seule condition initiale, ce qui les rend sujettes au surapprentissage et limite l'applicabilité pratique

Motivation de la Recherche

Cet article vise à combler la séparation entre la conception de l'ensemble d'ambiguïté et la performance de contrôle, en intégrant le DRC basé sur Wasserstein avec l'apprentissage de bout en bout, en ajustant la métrique de Wasserstein par rétroaction de performance de contrôle, tout en maintenant des garanties statistiques sur échantillons finis.

Contributions Principales

Cadre DRC Wasserstein de bout en bout novateur: Propose le premier cadre couplant de manière rétroactive la conception de l'ensemble d'ambiguïté et le contrôle via optimisation bicouche, avec généralisation sur des conditions initiales diversifiées
Ensemble d'ambiguïté Wasserstein anisotrope orienté vers la tâche de contrôle: Propose un mécanisme d'ajustement de rayon avec garanties statistiques sur échantillons finis établies théoriquement
Fondations théoriques rigoureuses: Prouve la continuité de la métrique anisotrope, établit la convergence de l'algorithme, dérive la cohérence statistique non asymptotique de la métrique apprise

Détails de la Méthode

Définition de la Tâche

Considérez un système linéaire avec perturbations additives: $x_{t+1} = Ax_t + Bu_t + w_t$

où $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ désignent respectivement l'état du système, l'entrée et la perturbation d'incertitude. Le système est soumis aux contraintes: $F_x^T x_t + F_u^T u_t + f \leq 0$

Architecture du Modèle

1. Ensemble d'Ambiguïté Wasserstein Anisotrope

Définissez la distance de Wasserstein anisotrope: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

où $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ est la norme pondérée induite par la matrice définie positive $\Lambda$ .

Construisez l'ensemble d'ambiguïté anisotrope sur cette base: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. Cadre d'Optimisation Bicouche

Problème interne: Résoudre le problème DRC pour une matrice de métrique $\Lambda$ donnée: $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

Problème externe: Apprendre la matrice de métrique optimale: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. Algorithme de Résolution

Développez un algorithme lagrangien augmenté stochastique comprenant:

Couche externe: Mise à jour des variables duales et paramètres de pénalité avec protection de sécurité
Couche interne: Estimation par petits lots de la matrice jacobienne conservatrice

Points d'Innovation Technique

Ajustement de rayon sensible à la géométrie: Propose le mécanisme d'ajustement $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ , garantissant les garanties statistiques
Calcul jacobien conservateur: Traite les problèmes d'optimisation non-lisse via la théorie de la différentiabilité de chemin
Entraînement sur conditions initiales multiples: Évite le surapprentissage, améliore la capacité de généralisation

Configuration Expérimentale

Scénarios Expérimentaux

1. Expériences Numériques

Dynamique du système: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
Contraintes: $x_1 \leq 20, x_2 \geq -3.2$
Distribution de perturbation: $w \sim \mathcal{N}(0, 2I_2)$
Région d'état initial: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. Contrôle d'Inventaire

Horizon temporel: $T = 5$
Coefficients de coût: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
Distribution de demande: Distribution gaussienne tronquée $\mathcal{N}(5,3)$ supportée sur $[1,10]$
Inventaire initial: $X_0 = [1,5]$

Métriques d'Évaluation

Coût moyen en boucle fermée
Taux de violation de contrainte
Robustesse de la distribution de coût

Méthodes de Comparaison

W-DRC: Contrôle distributionnellement robuste Wasserstein traditionnel
E2E-Pointwise-DRC: Variante d'apprentissage de bout en bout avec condition initiale fixe
E2E-Regionwise-DRC: Méthode proposée dans cet article

Résultats Expérimentaux

Résultats Principaux

Expériences Numériques

Méthode	Coût Moyen	Taux de Violation
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

La méthode proposée réduit le coût de 90.2% par rapport à la méthode traditionnelle et de 45.5% par rapport à la ligne de base d'apprentissage.

Contrôle d'Inventaire

Méthode	Coût Moyen
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

La méthode proposée réduit le coût de 50.8% par rapport à la méthode traditionnelle et de 27.6% par rapport à la ligne de base d'apprentissage.

Découvertes Expérimentales

Supériorité Cohérente: La méthode proposée réalise le coût le plus bas pour tous les états initiaux
Capacité de Généralisation: L'entraînement sur conditions initiales multiples améliore significativement la généralisation aux états initiaux non observés
Maintien de la Sécurité: Toutes les méthodes maintiennent un taux de violation de contrainte inférieur à 10%, satisfaisant les exigences de sécurité

Analyse Théorique

Garanties Statistiques

Théorème 1: Sous l'hypothèse de queue légère, l'ensemble d'ambiguïté Wasserstein anisotrope satisfait les mêmes garanties sur échantillons finis: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$

Analyse de Convergence

Théorème 6: Sous des hypothèses appropriées, l'algorithme converge vers un point stationnaire de Clarke du problème externe, satisfaisant les conditions KKT généralisées.

Théorème 8: Établit un taux de convergence exponentielle: $\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}$

Travaux Connexes

Contrôle Distributionnellement Robuste

Méthodes DRC basées sur l'information de moments
Développement du DRC Wasserstein et ses applications en contrôle prédictif, apprentissage par renforcement

Contrôle de Bout en Bout

Méthodes de contrôle de bout en bout nominales
Mécanismes de sécurité du contrôle de bout en bout robuste

Cet article combine pour la première fois le DRC Wasserstein avec l'apprentissage de bout en bout, comblant un vide dans ce domaine interdisciplinaire.

Conclusion et Discussion

Conclusions Principales

Propose avec succès le premier cadre DRC Wasserstein de bout en bout
Garantit théoriquement la validité statistique de l'ensemble d'ambiguïté anisotrope
Valide expérimentalement la performance supérieure sur diverses tâches de contrôle

Limitations

Le cadre actuel est limité aux systèmes linéaires
La complexité computationnelle de l'algorithme est relativement élevée
Nécessite suffisamment de données d'entraînement pour garantir les propriétés statistiques

Directions Futures

Extension aux systèmes non linéaires
Développement d'algorithmes de résolution plus efficaces
Exploration de mécanismes d'apprentissage en ligne et de mise à jour adaptative

Évaluation Approfondie

Avantages

Rigueur Théorique: Fournit une analyse théorique complète, incluant garanties statistiques, continuité et convergence
Innovativité de la Méthode: Combine pour la première fois l'apprentissage de bout en bout avec le DRC Wasserstein
Suffisance Expérimentale: Valide l'efficacité sur problèmes de contrôle numériques et pratiques
Valeur Pratique: Améliore significativement la performance de contrôle tout en maintenant les contraintes de sécurité

Insuffisances

Complexité Computationnelle: La structure d'optimisation bicouche augmente la charge computationnelle
Portée d'Application: Actuellement applicable uniquement aux systèmes linéaires
Sensibilité aux Paramètres: La performance de l'algorithme peut être sensible aux hyperparamètres

Impact

Ce travail ouvre une nouvelle direction dans le domaine du contrôle distributionnellement robuste et aura un impact important sur la recherche interdisciplinaire entre la théorie du contrôle et l'apprentissage automatique. Son approche d'apprentissage de bout en bout peut être généralisée à d'autres problèmes de contrôle robuste.

Scénarios d'Application

Systèmes de contrôle linéaire avec incertitude
Applications nécessitant de maintenir la performance sous diverses conditions opérationnelles
Tâches de contrôle avec exigences élevées de sécurité

Références

L'article cite 45 références connexes, couvrant des travaux importants dans plusieurs domaines incluant l'optimisation distributionnellement robuste, le contrôle prédictif, l'apprentissage par renforcement, fournissant une base théorique solide pour la recherche.