2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

Control Distributivamente Robusto con Aprendizaje de Métricas Estadísticamente Garantizado de Extremo a Extremo

Información Básica

ID del Artículo: 2510.10214
Título: Control Distributivamente Robusto con Aprendizaje de Métricas Estadísticamente Garantizado de Extremo a Extremo
Autores: Jingyi Wu, Chao Ning, Yang Shi
Clasificación: math.OC cs.AI cs.SY eess.SY
Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10214v1

Resumen

El control distributivamente robusto (DRC) de Wasserstein ha atraído considerable atención recientemente como un paradigma principista para abordar la incertidumbre en sistemas dinámicos estocásticos. Sin embargo, los métodos existentes construyen conjuntos de ambigüedad impulsados por datos mediante desplazamientos de distribución uniformes, que luego se integran secuencialmente en la síntesis de control descendente. Esta separación entre la construcción del conjunto de ambigüedad y los objetivos de control introduce inherentemente un desalineamiento estructural, resultando en estrategias de control conservadoras y rendimiento subóptimo. Para abordar esta limitación, este artículo propone un novedoso marco de DRC de Wasserstein de horizonte finito de extremo a extremo que integra de manera cerrada el aprendizaje de métricas anisotrópicas de Wasserstein con la tarea de control descendente, permitiendo que el conjunto de ambigüedad se ajuste sistemáticamente a lo largo de direcciones críticas de rendimiento, produciendo estrategias de control más efectivas.

Antecedentes de Investigación y Motivación

Contexto del Problema

El control estocástico se aplica ampliamente en robótica, sistemas energéticos y finanzas para la toma de decisiones bajo incertidumbre. La teoría tradicional asume que la distribución de probabilidad que caracteriza la incertidumbre de control es completamente conocida, pero en la práctica, tales distribuciones rara vez están disponibles, y los controladores deben diseñarse basándose en información aproximada inferida de datos finitos. Esta imperfección inherente a la aproximación conduce a discrepancias entre la distribución estimada y la verdadera, reduciendo significativamente el rendimiento del control.

Limitaciones de Métodos Existentes

Conservadurismo del DRC de Wasserstein Tradicional: Los métodos existentes emplean bolas de Wasserstein isotrópicas, tratando todos los desplazamientos de distribución direccionales como igualmente importantes, ignorando sus efectos no uniformes en el rendimiento del control
Desalineamiento Estructural del Procesamiento Secuencial: La separación entre la construcción del conjunto de ambigüedad y la síntesis de control resulta en diseño de conjuntos de ambigüedad agnóstico a tareas, produciendo estrategias de control excesivamente conservadoras
Limitaciones de Generalización del Control de Extremo a Extremo: Los métodos de control de extremo a extremo existentes típicamente se entrenan desde una única condición inicial, siendo propensos al sobreajuste, lo que limita la aplicabilidad práctica

Motivación de la Investigación

Este artículo tiene como objetivo cerrar la brecha entre el diseño del conjunto de ambigüedad y el rendimiento del control, integrando DRC basado en Wasserstein con aprendizaje de extremo a extremo, ajustando la métrica de Wasserstein mediante retroalimentación de rendimiento de control mientras se mantienen garantías estadísticas de muestra finita.

Contribuciones Principales

Marco de DRC de Wasserstein de Extremo a Extremo Pionero: Propone el primer marco que acopla de manera retroalimentada el diseño del conjunto de ambigüedad y el control mediante optimización de dos niveles, con generalización bajo condiciones iniciales diversas
Conjunto de Ambigüedad Anisotrópico de Wasserstein Orientado a Tareas de Control: Propone un mecanismo de ajuste de radio con garantías estadísticas de muestra finita establecidas teóricamente
Fundamento Teórico Riguroso: Demuestra la continuidad de la métrica anisotrópica, establece convergencia del algoritmo, y deriva consistencia estadística no asintótica de la métrica aprendida

Explicación Detallada del Método

Definición de la Tarea

Considérese un sistema lineal con perturbaciones aditivas: $x_{t+1} = Ax_t + Bu_t + w_t$

donde $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ son respectivamente el estado del sistema, la entrada y la perturbación de incertidumbre. El sistema está sujeto a restricciones: $F_x^T x_t + F_u^T u_t + f \leq 0$

Arquitectura del Modelo

1. Conjunto de Ambigüedad Anisotrópico de Wasserstein

Se define la distancia anisotrópica de Wasserstein: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

donde $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ es la norma ponderada inducida por la matriz definida positiva $\Lambda$ .

Basándose en esto se construye el conjunto de ambigüedad anisotrópico: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. Marco de Optimización de Dos Niveles

Problema Interno: Resolver el problema DRC dado la matriz de métrica $\Lambda$ : $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

Problema Externo: Aprender la matriz de métrica óptima: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. Algoritmo de Solución

Se desarrolló un algoritmo lagrangiano aumentado estocástico que incluye:

Nivel Externo: Actualización de variables duales y parámetros de penalización con protección de seguridad
Nivel Interno: Estimación de pequeños lotes de la matriz jacobiana conservadora

Puntos de Innovación Técnica

Ajuste de Radio Consciente de la Geometría: Propone el mecanismo de ajuste $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ , asegurando garantías estadísticas
Cálculo Jacobiano Conservador: Maneja problemas de optimización no suave mediante teoría de diferenciabilidad de trayectorias
Entrenamiento con Múltiples Condiciones Iniciales: Evita sobreajuste, mejorando la capacidad de generalización

Configuración Experimental

Escenarios Experimentales

1. Experimento Numérico

Dinámicas del Sistema: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
Restricciones: $x_1 \leq 20, x_2 \geq -3.2$
Distribución de Perturbaciones: $w \sim \mathcal{N}(0, 2I_2)$
Región de Estado Inicial: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. Control de Inventario

Horizonte Temporal: $T = 5$
Coeficientes de Costo: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
Distribución de Demanda: Distribución gaussiana truncada $\mathcal{N}(5,3)$ con soporte en $[1,10]$
Inventario Inicial: $X_0 = [1,5]$

Métricas de Evaluación

Costo de bucle cerrado promedio
Tasa de violación de restricciones
Robustez de la distribución de costos

Métodos de Comparación

W-DRC: Control distributivamente robusto de Wasserstein tradicional
E2E-Pointwise-DRC: Variante de aprendizaje de extremo a extremo con estado inicial fijo
E2E-Regionwise-DRC: Método propuesto en este artículo

Resultados Experimentales

Resultados Principales

Experimento Numérico

Método	Costo Promedio	Tasa de Violación de Restricciones
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

El método propuesto reduce el costo en un 90.2% en comparación con el método tradicional, y en un 45.5% en comparación con la línea base de aprendizaje.

Control de Inventario

Método	Costo Promedio
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

El método propuesto reduce el costo en un 50.8% en comparación con el método tradicional, y en un 27.6% en comparación con la línea base de aprendizaje.

Hallazgos Experimentales

Superioridad Consistente: El método propuesto logra el costo más bajo en todos los estados iniciales
Capacidad de Generalización: El entrenamiento con múltiples condiciones iniciales mejora significativamente la capacidad de generalización a estados iniciales no vistos
Mantenimiento de Seguridad: Todos los métodos mantienen una tasa de violación de restricciones inferior al 10%, cumpliendo con los requisitos de seguridad

Análisis Teórico

Garantías Estadísticas

Teorema 1: Bajo supuestos de colas ligeras, el conjunto de ambigüedad anisotrópico de Wasserstein satisface las mismas garantías de muestra finita: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$

Análisis de Convergencia

Teorema 6: Bajo supuestos apropiados, el algoritmo converge a un punto estacionario de Clarke del problema externo, satisfaciendo condiciones KKT generalizadas.

Teorema 8: Establece tasa de convergencia exponencial: $\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}$

Trabajo Relacionado

Control Distributivamente Robusto

Métodos DRC basados en información de momentos
Desarrollo del DRC de Wasserstein y sus aplicaciones en control predictivo de modelos y aprendizaje por refuerzo

Control de Extremo a Extremo

Métodos de control de extremo a extremo nominales
Mecanismos de seguridad del control robusto de extremo a extremo

Este artículo es el primero en combinar DRC de Wasserstein con aprendizaje de extremo a extremo, llenando un vacío en este campo interdisciplinario.

Conclusiones y Discusión

Conclusiones Principales

Se propone exitosamente el primer marco de DRC de Wasserstein de extremo a extremo
Se garantiza teóricamente la validez estadística del conjunto de ambigüedad anisotrópico
Se verifica experimentalmente el rendimiento superior en múltiples tareas de control

Limitaciones

El marco actual se limita a sistemas lineales
La complejidad computacional del algoritmo es relativamente alta
Se requieren datos de entrenamiento suficientes para garantizar propiedades estadísticas

Direcciones Futuras

Extensión a sistemas no lineales
Desarrollo de algoritmos de solución más eficientes
Exploración de mecanismos de aprendizaje en línea y actualización adaptativa

Evaluación Profunda

Ventajas

Rigor Teórico: Proporciona análisis teórico completo, incluyendo garantías estadísticas, continuidad y convergencia
Innovación del Método: Primera combinación de aprendizaje de extremo a extremo con DRC de Wasserstein
Suficiencia Experimental: Verifica efectividad en problemas de control numéricos y prácticos
Valor Práctico: Mejora significativamente el rendimiento del control mientras se mantienen restricciones de seguridad

Deficiencias

Complejidad Computacional: La estructura de optimización de dos niveles aumenta la carga computacional
Rango de Aplicabilidad: Actualmente solo aplicable a sistemas lineales
Sensibilidad a Parámetros: El rendimiento del algoritmo puede ser sensible a hiperparámetros

Impacto

Este trabajo abre una nueva dirección en el campo del control distributivamente robusto, teniendo un impacto importante en la investigación interdisciplinaria entre teoría de control y aprendizaje automático. Su idea de aprendizaje de extremo a extremo puede generalizarse a otros problemas de control robusto.

Escenarios de Aplicación

Sistemas de control lineal con incertidumbre
Aplicaciones que requieren mantener rendimiento bajo múltiples condiciones operativas
Tareas de control con altos requisitos de seguridad

Referencias

El artículo cita 45 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo optimización distributivamente robusta, control predictivo de modelos y aprendizaje por refuerzo, proporcionando una base teórica sólida para la investigación.