Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic
Control Distributivamente Robusto con Aprendizaje de Métricas Estadísticamente Garantizado de Extremo a Extremo
El control distributivamente robusto (DRC) de Wasserstein ha atraído considerable atención recientemente como un paradigma principista para abordar la incertidumbre en sistemas dinámicos estocásticos. Sin embargo, los métodos existentes construyen conjuntos de ambigüedad impulsados por datos mediante desplazamientos de distribución uniformes, que luego se integran secuencialmente en la síntesis de control descendente. Esta separación entre la construcción del conjunto de ambigüedad y los objetivos de control introduce inherentemente un desalineamiento estructural, resultando en estrategias de control conservadoras y rendimiento subóptimo. Para abordar esta limitación, este artículo propone un novedoso marco de DRC de Wasserstein de horizonte finito de extremo a extremo que integra de manera cerrada el aprendizaje de métricas anisotrópicas de Wasserstein con la tarea de control descendente, permitiendo que el conjunto de ambigüedad se ajuste sistemáticamente a lo largo de direcciones críticas de rendimiento, produciendo estrategias de control más efectivas.
El control estocástico se aplica ampliamente en robótica, sistemas energéticos y finanzas para la toma de decisiones bajo incertidumbre. La teoría tradicional asume que la distribución de probabilidad que caracteriza la incertidumbre de control es completamente conocida, pero en la práctica, tales distribuciones rara vez están disponibles, y los controladores deben diseñarse basándose en información aproximada inferida de datos finitos. Esta imperfección inherente a la aproximación conduce a discrepancias entre la distribución estimada y la verdadera, reduciendo significativamente el rendimiento del control.
Conservadurismo del DRC de Wasserstein Tradicional: Los métodos existentes emplean bolas de Wasserstein isotrópicas, tratando todos los desplazamientos de distribución direccionales como igualmente importantes, ignorando sus efectos no uniformes en el rendimiento del control
Desalineamiento Estructural del Procesamiento Secuencial: La separación entre la construcción del conjunto de ambigüedad y la síntesis de control resulta en diseño de conjuntos de ambigüedad agnóstico a tareas, produciendo estrategias de control excesivamente conservadoras
Limitaciones de Generalización del Control de Extremo a Extremo: Los métodos de control de extremo a extremo existentes típicamente se entrenan desde una única condición inicial, siendo propensos al sobreajuste, lo que limita la aplicabilidad práctica
Este artículo tiene como objetivo cerrar la brecha entre el diseño del conjunto de ambigüedad y el rendimiento del control, integrando DRC basado en Wasserstein con aprendizaje de extremo a extremo, ajustando la métrica de Wasserstein mediante retroalimentación de rendimiento de control mientras se mantienen garantías estadísticas de muestra finita.
Marco de DRC de Wasserstein de Extremo a Extremo Pionero: Propone el primer marco que acopla de manera retroalimentada el diseño del conjunto de ambigüedad y el control mediante optimización de dos niveles, con generalización bajo condiciones iniciales diversas
Conjunto de Ambigüedad Anisotrópico de Wasserstein Orientado a Tareas de Control: Propone un mecanismo de ajuste de radio con garantías estadísticas de muestra finita establecidas teóricamente
Fundamento Teórico Riguroso: Demuestra la continuidad de la métrica anisotrópica, establece convergencia del algoritmo, y deriva consistencia estadística no asintótica de la métrica aprendida
Considérese un sistema lineal con perturbaciones aditivas:
xt+1=Axt+But+wt
donde xt∈Rnx, ut∈Rnu, wt∈Rnx son respectivamente el estado del sistema, la entrada y la perturbación de incertidumbre. El sistema está sujeto a restricciones:
FxTxt+FuTut+f≤0
El método propuesto reduce el costo en un 90.2% en comparación con el método tradicional, y en un 45.5% en comparación con la línea base de aprendizaje.
El método propuesto reduce el costo en un 50.8% en comparación con el método tradicional, y en un 27.6% en comparación con la línea base de aprendizaje.
Superioridad Consistente: El método propuesto logra el costo más bajo en todos los estados iniciales
Capacidad de Generalización: El entrenamiento con múltiples condiciones iniciales mejora significativamente la capacidad de generalización a estados iniciales no vistos
Mantenimiento de Seguridad: Todos los métodos mantienen una tasa de violación de restricciones inferior al 10%, cumpliendo con los requisitos de seguridad
Teorema 1: Bajo supuestos de colas ligeras, el conjunto de ambigüedad anisotrópico de Wasserstein satisface las mismas garantías de muestra finita:
PN{P∈Bε(Λ)Λ(P^N)}≥{1−c1exp(−c2Nεmax{m,2}),1−c1exp(−c2Nεa),ε≤1ε>1
Teorema 6: Bajo supuestos apropiados, el algoritmo converge a un punto estacionario de Clarke del problema externo, satisfaciendo condiciones KKT generalizadas.
Teorema 8: Establece tasa de convergencia exponencial:
Prob{d(τN,Φ∗)≥ϵ}≤c(ϵ)e−β(ϵ)N
Este trabajo abre una nueva dirección en el campo del control distributivamente robusto, teniendo un impacto importante en la investigación interdisciplinaria entre teoría de control y aprendizaje automático. Su idea de aprendizaje de extremo a extremo puede generalizarse a otros problemas de control robusto.
El artículo cita 45 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo optimización distributivamente robusta, control predictivo de modelos y aprendizaje por refuerzo, proporcionando una base teórica sólida para la investigación.