2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

Control Distributivamente Robusto con Aprendizaje de Métricas Estadísticamente Garantizado de Extremo a Extremo

Información Básica

  • ID del Artículo: 2510.10214
  • Título: Control Distributivamente Robusto con Aprendizaje de Métricas Estadísticamente Garantizado de Extremo a Extremo
  • Autores: Jingyi Wu, Chao Ning, Yang Shi
  • Clasificación: math.OC cs.AI cs.SY eess.SY
  • Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10214v1

Resumen

El control distributivamente robusto (DRC) de Wasserstein ha atraído considerable atención recientemente como un paradigma principista para abordar la incertidumbre en sistemas dinámicos estocásticos. Sin embargo, los métodos existentes construyen conjuntos de ambigüedad impulsados por datos mediante desplazamientos de distribución uniformes, que luego se integran secuencialmente en la síntesis de control descendente. Esta separación entre la construcción del conjunto de ambigüedad y los objetivos de control introduce inherentemente un desalineamiento estructural, resultando en estrategias de control conservadoras y rendimiento subóptimo. Para abordar esta limitación, este artículo propone un novedoso marco de DRC de Wasserstein de horizonte finito de extremo a extremo que integra de manera cerrada el aprendizaje de métricas anisotrópicas de Wasserstein con la tarea de control descendente, permitiendo que el conjunto de ambigüedad se ajuste sistemáticamente a lo largo de direcciones críticas de rendimiento, produciendo estrategias de control más efectivas.

Antecedentes de Investigación y Motivación

Contexto del Problema

El control estocástico se aplica ampliamente en robótica, sistemas energéticos y finanzas para la toma de decisiones bajo incertidumbre. La teoría tradicional asume que la distribución de probabilidad que caracteriza la incertidumbre de control es completamente conocida, pero en la práctica, tales distribuciones rara vez están disponibles, y los controladores deben diseñarse basándose en información aproximada inferida de datos finitos. Esta imperfección inherente a la aproximación conduce a discrepancias entre la distribución estimada y la verdadera, reduciendo significativamente el rendimiento del control.

Limitaciones de Métodos Existentes

  1. Conservadurismo del DRC de Wasserstein Tradicional: Los métodos existentes emplean bolas de Wasserstein isotrópicas, tratando todos los desplazamientos de distribución direccionales como igualmente importantes, ignorando sus efectos no uniformes en el rendimiento del control
  2. Desalineamiento Estructural del Procesamiento Secuencial: La separación entre la construcción del conjunto de ambigüedad y la síntesis de control resulta en diseño de conjuntos de ambigüedad agnóstico a tareas, produciendo estrategias de control excesivamente conservadoras
  3. Limitaciones de Generalización del Control de Extremo a Extremo: Los métodos de control de extremo a extremo existentes típicamente se entrenan desde una única condición inicial, siendo propensos al sobreajuste, lo que limita la aplicabilidad práctica

Motivación de la Investigación

Este artículo tiene como objetivo cerrar la brecha entre el diseño del conjunto de ambigüedad y el rendimiento del control, integrando DRC basado en Wasserstein con aprendizaje de extremo a extremo, ajustando la métrica de Wasserstein mediante retroalimentación de rendimiento de control mientras se mantienen garantías estadísticas de muestra finita.

Contribuciones Principales

  1. Marco de DRC de Wasserstein de Extremo a Extremo Pionero: Propone el primer marco que acopla de manera retroalimentada el diseño del conjunto de ambigüedad y el control mediante optimización de dos niveles, con generalización bajo condiciones iniciales diversas
  2. Conjunto de Ambigüedad Anisotrópico de Wasserstein Orientado a Tareas de Control: Propone un mecanismo de ajuste de radio con garantías estadísticas de muestra finita establecidas teóricamente
  3. Fundamento Teórico Riguroso: Demuestra la continuidad de la métrica anisotrópica, establece convergencia del algoritmo, y deriva consistencia estadística no asintótica de la métrica aprendida

Explicación Detallada del Método

Definición de la Tarea

Considérese un sistema lineal con perturbaciones aditivas: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

donde xtRnxx_t \in \mathbb{R}^{n_x}, utRnuu_t \in \mathbb{R}^{n_u}, wtRnxw_t \in \mathbb{R}^{n_x} son respectivamente el estado del sistema, la entrada y la perturbación de incertidumbre. El sistema está sujeto a restricciones: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

Arquitectura del Modelo

1. Conjunto de Ambigüedad Anisotrópico de Wasserstein

Se define la distancia anisotrópica de Wasserstein: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

donde Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\| es la norma ponderada inducida por la matriz definida positiva Λ\Lambda.

Basándose en esto se construye el conjunto de ambigüedad anisotrópico: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. Marco de Optimización de Dos Niveles

Problema Interno: Resolver el problema DRC dado la matriz de métrica Λ\Lambda: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

Problema Externo: Aprender la matriz de métrica óptima: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. Algoritmo de Solución

Se desarrolló un algoritmo lagrangiano aumentado estocástico que incluye:

  • Nivel Externo: Actualización de variables duales y parámetros de penalización con protección de seguridad
  • Nivel Interno: Estimación de pequeños lotes de la matriz jacobiana conservadora

Puntos de Innovación Técnica

  1. Ajuste de Radio Consciente de la Geometría: Propone el mecanismo de ajuste ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon, asegurando garantías estadísticas
  2. Cálculo Jacobiano Conservador: Maneja problemas de optimización no suave mediante teoría de diferenciabilidad de trayectorias
  3. Entrenamiento con Múltiples Condiciones Iniciales: Evita sobreajuste, mejorando la capacidad de generalización

Configuración Experimental

Escenarios Experimentales

1. Experimento Numérico

  • Dinámicas del Sistema: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • Restricciones: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • Distribución de Perturbaciones: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • Región de Estado Inicial: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. Control de Inventario

  • Horizonte Temporal: T=5T = 5
  • Coeficientes de Costo: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • Distribución de Demanda: Distribución gaussiana truncada N(5,3)\mathcal{N}(5,3) con soporte en [1,10][1,10]
  • Inventario Inicial: X0=[1,5]X_0 = [1,5]

Métricas de Evaluación

  • Costo de bucle cerrado promedio
  • Tasa de violación de restricciones
  • Robustez de la distribución de costos

Métodos de Comparación

  1. W-DRC: Control distributivamente robusto de Wasserstein tradicional
  2. E2E-Pointwise-DRC: Variante de aprendizaje de extremo a extremo con estado inicial fijo
  3. E2E-Regionwise-DRC: Método propuesto en este artículo

Resultados Experimentales

Resultados Principales

Experimento Numérico

MétodoCosto PromedioTasa de Violación de Restricciones
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

El método propuesto reduce el costo en un 90.2% en comparación con el método tradicional, y en un 45.5% en comparación con la línea base de aprendizaje.

Control de Inventario

MétodoCosto Promedio
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

El método propuesto reduce el costo en un 50.8% en comparación con el método tradicional, y en un 27.6% en comparación con la línea base de aprendizaje.

Hallazgos Experimentales

  1. Superioridad Consistente: El método propuesto logra el costo más bajo en todos los estados iniciales
  2. Capacidad de Generalización: El entrenamiento con múltiples condiciones iniciales mejora significativamente la capacidad de generalización a estados iniciales no vistos
  3. Mantenimiento de Seguridad: Todos los métodos mantienen una tasa de violación de restricciones inferior al 10%, cumpliendo con los requisitos de seguridad

Análisis Teórico

Garantías Estadísticas

Teorema 1: Bajo supuestos de colas ligeras, el conjunto de ambigüedad anisotrópico de Wasserstein satisface las mismas garantías de muestra finita: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

Análisis de Convergencia

Teorema 6: Bajo supuestos apropiados, el algoritmo converge a un punto estacionario de Clarke del problema externo, satisfaciendo condiciones KKT generalizadas.

Teorema 8: Establece tasa de convergencia exponencial: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

Trabajo Relacionado

Control Distributivamente Robusto

  • Métodos DRC basados en información de momentos
  • Desarrollo del DRC de Wasserstein y sus aplicaciones en control predictivo de modelos y aprendizaje por refuerzo

Control de Extremo a Extremo

  • Métodos de control de extremo a extremo nominales
  • Mecanismos de seguridad del control robusto de extremo a extremo

Este artículo es el primero en combinar DRC de Wasserstein con aprendizaje de extremo a extremo, llenando un vacío en este campo interdisciplinario.

Conclusiones y Discusión

Conclusiones Principales

  1. Se propone exitosamente el primer marco de DRC de Wasserstein de extremo a extremo
  2. Se garantiza teóricamente la validez estadística del conjunto de ambigüedad anisotrópico
  3. Se verifica experimentalmente el rendimiento superior en múltiples tareas de control

Limitaciones

  1. El marco actual se limita a sistemas lineales
  2. La complejidad computacional del algoritmo es relativamente alta
  3. Se requieren datos de entrenamiento suficientes para garantizar propiedades estadísticas

Direcciones Futuras

  1. Extensión a sistemas no lineales
  2. Desarrollo de algoritmos de solución más eficientes
  3. Exploración de mecanismos de aprendizaje en línea y actualización adaptativa

Evaluación Profunda

Ventajas

  1. Rigor Teórico: Proporciona análisis teórico completo, incluyendo garantías estadísticas, continuidad y convergencia
  2. Innovación del Método: Primera combinación de aprendizaje de extremo a extremo con DRC de Wasserstein
  3. Suficiencia Experimental: Verifica efectividad en problemas de control numéricos y prácticos
  4. Valor Práctico: Mejora significativamente el rendimiento del control mientras se mantienen restricciones de seguridad

Deficiencias

  1. Complejidad Computacional: La estructura de optimización de dos niveles aumenta la carga computacional
  2. Rango de Aplicabilidad: Actualmente solo aplicable a sistemas lineales
  3. Sensibilidad a Parámetros: El rendimiento del algoritmo puede ser sensible a hiperparámetros

Impacto

Este trabajo abre una nueva dirección en el campo del control distributivamente robusto, teniendo un impacto importante en la investigación interdisciplinaria entre teoría de control y aprendizaje automático. Su idea de aprendizaje de extremo a extremo puede generalizarse a otros problemas de control robusto.

Escenarios de Aplicación

  • Sistemas de control lineal con incertidumbre
  • Aplicaciones que requieren mantener rendimiento bajo múltiples condiciones operativas
  • Tareas de control con altos requisitos de seguridad

Referencias

El artículo cita 45 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo optimización distributivamente robusta, control predictivo de modelos y aprendizaje por refuerzo, proporcionando una base teórica sólida para la investigación.