2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

基本信息

  • 论文ID: 2510.10214
  • 标题: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
  • 作者: Jingyi Wu, Chao Ning, Yang Shi
  • 分类: math.OC cs.AI cs.SY eess.SY
  • 发表时间: 2025年10月11日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10214v1

摘要

Wasserstein分布鲁棒控制(DRC)作为处理随机动态系统不确定性的原则性范式近年来备受关注。然而,现有方法通过均匀分布偏移构建数据驱动的模糊集,然后将其顺序集成到下游控制综合中。这种模糊集构建与控制目标之间的分离固有地引入了结构性错位,导致保守的控制策略和次优性能。为解决这一局限性,本文提出了一种新颖的端到端有限时域Wasserstein DRC框架,该框架以闭环方式集成各向异性Wasserstein度量学习与下游控制任务,使模糊集能够沿性能关键方向系统性调整,产生更有效的控制策略。

研究背景与动机

问题背景

随机控制广泛应用于机器人、能源系统和金融等领域,用于在不确定性下进行决策。传统理论假设控制不确定性的概率分布完全已知,但在实践中,这种分布很少可获得,控制器必须基于从有限数据推断的近似信息进行设计。这种近似固有的不完美性导致估计分布与真实分布之间的差异,从而显著降低控制性能。

现有方法局限性

  1. 传统Wasserstein DRC的保守性: 现有方法采用各向同性的Wasserstein球,将所有方向的分布偏移视为等同重要,忽略了它们对控制性能的非均匀影响
  2. 顺序处理的结构错位: 模糊集构建与控制综合的分离导致任务无关的模糊集设计,产生过度保守的控制策略
  3. 端到端控制的泛化局限: 现有端到端控制方法通常从单一初始条件训练,容易过拟合,限制了实际适用性

研究动机

本文旨在弥合模糊集设计与控制性能之间的分离,将基于Wasserstein的DRC与端到端学习集成,通过控制性能反馈调整Wasserstein度量,同时保持统计有限样本保证。

核心贡献

  1. 首创端到端Wasserstein DRC框架: 提出首个通过双层优化以反馈方式耦合模糊集设计与控制的框架,并在多样化初始条件下泛化
  2. 控制任务导向的各向异性Wasserstein模糊集: 提出半径调整机制,理论建立统计有限样本保证
  3. 严格理论基础: 证明各向异性度量的连续性,建立算法收敛性,推导学习度量的非渐近统计一致性

方法详解

任务定义

考虑带加性扰动的线性系统: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

其中 xtRnxx_t \in \mathbb{R}^{n_x}utRnuu_t \in \mathbb{R}^{n_u}wtRnxw_t \in \mathbb{R}^{n_x} 分别为系统状态、输入和不确定扰动。系统受约束: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

模型架构

1. 各向异性Wasserstein模糊集

定义各向异性Wasserstein距离: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

其中 Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\| 为由正定矩阵 Λ\Lambda 诱导的加权范数。

基于此构建各向异性模糊集: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. 双层优化框架

内层问题: 在给定度量矩阵 Λ\Lambda 下求解DRC问题: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

外层问题: 学习最优度量矩阵: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. 求解算法

开发了随机增广拉格朗日算法,包含:

  • 外层: 安全保护的双变量和惩罚参数更新
  • 内层: 通过保守雅可比矩阵的小批量估计

技术创新点

  1. 几何感知的半径调整: 提出 ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon 的调整机制,确保统计保证
  2. 保守雅可比计算: 通过路径可微性理论处理非光滑优化问题
  3. 多初始条件训练: 避免过拟合,提升泛化能力

实验设置

实验场景

1. 数值实验

  • 系统动态: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • 约束: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • 扰动分布: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • 初始状态区域: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. 库存控制

  • 时域: T=5T = 5
  • 成本系数: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • 需求分布: 截断高斯分布 N(5,3)\mathcal{N}(5,3) 支撑在 [1,10][1,10]
  • 初始库存: X0=[1,5]X_0 = [1,5]

评价指标

  • 平均闭环成本
  • 约束违反率
  • 成本分布的稳健性

对比方法

  1. W-DRC: 传统Wasserstein分布鲁棒控制
  2. E2E-Pointwise-DRC: 固定初始状态的端到端学习变体
  3. E2E-Regionwise-DRC: 本文提出的方法

实验结果

主要结果

数值实验

方法平均成本约束违反率
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

本文方法相比传统方法降低成本90.2%,相比学习基线降低45.5%。

库存控制

方法平均成本
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

本文方法相比传统方法降低成本50.8%,相比学习基线降低27.6%。

实验发现

  1. 一致性优越性: 在所有初始状态下,本文方法都实现了最低成本
  2. 泛化能力: 多初始条件训练显著提升了对未见初始状态的泛化能力
  3. 安全性保持: 所有方法都维持了约束违反率低于10%的安全要求

理论分析

统计保证

定理1: 在轻尾假设下,各向异性Wasserstein模糊集满足相同的有限样本保证: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

收敛性分析

定理6: 在适当假设下,算法收敛到外层问题的Clarke稳定点,满足广义KKT条件。

定理8: 建立指数收敛率: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

相关工作

分布鲁棒控制

  • 基于矩信息的DRC方法
  • Wasserstein DRC的发展及其在MPC、强化学习中的应用

端到端控制

  • 名义端到端控制方法
  • 鲁棒端到端控制的安全机制

本文首次将Wasserstein DRC与端到端学习结合,填补了该交叉领域的空白。

结论与讨论

主要结论

  1. 成功提出首个端到端Wasserstein DRC框架
  2. 理论保证各向异性模糊集的统计有效性
  3. 实验验证在多种控制任务上的优越性能

局限性

  1. 当前框架限于线性系统
  2. 算法的计算复杂度较高
  3. 需要足够的训练数据以保证统计性质

未来方向

  1. 扩展到非线性系统
  2. 开发更高效的求解算法
  3. 探索在线学习和自适应更新机制

深度评价

优点

  1. 理论严谨性: 提供完整的理论分析,包括统计保证、连续性和收敛性
  2. 方法创新性: 首次将端到端学习与Wasserstein DRC结合
  3. 实验充分性: 在数值和实际控制问题上验证有效性
  4. 实用价值: 显著提升控制性能同时保持安全约束

不足

  1. 计算复杂度: 双层优化结构增加了计算负担
  2. 适用范围: 目前仅适用于线性系统
  3. 参数敏感性: 算法性能可能对超参数敏感

影响力

该工作为分布鲁棒控制领域开辟了新方向,将对控制理论和机器学习的交叉研究产生重要影响。其端到端学习思想可推广到其他鲁棒控制问题。

适用场景

  • 具有不确定性的线性控制系统
  • 需要在多种操作条件下保持性能的应用
  • 对安全性要求较高的控制任务

参考文献

论文引用了45篇相关文献,涵盖分布鲁棒优化、模型预测控制、强化学习等多个领域的重要工作,为研究提供了坚实的理论基础。