2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi

Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.

academic

분포 강건 제어와 끝단간 통계적 보장 메트릭 학습

기본 정보

논문 ID: 2510.10214
제목: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
저자: Jingyi Wu, Chao Ning, Yang Shi
분류: math.OC cs.AI cs.SY eess.SY
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.10214v1

초록

Wasserstein 분포 강건 제어(DRC)는 확률적 동역학계의 불확실성을 다루기 위한 원칙적 패러다임으로 최근 주목받고 있다. 그러나 기존 방법들은 균일 분포 편차를 통해 데이터 기반 모호 집합을 구성한 후 이를 순차적으로 하위 제어 합성에 통합한다. 이러한 모호 집합 구성과 제어 목표 간의 분리는 본질적으로 구조적 불일치를 야기하여 보수적인 제어 전략과 차선의 성능을 초래한다. 이러한 한계를 해결하기 위해 본 논문은 새로운 끝단간 유한 시간 Wasserstein DRC 프레임워크를 제안한다. 이 프레임워크는 폐루프 방식으로 이방성 Wasserstein 메트릭 학습을 하위 제어 작업과 통합하여 모호 집합이 성능 관련 방향을 따라 체계적으로 조정되도록 하며, 보다 효과적인 제어 전략을 생성한다.

연구 배경 및 동기

문제 배경

확률적 제어는 로봇공학, 에너지 시스템, 금융 등 다양한 분야에서 불확실성 하에서의 의사결정에 광범위하게 적용된다. 전통적 이론은 제어 불확실성의 확률 분포가 완전히 알려져 있다고 가정하지만, 실제로는 이러한 분포를 거의 얻을 수 없으며, 제어기는 제한된 데이터로부터 추론된 근사 정보를 기반으로 설계되어야 한다. 이러한 근사의 내재적 불완전성은 추정 분포와 실제 분포 간의 차이를 초래하여 제어 성능을 크게 저하시킨다.

기존 방법의 한계

전통적 Wasserstein DRC의 보수성: 기존 방법들은 이방성 Wasserstein 구를 채택하여 모든 방향의 분포 편차를 동등하게 중요하게 취급하며, 제어 성능에 대한 비균일한 영향을 무시한다.
순차 처리의 구조적 불일치: 모호 집합 구성과 제어 합성의 분리는 작업 무관의 모호 집합 설계를 초래하여 과도하게 보수적인 제어 전략을 생성한다.
끝단간 제어의 일반화 한계: 기존 끝단간 제어 방법들은 일반적으로 단일 초기 조건에서 훈련되어 과적합되기 쉬우며, 실제 적용성을 제한한다.

연구 동기

본 논문은 모호 집합 설계와 제어 성능 간의 분리를 해소하고, Wasserstein 기반 DRC를 끝단간 학습과 통합하여 제어 성능 피드백을 통해 Wasserstein 메트릭을 조정하면서도 통계적 유한 표본 보장을 유지하는 것을 목표로 한다.

핵심 기여

최초의 끝단간 Wasserstein DRC 프레임워크: 쌍층 최적화를 통해 모호 집합 설계와 제어를 피드백 방식으로 결합하고 다양한 초기 조건에서 일반화하는 최초의 프레임워크 제안
제어 작업 지향의 이방성 Wasserstein 모호 집합: 반경 조정 메커니즘을 제안하고 통계적 유한 표본 보장을 이론적으로 수립
엄격한 이론적 기초: 이방성 메트릭의 연속성을 증명하고, 알고리즘 수렴성을 수립하며, 학습된 메트릭의 비점근 통계적 일관성을 도출

방법 상세 설명

작업 정의

가법 섭동을 갖는 선형 시스템을 고려한다: $x_{t+1} = Ax_t + Bu_t + w_t$

여기서 $x_t \in \mathbb{R}^{n_x}$ , $u_t \in \mathbb{R}^{n_u}$ , $w_t \in \mathbb{R}^{n_x}$ 는 각각 시스템 상태, 입력, 불확실 섭동이다. 시스템은 다음 제약을 받는다: $F_x^T x_t + F_u^T u_t + f \leq 0$

모델 아키텍처

1. 이방성 Wasserstein 모호 집합

이방성 Wasserstein 거리를 정의한다: $d_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}$

여기서 $\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|$ 는 정정치 행렬 $\Lambda$ 에 의해 유도된 가중 노름이다.

이를 기반으로 이방성 모호 집합을 구성한다: $\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}$

2. 쌍층 최적화 프레임워크

내층 문제: 주어진 메트릭 행렬 $\Lambda$ 하에서 DRC 문제를 해결한다: $\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]$

외층 문제: 최적 메트릭 행렬을 학습한다: $\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]$

3. 해결 알고리즘

다음을 포함하는 확률적 증강 라그랑주 알고리즘을 개발했다:

외층: 안전 보호 쌍변수 및 페널티 매개변수 업데이트
내층: 보수적 야코비안 행렬의 소배치 추정을 통한 계산

기술적 혁신점

기하학 인식 반경 조정: $\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon$ 의 조정 메커니즘을 제안하여 통계적 보장을 보장
보수적 야코비안 계산: 경로 미분가능성 이론을 통해 비매끄러운 최적화 문제를 처리
다중 초기 조건 훈련: 과적합을 회피하고 일반화 능력을 향상

실험 설정

실험 시나리오

1. 수치 실험

시스템 동역학: $x^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w$
제약: $x_1 \leq 20, x_2 \geq -3.2$
섭동 분포: $w \sim \mathcal{N}(0, 2I_2)$
초기 상태 영역: $X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}$

2. 재고 제어

시간 영역: $T = 5$
비용 계수: $c_1 = 10, c_2 = 50, c_B = 5, c_H = 80$
수요 분포: 절단 가우스 분포 $\mathcal{N}(5,3)$ 지지집합 $[1,10]$
초기 재고: $X_0 = [1,5]$

평가 지표

평균 폐루프 비용
제약 위반율
비용 분포의 강건성

비교 방법

W-DRC: 전통적 Wasserstein 분포 강건 제어
E2E-Pointwise-DRC: 고정 초기 상태의 끝단간 학습 변형
E2E-Regionwise-DRC: 본 논문에서 제안한 방법

실험 결과

주요 결과

수치 실험

방법	평균 비용	제약 위반율
W-DRC	862.8	8%
E2E-Pointwise-DRC	84.87	7.8%
E2E-Regionwise-DRC	46.24	7.8%

본 논문의 방법은 전통적 방법 대비 비용을 90.2% 감소시키고, 학습 기준선 대비 45.5% 감소시켰다.

재고 제어

방법	평균 비용
W-DRC	808.48
E2E-Pointwise-DRC	549.75
E2E-Regionwise-DRC	397.90

본 논문의 방법은 전통적 방법 대비 비용을 50.8% 감소시키고, 학습 기준선 대비 27.6% 감소시켰다.

실험 발견

일관된 우월성: 모든 초기 상태에서 본 논문의 방법이 최저 비용을 달성
일반화 능력: 다중 초기 조건 훈련은 미지의 초기 상태에 대한 일반화 능력을 크게 향상
안전성 유지: 모든 방법이 제약 위반율을 10% 이하로 유지하는 안전 요구사항 충족

이론적 분석

통계적 보장

정리 1: 경량 꼬리 가정 하에서, 이방성 Wasserstein 모호 집합은 동일한 유한 표본 보장을 만족한다: $\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}$