2025-11-10T02:55:12.775124

Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning

Wu, Ning, Shi
Wasserstein distributionally robust control (DRC) recently emerges as a principled paradigm for handling uncertainty in stochastic dynamical systems. However, it constructs data-driven ambiguity sets via uniform distribution shifts before sequentially incorporating them into downstream control synthesis. This segregation between ambiguity set construction and control objectives inherently introduces a structural misalignment, which undesirably leads to conservative control policies with sub-optimal performance. To address this limitation, we propose a novel end-to-end finite-horizon Wasserstein DRC framework that integrates the learning of anisotropic Wasserstein metrics with downstream control tasks in a closed-loop manner, thus enabling ambiguity sets to be systematically adjusted along performance-critical directions and yielding more effective control policies. This framework is formulated as a bilevel program: the inner level characterizes dynamical system evolution under DRC, while the outer level refines the anisotropic metric leveraging control-performance feedback across a range of initial conditions. To solve this program efficiently, we develop a stochastic augmented Lagrangian algorithm tailored to the bilevel structure. Theoretically, we prove that the learned ambiguity sets preserve statistical finite-sample guarantees under a novel radius adjustment mechanism, and we establish the well-posedness of the bilevel formulation by demonstrating its continuity with respect to the learnable metric. Furthermore, we show that the algorithm converges to stationary points of the outer level problem, which are statistically consistent with the optimal metric at a non-asymptotic convergence rate. Experiments on both numerical and inventory control tasks verify that the proposed framework achieves superior closed-loop performance and robustness compared against state-of-the-art methods.
academic

분포 강건 제어와 끝단간 통계적 보장 메트릭 학습

기본 정보

  • 논문 ID: 2510.10214
  • 제목: Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning
  • 저자: Jingyi Wu, Chao Ning, Yang Shi
  • 분류: math.OC cs.AI cs.SY eess.SY
  • 발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10214v1

초록

Wasserstein 분포 강건 제어(DRC)는 확률적 동역학계의 불확실성을 다루기 위한 원칙적 패러다임으로 최근 주목받고 있다. 그러나 기존 방법들은 균일 분포 편차를 통해 데이터 기반 모호 집합을 구성한 후 이를 순차적으로 하위 제어 합성에 통합한다. 이러한 모호 집합 구성과 제어 목표 간의 분리는 본질적으로 구조적 불일치를 야기하여 보수적인 제어 전략과 차선의 성능을 초래한다. 이러한 한계를 해결하기 위해 본 논문은 새로운 끝단간 유한 시간 Wasserstein DRC 프레임워크를 제안한다. 이 프레임워크는 폐루프 방식으로 이방성 Wasserstein 메트릭 학습을 하위 제어 작업과 통합하여 모호 집합이 성능 관련 방향을 따라 체계적으로 조정되도록 하며, 보다 효과적인 제어 전략을 생성한다.

연구 배경 및 동기

문제 배경

확률적 제어는 로봇공학, 에너지 시스템, 금융 등 다양한 분야에서 불확실성 하에서의 의사결정에 광범위하게 적용된다. 전통적 이론은 제어 불확실성의 확률 분포가 완전히 알려져 있다고 가정하지만, 실제로는 이러한 분포를 거의 얻을 수 없으며, 제어기는 제한된 데이터로부터 추론된 근사 정보를 기반으로 설계되어야 한다. 이러한 근사의 내재적 불완전성은 추정 분포와 실제 분포 간의 차이를 초래하여 제어 성능을 크게 저하시킨다.

기존 방법의 한계

  1. 전통적 Wasserstein DRC의 보수성: 기존 방법들은 이방성 Wasserstein 구를 채택하여 모든 방향의 분포 편차를 동등하게 중요하게 취급하며, 제어 성능에 대한 비균일한 영향을 무시한다.
  2. 순차 처리의 구조적 불일치: 모호 집합 구성과 제어 합성의 분리는 작업 무관의 모호 집합 설계를 초래하여 과도하게 보수적인 제어 전략을 생성한다.
  3. 끝단간 제어의 일반화 한계: 기존 끝단간 제어 방법들은 일반적으로 단일 초기 조건에서 훈련되어 과적합되기 쉬우며, 실제 적용성을 제한한다.

연구 동기

본 논문은 모호 집합 설계와 제어 성능 간의 분리를 해소하고, Wasserstein 기반 DRC를 끝단간 학습과 통합하여 제어 성능 피드백을 통해 Wasserstein 메트릭을 조정하면서도 통계적 유한 표본 보장을 유지하는 것을 목표로 한다.

핵심 기여

  1. 최초의 끝단간 Wasserstein DRC 프레임워크: 쌍층 최적화를 통해 모호 집합 설계와 제어를 피드백 방식으로 결합하고 다양한 초기 조건에서 일반화하는 최초의 프레임워크 제안
  2. 제어 작업 지향의 이방성 Wasserstein 모호 집합: 반경 조정 메커니즘을 제안하고 통계적 유한 표본 보장을 이론적으로 수립
  3. 엄격한 이론적 기초: 이방성 메트릭의 연속성을 증명하고, 알고리즘 수렴성을 수립하며, 학습된 메트릭의 비점근 통계적 일관성을 도출

방법 상세 설명

작업 정의

가법 섭동을 갖는 선형 시스템을 고려한다: xt+1=Axt+But+wtx_{t+1} = Ax_t + Bu_t + w_t

여기서 xtRnxx_t \in \mathbb{R}^{n_x}, utRnuu_t \in \mathbb{R}^{n_u}, wtRnxw_t \in \mathbb{R}^{n_x}는 각각 시스템 상태, 입력, 불확실 섭동이다. 시스템은 다음 제약을 받는다: FxTxt+FuTut+f0F_x^T x_t + F_u^T u_t + f \leq 0

모델 아키텍처

1. 이방성 Wasserstein 모호 집합

이방성 Wasserstein 거리를 정의한다: dWΛ(P,Q)=(infπP(Z2)E(z~,z)π[z~zΛp])1/pd_W^{\Lambda}(P,Q) = \left(\inf_{\pi \in \mathcal{P}(\mathcal{Z}^2)} \mathbb{E}_{(\tilde{z},z)\sim\pi}[\|\tilde{z}-z\|_{\Lambda}^p]\right)^{1/p}

여기서 Λ:=Λ\|\cdot\|_{\Lambda} := \|\Lambda\cdot\|는 정정치 행렬 Λ\Lambda에 의해 유도된 가중 노름이다.

이를 기반으로 이방성 모호 집합을 구성한다: Bε(Λ)Λ(P^N):={P:dWΛ(P,P^N)ε(Λ)}\mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N) := \{P : d_W^{\Lambda}(P, \hat{P}_N) \leq \varepsilon(\Lambda)\}

2. 쌍층 최적화 프레임워크

내층 문제: 주어진 메트릭 행렬 Λ\Lambda 하에서 DRC 문제를 해결한다: minv,MsupQBε(Λ)Λ(P^N)EwQ[h(y,z)]\min_{v,M} \sup_{Q \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)} \mathbb{E}_{w\sim Q}[h(y,z)]

외층 문제: 최적 메트릭 행렬을 학습한다: minΛAEx0,w[max1jnja~jT[x1xL]+b~jT[x0u0uL1]+c~j]\min_{\Lambda \in \mathcal{A}} \mathbb{E}_{x_0,w}\left[\max_{1\leq j \leq n_j} \tilde{a}_j^T \begin{bmatrix} x_1 \\ \vdots \\ x_L \end{bmatrix} + \tilde{b}_j^T \begin{bmatrix} x_0 \\ u_0 \\ \vdots \\ u_{L-1} \end{bmatrix} + \tilde{c}_j\right]

3. 해결 알고리즘

다음을 포함하는 확률적 증강 라그랑주 알고리즘을 개발했다:

  • 외층: 안전 보호 쌍변수 및 페널티 매개변수 업데이트
  • 내층: 보수적 야코비안 행렬의 소배치 추정을 통한 계산

기술적 혁신점

  1. 기하학 인식 반경 조정: ε(Λ)=σmax(Λ)ε\varepsilon(\Lambda) = \sigma_{\max}(\Lambda)\varepsilon의 조정 메커니즘을 제안하여 통계적 보장을 보장
  2. 보수적 야코비안 계산: 경로 미분가능성 이론을 통해 비매끄러운 최적화 문제를 처리
  3. 다중 초기 조건 훈련: 과적합을 회피하고 일반화 능력을 향상

실험 설정

실험 시나리오

1. 수치 실험

  • 시스템 동역학: x+=[0.950.0200.2]x+[0.50.01]u+wx^+ = \begin{bmatrix} 0.95 & -0.02 \\ 0 & 0.2 \end{bmatrix}x + \begin{bmatrix} 0.5 \\ -0.01 \end{bmatrix}u + w
  • 제약: x120,x23.2x_1 \leq 20, x_2 \geq -3.2
  • 섭동 분포: wN(0,2I2)w \sim \mathcal{N}(0, 2I_2)
  • 초기 상태 영역: X0:={x0R2:[12,12]x0[16,16]}X_0 := \{x_0 \in \mathbb{R}^2 : [12, 12] \leq x_0 \leq [16, 16]\}

2. 재고 제어

  • 시간 영역: T=5T = 5
  • 비용 계수: c1=10,c2=50,cB=5,cH=80c_1 = 10, c_2 = 50, c_B = 5, c_H = 80
  • 수요 분포: 절단 가우스 분포 N(5,3)\mathcal{N}(5,3) 지지집합 [1,10][1,10]
  • 초기 재고: X0=[1,5]X_0 = [1,5]

평가 지표

  • 평균 폐루프 비용
  • 제약 위반율
  • 비용 분포의 강건성

비교 방법

  1. W-DRC: 전통적 Wasserstein 분포 강건 제어
  2. E2E-Pointwise-DRC: 고정 초기 상태의 끝단간 학습 변형
  3. E2E-Regionwise-DRC: 본 논문에서 제안한 방법

실험 결과

주요 결과

수치 실험

방법평균 비용제약 위반율
W-DRC862.88%
E2E-Pointwise-DRC84.877.8%
E2E-Regionwise-DRC46.247.8%

본 논문의 방법은 전통적 방법 대비 비용을 90.2% 감소시키고, 학습 기준선 대비 45.5% 감소시켰다.

재고 제어

방법평균 비용
W-DRC808.48
E2E-Pointwise-DRC549.75
E2E-Regionwise-DRC397.90

본 논문의 방법은 전통적 방법 대비 비용을 50.8% 감소시키고, 학습 기준선 대비 27.6% 감소시켰다.

실험 발견

  1. 일관된 우월성: 모든 초기 상태에서 본 논문의 방법이 최저 비용을 달성
  2. 일반화 능력: 다중 초기 조건 훈련은 미지의 초기 상태에 대한 일반화 능력을 크게 향상
  3. 안전성 유지: 모든 방법이 제약 위반율을 10% 이하로 유지하는 안전 요구사항 충족

이론적 분석

통계적 보장

정리 1: 경량 꼬리 가정 하에서, 이방성 Wasserstein 모호 집합은 동일한 유한 표본 보장을 만족한다: PN{PBε(Λ)Λ(P^N)}{1c1exp(c2Nεmax{m,2}),ε11c1exp(c2Nεa),ε>1\mathbb{P}^N\{P \in \mathcal{B}_{\varepsilon(\Lambda)}^{\Lambda}(\hat{P}_N)\} \geq \begin{cases} 1-c_1\exp(-c_2N\varepsilon^{\max\{m,2\}}), & \varepsilon \leq 1 \\ 1-c_1\exp(-c_2N\varepsilon^a), & \varepsilon > 1 \end{cases}

수렴성 분석

정리 6: 적절한 가정 하에서, 알고리즘은 외층 문제의 Clarke 정상점으로 수렴하며 일반화된 KKT 조건을 만족한다.

정리 8: 지수 수렴율을 수립한다: Prob{d(τN,Φ)ϵ}c(ϵ)eβ(ϵ)N\text{Prob}\{d(\tau_N, \Phi^*) \geq \epsilon\} \leq c(\epsilon)e^{-\beta(\epsilon)N}

관련 연구

분포 강건 제어

  • 모멘트 정보 기반 DRC 방법
  • Wasserstein DRC의 발전 및 MPC, 강화학습에서의 응용

끝단간 제어

  • 명목 끝단간 제어 방법
  • 강건 끝단간 제어의 안전 메커니즘

본 논문은 Wasserstein DRC를 끝단간 학습과 결합한 최초의 연구로, 이 교차 분야의 공백을 메운다.

결론 및 논의

주요 결론

  1. 최초의 끝단간 Wasserstein DRC 프레임워크 제안 성공
  2. 이방성 모호 집합의 통계적 유효성을 이론적으로 보장
  3. 다양한 제어 작업에서의 우월한 성능을 실험적으로 검증

한계

  1. 현재 프레임워크는 선형 시스템으로 제한됨
  2. 알고리즘의 계산 복잡도가 높음
  3. 통계적 성질을 보장하기 위해 충분한 훈련 데이터 필요

향후 방향

  1. 비선형 시스템으로의 확장
  2. 보다 효율적인 해결 알고리즘 개발
  3. 온라인 학습 및 적응적 업데이트 메커니즘 탐색

심층 평가

장점

  1. 이론적 엄밀성: 통계적 보장, 연속성, 수렴성을 포함한 완전한 이론적 분석 제공
  2. 방법의 혁신성: 끝단간 학습과 Wasserstein DRC를 최초로 결합
  3. 실험의 충분성: 수치 및 실제 제어 문제에서 유효성 검증
  4. 실용적 가치: 안전 제약을 유지하면서 제어 성능을 크게 향상

부족점

  1. 계산 복잡도: 쌍층 최적화 구조가 계산 부담을 증가
  2. 적용 범위: 현재 선형 시스템에만 적용 가능
  3. 매개변수 민감성: 알고리즘 성능이 초매개변수에 민감할 수 있음

영향력

본 연구는 분포 강건 제어 분야에 새로운 방향을 개척하며, 제어 이론과 기계학습의 교차 연구에 중요한 영향을 미칠 것이다. 그 끝단간 학습 개념은 다른 강건 제어 문제로 일반화될 수 있다.

적용 시나리오

  • 불확실성을 갖는 선형 제어 시스템
  • 다양한 운영 조건에서 성능 유지가 필요한 응용
  • 안전성 요구사항이 높은 제어 작업

참고문헌

논문은 분포 강건 최적화, 모델 예측 제어, 강화학습 등 다양한 분야의 중요 연구 45편을 인용하여 견고한 이론적 기초를 제공한다.