2025-11-13T03:28:10.622967

Distributionally Robust Markov Decision Processes and their Connection to Risk Measures

BÃ¤uerle, Glauner

We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.

academic

분포적으로 견고한 마르코프 결정 과정과 위험 측도와의 연결

기본 정보

논문 ID: 2007.13103
제목: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
저자: Nicole Bäuerle, Alexander Glauner
분류: math.OC (수학 최적화 및 제어), q-fin.RM (정량 금융 위험 관리)
발표 시간: 2020년 7월 26일
논문 링크: https://arxiv.org/abs/2007.13103

초록

본 논문은 보렐 상태 및 행동 공간, 무한 비용 및 유한 시간 범위를 갖는 견고한 마르코프 결정 과정을 연구한다. 이 문제는 자연과의 스택엘베르그 게임으로 모델링된다. 적분성, 연속성 및 컴팩트성 가정 하에서, 저자들은 결정자의 고정 전략 하에서의 견고한 비용 반복과 견고한 최적화 문제의 값 반복을 도출한다. 또한 양측 모두에 대해 결정론적 최적 전략이 존재함을 증명하며, 이는 고전적 영합 게임과 대조된다. 상태 공간이 실수 직선일 때, 특정 볼록성 가정 하에서 시온 극소극대 정리를 활용하여 상한과 하한의 교환이 가능하다. 논문은 또한 특수 모호 집합의 경우를 고려하며, 특히 견고한 최적화 문제가 상관 위험 측도 최소화와 일치하는 경우를 도출한다.

연구 배경 및 동기

문제 배경

전통적인 마르코프 결정 과정(MDP)은 모든 매개변수와 분포가 알려져 있거나 정확하게 추정될 수 있다고 가정한다. 그러나 실제 응용에서 실제 매개변수 또는 분포가 가정에서 벗어날 때, 이러한 "최적" 전략을 사용하면 성능이 크게 저하될 수 있다.

연구 동기

모델 불확실성 문제: 현실에서 전이 확률은 종종 정확하게 얻을 수 없으며, 모델 모호성이 존재한다
위험 회피 요구: 엘스버그 역설은 결정자가 모호성 회피 경향을 보임을 시사한다
이론적 한계: 기존 견고한 MDP 연구는 주로 유한 상태 및 행동 공간으로 제한된다
응용 요구: 연속 상태 공간과 무한 비용 함수를 처리하는 실제 문제가 필요하다

기존 방법의 한계

대부분의 연구는 가산 또는 유한 상태 및 행동 공간으로 제한된다
연속 공간과 무한 비용 처리가 부족하다
위험 측도와의 연결이 충분하지 않다
결정론적 최적 전략 존재성에 대한 증명이 부족하다

핵심 기여

이론 프레임워크 확장: 기존 견고한 MDP 이론을 가산 공간에서 보렐 공간으로 확장하여 무한 비용 함수 처리
게임 이론 모델링: 문제를 스택엘베르그 게임으로 모델링하며, 자연은 추종자, 결정자는 지도자
최적 전략 존재성: 양측의 결정론적 최적 전략 존재성 증명, 고전적 영합 게임과 다름
극값 교환 조건: 볼록성 가정 하에서 시온 극소극대 정리를 활용하여 상한과 하한의 교환 실현
위험 측도 연결: 특수 모호 집합 하에서 견고한 최적화와 상관 위험 측도의 동등성 확립
실제 응용: 견고한 LQ 문제와 재생 에너지 관리 두 가지 응용 사례 제공

방법 상세 설명

작업 정의

유한 시간 범위 N을 갖는 마르코프 결정 과정 고려:

상태 공간: E (보렐 공간)
행동 공간: A (보렐 공간)
전이 함수: $T_n: D_n \times Z \to E$
비용 함수: $c_n: D_n \times E \to \mathbb{R}$
교란: $Z_1, \ldots, Z_N$ 독립 무작위 원소

목표는 최악의 경우 기댓값 비용을 최소화하는 것: $V_0(x) = \inf_{\pi \in \Pi^R} \sup_{\gamma \in \Gamma} V_0^{\pi\gamma}(x)$

모델 아키텍처

1. 모호 집합 모델링

모호 집합 $\mathcal{Q}_n \subseteq M_q(\Omega_n, \mathcal{A}_n, P_n)$ 정의, 여기서:

$M_q(\Omega_n, \mathcal{A}_n, P_n)$ : $P_n$ 에 대해 절대 연속인 확률 측도 집합
약*위상 $\sigma(L^q, L^p)$ 부여, 여기서 $\frac{1}{p} + \frac{1}{q} = 1$

2. 스택엘베르그 게임 구조

결정자: 전략 $\pi = (\pi_0, \pi_1, \ldots, \pi_{N-1})$ 선택
자연: 결정자의 행동 관찰 후 $\gamma = (\gamma_0, \ldots, \gamma_{N-1})$ 선택
정보 구조: 자연은 추종자이며 결정자의 행동을 관찰 가능

3. 값 함수 재귀 관계

가정 조건 하에서, 값 함수는 벨만 방정식을 만족: $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q)$

여기서: $L_n v(x,a,Q) = \int c_n(x,a,T_n(x,a,z)) + v(T_n(x,a,z)) \, Q(dz)$

기술 혁신점

1. 측정 가능 선택 정리 적용

리더의 측정 가능 선택 정리를 활용하여 연속 공간에서의 측도 문제 처리, 최적 전략의 존재성 보장

2. 약*위상 처리

약*위상 $\sigma(L^q, L^p)$ 를 약 수렴 위상 대신 채택하여 재귀적 위험 측도와의 연결 용이

3. 경계 함수 기법

상한 및 하한 함수 $\bar{b}$ 와 $\underline{b}$ 도입하여 무한 비용 처리, 값 함수의 적절한 정의 보장

4. 볼록성 분석

볼록 모델 가정 하에서 시온 극소극대 정리를 활용하여 다음 실현: $\inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$

주요 이론 결과

정리 3.6: 견고한 전략 값 반복

가정 2.1과 3.1 하에서:

견고한 전략 값 $V_n^\pi(h_n)$ 은 측정 가능하며 재귀 관계를 만족
모호 집합이 약*폐쇄적이면, 자연의 최적 결정 규칙이 존재

정리 3.10: 최적 전략 존재성

결정론적 마르코프 전략만 고려하면 충분: $V_n(h_n) = J_n(x_n)$
$J_n \in B$ 이고 벨만 방정식을 만족
결정자의 마르코프 최적 전략이 존재

정리 5.2: 극값 교환

볼록 모델에서: $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$

정리 5.5: 내시 균형 존재성

볼록 모델이고 모호 집합이 약*폐쇄적인 조건 하에서, 내시 균형 전략 쌍이 존재

위험 측도 연결

스펙트럼 위험 측도 표현

모호 집합이 특수 구조를 가질 때, 견고한 최적화는 스펙트럼 위험 측도 최적화와 동등: $\rho_\phi(X) = \sup_{Y \in \mathcal{Q}_d} E[XY]$

여기서 $\phi$ 는 스펙트럼 함수

상관 위험 측도

법 불변 모호 집합 하에서, 문제는 다음과 같이 재작성 가능: $\inf_{\pi \in \Pi^M} \rho\left(\sum_{n=0}^{N-1} c_n(X_n, d_n(X_n), X_{n+1}) + c_N(X_N)\right)$

실험 응용

응용 1: 견고한 LQ 문제

선형 이차 문제 고려:

상태 공간: $E = \mathbb{R}$ , 행동 공간: $A = \mathbb{R}^d$
전이 함수: $T_n(x,a,Z_{n+1}) = U_{n+1}x + V_{n+1}^T a + W_{n+1}$
비용 함수: $c_n(x,a) = x^2 Q_n + a^T R_n a$

주요 발견

독립성 가정 하에서, 자연의 최적 전략은 상태에 무관
시온 정리를 통해 극값 교환 가능하여 해결 단순화
$E^Q[U_n V_n] = 0$ 을 선택 가능할 때, 최적 제어는 $d_n^*(x) = 0$

응용 2: 재생 에너지 관리

풍력 발전과 에너지 저장 연합 시설 관리:

상태: 배터리 저장량 $x \in [0,K]$
행동: 예측 발전량 $a \in [0,B]$
보상: $Pa$ ( $P > 0$ 은 전기 가격)
페널티: 부족 시 비율 $c > 0$ 으로 페널티

벨만 방정식

$J_n(x) = \inf_{a \in D(x)} \sup_{Q \in \mathcal{Q}} \left\{-aP + \int_a^B J_{n+1}((x+z-a) \wedge K) Q(dz) + \int_0^a [(P+c)(x+z-a)^- + J_{n+1}((x+z-a)^+)] Q(dz)\right\}$