We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
- 논문 ID: 2007.13103
- 제목: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- 저자: Nicole Bäuerle, Alexander Glauner
- 분류: math.OC (수학 최적화 및 제어), q-fin.RM (정량 금융 위험 관리)
- 발표 시간: 2020년 7월 26일
- 논문 링크: https://arxiv.org/abs/2007.13103
본 논문은 보렐 상태 및 행동 공간, 무한 비용 및 유한 시간 범위를 갖는 견고한 마르코프 결정 과정을 연구한다. 이 문제는 자연과의 스택엘베르그 게임으로 모델링된다. 적분성, 연속성 및 컴팩트성 가정 하에서, 저자들은 결정자의 고정 전략 하에서의 견고한 비용 반복과 견고한 최적화 문제의 값 반복을 도출한다. 또한 양측 모두에 대해 결정론적 최적 전략이 존재함을 증명하며, 이는 고전적 영합 게임과 대조된다. 상태 공간이 실수 직선일 때, 특정 볼록성 가정 하에서 시온 극소극대 정리를 활용하여 상한과 하한의 교환이 가능하다. 논문은 또한 특수 모호 집합의 경우를 고려하며, 특히 견고한 최적화 문제가 상관 위험 측도 최소화와 일치하는 경우를 도출한다.
전통적인 마르코프 결정 과정(MDP)은 모든 매개변수와 분포가 알려져 있거나 정확하게 추정될 수 있다고 가정한다. 그러나 실제 응용에서 실제 매개변수 또는 분포가 가정에서 벗어날 때, 이러한 "최적" 전략을 사용하면 성능이 크게 저하될 수 있다.
- 모델 불확실성 문제: 현실에서 전이 확률은 종종 정확하게 얻을 수 없으며, 모델 모호성이 존재한다
- 위험 회피 요구: 엘스버그 역설은 결정자가 모호성 회피 경향을 보임을 시사한다
- 이론적 한계: 기존 견고한 MDP 연구는 주로 유한 상태 및 행동 공간으로 제한된다
- 응용 요구: 연속 상태 공간과 무한 비용 함수를 처리하는 실제 문제가 필요하다
- 대부분의 연구는 가산 또는 유한 상태 및 행동 공간으로 제한된다
- 연속 공간과 무한 비용 처리가 부족하다
- 위험 측도와의 연결이 충분하지 않다
- 결정론적 최적 전략 존재성에 대한 증명이 부족하다
- 이론 프레임워크 확장: 기존 견고한 MDP 이론을 가산 공간에서 보렐 공간으로 확장하여 무한 비용 함수 처리
- 게임 이론 모델링: 문제를 스택엘베르그 게임으로 모델링하며, 자연은 추종자, 결정자는 지도자
- 최적 전략 존재성: 양측의 결정론적 최적 전략 존재성 증명, 고전적 영합 게임과 다름
- 극값 교환 조건: 볼록성 가정 하에서 시온 극소극대 정리를 활용하여 상한과 하한의 교환 실현
- 위험 측도 연결: 특수 모호 집합 하에서 견고한 최적화와 상관 위험 측도의 동등성 확립
- 실제 응용: 견고한 LQ 문제와 재생 에너지 관리 두 가지 응용 사례 제공
유한 시간 범위 N을 갖는 마르코프 결정 과정 고려:
- 상태 공간: E (보렐 공간)
- 행동 공간: A (보렐 공간)
- 전이 함수: Tn:Dn×Z→E
- 비용 함수: cn:Dn×E→R
- 교란: Z1,…,ZN 독립 무작위 원소
목표는 최악의 경우 기댓값 비용을 최소화하는 것:
V0(x)=infπ∈ΠRsupγ∈ΓV0πγ(x)
모호 집합 Qn⊆Mq(Ωn,An,Pn) 정의, 여기서:
- Mq(Ωn,An,Pn): Pn에 대해 절대 연속인 확률 측도 집합
- 약*위상 σ(Lq,Lp) 부여, 여기서 p1+q1=1
- 결정자: 전략 π=(π0,π1,…,πN−1) 선택
- 자연: 결정자의 행동 관찰 후 γ=(γ0,…,γN−1) 선택
- 정보 구조: 자연은 추종자이며 결정자의 행동을 관찰 가능
가정 조건 하에서, 값 함수는 벨만 방정식을 만족:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)
여기서:
Lnv(x,a,Q)=∫cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)
리더의 측정 가능 선택 정리를 활용하여 연속 공간에서의 측도 문제 처리, 최적 전략의 존재성 보장
약*위상 σ(Lq,Lp)를 약 수렴 위상 대신 채택하여 재귀적 위험 측도와의 연결 용이
상한 및 하한 함수 bˉ와 b 도입하여 무한 비용 처리, 값 함수의 적절한 정의 보장
볼록 모델 가정 하에서 시온 극소극대 정리를 활용하여 다음 실현:
infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
가정 2.1과 3.1 하에서:
- 견고한 전략 값 Vnπ(hn)은 측정 가능하며 재귀 관계를 만족
- 모호 집합이 약*폐쇄적이면, 자연의 최적 결정 규칙이 존재
- 결정론적 마르코프 전략만 고려하면 충분: Vn(hn)=Jn(xn)
- Jn∈B이고 벨만 방정식을 만족
- 결정자의 마르코프 최적 전략이 존재
볼록 모델에서:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
볼록 모델이고 모호 집합이 약*폐쇄적인 조건 하에서, 내시 균형 전략 쌍이 존재
모호 집합이 특수 구조를 가질 때, 견고한 최적화는 스펙트럼 위험 측도 최적화와 동등:
ρϕ(X)=supY∈QdE[XY]
여기서 ϕ는 스펙트럼 함수
법 불변 모호 집합 하에서, 문제는 다음과 같이 재작성 가능:
infπ∈ΠMρ(∑n=0N−1cn(Xn,dn(Xn),Xn+1)+cN(XN))
선형 이차 문제 고려:
- 상태 공간: E=R, 행동 공간: A=Rd
- 전이 함수: Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1
- 비용 함수: cn(x,a)=x2Qn+aTRna
- 독립성 가정 하에서, 자연의 최적 전략은 상태에 무관
- 시온 정리를 통해 극값 교환 가능하여 해결 단순화
- EQ[UnVn]=0을 선택 가능할 때, 최적 제어는 dn∗(x)=0
풍력 발전과 에너지 저장 연합 시설 관리:
- 상태: 배터리 저장량 x∈[0,K]
- 행동: 예측 발전량 a∈[0,B]
- 보상: Pa (P>0은 전기 가격)
- 페널티: 부족 시 비율 c>0으로 페널티
Jn(x)=infa∈D(x)supQ∈Q{−aP+∫aBJn+1((x+z−a)∧K)Q(dz)+∫0a[(P+c)(x+z−a)−+Jn+1((x+z−a)+)]Q(dz)}
- Iyengar (2005): 직사각형성 조건 하에서 견고한 MDP 최초 제안
- Nilim & El Ghaoui (2005): 유한 상태 공간의 동시대 연구
- Wiesemann et al. (2013): 신뢰 영역 방법
- Xu & Mannor (2010): 중첩 불확실 집합
- 공간 확장: 유한/가산에서 일반 보렐 공간으로 확장
- 비용 처리: 무한 비용 함수 허용
- 전략 특성: 결정론적 최적 전략 존재성 증명
- 이론 깊이: 위험 측도와의 심층 연결 확립
- 견고한 MDP 이론을 연속 공간과 무한 비용 상황으로 성공적으로 확장
- 완전한 값 반복 이론과 최적 전략 존재성 확립
- 견고한 최적화와 위험 측도의 심층 연결 규명
- 실용적인 해결 방법과 응용 사례 제공
- 가정 조건: 강한 적분성, 연속성 및 컴팩트성 가정 필요
- 볼록성 요구: 극값 교환은 모델의 볼록성 구조 필요
- 계산 복잡성: 연속 공간에서의 상한 계산은 여전히 어려움
- 모호 집합 선택: 실제 응용에서 모호 집합의 합리적 구성은 영역 지식 필요
- 알고리즘 개발: 효율적인 수치 해결 알고리즘 설계
- 가정 완화: 더 일반적인 조건 하에서의 이론 결과 탐색
- 응용 확대: 금융, 운영 연구 등 분야의 구체적 응용
- 학습 결합: 온라인 학습 및 적응형 방법과 결합
- 이론적 기여 현저: 견고한 MDP의 적용 범위를 근본적으로 확장
- 방법 엄밀: 깊은 측도론 및 함수 분석 이론 활용
- 구조 명확: 기본 가정에서 주요 정리까지 논리 맥락 명확
- 연결 심층: 최적화 이론과 위험 관리의 다리 구축
- 응용 가치: 실제 사용 가능한 모델링 프레임워크 제공
- 기술적 진입 장벽: 완전히 이해하려면 강한 수학 배경 필요
- 계산 도전: 이론 결과에서 실제 계산까지 거리 존재
- 가정 제한: 일부 가정은 실제 응용에서 만족하기 어려울 수 있음
- 수치 검증 부족: 대규모 수치 실험 검증 부족
- 학술 가치: 견고한 최적화와 위험 관리에 중요한 이론적 기초 제공
- 응용 전망: 금융 위험 관리, 에너지 시스템 등 분야에 광범위한 응용 가능
- 방법론 기여: 스택엘베르그 게임 모델링이 관련 문제에 새로운 사고 제공
- 후속 연구: 추가 이론 발전 및 알고리즘 설계의 기초 마련
- 금융 공학: 포트폴리오 최적화, 위험 관리
- 에너지 시스템: 재생 에너지 조정, 에너지 저장 관리
- 공급망 관리: 수요 불확실성 하의 재고 관리
- 운영 연구: 자원 배분, 생산 계획
논문은 75편의 관련 문헌을 인용하며, 주요 내용은 다음을 포함:
- Iyengar (2005): 견고한 동적 계획법의 기초 연구
- Sion (1958): 극소극대 정리의 고전 결과
- Bäuerle & Rieder (2011): 마르코프 결정 과정 전문서
- Epstein & Schneider (2003): 재귀적 다중 선험 이론
- Ruszczyński (2010): 위험 회피 동적 계획법
종합 평가: 이는 견고한 최적화와 마르코프 결정 과정의 교차 분야에서 중요한 기여를 한 고품질 이론 논문이다. 기술성이 높지만, 해당 분야의 이론 발전과 실제 응용을 위한 견고한 기초를 제공한다.