Minimizing Spectral Risk Measures Applied to Markov Decision Processes
Bäuerle, Glauner
We study the minimization of a spectral risk measure of the total discounted cost generated by a Markov Decision Process (MDP) over a finite or infinite planning horizon. The MDP is assumed to have Borel state and action spaces and the cost function may be unbounded above. The optimization problem is split into two minimization problems using an infimum representation for spectral risk measures. We show that the inner minimization problem can be solved as an ordinary MDP on an extended state space and give sufficient conditions under which an optimal policy exists. Regarding the infinite dimensional outer minimization problem, we prove the existence of a solution and derive an algorithm for its numerical approximation. Our results include the findings in Bäuerle and Ott (2011) in the special case that the risk measure is Expected Shortfall. As an application, we present a dynamic extension of the classical static optimal reinsurance problem, where an insurance company minimizes its cost of capital.
본 논문은 유한 또는 무한 계획 지평선 하에서 마르코프 의사결정 과정(MDP)에서 발생하는 총 할인 비용의 스펙트럼 위험 측도 최소화를 연구한다. MDP는 보렐 상태 및 행동 공간을 가정하며, 비용 함수는 위쪽으로 무한할 수 있다. 스펙트럼 위험 측도의 하한 표현을 사용하여 최적화 문제를 두 개의 최소화 문제로 분해한다. 저자들은 내층 최소화 문제를 확장 상태 공간에서 일반 MDP로 해결할 수 있음을 증명하고, 최적 정책 존재의 충분 조건을 제시한다. 무한 차원 외층 최소화 문제에 대해 해의 존재성을 증명하고 수치 근사 알고리즘을 도출한다. 위험 측도가 기댓값 부족(Expected Shortfall)일 때, 결과는 Bäuerle과 Ott(2011)의 발견을 포함한다. 응용으로서, 고전적 정적 최적 재보험 문제의 동적 확장을 제시한다.
Bäuerle, N. and Ott, J. (2011). Markov decision processes with Average-Value-at-Risk criteria
Rockafellar, R. T. and Uryasev, S. (2000). Optimization of Conditional Value-at-Risk
Pichler, A. (2015). Premiums and reserves, adjusted by distortions
McNeil, A. J., Frey, R., and Embrechts, P. (2015). Quantitative Risk Management
종합 평가: 이는 위험 민감 마르코프 의사결정 과정 분야에서 중요한 기여를 한 고품질의 이론 논문이다. 논문은 이론적으로 엄밀하고 방법론적으로 혁신적이며, 실제 위험 관리 문제에 가치 있는 도구를 제공한다. 수치 실험 측면에서 다소 부족하지만, 이론적 가치와 방법론적 기여로 인해 해당 분야의 중요한 문헌이 되었다.