2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

재귀적 위험 측도를 갖는 마르코프 결정 과정

기본 정보

논문 ID: 2010.07220
제목: Markov Decision Processes with Recursive Risk Measures
저자: Nicole Bäuerle, Alexander Glauner
분류: math.OC (최적화 및 제어), q-fin.RM (정량 금융 - 위험 관리)
발표 시간: 2020년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2010.07220

초록

본 논문은 보렐 상태 및 동작 공간과 무한 비용을 갖는 위험 민감 마르코프 결정 과정(MDPs)을 연구하며, 유한 및 무한 계획 지평을 포함한다. 최적화 기준은 정적 위험 측도의 재귀적 적용을 기반으로 한다. 이 방법은 경제학 문헌의 재귀적 효용에서 영감을 받았으며, 이전에 엔트로피 위험 측도에서 연구되었으나, 본 논문은 이를 위험 측도의 공리적 특성화에 적합한 범위로 확장한다. 논문은 벨만 방정식을 도출하고 마르코프 최적 정책의 존재성을 증명한다. 무한 계획 지평의 경우, 모델은 축약적임이 증명되고 최적 정책은 정상적이다. 또한 분포 강건 MDPs와의 연결을 확립하여 재귀적으로 정의된 목적 함수에 대한 전역 해석을 제공한다.

연구 배경 및 동기

문제 배경

전통적인 마르코프 결정 과정 이론은 제어된 동적 시스템의 기대 할인 비용을 유한 또는 무한 시간 지평에서 최소화하는 데 초점을 맞춘다. 그러나 단순한 기댓값은 현금 흐름 관리와 같은 응용 분야에서 특히 중요한 결정의 실제 위험을 반영하지 못한다.

연구 동기

위험 민감성 필요성: 금융 및 보험 분야에서 의사결정자는 단순 기댓값보다 동적 효용을 사용하여 성과를 평가하는 것을 선호한다
시간 일관성: 기존의 동적 위험 측도 이론은 유일한 시간 일관적 위험 측도가 정적 위험 측도를 반복하는 방법임을 나타낸다
이론 완성: 특정 엔트로피 위험 측도에만 국한되지 않고 일반적인 위험 측도에 대한 완전한 이론 프레임워크가 필요하다

기존 방법의 한계

대부분의 연구는 유한 확률변수 또는 특정 위험 측도 유형에 국한된다
일부 방법은 간접적인 위험 측도 성질 가정이 필요하다
일반 보렐 공간 및 무한 비용 함수에 대한 체계적 처리가 부족하다

핵심 기여

이론 프레임워크 확장: 재귀적 위험 측도의 MDP 이론을 엔트로피 위험 측도에서 일반적인 공리적 위험 측도로 확장
벨만 방정식 도출: 재귀적 위험 측도 MDP에 대한 벨만 방정식을 도출하고 마르코프 최적 정책의 존재성 증명
축약성 증명: 무한 지평 모델의 축약성 및 정상 최적 정책의 존재성 증명
분포 강건성 연결: 분포 강건 MDPs와의 이론적 연결 확립으로 재귀적 목적 함수의 전역 해석 제공
단조 모델 분석: 단조 성질을 갖는 특수 모델에 대한 심층 연구로 연속성 가정 완화

방법 상세 설명

작업 정의

상태 공간 E와 동작 공간 A가 보렐 공간인 마르코프 결정 과정을 고려하며, 여기서:

상태 전이는 측정 가능한 전이 함수 $T_n: D_n \times Z \to E$ 로 주어진다
1단계 비용 함수 $c_n: D_n \times E \to \mathbb{R}$
최종 비용 함수 $c_N: E \to \mathbb{R}$

재귀적 위험 측도 프레임워크

위험 측도 성질

논문은 다음 성질을 갖는 위험 측도 $\rho: L^p \to \overline{\mathbb{R}}$ 를 고려한다:

통화성: 단조성 및 이동 불변성
일관성: 양의 동차성 및 부분가법성
Fatou 성질: 제어된 수렴에 관한 하반연속성

재귀적 가치 정의

정책 $\pi = (d_0, \ldots, d_{N-1})$ 에 대해 재귀적으로 가치 함수를 정의한다: $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

기술적 혁신점

1. 전역 경계 함수 방법

전역 상한 및 하한 함수의 개념을 제시하며, 이는 기존의 국소 경계 함수보다 재귀적 위험 측도에 더 적합하다:

보조정리 4.3: 적절한 일관적 위험 측도에 대해, 다음을 만족하는 국소 경계 함수가 존재하면: $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

전역 경계 함수는 $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ 이다.

2. 벨만 방정식

정리 4.7: 적절한 가정 하에서 가치 함수는 벨만 방정식을 만족한다: $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$