2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

Markov Decision Processes with Recursive Risk Measures

基本信息

论文ID: 2010.07220
标题: Markov Decision Processes with Recursive Risk Measures
作者: Nicole Bäuerle, Alexander Glauner
分类: math.OC (Optimization and Control), q-fin.RM (Quantitative Finance - Risk Management)
发表时间: 2020年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2010.07220

摘要

本文研究了具有Borel状态和动作空间以及无界成本的风险敏感马尔可夫决策过程(MDPs)，涵盖有限和无限规划视界。优化准则基于静态风险度量的递归应用。这一方法受经济学文献中递归效用的启发，之前已在熵风险度量中得到研究，本文将其扩展到适合风险度量的公理化特征。文章推导了Bellman方程并证明了马尔可夫最优策略的存在性。对于无限规划视界，模型被证明是收缩的，最优策略是平稳的。此外，建立了与分布鲁棒MDPs的联系，为递归定义的目标函数提供了全局解释。

研究背景与动机

问题背景

传统的马尔可夫决策过程理论关注最小化受控动态系统在有限或无限时间视界上的期望折扣成本。然而，简单的期望不能反映决策的真实风险，这在现金流管理等应用中尤为重要。

研究动机

风险敏感性需求: 在金融和保险等领域，决策者更偏好使用动态效用来评估绩效，而非简单期望
时间一致性: 现有的动态风险度量理论表明，唯一时间一致的风险度量是那些迭代静态风险度量的方法
理论完善: 需要为一般的风险度量建立完整的理论框架，而非仅限于特定的熵风险度量

现有方法的局限性

大多数研究局限于有界随机变量或特定的风险度量类型
一些方法需要间接的风险度量性质假设
缺乏对一般Borel空间和无界成本函数的系统处理

核心贡献

理论框架扩展: 将递归风险度量的MDP理论从熵风险度量扩展到一般的公理化风险度量
Bellman方程推导: 为递归风险度量MDP推导了Bellman方程并证明了马尔可夫最优策略的存在性
收缩性证明: 证明了无限视界模型的收缩性和平稳最优策略的存在性
分布鲁棒性联系: 建立了与分布鲁棒MDPs的理论联系，提供了递归目标函数的全局解释
单调模型分析: 对具有单调性质的特殊模型进行了深入研究，放宽了连续性假设

方法详解

任务定义

考虑状态空间E和动作空间A为Borel空间的马尔可夫决策过程，其中：

状态转移由可测转移函数 $T_n: D_n \times Z \to E$ 给出
一阶段成本函数 $c_n: D_n \times E \to \mathbb{R}$
终端成本函数 $c_N: E \to \mathbb{R}$

递归风险度量框架

风险度量性质

文章考虑具有以下性质的风险度量 $\rho: L^p \to \overline{\mathbb{R}}$ ：

货币性: 单调性和平移不变性
一致性: 正齐次性和次可加性
Fatou性质: 关于受控收敛的下半连续性

递归价值定义

对于策略 $\pi = (d_0, \ldots, d_{N-1})$ ，递归定义价值函数： $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

技术创新点

1. 全局界函数方法

提出了全局上界和下界函数的概念，相比传统的局部界函数更适用于递归风险度量：

引理 4.3: 对于适当的一致风险度量，如果存在局部界函数满足： $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

则全局界函数为 $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ 。

2. Bellman方程

定理 4.7: 在适当假设下，价值函数满足Bellman方程： $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$