2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

Bäuerle, Glauner
In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.
academic

Markov Decision Processes with Recursive Risk Measures

基本信息

  • 论文ID: 2010.07220
  • 标题: Markov Decision Processes with Recursive Risk Measures
  • 作者: Nicole Bäuerle, Alexander Glauner
  • 分类: math.OC (Optimization and Control), q-fin.RM (Quantitative Finance - Risk Management)
  • 发表时间: 2020年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2010.07220

摘要

本文研究了具有Borel状态和动作空间以及无界成本的风险敏感马尔可夫决策过程(MDPs),涵盖有限和无限规划视界。优化准则基于静态风险度量的递归应用。这一方法受经济学文献中递归效用的启发,之前已在熵风险度量中得到研究,本文将其扩展到适合风险度量的公理化特征。文章推导了Bellman方程并证明了马尔可夫最优策略的存在性。对于无限规划视界,模型被证明是收缩的,最优策略是平稳的。此外,建立了与分布鲁棒MDPs的联系,为递归定义的目标函数提供了全局解释。

研究背景与动机

问题背景

传统的马尔可夫决策过程理论关注最小化受控动态系统在有限或无限时间视界上的期望折扣成本。然而,简单的期望不能反映决策的真实风险,这在现金流管理等应用中尤为重要。

研究动机

  1. 风险敏感性需求: 在金融和保险等领域,决策者更偏好使用动态效用来评估绩效,而非简单期望
  2. 时间一致性: 现有的动态风险度量理论表明,唯一时间一致的风险度量是那些迭代静态风险度量的方法
  3. 理论完善: 需要为一般的风险度量建立完整的理论框架,而非仅限于特定的熵风险度量

现有方法的局限性

  • 大多数研究局限于有界随机变量或特定的风险度量类型
  • 一些方法需要间接的风险度量性质假设
  • 缺乏对一般Borel空间和无界成本函数的系统处理

核心贡献

  1. 理论框架扩展: 将递归风险度量的MDP理论从熵风险度量扩展到一般的公理化风险度量
  2. Bellman方程推导: 为递归风险度量MDP推导了Bellman方程并证明了马尔可夫最优策略的存在性
  3. 收缩性证明: 证明了无限视界模型的收缩性和平稳最优策略的存在性
  4. 分布鲁棒性联系: 建立了与分布鲁棒MDPs的理论联系,提供了递归目标函数的全局解释
  5. 单调模型分析: 对具有单调性质的特殊模型进行了深入研究,放宽了连续性假设

方法详解

任务定义

考虑状态空间E和动作空间A为Borel空间的马尔可夫决策过程,其中:

  • 状态转移由可测转移函数 Tn:Dn×ZET_n: D_n \times Z \to E 给出
  • 一阶段成本函数 cn:Dn×ERc_n: D_n \times E \to \mathbb{R}
  • 终端成本函数 cN:ERc_N: E \to \mathbb{R}

递归风险度量框架

风险度量性质

文章考虑具有以下性质的风险度量 ρ:LpR\rho: L^p \to \overline{\mathbb{R}}

  • 货币性: 单调性和平移不变性
  • 一致性: 正齐次性和次可加性
  • Fatou性质: 关于受控收敛的下半连续性

递归价值定义

对于策略 π=(d0,,dN1)\pi = (d_0, \ldots, d_{N-1}),递归定义价值函数: VNπ(hN)=cN(xN)V_N^\pi(h_N) = c_N(x_N)Vnπ(hn)=ρn(cn(xn,dn(hn),Tn(xn,dn(hn),Zn+1))+Vn+1π())V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)

技术创新点

1. 全局界函数方法

提出了全局上界和下界函数的概念,相比传统的局部界函数更适用于递归风险度量:

引理 4.3: 对于适当的一致风险度量,如果存在局部界函数满足: ρn(cn(x,a,Tn(x,a,Zn+1)))b(x)\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)ρn(b(Tn(x,a,Zn+1)))αb(x)\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)

则全局界函数为 B=11αb\underline{B} = \frac{1}{1-\alpha}\underline{b}

2. Bellman方程

定理 4.7: 在适当假设下,价值函数满足Bellman方程: JN(x)=cN(x)J_N(x) = c_N(x)Jn(x)=TnJn+1(x)=infaDn(x)ρn(cn(x,a,Tn(x,a,Zn+1))+Jn+1(Tn(x,a,Zn+1)))J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))

3. 收缩性质

引理 5.4: Bellman算子 TT 在区间 I=[B,B]I = [\underline{B}, \overline{B}] 上是模为 αβ\alpha\beta 的收缩映射。

实验设置

理论验证

文章主要通过理论分析和数学例子验证方法的有效性,而非大规模数值实验。

应用案例

  1. Value-at-Risk的短视性: 在单调模型中证明了VaR准则下的最优策略是短视的
  2. 停止问题: 展示了阈值策略结构的保持
  3. 赌场博弈: 分析了最优投注策略
  4. 现金平衡问题: 证明了(S⁻, S⁺)策略的最优性

实验结果

主要理论结果

有限视界

  • 证明了马尔可夫最优策略的存在性
  • 建立了递归Bellman方程
  • 价值函数具有下半连续性

无限视界

  • 定理 5.5:
    • 极限价值函数是Bellman算子的唯一不动点
    • 存在最优的平稳策略
    • 模型具有收缩性质,收缩模为 αβ<1\alpha\beta < 1

特殊情况结果

有界成本情况

推论 5.6: 当一阶段成本有界时,任何具有Fatou性质的正规化货币风险度量都适用。

单调模型

命题 7.5: 在单调假设下,可以放宽风险度量的一致性要求,仅需共单调可加性。

案例分析

Value-at-Risk短视性

在单调模型中,当成本函数不依赖于动作时: Jn(x)=infaD(x)h(VaRα(T(x,a,Z)))J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z))) 其中 hh 是递增的下半连续函数,导致最优策略是平稳且短视的。

现金平衡问题

保持了经典MDP中的结构性质:

  • 存在临界水平 SS^-S+S^+
  • 最优策略具有 (S,S+)(S^-, S^+) 形式
  • 价值函数保持凸性

相关工作

动态风险度量理论

  • Epstein & Schneider (2003): 递归多先验模型
  • Riedel (2004): 动态一致风险度量
  • Shapiro (2012): 时间一致性理论

风险敏感MDP

  • Ruszczyński (2010): 公理化方法,限于有界随机变量
  • Shen et al. (2013): 风险映射方法
  • Chu & Zhang (2014): 一致风险度量,需要极限存在性假设

特定风险度量应用

  • Asienkiewicz & Jaśkiewicz (2017): 熵风险度量
  • Bäuerle & Jaśkiewicz (2017, 2018): 金融应用

结论与讨论

主要结论

  1. 递归应用静态风险度量为风险敏感MDP提供了一个统一的理论框架
  2. 在适当的假设下,可以建立完整的Bellman理论
  3. 单调模型允许显著放宽技术假设
  4. 与分布鲁棒MDP的联系提供了全局解释

局限性

  1. 技术假设: 需要相对复杂的全局界函数假设
  2. 计算复杂性: 文章未充分讨论数值计算方法
  3. 实证验证: 缺乏大规模数值实验验证理论结果

未来方向

  1. 开发高效的数值算法
  2. 研究更一般的风险度量类别
  3. 探索学习算法在风险敏感环境中的应用

深度评价

优点

  1. 理论严谨性: 提供了完整的数学框架,证明严密
  2. 一般性: 相比现有工作,适用于更广泛的风险度量和模型设置
  3. 创新性: 全局界函数方法和与分布鲁棒MDP的联系具有创新性
  4. 结构保持: 证明了许多经典MDP的结构性质在风险敏感情况下仍然成立

不足

  1. 计算方面: 缺乏具体的算法和数值方法
  2. 实践应用: 理论性较强,实际应用案例相对有限
  3. 假设条件: 一些技术假设可能在实际应用中难以验证

影响力

  1. 理论贡献: 为风险敏感MDP提供了坚实的理论基础
  2. 方法论价值: 递归风险度量方法可能影响相关领域的研究方向
  3. 跨学科意义: 连接了运筹学、金融数学和概率论等多个领域

适用场景

  1. 金融工程: 投资组合优化、风险管理
  2. 保险精算: 准备金管理、再保险策略
  3. 供应链管理: 在不确定性下的风险敏感决策
  4. 能源管理: 考虑风险的电力调度和定价

参考文献

论文引用了34篇重要文献,涵盖了风险度量理论、马尔可夫决策过程、动态规划等核心领域的经典和前沿工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的理论论文,在风险敏感马尔可夫决策过程领域做出了重要贡献。虽然偏重理论分析,但为该领域的进一步发展奠定了重要基础。