We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- 论文ID: 2007.13103
- 标题: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- 作者: Nicole Bäuerle, Alexander Glauner
- 分类: math.OC (数学优化与控制), q-fin.RM (定量金融风险管理)
- 发表时间: 2020年7月26日
- 论文链接: https://arxiv.org/abs/2007.13103
本文研究了具有Borel状态和行动空间、无界成本和有限时间范围的鲁棒马尔科夫决策过程。该问题被建模为与自然对抗的Stackelberg博弈。在可积性、连续性和紧致性假设下,作者推导出了决策者固定策略下的鲁棒成本迭代和鲁棒优化问题的值迭代。此外,证明了双方都存在确定性最优策略,这与经典零和博弈形成对比。当状态空间为实数线时,在某些凸性假设下,利用Sion极小极大定理可以实现上确界和下确界的交换。文章还考虑了特殊模糊集的情况,特别是推导出鲁棒优化问题与相干风险度量最小化重合的情形。
传统的马尔科夫决策过程(MDP)假设所有参数和分布都是已知或可以精确估计的。然而,在实际应用中,当真实参数或分布偏离假设时,使用这种"最优"策略可能导致性能显著退化。
- 模型不确定性问题:现实中转移概率往往无法精确获得,存在模型模糊性(model ambiguity)
- 风险厌恶需求:Ellsberg悖论表明决策者倾向于模糊性厌恶
- 理论局限性:现有鲁棒MDP研究主要限制在有限状态和行动空间
- 应用需求:需要处理连续状态空间和无界成本函数的实际问题
- 大多数研究局限于可数或有限的状态和行动空间
- 缺乏对连续空间和无界成本的处理
- 与风险度量的联系不够深入
- 缺乏对确定性最优策略存在性的证明
- 扩展理论框架:将现有鲁棒MDP理论从可数空间扩展到Borel空间,处理无界成本函数
- 博弈理论建模:将问题建模为Stackelberg博弈,自然作为跟随者,决策者作为领导者
- 最优策略存在性:证明了双方确定性最优策略的存在性,这与经典零和博弈不同
- 极值交换条件:在凸性假设下,利用Sion极小极大定理实现上确界和下确界的交换
- 风险度量联系:建立了特殊模糊集下鲁棒优化与相干风险度量的等价性
- 实际应用:提供了鲁棒LQ问题和可再生能源管理两个应用实例
考虑有限时间范围N的马尔科夫决策过程:
- 状态空间:E (Borel空间)
- 行动空间:A (Borel空间)
- 转移函数:Tn:Dn×Z→E
- 成本函数:cn:Dn×E→R
- 扰动:Z1,…,ZN独立随机元素
目标是最小化最坏情况下的期望成本:
V0(x)=infπ∈ΠRsupγ∈ΓV0πγ(x)
定义模糊集Qn⊆Mq(Ωn,An,Pn),其中:
- Mq(Ωn,An,Pn):关于Pn绝对连续的概率测度集
- 赋予弱*拓扑σ(Lq,Lp),其中p1+q1=1
- 决策者:选择策略π=(π0,π1,…,πN−1)
- 自然:观察决策者行动后选择γ=(γ0,…,γN−1)
- 信息结构:自然是跟随者,可观察到决策者的行动
在假设条件下,值函数满足Bellman方程:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)
其中:
Lnv(x,a,Q)=∫cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)
利用Rieder的可测选择定理处理连续空间中的测度性问题,确保最优策略的存在性。
采用弱*拓扑σ(Lq,Lp)而非弱收敛拓扑,便于建立与递归风险度量的联系。
引入上下边界函数bˉ和b处理无界成本,确保值函数的良定义性。
在凸模型假设下,利用Sion极小极大定理实现:
infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
在假设2.1和3.1下:
- 鲁棒策略值Vnπ(hn)是可测的,满足递归关系
- 若模糊集弱*闭,则存在自然的最优决策规则
- 足以考虑确定性马尔科夫策略:Vn(hn)=Jn(xn)
- Jn∈B且满足Bellman方程
- 存在决策者的马尔科夫最优策略
在凸模型中:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
在凸模型且模糊集弱*闭的条件下,存在Nash均衡策略对。
当模糊集具有特殊结构时,鲁棒优化等价于谱风险度量优化:
ρϕ(X)=supY∈QdE[XY]
其中ϕ为谱函数。
在法不变模糊集下,问题可重写为:
infπ∈ΠMρ(∑n=0N−1cn(Xn,dn(Xn),Xn+1)+cN(XN))
考虑线性二次问题:
- 状态空间:E=R,行动空间:A=Rd
- 转移函数:Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1
- 成本函数:cn(x,a)=x2Qn+aTRna
- 在独立性假设下,自然的最优策略不依赖于状态
- 可通过Sion定理交换极值,简化求解
- 当可选择EQ[UnVn]=0时,最优控制为dn∗(x)=0
风力发电与储能联合设施管理:
- 状态:电池储能量x∈[0,K]
- 行动:预告发电量a∈[0,B]
- 奖励:Pa(P>0为电价)
- 惩罚:短缺时按比例c>0惩罚
Jn(x)=infa∈D(x)supQ∈Q{−aP+∫aBJn+1((x+z−a)∧K)Q(dz)+∫0a[(P+c)(x+z−a)−+Jn+1((x+z−a)+)]Q(dz)}
- Iyengar (2005):首次提出矩形性条件下的鲁棒MDP
- Nilim & El Ghaoui (2005):有限状态空间的同期工作
- Wiesemann et al. (2013):置信区域方法
- Xu & Mannor (2010):嵌套不确定集
- 空间扩展:从有限/可数扩展到一般Borel空间
- 成本处理:允许无界成本函数
- 策略性质:证明确定性最优策略存在性
- 理论深度:建立与风险度量的深层联系
- 成功将鲁棒MDP理论扩展到连续空间和无界成本情形
- 建立了完整的值迭代理论和最优策略存在性
- 揭示了鲁棒优化与风险度量的深层联系
- 提供了实用的求解方法和应用范例
- 假设条件:需要较强的可积性、连续性和紧致性假设
- 凸性要求:极值交换需要模型具有凸性结构
- 计算复杂性:连续空间中的supremum计算仍然困难
- 模糊集选择:实际应用中模糊集的合理构造需要领域知识
- 算法开发:设计高效的数值求解算法
- 假设放松:探索更一般条件下的理论结果
- 应用拓展:在金融、运筹等领域的具体应用
- 学习结合:与在线学习和自适应方法结合
- 理论贡献显著:从根本上扩展了鲁棒MDP的适用范围
- 方法严谨:运用了深厚的测度论和函数分析理论
- 结构清晰:从基础假设到主要定理,逻辑脉络清楚
- 联系深刻:建立了优化理论与风险管理的桥梁
- 应用价值:提供了实际可用的建模框架
- 技术门槛高:需要较强的数学背景才能完全理解
- 计算挑战:理论结果到实际计算仍有距离
- 假设限制:某些假设在实际应用中可能难以满足
- 数值验证不足:缺乏大规模数值实验验证
- 学术价值:为鲁棒优化和风险管理提供了重要理论基础
- 应用前景:在金融风险管理、能源系统等领域有广阔应用
- 方法论贡献:Stackelberg博弈建模为相关问题提供了新思路
- 后续研究:为进一步的理论发展和算法设计奠定基础
- 金融工程:投资组合优化、风险管理
- 能源系统:可再生能源调度、储能管理
- 供应链管理:需求不确定下的库存控制
- 运营研究:资源分配、生产计划
论文引用了75篇相关文献,主要包括:
- Iyengar (2005): 鲁棒动态规划的奠基工作
- Sion (1958): 极小极大定理的经典结果
- Bäuerle & Rieder (2011): 马尔科夫决策过程专著
- Epstein & Schneider (2003): 递归多先验理论
- Ruszczyński (2010): 风险厌恶动态规划
总体评价:这是一篇高质量的理论论文,在鲁棒优化和马尔科夫决策过程交叉领域做出了重要贡献。虽然技术性较强,但为该领域的理论发展和实际应用提供了坚实基础。