2025-11-13T03:28:10.622967

Distributionally Robust Markov Decision Processes and their Connection to Risk Measures

BÃ¤uerle, Glauner

We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.

academic

分布的にロバストなマルコフ決定過程とリスク測度との関連性

基本情報

論文ID: 2007.13103
タイトル: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
著者: Nicole Bäuerle, Alexander Glauner
分類: math.OC（数学最適化と制御）、q-fin.RM（定量金融リスク管理）
発表日: 2020年7月26日
論文リンク: https://arxiv.org/abs/2007.13103

要旨

本論文は、ボレル状態空間と行動空間、無界費用、有限時間範囲を有するロバストなマルコフ決定過程を研究している。この問題は自然との対抗的なスタッケルベルグゲームとしてモデル化される。可積性、連続性、コンパクト性の仮定の下で、著者は決定者の固定戦略下でのロバスト費用反復と、ロバスト最適化問題の値反復を導出している。さらに、両者に確定的最適戦略が存在することを証明し、これは古典的ゼロサムゲームと対照をなす。状態空間が実数直線である場合、特定の凸性仮定の下で、シオンの極小極大定理を利用して上限と下限の交換が可能になる。論文はまた特殊な曖昧集合の場合を考察し、特にロバスト最適化問題が相関リスク測度の最小化と一致する場合を導出している。

研究背景と動機

問題背景

従来のマルコフ決定過程（MDP）は、すべてのパラメータと分布が既知であるか、正確に推定可能であると仮定している。しかし実際の応用では、真のパラメータまたは分布が仮定から逸脱する場合、このような「最適」戦略を使用すると性能が著しく低下する可能性がある。

研究動機

モデル不確実性の問題：現実の遷移確率は正確に得られず、モデル曖昧性が存在する
リスク回避の必要性：エルスバーグのパラドックスは、決定者が曖昧性回避傾向を示すことを示唆している
理論的限界：既存のロバストMDP研究は主に有限状態と行動空間に限定されている
応用上の必要性：連続状態空間と無界費用関数を扱う実際の問題に対応する必要がある

既存方法の限界

ほとんどの研究は可算または有限の状態・行動空間に限定されている
連続空間と無界費用の処理が不足している
リスク測度との関連性が十分に深掘りされていない
確定的最適戦略の存在性の証明が不足している

核心的貢献

理論的枠組みの拡張：既存のロバストMDP理論を可算空間からボレル空間に拡張し、無界費用関数を処理
ゲーム理論的モデリング：問題をスタッケルベルグゲームとしてモデル化し、自然をフォロワー、決定者をリーダーとして位置付け
最適戦略の存在性：両者の確定的最適戦略の存在性を証明し、古典的ゼロサムゲームと異なることを示す
極値交換条件：凸性仮定の下で、シオン極小極大定理を利用して上限と下限の交換を実現
リスク測度との関連性：特殊な曖昧集合下でのロバスト最適化と相関リスク測度の等価性を確立
実用的応用：ロバストLQ問題と再生可能エネルギー管理の2つの応用例を提供

方法論の詳細

タスク定義

有限時間範囲Nのマルコフ決定過程を考察：

状態空間：E（ボレル空間）
行動空間：A（ボレル空間）
遷移関数： $T_n: D_n \times Z \to E$
費用関数： $c_n: D_n \times E \to \mathbb{R}$
摂動： $Z_1, \ldots, Z_N$ は独立確率要素

目標は最悪ケースの期待費用を最小化すること： $V_0(x) = \inf_{\pi \in \Pi^R} \sup_{\gamma \in \Gamma} V_0^{\pi\gamma}(x)$

モデルアーキテクチャ

1. 曖昧集合のモデリング

曖昧集合 $\mathcal{Q}_n \subseteq M_q(\Omega_n, \mathcal{A}_n, P_n)$ を定義：

$M_q(\Omega_n, \mathcal{A}_n, P_n)$ ： $P_n$ に関して絶対連続な確率測度の集合
弱*位相 $\sigma(L^q, L^p)$ を付与、ただし $\frac{1}{p} + \frac{1}{q} = 1$

2. スタッケルベルグゲーム構造

決定者：戦略 $\pi = (\pi_0, \pi_1, \ldots, \pi_{N-1})$ を選択
自然：決定者の行動を観察した後、 $\gamma = (\gamma_0, \ldots, \gamma_{N-1})$ を選択
情報構造：自然はフォロワーであり、決定者の行動を観察可能

3. 値関数の再帰関係

仮定条件の下で、値関数はベルマン方程式を満たす： $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q)$

ここで： $L_n v(x,a,Q) = \int c_n(x,a,T_n(x,a,z)) + v(T_n(x,a,z)) \, Q(dz)$

技術的革新点

1. 可測選択定理の応用

リーダーの可測選択定理を利用して連続空間における測度性の問題を処理し、最適戦略の存在性を確保

2. 弱*位相の処理

弱*位相 $\sigma(L^q, L^p)$ を採用し、弱収束位相ではなく、再帰的リスク測度との関連性を確立しやすくする

3. 境界関数技術

上下境界関数 $\bar{b}$ と $\underline{b}$ を導入して無界費用を処理し、値関数の適切な定義を確保

4. 凸性分析

凸モデル仮定の下で、シオン極小極大定理を利用して以下を実現： $\inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$