We study the minimization of a spectral risk measure of the total discounted cost generated by a Markov Decision Process (MDP) over a finite or infinite planning horizon. The MDP is assumed to have Borel state and action spaces and the cost function may be unbounded above. The optimization problem is split into two minimization problems using an infimum representation for spectral risk measures. We show that the inner minimization problem can be solved as an ordinary MDP on an extended state space and give sufficient conditions under which an optimal policy exists. Regarding the infinite dimensional outer minimization problem, we prove the existence of a solution and derive an algorithm for its numerical approximation. Our results include the findings in Bäuerle and Ott (2011) in the special case that the risk measure is Expected Shortfall. As an application, we present a dynamic extension of the classical static optimal reinsurance problem, where an insurance company minimizes its cost of capital.
論文ID : 2012.04521タイトル : Minimizing Spectral Risk Measures Applied to Markov Decision Processes著者 : Nicole Bäuerle, Alexander Glauner分類 : math.OC(最適化と制御)、q-fin.RM(定量ファイナンス - リスク管理)発表日 : 2020年12月8日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2012.04521 本論文は、有限または無限計画地平線下において、マルコフ決定過程(MDP)が生成する総割引費用のスペクトラルリスク測度の最小化を研究している。MDPはボレル状態空間と行動空間を仮定し、費用関数は上方無界である可能性がある。スペクトラルリスク測度の下限表現を利用することで、最適化問題を2つの最小化問題に分解する。著者らは、内層の最小化問題が拡張状態空間上の通常のMDPとして解くことができることを証明し、最適政策の存在に関する十分条件を与える。無限次元の外層最小化問題に対しては、解の存在性を証明し、数値近似アルゴリズムを導出する。リスク測度が期待ショートフォール(Expected Shortfall)である場合、結果はBäuerleとOtt(2011)の発見を含む。応用として、古典的な静的最適再保険問題の動的拡張を提案する。
従来のマルコフ決定過程は通常、期待値基準を用いた最適化を採用しており、これはリスク中立的な意思決定者をモデル化している。しかし実際の応用では、意思決定者はしばしばリスク回避的であり、不確実性とリスク要因を考慮する必要がある。
リスク感応性の必要性 : 従来の期待値基準は高リスクの最適政策をもたらす可能性があり、実際の意思決定者のリスク選好と一致しない理論的空白 : 既存文献は主に再帰的リスク測度または特定のリスク測度(期待ショートフォールなど)に焦点を当てており、一般的なスペクトラルリスク測度の体系的研究が不足している実際の応用 : 保険、金融などの分野は、より精密なリスク管理ツールを必要としている再帰的リスク測度方法と総費用リスク測度方法は理論的に本質的に異なる 既存研究は主に有界費用関数または特定の可積分性仮定に限定されている 一般的なボレル状態空間と行動空間の処理が不足している 理論的枠組みの拡張 : スペクトラルリスク測度の最適化を期待ショートフォールから一般的なスペクトラルリスク測度クラスに拡張状態空間拡張方法 : 非線形リスク測度を処理するための状態空間拡張技術を提案存在性理論 : 内層および外層最適化問題の最適解の存在性を証明数値アルゴリズム : 外層無限次元最適化問題の有限次元近似アルゴリズムを開発実際の応用 : 動的最適再保険問題の新しい枠組みを提案MDP ( E , A , D n , T n , c n , Z n ) (E, A, D_n, T_n, c_n, Z_n) ( E , A , D n , T n , c n , Z n ) が与えられたとき、ここで:
E E E : ボレル状態空間A A A : ボレル行動空間D n D_n D n : 実行可能な状態-行動組合せT n T_n T n : 遷移関数c n c_n c n : 1段階費用関数Z n Z_n Z n : 確率的擾乱目標はスペクトラルリスク測度を最小化することである:
inf π ∈ Π ρ ϕ ( C N π x ) \inf_{\pi \in \Pi} \rho_\phi(C^{\pi x}_N) inf π ∈ Π ρ ϕ ( C N π x )
ここで C N π x = ∑ k = 0 N − 1 β k c k ( X k π , d k ( H k π ) , X k + 1 π ) + β N c N ( X N π ) C^{\pi x}_N = \sum_{k=0}^{N-1} \beta^k c_k(X^\pi_k, d_k(H^\pi_k), X^\pi_{k+1}) + \beta^N c_N(X^\pi_N) C N π x = ∑ k = 0 N − 1 β k c k ( X k π , d k ( H k π ) , X k + 1 π ) + β N c N ( X N π )
スペクトラルリスク測度の下限表現(命題2.6)を利用:
ρ ϕ ( X ) = inf g ∈ G { E [ g ( X ) ] + ∫ 0 1 g ∗ ( φ ( u ) ) d u } \rho_\phi(X) = \inf_{g \in G} \left\{ E[g(X)] + \int_0^1 g^*(φ(u)) du \right\} ρ ϕ ( X ) = inf g ∈ G { E [ g ( X )] + ∫ 0 1 g ∗ ( φ ( u )) d u }
元の問題を以下に分解:
内層問題 : inf π ∈ Π E [ g ( C π x ) ] \inf_{\pi \in \Pi} E[g(C^{\pi x})] inf π ∈ Π E [ g ( C π x )] (g g g 固定)外層問題 : inf g ∈ G { inf π ∈ Π E [ g ( C π x ) ] + ∫ 0 1 g ∗ ( φ ( u ) ) d u } \inf_{g \in G} \left\{ \inf_{\pi \in \Pi} E[g(C^{\pi x})] + \int_0^1 g^*(φ(u)) du \right\} inf g ∈ G { inf π ∈ Π E [ g ( C π x )] + ∫ 0 1 g ∗ ( φ ( u )) d u } 元の状態空間 E E E を E ^ = E × R + × ( 0 , ∞ ) \hat{E} = E \times \mathbb{R}_+ \times (0,∞) E ^ = E × R + × ( 0 , ∞ ) に拡張:
( x , s , t ) (x, s, t) ( x , s , t ) : x x x は元の状態、s s s は累積費用、t t t は割引因子遷移関数は以下となる:
T ^ n ( x , s , t , a , z ) = ( T n ( x , a , z ) s + t c n ( x , a , T n ( x , a , z ) ) β t ) \hat{T}_n(x, s, t, a, z) = \begin{pmatrix} T_n(x, a, z) \\ s + tc_n(x, a, T_n(x, a, z)) \\ βt \end{pmatrix} T ^ n ( x , s , t , a , z ) = T n ( x , a , z ) s + t c n ( x , a , T n ( x , a , z )) βt
拡張状態空間上で、値関数は以下を満たす:
J N ( x , s , t ) = g ( s + t c N ( x ) ) J_N(x, s, t) = g(s + tc_N(x)) J N ( x , s , t ) = g ( s + t c N ( x )) J n ( x , s , t ) = T n J n + 1 ( x , s , t ) = inf a ∈ D n ( x ) E [ J n + 1 ( T ^ n ( x , s , t , a , Z n + 1 ) ) ] J_n(x, s, t) = T_nJ_{n+1}(x, s, t) = \inf_{a \in D_n(x)} E[J_{n+1}(\hat{T}_n(x, s, t, a, Z_{n+1}))] J n ( x , s , t ) = T n J n + 1 ( x , s , t ) = inf a ∈ D n ( x ) E [ J n + 1 ( T ^ n ( x , s , t , a , Z n + 1 ))]
非線形費用の処理 : 状態空間拡張により非線形最適化を線形MDPに変換一般的なスペクトラルリスク測度 : すべてのスペクトラルリスク測度を統一的に処理し、期待ショートフォールのみに限定されない仮定条件の緩和 : 費用関数が下方有界であることのみを要求し、上界または可積分性の仮定は不要単調性モデル : 実数直線状態空間上で連続性を半連続性に置き換え本論文は主に理論的研究であり、厳密な数学的証明により方法の有効性を検証:
存在性証明 : 内層および外層問題の最適解の存在性を証明収束性分析 : 有限次元近似アルゴリズムの収束性を証明誤差界 : 数値近似の誤差上界を提供区分線形近似 : 区分線形関数で g ∈ G g \in G g ∈ G を近似誤差界 : ∣ inf g ∈ G ^ K m ( g ) − inf g ∈ G ^ K ( g ) ∣ ≤ 2 φ ( 1 ) c ^ m − 1 \left|\inf_{g \in \hat{G}} K_m(g) - \inf_{g \in \hat{G}} K(g)\right| \leq 2φ(1)\frac{\hat{c}}{m-1} inf g ∈ G ^ K m ( g ) − inf g ∈ G ^ K ( g ) ≤ 2 φ ( 1 ) m − 1 c ^ 拡張状態空間上の最適マルコフ政策の存在性を証明 値関数のベルマン方程式を確立 有限および無限地平線の場合の統一的処理を提供 外層最適化問題の解の存在性を証明 関数空間 ( G , m ) (G, m) ( G , m ) のコンパクト性を確立 値関数の g g g に関する下半連続性を証明 有限次元近似の誤差界を提供 収束速度は O ( 1 / m ) O(1/m) O ( 1/ m ) (m m m は区分数) 動的最適再保険問題において:
モデル設定 : 保険会社の盈余動態 X n + 1 = X n + Z n + 1 − f n ( Y n + 1 ) − π R ( f n ) X_{n+1} = X_n + Z_{n+1} - f_n(Y_{n+1}) - π_R(f_n) X n + 1 = X n + Z n + 1 − f n ( Y n + 1 ) − π R ( f n ) 目標 : 資本費用の最小化 inf π r C o C ⋅ ρ φ ( ∑ k = 0 N − 1 β k ( d k ( H k π ) ( Y k + 1 ) + π R ( d k ( H k π ) ) − Z k + 1 ) ) \inf_\pi r_{CoC} \cdot \rho_φ(\sum_{k=0}^{N-1} β^k(d_k(H^\pi_k)(Y_{k+1}) + π_R(d_k(H^\pi_k)) - Z_{k+1})) inf π r C o C ⋅ ρ φ ( ∑ k = 0 N − 1 β k ( d k ( H k π ) ( Y k + 1 ) + π R ( d k ( H k π )) − Z k + 1 )) 構造的性質 : 凸性仮定下で、止損再保険契約の最適性を証明再帰的方法 : Ruszczyński (2010), Chu and Zhang (2014)総費用方法 : Bäuerle and Ott (2011), Chow et al. (2015)数値方法 : Chow and Ghavamzadeh (2014), Tamar et al. (2015)一般的なスペクトラルリスク測度を統一的に処理 モデル仮定条件を緩和 完全な理論的枠組みと数値アルゴリズムを提供 スペクトラルリスク測度最適化問題を処理可能な内外層問題に成功裏に分解 より弱い仮定下での最適政策の存在性を証明 実用的な数値近似アルゴリズムを開発 動的再保険における方法の実際的価値を実証 計算複雑性 : 外層最適化は依然として無限次元問題であり、計算コストが高い仮定の制限 : ボレル空間構造と特定の連続性/単調性仮定が必要数値精度 : 区分線形近似は特定の状況では精度が不足する可能性があるより効率的な数値アルゴリズムの開発 より一般的なリスク測度クラスへの拡張 大規模状態空間の近似方法の研究 より多くの実際的応用分野の探索 理論的厳密性 : 数学的証明が完全で論理が明確方法の革新性 : 状態空間拡張技術が巧妙で問題分解が自然汎用性 : 広範なスペクトラルリスク測度クラスを統一的に処理実用的価値 : 実装可能な数値アルゴリズムと実際の応用を提供計算複雑性 : 外層最適化の計算複雑性が依然として高い実験的検証 : 大規模数値実験によるアルゴリズム性能の検証が不足比較分析 : 既存方法との詳細な性能比較が不足理論的貢献 : リスク感応的MDPに新しい理論的枠組みを提供方法論的価値 : 状態空間拡張技術は他の非線形最適化問題に推広可能応用前景 : 金融リスク管理分野で重要な実用的価値を有する金融投資ポートフォリオ最適化 保険商品設計 サプライチェーンリスク管理 エネルギーシステム計画 リスク選好を考慮する必要があるあらゆる逐次決定問題 本論文は主に以下の重要文献を参照:
Bäuerle, N. and Ott, J. (2011). Markov decision processes with Average-Value-at-Risk criteria Rockafellar, R. T. and Uryasev, S. (2000). Optimization of Conditional Value-at-Risk Pichler, A. (2015). Premiums and reserves, adjusted by distortions McNeil, A. J., Frey, R., and Embrechts, P. (2015). Quantitative Risk Management 総合評価 : これは高品質な理論論文であり、リスク感応的マルコフ決定過程の分野に重要な貢献をしている。論文は理論的に厳密で、方法が革新的であり、実際のリスク管理問題に価値のあるツールを提供している。数値実験の面で不足がある一方で、その理論的価値と方法論的貢献により、本論文は当該分野の重要な文献となっている。