2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

Bäuerle, Glauner
In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.
academic

Processus de Décision Markoviens avec Mesures de Risque Récursives

Informations Fondamentales

  • ID de l'article: 2010.07220
  • Titre: Markov Decision Processes with Recursive Risk Measures
  • Auteurs: Nicole Bäuerle, Alexander Glauner
  • Classification: math.OC (Optimisation et Contrôle), q-fin.RM (Finance Quantitative - Gestion des Risques)
  • Date de publication: 14 octobre 2020 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2010.07220

Résumé

Cet article étudie les processus de décision markoviens (PDM) sensibles au risque avec espaces d'états et d'actions de Borel et coûts non bornés, couvrant les horizons de planification finis et infinis. Le critère d'optimisation repose sur l'application récursive de mesures de risque statiques. Cette approche s'inspire des utilités récursives dans la littérature économique et a été précédemment étudiée pour les mesures de risque entropiques. L'article l'étend aux mesures de risque satisfaisant des caractérisations axiomatiques appropriées. Les auteurs déduisent l'équation de Bellman et prouvent l'existence de stratégies markoviennes optimales. Pour l'horizon de planification infini, le modèle s'avère être une contraction et la stratégie optimale est stationnaire. De plus, une connexion est établie avec les PDM robustes en distribution, fournissant une interprétation globale pour les fonctions objectif définies récursivement.

Contexte et Motivation de la Recherche

Contexte du Problème

La théorie classique des processus de décision markoviens se concentre sur la minimisation du coût actualisé attendu d'un système dynamique contrôlé sur un horizon temporel fini ou infini. Cependant, l'espérance simple ne reflète pas le véritable risque d'une décision, ce qui est particulièrement important dans des applications telles que la gestion des flux de trésorerie.

Motivation de la Recherche

  1. Besoin de sensibilité au risque: Dans les domaines financier et assurantiel, les décideurs préfèrent utiliser des utilités dynamiques pour évaluer les performances plutôt que de simples espérances
  2. Cohérence temporelle: La théorie existante des mesures de risque dynamiques indique que les seules mesures de risque temporellement cohérentes sont celles qui itèrent les mesures de risque statiques
  3. Perfectionnement théorique: Nécessité d'établir un cadre théorique complet pour les mesures de risque générales, au-delà des seules mesures de risque entropiques

Limitations des Approches Existantes

  • La plupart des recherches se limitent aux variables aléatoires bornées ou à des types spécifiques de mesures de risque
  • Certaines approches nécessitent des hypothèses indirectes sur les propriétés des mesures de risque
  • Absence de traitement systématique des espaces de Borel généraux et des fonctions de coût non bornées

Contributions Principales

  1. Extension du cadre théorique: Extension de la théorie des PDM avec mesures de risque récursives des mesures de risque entropiques aux mesures de risque axiomatiques générales
  2. Déduction de l'équation de Bellman: Déduction de l'équation de Bellman pour les PDM avec mesures de risque récursives et preuve de l'existence de stratégies markoviennes optimales
  3. Preuve de contraction: Démonstration de la propriété de contraction du modèle à horizon infini et existence de stratégies optimales stationnaires
  4. Connexion avec la robustesse distributionnelle: Établissement de liens théoriques avec les PDM robustes en distribution, fournissant une interprétation globale des fonctions objectif récursives
  5. Analyse des modèles monotones: Étude approfondie de modèles spéciaux possédant des propriétés de monotonie, relâchant les hypothèses de continuité

Détails Méthodologiques

Définition de la Tâche

Considérons un processus de décision markovien où l'espace d'états E et l'espace d'actions A sont des espaces de Borel, avec:

  • Les transitions d'état données par une fonction de transition mesurable Tn:Dn×ZET_n: D_n \times Z \to E
  • Fonction de coût d'une étape cn:Dn×ERc_n: D_n \times E \to \mathbb{R}
  • Fonction de coût terminal cN:ERc_N: E \to \mathbb{R}

Cadre des Mesures de Risque Récursives

Propriétés des Mesures de Risque

L'article considère les mesures de risque ρ:LpR\rho: L^p \to \overline{\mathbb{R}} possédant les propriétés suivantes:

  • Monétarité: Monotonie et invariance par translation
  • Cohérence: Homogénéité positive et sous-additivité
  • Propriété de Fatou: Semi-continuité inférieure relative à la convergence contrôlée

Définition Récursive de la Valeur

Pour une stratégie π=(d0,,dN1)\pi = (d_0, \ldots, d_{N-1}), la fonction de valeur est définie récursivement: VNπ(hN)=cN(xN)V_N^\pi(h_N) = c_N(x_N)Vnπ(hn)=ρn(cn(xn,dn(hn),Tn(xn,dn(hn),Zn+1))+Vn+1π())V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)

Points d'Innovation Technique

1. Méthode des Fonctions Limites Globales

Introduction du concept de fonctions limites supérieures et inférieures globales, plus appropriées pour les mesures de risque récursives que les fonctions limites locales traditionnelles:

Lemme 4.3: Pour une mesure de risque cohérente appropriée, s'il existe une fonction limite locale satisfaisant: ρn(cn(x,a,Tn(x,a,Zn+1)))b(x)\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)ρn(b(Tn(x,a,Zn+1)))αb(x)\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)

alors la fonction limite globale est B=11αb\underline{B} = \frac{1}{1-\alpha}\underline{b}.

2. Équation de Bellman

Théorème 4.7: Sous les hypothèses appropriées, la fonction de valeur satisfait l'équation de Bellman: JN(x)=cN(x)J_N(x) = c_N(x)Jn(x)=TnJn+1(x)=infaDn(x)ρn(cn(x,a,Tn(x,a,Zn+1))+Jn+1(Tn(x,a,Zn+1)))J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))

3. Propriété de Contraction

Lemme 5.4: L'opérateur de Bellman TT est une contraction de module αβ\alpha\beta sur l'intervalle I=[B,B]I = [\underline{B}, \overline{B}].

Configuration Expérimentale

Vérification Théorique

L'article valide principalement la méthode par analyse théorique et exemples mathématiques plutôt que par des expériences numériques à grande échelle.

Cas d'Application

  1. Myopie de la Value-at-Risk: Preuve que la stratégie optimale sous le critère VaR est myope dans les modèles monotones
  2. Problèmes d'arrêt: Démonstration de la préservation de la structure de stratégie à seuil
  3. Jeux de casino: Analyse des stratégies de pari optimales
  4. Problème d'équilibre de trésorerie: Preuve de l'optimalité de la stratégie (S⁻, S⁺)

Résultats Expérimentaux

Résultats Théoriques Principaux

Horizon Fini

  • Preuve de l'existence de stratégies markoviennes optimales
  • Établissement de l'équation de Bellman récursive
  • Semi-continuité inférieure de la fonction de valeur

Horizon Infini

  • Théorème 5.5:
    • La fonction de valeur limite est l'unique point fixe de l'opérateur de Bellman
    • Existence d'une stratégie optimale stationnaire
    • Le modèle possède la propriété de contraction avec module αβ<1\alpha\beta < 1

Résultats pour Cas Spéciaux

Cas de Coûts Bornés

Corollaire 5.6: Lorsque le coût d'une étape est borné, toute mesure de risque monétaire normalisée possédant la propriété de Fatou s'applique.

Modèles Monotones

Proposition 7.5: Sous les hypothèses de monotonie, on peut relâcher l'exigence de cohérence de la mesure de risque, ne nécessitant que l'additivité comono-tone.

Analyse de Cas

Myopie de la Value-at-Risk

Dans les modèles monotones, lorsque la fonction de coût ne dépend pas de l'action: Jn(x)=infaD(x)h(VaRα(T(x,a,Z)))J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z)))hh est une fonction croissante et semi-continue inférieurement, conduisant à une stratégie optimale stationnaire et myope.

Problème d'Équilibre de Trésorerie

Préservation des propriétés structurelles du PDM classique:

  • Existence de niveaux critiques SS^- et S+S^+
  • Stratégie optimale de forme (S,S+)(S^-, S^+)
  • Préservation de la convexité de la fonction de valeur

Travaux Connexes

Théorie des Mesures de Risque Dynamiques

  • Epstein & Schneider (2003): Modèles récursifs multi-priors
  • Riedel (2004): Mesures de risque dynamiquement cohérentes
  • Shapiro (2012): Théorie de la cohérence temporelle

PDM Sensibles au Risque

  • Ruszczyński (2010): Approche axiomatique, limitée aux variables aléatoires bornées
  • Shen et al. (2013): Méthode des applications de risque
  • Chu & Zhang (2014): Mesures de risque cohérentes, nécessitant l'existence de limites

Applications de Mesures de Risque Spécifiques

  • Asienkiewicz & Jaśkiewicz (2017): Mesures de risque entropiques
  • Bäuerle & Jaśkiewicz (2017, 2018): Applications financières

Conclusion et Discussion

Conclusions Principales

  1. L'application récursive de mesures de risque statiques fournit un cadre théorique unifié pour les PDM sensibles au risque
  2. Sous les hypothèses appropriées, une théorie complète de Bellman peut être établie
  3. Les modèles monotones permettent un relâchement significatif des hypothèses techniques
  4. La connexion avec les PDM robustes en distribution fournit une interprétation globale

Limitations

  1. Hypothèses techniques: Nécessité d'hypothèses relativement complexes sur les fonctions limites globales
  2. Complexité computationnelle: L'article ne discute pas suffisamment des méthodes de calcul numérique
  3. Vérification empirique: Absence d'expériences numériques à grande échelle validant les résultats théoriques

Directions Futures

  1. Développement d'algorithmes numériques efficaces
  2. Étude de classes plus générales de mesures de risque
  3. Exploration d'algorithmes d'apprentissage dans des environnements sensibles au risque

Évaluation Approfondie

Points Forts

  1. Rigueur théorique: Fourniture d'un cadre mathématique complet avec preuves rigoureuses
  2. Généralité: Applicable à une gamme plus large de mesures de risque et de configurations de modèles comparé aux travaux existants
  3. Innovativité: La méthode des fonctions limites globales et la connexion avec les PDM robustes en distribution sont innovantes
  4. Préservation de structure: Démonstration que de nombreuses propriétés structurelles des PDM classiques subsistent dans le cas sensible au risque

Insuffisances

  1. Aspect computationnel: Absence d'algorithmes concrets et de méthodes numériques
  2. Applications pratiques: Orientation fortement théorique avec cas d'application réelle relativement limités
  3. Conditions d'hypothèses: Certaines hypothèses techniques peuvent être difficiles à vérifier dans les applications pratiques

Impact

  1. Contribution théorique: Fourniture d'une base théorique solide pour les PDM sensibles au risque
  2. Valeur méthodologique: La méthode des mesures de risque récursives peut influencer les directions de recherche dans les domaines connexes
  3. Signification interdisciplinaire: Connexion entre la recherche opérationnelle, les mathématiques financières et la théorie des probabilités

Scénarios d'Application

  1. Ingénierie financière: Optimisation de portefeuille, gestion des risques
  2. Actuariat assurantiel: Gestion des provisions, stratégies de réassurance
  3. Gestion de la chaîne d'approvisionnement: Décisions sensibles au risque sous incertitude
  4. Gestion de l'énergie: Programmation électrique et tarification considérant le risque

Références Bibliographiques

L'article cite 34 références importantes couvrant la théorie des mesures de risque, les processus de décision markoviens, la programmation dynamique et d'autres domaines fondamentaux, fournissant une base théorique solide pour la recherche.


Évaluation Globale: Cet article de haute qualité apporte des contributions importantes au domaine des processus de décision markoviens sensibles au risque. Bien qu'orienté vers l'analyse théorique, il pose des fondations importantes pour le développement futur du domaine.