2025-11-13T03:28:10.622967

Distributionally Robust Markov Decision Processes and their Connection to Risk Measures

Bäuerle, Glauner
We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
academic

Processus de Décision Markoviens Robustes en Distribution et leur Connexion aux Mesures de Risque

Informations Fondamentales

  • ID de l'article : 2007.13103
  • Titre : Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
  • Auteurs : Nicole Bäuerle, Alexander Glauner
  • Classification : math.OC (Optimisation et Contrôle Mathématiques), q-fin.RM (Gestion des Risques en Finance Quantitative)
  • Date de Publication : 26 juillet 2020
  • Lien de l'article : https://arxiv.org/abs/2007.13103

Résumé

Cet article étudie les processus de décision markoviens robustes avec espaces d'état et d'action de Borel, coûts non bornés et horizon temporel fini. Le problème est modélisé comme un jeu de Stackelberg contre la nature. Sous des hypothèses d'intégrabilité, continuité et compacité, les auteurs déduisent l'itération des coûts robustes pour une stratégie fixe du décideur et l'itération des valeurs pour le problème d'optimisation robuste. De plus, il est démontré que des stratégies optimales déterministes existent pour les deux parties, ce qui contraste avec les jeux à somme nulle classiques. Lorsque l'espace d'état est la droite réelle, sous certaines hypothèses de convexité, l'échange des supremum et infimum est réalisé en utilisant le théorème minimax de Sion. L'article considère également des cas d'ensembles d'ambiguïté spécialisés, dérivant notamment les situations où le problème d'optimisation robuste coïncide avec la minimisation de mesures de risque cohérentes.

Contexte et Motivation de la Recherche

Contexte du Problème

Les processus de décision markoviens (PDM) traditionnels supposent que tous les paramètres et distributions sont connus ou peuvent être estimés avec précision. Cependant, dans les applications pratiques, l'utilisation de cette stratégie « optimale » peut entraîner une dégradation significative des performances lorsque les véritables paramètres ou distributions s'écartent des hypothèses.

Motivation de la Recherche

  1. Problème d'incertitude du modèle : Les probabilités de transition réelles ne peuvent souvent pas être obtenues avec précision, il existe une ambiguïté du modèle
  2. Besoin d'aversion au risque : Le paradoxe d'Ellsberg montre que les décideurs ont tendance à être averses à l'ambiguïté
  3. Limitations théoriques : La recherche existante sur les PDM robustes se limite principalement aux espaces d'état et d'action finis
  4. Besoins applicatifs : Nécessité de traiter les espaces d'état continus et les fonctions de coût non bornées dans les problèmes pratiques

Limitations des Approches Existantes

  • La plupart des recherches se limitent aux espaces d'état et d'action dénombrables ou finis
  • Manque de traitement des espaces continus et des coûts non bornés
  • Connexion insuffisante avec les mesures de risque
  • Absence de preuve de l'existence de stratégies optimales déterministes

Contributions Principales

  1. Extension du Cadre Théorique : Extension de la théorie des PDM robustes existante des espaces dénombrables aux espaces de Borel, traitement des fonctions de coût non bornées
  2. Modélisation par Théorie des Jeux : Modélisation du problème comme un jeu de Stackelberg, la nature comme suiveur, le décideur comme leader
  3. Existence de Stratégies Optimales : Preuve de l'existence de stratégies optimales déterministes pour les deux parties, ce qui diffère des jeux à somme nulle classiques
  4. Conditions d'Échange des Valeurs Extrêmes : Sous des hypothèses de convexité, réalisation de l'échange des supremum et infimum en utilisant le théorème minimax de Sion
  5. Connexion aux Mesures de Risque : Établissement de l'équivalence entre l'optimisation robuste et les mesures de risque cohérentes sous des ensembles d'ambiguïté spécialisés
  6. Applications Pratiques : Fourniture de deux exemples d'application : un problème LQ robuste et la gestion des énergies renouvelables

Détail des Méthodes

Définition de la Tâche

Considérons un processus de décision markovien avec horizon temporel fini N :

  • Espace d'état : E (espace de Borel)
  • Espace d'action : A (espace de Borel)
  • Fonction de transition : Tn:Dn×ZET_n: D_n \times Z \to E
  • Fonction de coût : cn:Dn×ERc_n: D_n \times E \to \mathbb{R}
  • Perturbations : Z1,,ZNZ_1, \ldots, Z_N éléments aléatoires indépendants

L'objectif est de minimiser le coût espéré dans le pire cas : V0(x)=infπΠRsupγΓV0πγ(x)V_0(x) = \inf_{\pi \in \Pi^R} \sup_{\gamma \in \Gamma} V_0^{\pi\gamma}(x)

Architecture du Modèle

1. Modélisation de l'Ensemble d'Ambiguïté

Définition de l'ensemble d'ambiguïté QnMq(Ωn,An,Pn)\mathcal{Q}_n \subseteq M_q(\Omega_n, \mathcal{A}_n, P_n), où :

  • Mq(Ωn,An,Pn)M_q(\Omega_n, \mathcal{A}_n, P_n) : ensemble des mesures de probabilité absolument continues par rapport à PnP_n
  • Doté de la topologie faible* σ(Lq,Lp)\sigma(L^q, L^p), où 1p+1q=1\frac{1}{p} + \frac{1}{q} = 1

2. Structure du Jeu de Stackelberg

  • Décideur : choisit la stratégie π=(π0,π1,,πN1)\pi = (\pi_0, \pi_1, \ldots, \pi_{N-1})
  • Nature : observe les actions du décideur puis choisit γ=(γ0,,γN1)\gamma = (\gamma_0, \ldots, \gamma_{N-1})
  • Structure informationnelle : la nature est un suiveur, peut observer les actions du décideur

3. Relations de Récurrence des Fonctions de Valeur

Sous les hypothèses, la fonction de valeur satisfait l'équation de Bellman : Jn(x)=infaDn(x)supQQn+1LnJn+1(x,a,Q)J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q)

où : Lnv(x,a,Q)=cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)L_n v(x,a,Q) = \int c_n(x,a,T_n(x,a,z)) + v(T_n(x,a,z)) \, Q(dz)

Points d'Innovation Technique

1. Application du Théorème de Sélection Mesurable

Utilisation du théorème de sélection mesurable de Rieder pour traiter les problèmes de mesurabilité dans les espaces continus, assurant l'existence de stratégies optimales.

2. Traitement de la Topologie Faible*

Adoption de la topologie faible* σ(Lq,Lp)\sigma(L^q, L^p) plutôt que la topologie de convergence faible, facilitant l'établissement de connexions avec les mesures de risque récursives.

3. Technique des Fonctions Limites

Introduction de fonctions limites supérieures et inférieures bˉ\bar{b} et b\underline{b} pour traiter les coûts non bornés, assurant la bonne définition des fonctions de valeur.

4. Analyse de Convexité

Sous des hypothèses de modèle convexe, utilisation du théorème minimax de Sion pour réaliser : infaDn(x)supQQn+1LnJn+1(x,a,Q)=supQQn+1infaDn(x)LnJn+1(x,a,Q)\inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)

Résultats Théoriques Principaux

Théorème 3.6 : Itération des Valeurs de Stratégie Robuste

Sous les hypothèses 2.1 et 3.1 :

  1. La valeur de stratégie robuste Vnπ(hn)V_n^\pi(h_n) est mesurable et satisfait les relations de récurrence
  2. Si l'ensemble d'ambiguïté est fermé en topologie faible*, alors il existe une règle de décision optimale pour la nature

Théorème 3.10 : Existence de Stratégies Optimales

  1. Il suffit de considérer les stratégies markoviennes déterministes : Vn(hn)=Jn(xn)V_n(h_n) = J_n(x_n)
  2. JnBJ_n \in B et satisfait l'équation de Bellman
  3. Il existe une stratégie markovienne optimale pour le décideur

Théorème 5.2 : Échange des Valeurs Extrêmes

Dans le modèle convexe : Jn(x)=infaDn(x)supQQn+1LnJn+1(x,a,Q)=supQQn+1infaDn(x)LnJn+1(x,a,Q)J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)

Théorème 5.5 : Existence d'Équilibre de Nash

Sous les conditions de modèle convexe et d'ensemble d'ambiguïté fermé en topologie faible*, il existe une paire de stratégies d'équilibre de Nash.

Connexion aux Mesures de Risque

Représentation des Mesures de Risque Spectral

Lorsque l'ensemble d'ambiguïté possède une structure spéciale, l'optimisation robuste équivaut à l'optimisation de mesures de risque spectral : ρϕ(X)=supYQdE[XY]\rho_\phi(X) = \sup_{Y \in \mathcal{Q}_d} E[XY]

ϕ\phi est une fonction spectrale.

Mesures de Risque Cohérentes

Sous des ensembles d'ambiguïté invariants par loi, le problème peut être réécrit comme : infπΠMρ(n=0N1cn(Xn,dn(Xn),Xn+1)+cN(XN))\inf_{\pi \in \Pi^M} \rho\left(\sum_{n=0}^{N-1} c_n(X_n, d_n(X_n), X_{n+1}) + c_N(X_N)\right)

Applications Expérimentales

Application 1 : Problème LQ Robuste

Considération d'un problème linéaire-quadratique :

  • Espace d'état : E=RE = \mathbb{R}, Espace d'action : A=RdA = \mathbb{R}^d
  • Fonction de transition : Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1T_n(x,a,Z_{n+1}) = U_{n+1}x + V_{n+1}^T a + W_{n+1}
  • Fonction de coût : cn(x,a)=x2Qn+aTRnac_n(x,a) = x^2 Q_n + a^T R_n a

Découvertes Clés

  1. Sous les hypothèses d'indépendance, la stratégie optimale de la nature ne dépend pas de l'état
  2. L'échange des valeurs extrêmes peut être réalisé via le théorème de Sion, simplifiant la résolution
  3. Lorsque EQ[UnVn]=0E^Q[U_n V_n] = 0 peut être choisi, le contrôle optimal est dn(x)=0d_n^*(x) = 0

Application 2 : Gestion des Énergies Renouvelables

Gestion conjointe d'une installation de production éolienne et de stockage d'énergie :

  • État : Quantité d'énergie stockée dans la batterie x[0,K]x \in [0,K]
  • Action : Quantité d'électricité prévue a[0,B]a \in [0,B]
  • Récompense : PaPa (P>0P > 0 est le prix de l'électricité)
  • Pénalité : Pénalité proportionnelle c>0c > 0 en cas de pénurie

Équation de Bellman

Jn(x)=infaD(x)supQQ{aP+aBJn+1((x+za)K)Q(dz)+0a[(P+c)(x+za)+Jn+1((x+za)+)]Q(dz)}J_n(x) = \inf_{a \in D(x)} \sup_{Q \in \mathcal{Q}} \left\{-aP + \int_a^B J_{n+1}((x+z-a) \wedge K) Q(dz) + \int_0^a [(P+c)(x+z-a)^- + J_{n+1}((x+z-a)^+)] Q(dz)\right\}

Travaux Connexes

Évolution des PDM Robustes

  1. Iyengar (2005) : Première proposition de PDM robuste sous conditions de rectangularité
  2. Nilim & El Ghaoui (2005) : Travaux contemporains sur espaces d'état finis
  3. Wiesemann et al. (2013) : Approche par régions de confiance
  4. Xu & Mannor (2010) : Ensembles d'incertitude imbriqués

Avantages Relatifs de cet Article

  1. Extension d'espace : Extension des espaces finis/dénombrables aux espaces de Borel généraux
  2. Traitement des coûts : Autorisation des fonctions de coût non bornées
  3. Propriétés de stratégie : Preuve de l'existence de stratégies optimales déterministes
  4. Profondeur théorique : Établissement de connexions profondes avec les mesures de risque

Conclusion et Discussion

Conclusions Principales

  1. Extension réussie de la théorie des PDM robustes aux espaces continus et coûts non bornés
  2. Établissement d'une théorie complète d'itération des valeurs et d'existence de stratégies optimales
  3. Révélation des connexions profondes entre optimisation robuste et mesures de risque
  4. Fourniture de méthodes de résolution pratiques et d'exemples d'application

Limitations

  1. Conditions d'hypothèse : Nécessité d'hypothèses relativement fortes d'intégrabilité, continuité et compacité
  2. Exigence de convexité : L'échange des valeurs extrêmes nécessite une structure de modèle convexe
  3. Complexité computationnelle : Le calcul du supremum dans les espaces continus reste difficile
  4. Sélection d'ensemble d'ambiguïté : La construction raisonnable d'ensembles d'ambiguïté dans les applications pratiques nécessite des connaissances du domaine

Directions Futures

  1. Développement d'algorithmes : Conception d'algorithmes de résolution numérique efficaces
  2. Relâchement des hypothèses : Exploration de résultats théoriques sous conditions plus générales
  3. Extension d'applications : Applications concrètes dans les domaines financier, opérationnel, etc.
  4. Combinaison avec apprentissage : Intégration avec l'apprentissage en ligne et les méthodes adaptatives

Évaluation Approfondie

Points Forts

  1. Contribution théorique significative : Extension fondamentale de l'applicabilité des PDM robustes
  2. Méthodologie rigoureuse : Application de théories profondes de théorie des mesures et analyse fonctionnelle
  3. Structure claire : Logique cohérente des hypothèses fondamentales aux théorèmes principaux
  4. Connexions profondes : Établissement d'un pont entre théorie d'optimisation et gestion des risques
  5. Valeur applicative : Fourniture d'un cadre de modélisation pratiquement utilisable

Insuffisances

  1. Seuil technique élevé : Nécessité d'une formation mathématique solide pour compréhension complète
  2. Défi computationnel : Distance entre résultats théoriques et calcul pratique
  3. Limitation des hypothèses : Certaines hypothèses peuvent être difficiles à satisfaire dans les applications réelles
  4. Validation numérique insuffisante : Manque d'expériences numériques à grande échelle

Impact

  1. Valeur académique : Fourniture de fondations théoriques importantes pour optimisation robuste et gestion des risques
  2. Perspectives d'application : Larges applications potentielles en gestion des risques financiers, systèmes énergétiques, etc.
  3. Contribution méthodologique : La modélisation par jeu de Stackelberg offre nouvelles perspectives pour problèmes connexes
  4. Recherche ultérieure : Établissement de fondations pour développement théorique et conception d'algorithmes futurs

Scénarios d'Application

  1. Ingénierie financière : Optimisation de portefeuille, gestion des risques
  2. Systèmes énergétiques : Planification des énergies renouvelables, gestion du stockage
  3. Gestion de la chaîne d'approvisionnement : Contrôle des stocks sous incertitude de demande
  4. Recherche opérationnelle : Allocation de ressources, planification de production

Références

L'article cite 75 références connexes, incluant principalement :

  • Iyengar (2005) : Travaux fondateurs en programmation dynamique robuste
  • Sion (1958) : Résultats classiques du théorème minimax
  • Bäuerle & Rieder (2011) : Monographie sur processus de décision markoviens
  • Epstein & Schneider (2003) : Théorie récursive multi-priors
  • Ruszczyński (2010) : Programmation dynamique avec aversion au risque

Évaluation Globale : Ceci est un article théorique de haute qualité qui apporte des contributions importantes au domaine d'intersection entre optimisation robuste et processus de décision markoviens. Bien que techniquement exigeant, il fournit des fondations solides pour le développement théorique et les applications pratiques du domaine.