2025-11-13T03:28:10.622967

Distributionally Robust Markov Decision Processes and their Connection to Risk Measures

BÃ¤uerle, Glauner

We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.

academic

Processus de Décision Markoviens Robustes en Distribution et leur Connexion aux Mesures de Risque

Informations Fondamentales

ID de l'article : 2007.13103
Titre : Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
Auteurs : Nicole Bäuerle, Alexander Glauner
Classification : math.OC (Optimisation et Contrôle Mathématiques), q-fin.RM (Gestion des Risques en Finance Quantitative)
Date de Publication : 26 juillet 2020
Lien de l'article : https://arxiv.org/abs/2007.13103

Résumé

Cet article étudie les processus de décision markoviens robustes avec espaces d'état et d'action de Borel, coûts non bornés et horizon temporel fini. Le problème est modélisé comme un jeu de Stackelberg contre la nature. Sous des hypothèses d'intégrabilité, continuité et compacité, les auteurs déduisent l'itération des coûts robustes pour une stratégie fixe du décideur et l'itération des valeurs pour le problème d'optimisation robuste. De plus, il est démontré que des stratégies optimales déterministes existent pour les deux parties, ce qui contraste avec les jeux à somme nulle classiques. Lorsque l'espace d'état est la droite réelle, sous certaines hypothèses de convexité, l'échange des supremum et infimum est réalisé en utilisant le théorème minimax de Sion. L'article considère également des cas d'ensembles d'ambiguïté spécialisés, dérivant notamment les situations où le problème d'optimisation robuste coïncide avec la minimisation de mesures de risque cohérentes.

Contexte et Motivation de la Recherche

Contexte du Problème

Les processus de décision markoviens (PDM) traditionnels supposent que tous les paramètres et distributions sont connus ou peuvent être estimés avec précision. Cependant, dans les applications pratiques, l'utilisation de cette stratégie « optimale » peut entraîner une dégradation significative des performances lorsque les véritables paramètres ou distributions s'écartent des hypothèses.

Motivation de la Recherche

Problème d'incertitude du modèle : Les probabilités de transition réelles ne peuvent souvent pas être obtenues avec précision, il existe une ambiguïté du modèle
Besoin d'aversion au risque : Le paradoxe d'Ellsberg montre que les décideurs ont tendance à être averses à l'ambiguïté
Limitations théoriques : La recherche existante sur les PDM robustes se limite principalement aux espaces d'état et d'action finis
Besoins applicatifs : Nécessité de traiter les espaces d'état continus et les fonctions de coût non bornées dans les problèmes pratiques

Limitations des Approches Existantes

La plupart des recherches se limitent aux espaces d'état et d'action dénombrables ou finis
Manque de traitement des espaces continus et des coûts non bornés
Connexion insuffisante avec les mesures de risque
Absence de preuve de l'existence de stratégies optimales déterministes

Contributions Principales

Extension du Cadre Théorique : Extension de la théorie des PDM robustes existante des espaces dénombrables aux espaces de Borel, traitement des fonctions de coût non bornées
Modélisation par Théorie des Jeux : Modélisation du problème comme un jeu de Stackelberg, la nature comme suiveur, le décideur comme leader
Existence de Stratégies Optimales : Preuve de l'existence de stratégies optimales déterministes pour les deux parties, ce qui diffère des jeux à somme nulle classiques
Conditions d'Échange des Valeurs Extrêmes : Sous des hypothèses de convexité, réalisation de l'échange des supremum et infimum en utilisant le théorème minimax de Sion
Connexion aux Mesures de Risque : Établissement de l'équivalence entre l'optimisation robuste et les mesures de risque cohérentes sous des ensembles d'ambiguïté spécialisés
Applications Pratiques : Fourniture de deux exemples d'application : un problème LQ robuste et la gestion des énergies renouvelables

Détail des Méthodes

Définition de la Tâche

Considérons un processus de décision markovien avec horizon temporel fini N :

Espace d'état : E (espace de Borel)
Espace d'action : A (espace de Borel)
Fonction de transition : $T_n: D_n \times Z \to E$
Fonction de coût : $c_n: D_n \times E \to \mathbb{R}$
Perturbations : $Z_1, \ldots, Z_N$ éléments aléatoires indépendants

L'objectif est de minimiser le coût espéré dans le pire cas : $V_0(x) = \inf_{\pi \in \Pi^R} \sup_{\gamma \in \Gamma} V_0^{\pi\gamma}(x)$

Architecture du Modèle

1. Modélisation de l'Ensemble d'Ambiguïté

Définition de l'ensemble d'ambiguïté $\mathcal{Q}_n \subseteq M_q(\Omega_n, \mathcal{A}_n, P_n)$ , où :

$M_q(\Omega_n, \mathcal{A}_n, P_n)$ : ensemble des mesures de probabilité absolument continues par rapport à $P_n$
Doté de la topologie faible* $\sigma(L^q, L^p)$ , où $\frac{1}{p} + \frac{1}{q} = 1$

2. Structure du Jeu de Stackelberg

Décideur : choisit la stratégie $\pi = (\pi_0, \pi_1, \ldots, \pi_{N-1})$
Nature : observe les actions du décideur puis choisit $\gamma = (\gamma_0, \ldots, \gamma_{N-1})$
Structure informationnelle : la nature est un suiveur, peut observer les actions du décideur

3. Relations de Récurrence des Fonctions de Valeur

Sous les hypothèses, la fonction de valeur satisfait l'équation de Bellman : $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q)$

où : $L_n v(x,a,Q) = \int c_n(x,a,T_n(x,a,z)) + v(T_n(x,a,z)) \, Q(dz)$

Points d'Innovation Technique

1. Application du Théorème de Sélection Mesurable

Utilisation du théorème de sélection mesurable de Rieder pour traiter les problèmes de mesurabilité dans les espaces continus, assurant l'existence de stratégies optimales.

2. Traitement de la Topologie Faible*

Adoption de la topologie faible* $\sigma(L^q, L^p)$ plutôt que la topologie de convergence faible, facilitant l'établissement de connexions avec les mesures de risque récursives.

3. Technique des Fonctions Limites

Introduction de fonctions limites supérieures et inférieures $\bar{b}$ et $\underline{b}$ pour traiter les coûts non bornés, assurant la bonne définition des fonctions de valeur.

4. Analyse de Convexité

Sous des hypothèses de modèle convexe, utilisation du théorème minimax de Sion pour réaliser : $\inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$

Résultats Théoriques Principaux

Théorème 3.6 : Itération des Valeurs de Stratégie Robuste

Sous les hypothèses 2.1 et 3.1 :

La valeur de stratégie robuste $V_n^\pi(h_n)$ est mesurable et satisfait les relations de récurrence
Si l'ensemble d'ambiguïté est fermé en topologie faible*, alors il existe une règle de décision optimale pour la nature

Théorème 3.10 : Existence de Stratégies Optimales

Il suffit de considérer les stratégies markoviennes déterministes : $V_n(h_n) = J_n(x_n)$
$J_n \in B$ et satisfait l'équation de Bellman
Il existe une stratégie markovienne optimale pour le décideur

Théorème 5.2 : Échange des Valeurs Extrêmes

Dans le modèle convexe : $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$

Théorème 5.5 : Existence d'Équilibre de Nash

Sous les conditions de modèle convexe et d'ensemble d'ambiguïté fermé en topologie faible*, il existe une paire de stratégies d'équilibre de Nash.

Connexion aux Mesures de Risque

Représentation des Mesures de Risque Spectral

Lorsque l'ensemble d'ambiguïté possède une structure spéciale, l'optimisation robuste équivaut à l'optimisation de mesures de risque spectral : $\rho_\phi(X) = \sup_{Y \in \mathcal{Q}_d} E[XY]$

où $\phi$ est une fonction spectrale.

Mesures de Risque Cohérentes

Sous des ensembles d'ambiguïté invariants par loi, le problème peut être réécrit comme : $\inf_{\pi \in \Pi^M} \rho\left(\sum_{n=0}^{N-1} c_n(X_n, d_n(X_n), X_{n+1}) + c_N(X_N)\right)$

Applications Expérimentales

Application 1 : Problème LQ Robuste

Considération d'un problème linéaire-quadratique :

Espace d'état : $E = \mathbb{R}$ , Espace d'action : $A = \mathbb{R}^d$
Fonction de transition : $T_n(x,a,Z_{n+1}) = U_{n+1}x + V_{n+1}^T a + W_{n+1}$
Fonction de coût : $c_n(x,a) = x^2 Q_n + a^T R_n a$

Découvertes Clés

Sous les hypothèses d'indépendance, la stratégie optimale de la nature ne dépend pas de l'état
L'échange des valeurs extrêmes peut être réalisé via le théorème de Sion, simplifiant la résolution
Lorsque $E^Q[U_n V_n] = 0$ peut être choisi, le contrôle optimal est $d_n^*(x) = 0$

Application 2 : Gestion des Énergies Renouvelables

Gestion conjointe d'une installation de production éolienne et de stockage d'énergie :

État : Quantité d'énergie stockée dans la batterie $x \in [0,K]$
Action : Quantité d'électricité prévue $a \in [0,B]$
Récompense : $Pa$ ( $P > 0$ est le prix de l'électricité)
Pénalité : Pénalité proportionnelle $c > 0$ en cas de pénurie

Équation de Bellman

$J_n(x) = \inf_{a \in D(x)} \sup_{Q \in \mathcal{Q}} \left\{-aP + \int_a^B J_{n+1}((x+z-a) \wedge K) Q(dz) + \int_0^a [(P+c)(x+z-a)^- + J_{n+1}((x+z-a)^+)] Q(dz)\right\}$

Travaux Connexes

Évolution des PDM Robustes

Iyengar (2005) : Première proposition de PDM robuste sous conditions de rectangularité
Nilim & El Ghaoui (2005) : Travaux contemporains sur espaces d'état finis
Wiesemann et al. (2013) : Approche par régions de confiance
Xu & Mannor (2010) : Ensembles d'incertitude imbriqués

Avantages Relatifs de cet Article

Extension d'espace : Extension des espaces finis/dénombrables aux espaces de Borel généraux
Traitement des coûts : Autorisation des fonctions de coût non bornées
Propriétés de stratégie : Preuve de l'existence de stratégies optimales déterministes
Profondeur théorique : Établissement de connexions profondes avec les mesures de risque

Conclusion et Discussion

Conclusions Principales

Extension réussie de la théorie des PDM robustes aux espaces continus et coûts non bornés
Établissement d'une théorie complète d'itération des valeurs et d'existence de stratégies optimales
Révélation des connexions profondes entre optimisation robuste et mesures de risque
Fourniture de méthodes de résolution pratiques et d'exemples d'application

Limitations

Conditions d'hypothèse : Nécessité d'hypothèses relativement fortes d'intégrabilité, continuité et compacité
Exigence de convexité : L'échange des valeurs extrêmes nécessite une structure de modèle convexe
Complexité computationnelle : Le calcul du supremum dans les espaces continus reste difficile
Sélection d'ensemble d'ambiguïté : La construction raisonnable d'ensembles d'ambiguïté dans les applications pratiques nécessite des connaissances du domaine

Directions Futures

Développement d'algorithmes : Conception d'algorithmes de résolution numérique efficaces
Relâchement des hypothèses : Exploration de résultats théoriques sous conditions plus générales
Extension d'applications : Applications concrètes dans les domaines financier, opérationnel, etc.
Combinaison avec apprentissage : Intégration avec l'apprentissage en ligne et les méthodes adaptatives

Évaluation Approfondie

Points Forts

Contribution théorique significative : Extension fondamentale de l'applicabilité des PDM robustes
Méthodologie rigoureuse : Application de théories profondes de théorie des mesures et analyse fonctionnelle
Structure claire : Logique cohérente des hypothèses fondamentales aux théorèmes principaux
Connexions profondes : Établissement d'un pont entre théorie d'optimisation et gestion des risques
Valeur applicative : Fourniture d'un cadre de modélisation pratiquement utilisable

Insuffisances

Seuil technique élevé : Nécessité d'une formation mathématique solide pour compréhension complète
Défi computationnel : Distance entre résultats théoriques et calcul pratique
Limitation des hypothèses : Certaines hypothèses peuvent être difficiles à satisfaire dans les applications réelles
Validation numérique insuffisante : Manque d'expériences numériques à grande échelle

Impact

Valeur académique : Fourniture de fondations théoriques importantes pour optimisation robuste et gestion des risques
Perspectives d'application : Larges applications potentielles en gestion des risques financiers, systèmes énergétiques, etc.
Contribution méthodologique : La modélisation par jeu de Stackelberg offre nouvelles perspectives pour problèmes connexes
Recherche ultérieure : Établissement de fondations pour développement théorique et conception d'algorithmes futurs

Scénarios d'Application

Ingénierie financière : Optimisation de portefeuille, gestion des risques
Systèmes énergétiques : Planification des énergies renouvelables, gestion du stockage
Gestion de la chaîne d'approvisionnement : Contrôle des stocks sous incertitude de demande
Recherche opérationnelle : Allocation de ressources, planification de production

Références

L'article cite 75 références connexes, incluant principalement :

Iyengar (2005) : Travaux fondateurs en programmation dynamique robuste
Sion (1958) : Résultats classiques du théorème minimax
Bäuerle & Rieder (2011) : Monographie sur processus de décision markoviens
Epstein & Schneider (2003) : Théorie récursive multi-priors
Ruszczyński (2010) : Programmation dynamique avec aversion au risque

Évaluation Globale : Ceci est un article théorique de haute qualité qui apporte des contributions importantes au domaine d'intersection entre optimisation robuste et processus de décision markoviens. Bien que techniquement exigeant, il fournit des fondations solides pour le développement théorique et les applications pratiques du domaine.