We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
- ID de l'article : 2007.13103
- Titre : Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- Auteurs : Nicole Bäuerle, Alexander Glauner
- Classification : math.OC (Optimisation et Contrôle Mathématiques), q-fin.RM (Gestion des Risques en Finance Quantitative)
- Date de Publication : 26 juillet 2020
- Lien de l'article : https://arxiv.org/abs/2007.13103
Cet article étudie les processus de décision markoviens robustes avec espaces d'état et d'action de Borel, coûts non bornés et horizon temporel fini. Le problème est modélisé comme un jeu de Stackelberg contre la nature. Sous des hypothèses d'intégrabilité, continuité et compacité, les auteurs déduisent l'itération des coûts robustes pour une stratégie fixe du décideur et l'itération des valeurs pour le problème d'optimisation robuste. De plus, il est démontré que des stratégies optimales déterministes existent pour les deux parties, ce qui contraste avec les jeux à somme nulle classiques. Lorsque l'espace d'état est la droite réelle, sous certaines hypothèses de convexité, l'échange des supremum et infimum est réalisé en utilisant le théorème minimax de Sion. L'article considère également des cas d'ensembles d'ambiguïté spécialisés, dérivant notamment les situations où le problème d'optimisation robuste coïncide avec la minimisation de mesures de risque cohérentes.
Les processus de décision markoviens (PDM) traditionnels supposent que tous les paramètres et distributions sont connus ou peuvent être estimés avec précision. Cependant, dans les applications pratiques, l'utilisation de cette stratégie « optimale » peut entraîner une dégradation significative des performances lorsque les véritables paramètres ou distributions s'écartent des hypothèses.
- Problème d'incertitude du modèle : Les probabilités de transition réelles ne peuvent souvent pas être obtenues avec précision, il existe une ambiguïté du modèle
- Besoin d'aversion au risque : Le paradoxe d'Ellsberg montre que les décideurs ont tendance à être averses à l'ambiguïté
- Limitations théoriques : La recherche existante sur les PDM robustes se limite principalement aux espaces d'état et d'action finis
- Besoins applicatifs : Nécessité de traiter les espaces d'état continus et les fonctions de coût non bornées dans les problèmes pratiques
- La plupart des recherches se limitent aux espaces d'état et d'action dénombrables ou finis
- Manque de traitement des espaces continus et des coûts non bornés
- Connexion insuffisante avec les mesures de risque
- Absence de preuve de l'existence de stratégies optimales déterministes
- Extension du Cadre Théorique : Extension de la théorie des PDM robustes existante des espaces dénombrables aux espaces de Borel, traitement des fonctions de coût non bornées
- Modélisation par Théorie des Jeux : Modélisation du problème comme un jeu de Stackelberg, la nature comme suiveur, le décideur comme leader
- Existence de Stratégies Optimales : Preuve de l'existence de stratégies optimales déterministes pour les deux parties, ce qui diffère des jeux à somme nulle classiques
- Conditions d'Échange des Valeurs Extrêmes : Sous des hypothèses de convexité, réalisation de l'échange des supremum et infimum en utilisant le théorème minimax de Sion
- Connexion aux Mesures de Risque : Établissement de l'équivalence entre l'optimisation robuste et les mesures de risque cohérentes sous des ensembles d'ambiguïté spécialisés
- Applications Pratiques : Fourniture de deux exemples d'application : un problème LQ robuste et la gestion des énergies renouvelables
Considérons un processus de décision markovien avec horizon temporel fini N :
- Espace d'état : E (espace de Borel)
- Espace d'action : A (espace de Borel)
- Fonction de transition : Tn:Dn×Z→E
- Fonction de coût : cn:Dn×E→R
- Perturbations : Z1,…,ZN éléments aléatoires indépendants
L'objectif est de minimiser le coût espéré dans le pire cas :
V0(x)=infπ∈ΠRsupγ∈ΓV0πγ(x)
Définition de l'ensemble d'ambiguïté Qn⊆Mq(Ωn,An,Pn), où :
- Mq(Ωn,An,Pn) : ensemble des mesures de probabilité absolument continues par rapport à Pn
- Doté de la topologie faible* σ(Lq,Lp), où p1+q1=1
- Décideur : choisit la stratégie π=(π0,π1,…,πN−1)
- Nature : observe les actions du décideur puis choisit γ=(γ0,…,γN−1)
- Structure informationnelle : la nature est un suiveur, peut observer les actions du décideur
Sous les hypothèses, la fonction de valeur satisfait l'équation de Bellman :
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)
où :
Lnv(x,a,Q)=∫cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)
Utilisation du théorème de sélection mesurable de Rieder pour traiter les problèmes de mesurabilité dans les espaces continus, assurant l'existence de stratégies optimales.
Adoption de la topologie faible* σ(Lq,Lp) plutôt que la topologie de convergence faible, facilitant l'établissement de connexions avec les mesures de risque récursives.
Introduction de fonctions limites supérieures et inférieures bˉ et b pour traiter les coûts non bornés, assurant la bonne définition des fonctions de valeur.
Sous des hypothèses de modèle convexe, utilisation du théorème minimax de Sion pour réaliser :
infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
Sous les hypothèses 2.1 et 3.1 :
- La valeur de stratégie robuste Vnπ(hn) est mesurable et satisfait les relations de récurrence
- Si l'ensemble d'ambiguïté est fermé en topologie faible*, alors il existe une règle de décision optimale pour la nature
- Il suffit de considérer les stratégies markoviennes déterministes : Vn(hn)=Jn(xn)
- Jn∈B et satisfait l'équation de Bellman
- Il existe une stratégie markovienne optimale pour le décideur
Dans le modèle convexe :
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
Sous les conditions de modèle convexe et d'ensemble d'ambiguïté fermé en topologie faible*, il existe une paire de stratégies d'équilibre de Nash.
Lorsque l'ensemble d'ambiguïté possède une structure spéciale, l'optimisation robuste équivaut à l'optimisation de mesures de risque spectral :
ρϕ(X)=supY∈QdE[XY]
où ϕ est une fonction spectrale.
Sous des ensembles d'ambiguïté invariants par loi, le problème peut être réécrit comme :
infπ∈ΠMρ(∑n=0N−1cn(Xn,dn(Xn),Xn+1)+cN(XN))
Considération d'un problème linéaire-quadratique :
- Espace d'état : E=R, Espace d'action : A=Rd
- Fonction de transition : Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1
- Fonction de coût : cn(x,a)=x2Qn+aTRna
- Sous les hypothèses d'indépendance, la stratégie optimale de la nature ne dépend pas de l'état
- L'échange des valeurs extrêmes peut être réalisé via le théorème de Sion, simplifiant la résolution
- Lorsque EQ[UnVn]=0 peut être choisi, le contrôle optimal est dn∗(x)=0
Gestion conjointe d'une installation de production éolienne et de stockage d'énergie :
- État : Quantité d'énergie stockée dans la batterie x∈[0,K]
- Action : Quantité d'électricité prévue a∈[0,B]
- Récompense : Pa (P>0 est le prix de l'électricité)
- Pénalité : Pénalité proportionnelle c>0 en cas de pénurie
Jn(x)=infa∈D(x)supQ∈Q{−aP+∫aBJn+1((x+z−a)∧K)Q(dz)+∫0a[(P+c)(x+z−a)−+Jn+1((x+z−a)+)]Q(dz)}
- Iyengar (2005) : Première proposition de PDM robuste sous conditions de rectangularité
- Nilim & El Ghaoui (2005) : Travaux contemporains sur espaces d'état finis
- Wiesemann et al. (2013) : Approche par régions de confiance
- Xu & Mannor (2010) : Ensembles d'incertitude imbriqués
- Extension d'espace : Extension des espaces finis/dénombrables aux espaces de Borel généraux
- Traitement des coûts : Autorisation des fonctions de coût non bornées
- Propriétés de stratégie : Preuve de l'existence de stratégies optimales déterministes
- Profondeur théorique : Établissement de connexions profondes avec les mesures de risque
- Extension réussie de la théorie des PDM robustes aux espaces continus et coûts non bornés
- Établissement d'une théorie complète d'itération des valeurs et d'existence de stratégies optimales
- Révélation des connexions profondes entre optimisation robuste et mesures de risque
- Fourniture de méthodes de résolution pratiques et d'exemples d'application
- Conditions d'hypothèse : Nécessité d'hypothèses relativement fortes d'intégrabilité, continuité et compacité
- Exigence de convexité : L'échange des valeurs extrêmes nécessite une structure de modèle convexe
- Complexité computationnelle : Le calcul du supremum dans les espaces continus reste difficile
- Sélection d'ensemble d'ambiguïté : La construction raisonnable d'ensembles d'ambiguïté dans les applications pratiques nécessite des connaissances du domaine
- Développement d'algorithmes : Conception d'algorithmes de résolution numérique efficaces
- Relâchement des hypothèses : Exploration de résultats théoriques sous conditions plus générales
- Extension d'applications : Applications concrètes dans les domaines financier, opérationnel, etc.
- Combinaison avec apprentissage : Intégration avec l'apprentissage en ligne et les méthodes adaptatives
- Contribution théorique significative : Extension fondamentale de l'applicabilité des PDM robustes
- Méthodologie rigoureuse : Application de théories profondes de théorie des mesures et analyse fonctionnelle
- Structure claire : Logique cohérente des hypothèses fondamentales aux théorèmes principaux
- Connexions profondes : Établissement d'un pont entre théorie d'optimisation et gestion des risques
- Valeur applicative : Fourniture d'un cadre de modélisation pratiquement utilisable
- Seuil technique élevé : Nécessité d'une formation mathématique solide pour compréhension complète
- Défi computationnel : Distance entre résultats théoriques et calcul pratique
- Limitation des hypothèses : Certaines hypothèses peuvent être difficiles à satisfaire dans les applications réelles
- Validation numérique insuffisante : Manque d'expériences numériques à grande échelle
- Valeur académique : Fourniture de fondations théoriques importantes pour optimisation robuste et gestion des risques
- Perspectives d'application : Larges applications potentielles en gestion des risques financiers, systèmes énergétiques, etc.
- Contribution méthodologique : La modélisation par jeu de Stackelberg offre nouvelles perspectives pour problèmes connexes
- Recherche ultérieure : Établissement de fondations pour développement théorique et conception d'algorithmes futurs
- Ingénierie financière : Optimisation de portefeuille, gestion des risques
- Systèmes énergétiques : Planification des énergies renouvelables, gestion du stockage
- Gestion de la chaîne d'approvisionnement : Contrôle des stocks sous incertitude de demande
- Recherche opérationnelle : Allocation de ressources, planification de production
L'article cite 75 références connexes, incluant principalement :
- Iyengar (2005) : Travaux fondateurs en programmation dynamique robuste
- Sion (1958) : Résultats classiques du théorème minimax
- Bäuerle & Rieder (2011) : Monographie sur processus de décision markoviens
- Epstein & Schneider (2003) : Théorie récursive multi-priors
- Ruszczyński (2010) : Programmation dynamique avec aversion au risque
Évaluation Globale : Ceci est un article théorique de haute qualité qui apporte des contributions importantes au domaine d'intersection entre optimisation robuste et processus de décision markoviens. Bien que techniquement exigeant, il fournit des fondations solides pour le développement théorique et les applications pratiques du domaine.