In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.
- Papier-ID: 2010.07220
- Titel: Markov Decision Processes with Recursive Risk Measures
- Autoren: Nicole Bäuerle, Alexander Glauner
- Klassifizierung: math.OC (Optimierung und Kontrolle), q-fin.RM (Quantitative Finanzen - Risikomanagement)
- Veröffentlichungsdatum: 14. Oktober 2020 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2010.07220
Dieses Papier untersucht risikosensitive Markov-Entscheidungsprozesse (MDPs) mit Borel-Zustands- und Aktionsräumen sowie unbegrenzten Kosten, die endliche und unendliche Planungshorizonte abdecken. Das Optimierungskriterium basiert auf der rekursiven Anwendung statischer Risikomaße. Dieser Ansatz wurde durch rekursive Nutzenfunktionen aus der ökonomischen Literatur inspiriert und wurde zuvor bei Entropie-Risikomaßen untersucht. Das Papier erweitert dies auf die axiomatische Charakterisierung geeigneter Risikomaße. Die Autoren leiten die Bellman-Gleichung her und beweisen die Existenz von Markov-optimalen Strategien. Für unendliche Planungshorizonte wird das Modell als kontraktiv nachgewiesen und die optimale Strategie ist stationär. Darüber hinaus wird eine Verbindung zu verteilungsrobusten MDPs etabliert, die eine globale Interpretation für rekursiv definierte Zielfunktionen bietet.
Die klassische Theorie der Markov-Entscheidungsprozesse konzentriert sich auf die Minimierung der erwarteten diskontierten Kosten kontrollierter dynamischer Systeme über endliche oder unendliche Zeithorizonte. Allerdings kann der einfache Erwartungswert das tatsächliche Risiko von Entscheidungen nicht widerspiegeln, was besonders bei Anwendungen wie Cashflow-Management relevant ist.
- Risikosensitivitätsbedarf: In Finanz- und Versicherungsbereichen bevorzugen Entscheidungsträger die Verwendung dynamischer Nutzenfunktionen zur Leistungsbewertung statt einfacher Erwartungswerte
- Zeitkonsistenz: Bestehende Theorien dynamischer Risikomaße zeigen, dass die einzigen zeitkonsistenten Risikomaße diejenigen sind, die iterierte statische Risikomaße verwenden
- Theoretische Vervollständigung: Es ist notwendig, einen umfassenden theoretischen Rahmen für allgemeine Risikomaße zu etablieren, nicht nur für spezifische Entropie-Risikomaße
- Die meisten Forschungsarbeiten sind auf beschränkte Zufallsvariablen oder spezifische Risikomaßtypen begrenzt
- Einige Ansätze erfordern indirekte Annahmen über Risikomaßeigenschaften
- Es fehlt eine systematische Behandlung allgemeiner Borel-Räume und unbegrenzter Kostenfunktionen
- Theoretische Rahmenerweiterung: Erweiterung der MDP-Theorie mit rekursiven Risikomaßen von Entropie-Risikomaßen auf allgemeine axiomatische Risikomaße
- Bellman-Gleichungsherleitung: Herleitung der Bellman-Gleichung für rekursive Risikomaß-MDPs und Beweis der Existenz von Markov-optimalen Strategien
- Kontraktivitätsbeweis: Nachweis der Kontraktivität des Modells mit unendlichem Horizont und Existenz stationärer optimaler Strategien
- Verteilungsrobuste Verbindung: Etablierung theoretischer Verbindungen zu verteilungsrobusten MDPs mit globaler Interpretation rekursiver Zielfunktionen
- Analyse monotoner Modelle: Tiefgehende Untersuchung spezieller Modelle mit Monotonieeigenschaften unter Lockerung von Stetigkeitsannahmen
Betrachten Sie einen Markov-Entscheidungsprozess mit Borel-Zustatsraum E und Aktionsraum A, wobei:
- Zustandsübergänge durch messbare Übergangsfunktion Tn:Dn×Z→E gegeben sind
- Einstufige Kostenfunktion cn:Dn×E→R
- Terminalkosten cN:E→R
Das Papier betrachtet Risikomaße ρ:Lp→R mit folgenden Eigenschaften:
- Monetarität: Monotonie und Translationsinvarianz
- Kohärenz: Positive Homogenität und Subadditivität
- Fatou-Eigenschaft: Unterhalbstetigkeit bezüglich kontrollierter Konvergenz
Für eine Strategie π=(d0,…,dN−1) wird der Wert rekursiv definiert als:
VNπ(hN)=cN(xN)Vnπ(hn)=ρn(cn(xn,dn(hn),Tn(xn,dn(hn),Zn+1))+Vn+1π(⋅))
Einführung des Konzepts globaler Ober- und Unterschrankenfunktionen, die besser für rekursive Risikomaße geeignet sind als traditionelle lokale Schranken:
Lemma 4.3: Für geeignete kohärente Risikomaße, wenn lokale Schranken existieren, die erfüllen:
ρn(cn(x,a,Tn(x,a,Zn+1)))≥b(x)ρn(−b(Tn(x,a,Zn+1)))≤−αb(x)
dann ist die globale Schranke B=1−α1b.
Theorem 4.7: Unter geeigneten Annahmen erfüllt die Wertfunktion die Bellman-Gleichung:
JN(x)=cN(x)Jn(x)=TnJn+1(x)=infa∈Dn(x)ρn(cn(x,a,Tn(x,a,Zn+1))+Jn+1(Tn(x,a,Zn+1)))
Lemma 5.4: Der Bellman-Operator T ist eine Kontraktion mit Modul αβ auf dem Intervall I=[B,B].
Das Papier verifiziert die Wirksamkeit der Methode hauptsächlich durch theoretische Analyse und mathematische Beispiele statt großflächiger numerischer Experimente.
- Kurzsichtigkeit von Value-at-Risk: Nachweis, dass optimale Strategien unter VaR-Kriterien in monotonen Modellen kurzsichtig sind
- Stoppprobleme: Demonstration der Beibehaltung von Schwellenwertstrategiestrukturen
- Casinospiele: Analyse optimaler Wettstrategien
- Kassenbestandsprobleme: Nachweis der Optimalität von (S⁻, S⁺)-Strategien
- Nachweis der Existenz von Markov-optimalen Strategien
- Etablierung rekursiver Bellman-Gleichungen
- Unterhalbstetigkeit der Wertfunktion
- Theorem 5.5:
- Die Grenzwertfunktion ist der eindeutige Fixpunkt des Bellman-Operators
- Existenz einer optimalen stationären Strategie
- Das Modell ist kontraktiv mit Kontraktionsmodul αβ<1
Korollar 5.6: Wenn einstufige Kosten beschränkt sind, ist jedes normalisierte monetäre Risikomaß mit Fatou-Eigenschaft anwendbar.
Proposition 7.5: Unter Monotonieannahmen können die Kohärenzanforderungen des Risikomaßes gelockert werden, wobei nur komonotone Additivität erforderlich ist.
In monotonen Modellen, wenn die Kostenfunktion nicht von der Aktion abhängt:
Jn(x)=infa∈D(x)h(VaRα(T(x,a,Z)))
wobei h eine monoton steigende unterhalbstetige Funktion ist, führt dies zu stationären und kurzsichtigen optimalen Strategien.
Beibehaltung von Struktureigenschaften aus klassischen MDPs:
- Existenz kritischer Niveaus S− und S+
- Optimale Strategie hat (S−,S+)-Form
- Wertfunktion behält Konvexität
- Epstein & Schneider (2003): Rekursive Mehrprior-Modelle
- Riedel (2004): Dynamisch konsistente Risikomaße
- Shapiro (2012): Zeitkonsistenztheorie
- Ruszczyński (2010): Axiomatischer Ansatz, begrenzt auf beschränkte Zufallsvariablen
- Shen et al. (2013): Risikoabbildungsmethode
- Chu & Zhang (2014): Kohärente Risikomaße, erfordern Existenz von Grenzwerten
- Asienkiewicz & Jaśkiewicz (2017): Entropie-Risikomaße
- Bäuerle & Jaśkiewicz (2017, 2018): Finanzanwendungen
- Die rekursive Anwendung statischer Risikomaße bietet einen einheitlichen theoretischen Rahmen für risikosensitive MDPs
- Unter geeigneten Annahmen kann eine vollständige Bellman-Theorie etabliert werden
- Monotone Modelle ermöglichen erhebliche Lockerung technischer Annahmen
- Die Verbindung zu verteilungsrobusten MDPs bietet globale Interpretation
- Technische Annahmen: Erfordern relativ komplexe globale Schrankensfunktionsannahmen
- Rechenkomplexität: Das Papier diskutiert numerische Berechnungsmethoden nicht ausreichend
- Empirische Verifikation: Mangel an großflächigen numerischen Experimenten zur Verifikation theoretischer Ergebnisse
- Entwicklung effizienter numerischer Algorithmen
- Untersuchung allgemeinerer Risikomaßklassen
- Erforschung von Lernalgorithmen in risikosensitiven Umgebungen
- Theoretische Strenge: Bietet einen vollständigen mathematischen Rahmen mit rigorosen Beweisen
- Allgemeinheit: Anwendbar auf breitere Risikomaße und Modelleinstellungen als bestehende Arbeiten
- Innovativität: Globale Schrankensfunktionsmethode und Verbindung zu verteilungsrobusten MDPs sind innovativ
- Strukturbewahrung: Nachweis, dass viele Struktureigenschaften klassischer MDPs in risikosensitiven Fällen erhalten bleiben
- Rechnerische Aspekte: Mangel an konkreten Algorithmen und numerischen Methoden
- Praktische Anwendung: Theoretisch orientiert mit relativ begrenzten praktischen Anwendungsbeispielen
- Annahmebedingungen: Einige technische Annahmen könnten in praktischen Anwendungen schwer zu verifizieren sein
- Theoretischer Beitrag: Bietet solide theoretische Grundlagen für risikosensitive MDPs
- Methodologischer Wert: Rekursive Risikomaßmethode könnte Forschungsrichtungen verwandter Bereiche beeinflussen
- Interdisziplinäre Bedeutung: Verbindet Operationsforschung, Finanzmathematik und Wahrscheinlichkeitstheorie
- Finanzingenieurwesen: Portfoliooptimierung, Risikomanagement
- Versicherungsmathematik: Rückstellungsverwaltung, Rückversicherungsstrategien
- Lieferkettenmanagement: Risikosensitive Entscheidungen unter Unsicherheit
- Energiemanagement: Risikoberücksichtigende Stromverteilung und Preisgestaltung
Das Papier zitiert 34 wichtige Arbeiten, die klassische und aktuelle Forschung in Risikomaßtheorie, Markov-Entscheidungsprozessen und dynamischer Programmierung abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Papier, das wichtige Beiträge zum Bereich risikosensitiver Markov-Entscheidungsprozesse leistet. Obwohl es sich auf theoretische Analyse konzentriert, legt es eine wichtige Grundlage für die weitere Entwicklung dieses Feldes.