2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

Markov-Entscheidungsprozesse mit rekursiven Risikomaßen

Grundinformationen

Papier-ID: 2010.07220
Titel: Markov Decision Processes with Recursive Risk Measures
Autoren: Nicole Bäuerle, Alexander Glauner
Klassifizierung: math.OC (Optimierung und Kontrolle), q-fin.RM (Quantitative Finanzen - Risikomanagement)
Veröffentlichungsdatum: 14. Oktober 2020 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2010.07220

Zusammenfassung

Dieses Papier untersucht risikosensitive Markov-Entscheidungsprozesse (MDPs) mit Borel-Zustands- und Aktionsräumen sowie unbegrenzten Kosten, die endliche und unendliche Planungshorizonte abdecken. Das Optimierungskriterium basiert auf der rekursiven Anwendung statischer Risikomaße. Dieser Ansatz wurde durch rekursive Nutzenfunktionen aus der ökonomischen Literatur inspiriert und wurde zuvor bei Entropie-Risikomaßen untersucht. Das Papier erweitert dies auf die axiomatische Charakterisierung geeigneter Risikomaße. Die Autoren leiten die Bellman-Gleichung her und beweisen die Existenz von Markov-optimalen Strategien. Für unendliche Planungshorizonte wird das Modell als kontraktiv nachgewiesen und die optimale Strategie ist stationär. Darüber hinaus wird eine Verbindung zu verteilungsrobusten MDPs etabliert, die eine globale Interpretation für rekursiv definierte Zielfunktionen bietet.

Forschungshintergrund und Motivation

Problemhintergrund

Die klassische Theorie der Markov-Entscheidungsprozesse konzentriert sich auf die Minimierung der erwarteten diskontierten Kosten kontrollierter dynamischer Systeme über endliche oder unendliche Zeithorizonte. Allerdings kann der einfache Erwartungswert das tatsächliche Risiko von Entscheidungen nicht widerspiegeln, was besonders bei Anwendungen wie Cashflow-Management relevant ist.

Forschungsmotivation

Risikosensitivitätsbedarf: In Finanz- und Versicherungsbereichen bevorzugen Entscheidungsträger die Verwendung dynamischer Nutzenfunktionen zur Leistungsbewertung statt einfacher Erwartungswerte
Zeitkonsistenz: Bestehende Theorien dynamischer Risikomaße zeigen, dass die einzigen zeitkonsistenten Risikomaße diejenigen sind, die iterierte statische Risikomaße verwenden
Theoretische Vervollständigung: Es ist notwendig, einen umfassenden theoretischen Rahmen für allgemeine Risikomaße zu etablieren, nicht nur für spezifische Entropie-Risikomaße

Einschränkungen bestehender Ansätze

Die meisten Forschungsarbeiten sind auf beschränkte Zufallsvariablen oder spezifische Risikomaßtypen begrenzt
Einige Ansätze erfordern indirekte Annahmen über Risikomaßeigenschaften
Es fehlt eine systematische Behandlung allgemeiner Borel-Räume und unbegrenzter Kostenfunktionen

Kernbeiträge

Theoretische Rahmenerweiterung: Erweiterung der MDP-Theorie mit rekursiven Risikomaßen von Entropie-Risikomaßen auf allgemeine axiomatische Risikomaße
Bellman-Gleichungsherleitung: Herleitung der Bellman-Gleichung für rekursive Risikomaß-MDPs und Beweis der Existenz von Markov-optimalen Strategien
Kontraktivitätsbeweis: Nachweis der Kontraktivität des Modells mit unendlichem Horizont und Existenz stationärer optimaler Strategien
Verteilungsrobuste Verbindung: Etablierung theoretischer Verbindungen zu verteilungsrobusten MDPs mit globaler Interpretation rekursiver Zielfunktionen
Analyse monotoner Modelle: Tiefgehende Untersuchung spezieller Modelle mit Monotonieeigenschaften unter Lockerung von Stetigkeitsannahmen

Methodische Details

Aufgabendefinition

Betrachten Sie einen Markov-Entscheidungsprozess mit Borel-Zustatsraum E und Aktionsraum A, wobei:

Zustandsübergänge durch messbare Übergangsfunktion $T_n: D_n \times Z \to E$ gegeben sind
Einstufige Kostenfunktion $c_n: D_n \times E \to \mathbb{R}$
Terminalkosten $c_N: E \to \mathbb{R}$

Rekursiver Risikomaß-Rahmen

Risikomaßeigenschaften

Das Papier betrachtet Risikomaße $\rho: L^p \to \overline{\mathbb{R}}$ mit folgenden Eigenschaften:

Monetarität: Monotonie und Translationsinvarianz
Kohärenz: Positive Homogenität und Subadditivität
Fatou-Eigenschaft: Unterhalbstetigkeit bezüglich kontrollierter Konvergenz

Rekursive Wertdefinition

Für eine Strategie $\pi = (d_0, \ldots, d_{N-1})$ wird der Wert rekursiv definiert als: $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

Technische Innovationen

1. Globale Schrankensfunktionsmethode

Einführung des Konzepts globaler Ober- und Unterschrankenfunktionen, die besser für rekursive Risikomaße geeignet sind als traditionelle lokale Schranken:

Lemma 4.3: Für geeignete kohärente Risikomaße, wenn lokale Schranken existieren, die erfüllen: $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

dann ist die globale Schranke $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ .

2. Bellman-Gleichung

Theorem 4.7: Unter geeigneten Annahmen erfüllt die Wertfunktion die Bellman-Gleichung: $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$

3. Kontraktivitätseigenschaft

Lemma 5.4: Der Bellman-Operator $T$ ist eine Kontraktion mit Modul $\alpha\beta$ auf dem Intervall $I = [\underline{B}, \overline{B}]$ .

Experimentelle Einrichtung

Theoretische Verifikation

Das Papier verifiziert die Wirksamkeit der Methode hauptsächlich durch theoretische Analyse und mathematische Beispiele statt großflächiger numerischer Experimente.

Anwendungsfälle

Kurzsichtigkeit von Value-at-Risk: Nachweis, dass optimale Strategien unter VaR-Kriterien in monotonen Modellen kurzsichtig sind
Stoppprobleme: Demonstration der Beibehaltung von Schwellenwertstrategiestrukturen
Casinospiele: Analyse optimaler Wettstrategien
Kassenbestandsprobleme: Nachweis der Optimalität von (S⁻, S⁺)-Strategien

Experimentelle Ergebnisse

Haupttheoretische Ergebnisse

Endlicher Horizont

Nachweis der Existenz von Markov-optimalen Strategien
Etablierung rekursiver Bellman-Gleichungen
Unterhalbstetigkeit der Wertfunktion

Unendlicher Horizont

Theorem 5.5:
- Die Grenzwertfunktion ist der eindeutige Fixpunkt des Bellman-Operators
- Existenz einer optimalen stationären Strategie
- Das Modell ist kontraktiv mit Kontraktionsmodul $\alpha\beta < 1$

Ergebnisse für Spezialfälle

Beschränkte Kosten

Korollar 5.6: Wenn einstufige Kosten beschränkt sind, ist jedes normalisierte monetäre Risikomaß mit Fatou-Eigenschaft anwendbar.

Monotone Modelle

Proposition 7.5: Unter Monotonieannahmen können die Kohärenzanforderungen des Risikomaßes gelockert werden, wobei nur komonotone Additivität erforderlich ist.

Fallstudien

Value-at-Risk-Kurzsichtigkeit

In monotonen Modellen, wenn die Kostenfunktion nicht von der Aktion abhängt: $J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z)))$ wobei $h$ eine monoton steigende unterhalbstetige Funktion ist, führt dies zu stationären und kurzsichtigen optimalen Strategien.

Kassenbestandsproblem

Beibehaltung von Struktureigenschaften aus klassischen MDPs:

Existenz kritischer Niveaus $S^-$ und $S^+$
Optimale Strategie hat $(S^-, S^+)$ -Form
Wertfunktion behält Konvexität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die rekursive Anwendung statischer Risikomaße bietet einen einheitlichen theoretischen Rahmen für risikosensitive MDPs
Unter geeigneten Annahmen kann eine vollständige Bellman-Theorie etabliert werden
Monotone Modelle ermöglichen erhebliche Lockerung technischer Annahmen
Die Verbindung zu verteilungsrobusten MDPs bietet globale Interpretation

Einschränkungen

Technische Annahmen: Erfordern relativ komplexe globale Schrankensfunktionsannahmen
Rechenkomplexität: Das Papier diskutiert numerische Berechnungsmethoden nicht ausreichend
Empirische Verifikation: Mangel an großflächigen numerischen Experimenten zur Verifikation theoretischer Ergebnisse

Zukünftige Richtungen

Entwicklung effizienter numerischer Algorithmen
Untersuchung allgemeinerer Risikomaßklassen
Erforschung von Lernalgorithmen in risikosensitiven Umgebungen

Tiefgehende Bewertung

Stärken

Theoretische Strenge: Bietet einen vollständigen mathematischen Rahmen mit rigorosen Beweisen
Allgemeinheit: Anwendbar auf breitere Risikomaße und Modelleinstellungen als bestehende Arbeiten
Innovativität: Globale Schrankensfunktionsmethode und Verbindung zu verteilungsrobusten MDPs sind innovativ
Strukturbewahrung: Nachweis, dass viele Struktureigenschaften klassischer MDPs in risikosensitiven Fällen erhalten bleiben

Schwächen

Rechnerische Aspekte: Mangel an konkreten Algorithmen und numerischen Methoden
Praktische Anwendung: Theoretisch orientiert mit relativ begrenzten praktischen Anwendungsbeispielen
Annahmebedingungen: Einige technische Annahmen könnten in praktischen Anwendungen schwer zu verifizieren sein

Einfluss

Theoretischer Beitrag: Bietet solide theoretische Grundlagen für risikosensitive MDPs
Methodologischer Wert: Rekursive Risikomaßmethode könnte Forschungsrichtungen verwandter Bereiche beeinflussen
Interdisziplinäre Bedeutung: Verbindet Operationsforschung, Finanzmathematik und Wahrscheinlichkeitstheorie

Anwendungsszenarien

Finanzingenieurwesen: Portfoliooptimierung, Risikomanagement
Versicherungsmathematik: Rückstellungsverwaltung, Rückversicherungsstrategien
Lieferkettenmanagement: Risikosensitive Entscheidungen unter Unsicherheit
Energiemanagement: Risikoberücksichtigende Stromverteilung und Preisgestaltung

Literaturverzeichnis

Das Papier zitiert 34 wichtige Arbeiten, die klassische und aktuelle Forschung in Risikomaßtheorie, Markov-Entscheidungsprozessen und dynamischer Programmierung abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Papier, das wichtige Beiträge zum Bereich risikosensitiver Markov-Entscheidungsprozesse leistet. Obwohl es sich auf theoretische Analyse konzentriert, legt es eine wichtige Grundlage für die weitere Entwicklung dieses Feldes.