2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

Processi Decisionali di Markov con Misure di Rischio Ricorsive

Informazioni Fondamentali

ID Articolo: 2010.07220
Titolo: Markov Decision Processes with Recursive Risk Measures
Autori: Nicole Bäuerle, Alexander Glauner
Classificazione: math.OC (Ottimizzazione e Controllo), q-fin.RM (Finanza Quantitativa - Gestione del Rischio)
Data di Pubblicazione: 14 ottobre 2020 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2010.07220

Riassunto

Il presente articolo esamina processi decisionali di Markov (MDP) sensibili al rischio con spazi di stato e azione di Borel e costi illimitati, coprendo orizzonti di pianificazione finiti e infiniti. Il criterio di ottimizzazione si basa sull'applicazione ricorsiva di misure di rischio statiche. Questo approccio è ispirato dall'utilità ricorsiva nella letteratura economica, precedentemente studiato nelle misure di rischio entropiche, e viene qui esteso alle caratterizzazioni assiomatiche delle misure di rischio appropriate. L'articolo deriva l'equazione di Bellman e dimostra l'esistenza di politiche ottimali markoviane. Per orizzonti di pianificazione infiniti, il modello si rivela essere una contrazione e la politica ottimale è stazionaria. Inoltre, viene stabilito un collegamento con gli MDP robusti rispetto alla distribuzione, fornendo un'interpretazione globale per le funzioni obiettivo definite ricorsivamente.

Contesto di Ricerca e Motivazione

Sfondo del Problema

La teoria tradizionale dei processi decisionali di Markov si concentra sulla minimizzazione del costo atteso scontato di sistemi dinamici controllati su orizzonti temporali finiti o infiniti. Tuttavia, la semplice aspettativa non riflette il vero rischio della decisione, il che è particolarmente importante in applicazioni come la gestione dei flussi di cassa.

Motivazione della Ricerca

Necessità di Sensibilità al Rischio: Nei settori finanziario e assicurativo, i decisori preferiscono utilizzare utilità dinamiche per valutare le prestazioni piuttosto che semplici aspettative
Coerenza Temporale: La teoria delle misure di rischio dinamiche esistente suggerisce che le uniche misure di rischio temporalmente coerenti sono quelle che iterano misure di rischio statiche
Perfezionamento Teorico: È necessario stabilire un quadro teorico completo per misure di rischio generali, non limitato a specifiche misure di rischio entropiche

Limitazioni degli Approcci Esistenti

La maggior parte della ricerca è limitata a variabili casuali limitate o a tipi specifici di misure di rischio
Alcuni approcci richiedono ipotesi indirette sulle proprietà delle misure di rischio
Manca un trattamento sistematico di spazi di Borel generali e funzioni di costo illimitate

Contributi Fondamentali

Estensione del Quadro Teorico: Estensione della teoria MDP delle misure di rischio ricorsive dalle misure di rischio entropiche alle misure di rischio assiomatiche generali
Derivazione dell'Equazione di Bellman: Derivazione dell'equazione di Bellman per MDP con misure di rischio ricorsive e dimostrazione dell'esistenza di politiche ottimali markoviane
Dimostrazione della Contrazione: Dimostrazione della proprietà di contrazione del modello a orizzonte infinito e dell'esistenza di politiche ottimali stazionarie
Collegamento con la Robustezza Distributiva: Stabilimento di un collegamento teorico con gli MDP robusti rispetto alla distribuzione, fornendo un'interpretazione globale delle funzioni obiettivo ricorsive
Analisi di Modelli Monotoni: Studio approfondito di modelli speciali con proprietà di monotonia, rilassando ipotesi di continuità

Dettagli Metodologici

Definizione del Compito

Si consideri un processo decisionale di Markov con spazi di stato E e azione A come spazi di Borel, dove:

La transizione di stato è data dalla funzione di transizione misurabile $T_n: D_n \times Z \to E$
La funzione di costo a un stadio $c_n: D_n \times E \to \mathbb{R}$
La funzione di costo terminale $c_N: E \to \mathbb{R}$

Quadro delle Misure di Rischio Ricorsive

Proprietà delle Misure di Rischio

L'articolo considera misure di rischio $\rho: L^p \to \overline{\mathbb{R}}$ con le seguenti proprietà:

Monetarietà: Monotonicità e invarianza traslazionale
Coerenza: Omogeneità positiva e subadditività
Proprietà di Fatou: Semicontinuità inferiore rispetto alla convergenza controllata

Definizione del Valore Ricorsivo

Per una politica $\pi = (d_0, \ldots, d_{N-1})$ , il valore della funzione è definito ricorsivamente: $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

Punti di Innovazione Tecnica

1. Metodo della Funzione di Limite Globale

Viene proposto il concetto di funzioni di limite superiore e inferiore globali, più adatto alle misure di rischio ricorsive rispetto alle funzioni di limite locali tradizionali:

Lemma 4.3: Per misure di rischio coerenti appropriate, se esistono funzioni di limite locali che soddisfano: $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

allora la funzione di limite globale è $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ .

2. Equazione di Bellman

Teorema 4.7: Sotto ipotesi appropriate, la funzione di valore soddisfa l'equazione di Bellman: $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$

3. Proprietà di Contrazione

Lemma 5.4: L'operatore di Bellman $T$ è una contrazione con modulo $\alpha\beta$ sull'intervallo $I = [\underline{B}, \overline{B}]$ .

Configurazione Sperimentale

Verifica Teorica

L'articolo verifica principalmente l'efficacia del metodo attraverso analisi teorica ed esempi matematici, piuttosto che attraverso esperimenti numerici su larga scala.

Casi di Applicazione

Miopia del Value-at-Risk: Dimostrazione nel modello monotono che la politica ottimale secondo il criterio VaR è miope
Problema di Arresto: Dimostrazione della conservazione della struttura della politica di soglia
Gioco d'Azzardo: Analisi della strategia di scommessa ottimale
Problema di Equilibrio di Cassa: Dimostrazione dell'optimalità della politica (S⁻, S⁺)

Risultati Sperimentali

Risultati Teorici Principali

Orizzonte Finito

Dimostrazione dell'esistenza di politiche ottimali markoviane
Stabilimento dell'equazione di Bellman ricorsiva
La funzione di valore possiede semicontinuità inferiore

Orizzonte Infinito

Teorema 5.5:
- La funzione di valore limite è il punto fisso unico dell'operatore di Bellman
- Esiste una politica stazionaria ottimale
- Il modello possiede proprietà di contrazione con modulo di contrazione $\alpha\beta < 1$

Risultati per Casi Speciali

Caso di Costi Limitati

Corollario 5.6: Quando il costo a un stadio è limitato, qualsiasi misura di rischio monetaria normalizzata con proprietà di Fatou è applicabile.

Modelli Monotoni

Proposizione 7.5: Sotto ipotesi di monotonia, è possibile rilassare il requisito di coerenza della misura di rischio, richiedendo solo l'additività comonotona.

Analisi dei Casi

Miopia del Value-at-Risk

Nel modello monotono, quando la funzione di costo non dipende dall'azione: $J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z)))$ dove $h$ è una funzione crescente e semicontinua inferiormente, portando a una politica ottimale stazionaria e miope.

Problema di Equilibrio di Cassa

Conserva le proprietà strutturali del MDP classico:

Esistenza di livelli critici $S^-$ e $S^+$
La politica ottimale ha forma $(S^-, S^+)$
La funzione di valore mantiene la convessità

Lavori Correlati

Teoria delle Misure di Rischio Dinamiche

Epstein & Schneider (2003): Modelli ricorsivi multiprior
Riedel (2004): Misure di rischio dinamicamente coerenti
Shapiro (2012): Teoria della coerenza temporale

MDP Sensibili al Rischio

Ruszczyński (2010): Approccio assiomatico, limitato a variabili casuali limitate
Shen et al. (2013): Metodo di mappatura del rischio
Chu & Zhang (2014): Misure di rischio coerenti, richiedono l'esistenza del limite

Applicazioni di Misure di Rischio Specifiche

Asienkiewicz & Jaśkiewicz (2017): Misure di rischio entropiche
Bäuerle & Jaśkiewicz (2017, 2018): Applicazioni finanziarie

Conclusioni e Discussione

Conclusioni Principali

L'applicazione ricorsiva di misure di rischio statiche fornisce un quadro teorico unificato per gli MDP sensibili al rischio
Sotto ipotesi appropriate, è possibile stabilire una teoria di Bellman completa
I modelli monotoni consentono un significativo rilassamento delle ipotesi tecniche
Il collegamento con gli MDP robusti rispetto alla distribuzione fornisce un'interpretazione globale

Limitazioni

Ipotesi Tecniche: Richiedono ipotesi di funzione di limite globale relativamente complesse
Complessità Computazionale: L'articolo non affronta sufficientemente i metodi di calcolo numerico
Verifica Empirica: Mancanza di esperimenti numerici su larga scala per verificare i risultati teorici

Direzioni Future

Sviluppo di algoritmi numerici efficienti
Ricerca di classi di misure di rischio più generali
Esplorazione di algoritmi di apprendimento in ambienti sensibili al rischio

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Fornisce un quadro matematico completo con dimostrazioni rigorose
Generalità: Applicabile a una gamma più ampia di misure di rischio e impostazioni di modelli rispetto ai lavori esistenti
Innovatività: Il metodo della funzione di limite globale e il collegamento con gli MDP robusti rispetto alla distribuzione sono innovativi
Conservazione della Struttura: Dimostra che molte proprietà strutturali degli MDP classici rimangono valide nel caso sensibile al rischio

Insufficienze

Aspetto Computazionale: Mancanza di algoritmi concreti e metodi numerici
Applicazione Pratica: Natura teorica forte con casi di applicazione pratica relativamente limitati
Condizioni di Ipotesi: Alcune ipotesi tecniche potrebbero essere difficili da verificare nelle applicazioni pratiche

Impatto

Contributo Teorico: Fornisce una base teorica solida per gli MDP sensibili al rischio
Valore Metodologico: L'approccio delle misure di rischio ricorsive potrebbe influenzare la direzione della ricerca nei campi correlati
Significato Interdisciplinare: Connette ricerca operativa, matematica finanziaria e teoria della probabilità

Scenari di Applicazione

Ingegneria Finanziaria: Ottimizzazione del portafoglio, gestione del rischio
Attuaria Assicurativa: Gestione delle riserve, strategie di riassicurazione
Gestione della Catena di Approvvigionamento: Decisioni sensibili al rischio in condizioni di incertezza
Gestione Energetica: Programmazione e determinazione dei prezzi dell'energia considerando il rischio

Bibliografia

L'articolo cita 34 importanti riferimenti bibliografici, coprendo i campi fondamentali e all'avanguardia della teoria delle misure di rischio, dei processi decisionali di Markov e della programmazione dinamica, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce importanti contributi nel campo dei processi decisionali di Markov sensibili al rischio. Sebbene enfatizzi l'analisi teorica, pone una base importante per lo sviluppo futuro del campo.