In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.
- ID Articolo: 2010.07220
- Titolo: Markov Decision Processes with Recursive Risk Measures
- Autori: Nicole Bäuerle, Alexander Glauner
- Classificazione: math.OC (Ottimizzazione e Controllo), q-fin.RM (Finanza Quantitativa - Gestione del Rischio)
- Data di Pubblicazione: 14 ottobre 2020 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2010.07220
Il presente articolo esamina processi decisionali di Markov (MDP) sensibili al rischio con spazi di stato e azione di Borel e costi illimitati, coprendo orizzonti di pianificazione finiti e infiniti. Il criterio di ottimizzazione si basa sull'applicazione ricorsiva di misure di rischio statiche. Questo approccio è ispirato dall'utilità ricorsiva nella letteratura economica, precedentemente studiato nelle misure di rischio entropiche, e viene qui esteso alle caratterizzazioni assiomatiche delle misure di rischio appropriate. L'articolo deriva l'equazione di Bellman e dimostra l'esistenza di politiche ottimali markoviane. Per orizzonti di pianificazione infiniti, il modello si rivela essere una contrazione e la politica ottimale è stazionaria. Inoltre, viene stabilito un collegamento con gli MDP robusti rispetto alla distribuzione, fornendo un'interpretazione globale per le funzioni obiettivo definite ricorsivamente.
La teoria tradizionale dei processi decisionali di Markov si concentra sulla minimizzazione del costo atteso scontato di sistemi dinamici controllati su orizzonti temporali finiti o infiniti. Tuttavia, la semplice aspettativa non riflette il vero rischio della decisione, il che è particolarmente importante in applicazioni come la gestione dei flussi di cassa.
- Necessità di Sensibilità al Rischio: Nei settori finanziario e assicurativo, i decisori preferiscono utilizzare utilità dinamiche per valutare le prestazioni piuttosto che semplici aspettative
- Coerenza Temporale: La teoria delle misure di rischio dinamiche esistente suggerisce che le uniche misure di rischio temporalmente coerenti sono quelle che iterano misure di rischio statiche
- Perfezionamento Teorico: È necessario stabilire un quadro teorico completo per misure di rischio generali, non limitato a specifiche misure di rischio entropiche
- La maggior parte della ricerca è limitata a variabili casuali limitate o a tipi specifici di misure di rischio
- Alcuni approcci richiedono ipotesi indirette sulle proprietà delle misure di rischio
- Manca un trattamento sistematico di spazi di Borel generali e funzioni di costo illimitate
- Estensione del Quadro Teorico: Estensione della teoria MDP delle misure di rischio ricorsive dalle misure di rischio entropiche alle misure di rischio assiomatiche generali
- Derivazione dell'Equazione di Bellman: Derivazione dell'equazione di Bellman per MDP con misure di rischio ricorsive e dimostrazione dell'esistenza di politiche ottimali markoviane
- Dimostrazione della Contrazione: Dimostrazione della proprietà di contrazione del modello a orizzonte infinito e dell'esistenza di politiche ottimali stazionarie
- Collegamento con la Robustezza Distributiva: Stabilimento di un collegamento teorico con gli MDP robusti rispetto alla distribuzione, fornendo un'interpretazione globale delle funzioni obiettivo ricorsive
- Analisi di Modelli Monotoni: Studio approfondito di modelli speciali con proprietà di monotonia, rilassando ipotesi di continuità
Si consideri un processo decisionale di Markov con spazi di stato E e azione A come spazi di Borel, dove:
- La transizione di stato è data dalla funzione di transizione misurabile Tn:Dn×Z→E
- La funzione di costo a un stadio cn:Dn×E→R
- La funzione di costo terminale cN:E→R
L'articolo considera misure di rischio ρ:Lp→R con le seguenti proprietà:
- Monetarietà: Monotonicità e invarianza traslazionale
- Coerenza: Omogeneità positiva e subadditività
- Proprietà di Fatou: Semicontinuità inferiore rispetto alla convergenza controllata
Per una politica π=(d0,…,dN−1), il valore della funzione è definito ricorsivamente:
VNπ(hN)=cN(xN)Vnπ(hn)=ρn(cn(xn,dn(hn),Tn(xn,dn(hn),Zn+1))+Vn+1π(⋅))
Viene proposto il concetto di funzioni di limite superiore e inferiore globali, più adatto alle misure di rischio ricorsive rispetto alle funzioni di limite locali tradizionali:
Lemma 4.3: Per misure di rischio coerenti appropriate, se esistono funzioni di limite locali che soddisfano:
ρn(cn(x,a,Tn(x,a,Zn+1)))≥b(x)ρn(−b(Tn(x,a,Zn+1)))≤−αb(x)
allora la funzione di limite globale è B=1−α1b.
Teorema 4.7: Sotto ipotesi appropriate, la funzione di valore soddisfa l'equazione di Bellman:
JN(x)=cN(x)Jn(x)=TnJn+1(x)=infa∈Dn(x)ρn(cn(x,a,Tn(x,a,Zn+1))+Jn+1(Tn(x,a,Zn+1)))
Lemma 5.4: L'operatore di Bellman T è una contrazione con modulo αβ sull'intervallo I=[B,B].
L'articolo verifica principalmente l'efficacia del metodo attraverso analisi teorica ed esempi matematici, piuttosto che attraverso esperimenti numerici su larga scala.
- Miopia del Value-at-Risk: Dimostrazione nel modello monotono che la politica ottimale secondo il criterio VaR è miope
- Problema di Arresto: Dimostrazione della conservazione della struttura della politica di soglia
- Gioco d'Azzardo: Analisi della strategia di scommessa ottimale
- Problema di Equilibrio di Cassa: Dimostrazione dell'optimalità della politica (S⁻, S⁺)
- Dimostrazione dell'esistenza di politiche ottimali markoviane
- Stabilimento dell'equazione di Bellman ricorsiva
- La funzione di valore possiede semicontinuità inferiore
- Teorema 5.5:
- La funzione di valore limite è il punto fisso unico dell'operatore di Bellman
- Esiste una politica stazionaria ottimale
- Il modello possiede proprietà di contrazione con modulo di contrazione αβ<1
Corollario 5.6: Quando il costo a un stadio è limitato, qualsiasi misura di rischio monetaria normalizzata con proprietà di Fatou è applicabile.
Proposizione 7.5: Sotto ipotesi di monotonia, è possibile rilassare il requisito di coerenza della misura di rischio, richiedendo solo l'additività comonotona.
Nel modello monotono, quando la funzione di costo non dipende dall'azione:
Jn(x)=infa∈D(x)h(VaRα(T(x,a,Z)))
dove h è una funzione crescente e semicontinua inferiormente, portando a una politica ottimale stazionaria e miope.
Conserva le proprietà strutturali del MDP classico:
- Esistenza di livelli critici S− e S+
- La politica ottimale ha forma (S−,S+)
- La funzione di valore mantiene la convessità
- Epstein & Schneider (2003): Modelli ricorsivi multiprior
- Riedel (2004): Misure di rischio dinamicamente coerenti
- Shapiro (2012): Teoria della coerenza temporale
- Ruszczyński (2010): Approccio assiomatico, limitato a variabili casuali limitate
- Shen et al. (2013): Metodo di mappatura del rischio
- Chu & Zhang (2014): Misure di rischio coerenti, richiedono l'esistenza del limite
- Asienkiewicz & Jaśkiewicz (2017): Misure di rischio entropiche
- Bäuerle & Jaśkiewicz (2017, 2018): Applicazioni finanziarie
- L'applicazione ricorsiva di misure di rischio statiche fornisce un quadro teorico unificato per gli MDP sensibili al rischio
- Sotto ipotesi appropriate, è possibile stabilire una teoria di Bellman completa
- I modelli monotoni consentono un significativo rilassamento delle ipotesi tecniche
- Il collegamento con gli MDP robusti rispetto alla distribuzione fornisce un'interpretazione globale
- Ipotesi Tecniche: Richiedono ipotesi di funzione di limite globale relativamente complesse
- Complessità Computazionale: L'articolo non affronta sufficientemente i metodi di calcolo numerico
- Verifica Empirica: Mancanza di esperimenti numerici su larga scala per verificare i risultati teorici
- Sviluppo di algoritmi numerici efficienti
- Ricerca di classi di misure di rischio più generali
- Esplorazione di algoritmi di apprendimento in ambienti sensibili al rischio
- Rigore Teorico: Fornisce un quadro matematico completo con dimostrazioni rigorose
- Generalità: Applicabile a una gamma più ampia di misure di rischio e impostazioni di modelli rispetto ai lavori esistenti
- Innovatività: Il metodo della funzione di limite globale e il collegamento con gli MDP robusti rispetto alla distribuzione sono innovativi
- Conservazione della Struttura: Dimostra che molte proprietà strutturali degli MDP classici rimangono valide nel caso sensibile al rischio
- Aspetto Computazionale: Mancanza di algoritmi concreti e metodi numerici
- Applicazione Pratica: Natura teorica forte con casi di applicazione pratica relativamente limitati
- Condizioni di Ipotesi: Alcune ipotesi tecniche potrebbero essere difficili da verificare nelle applicazioni pratiche
- Contributo Teorico: Fornisce una base teorica solida per gli MDP sensibili al rischio
- Valore Metodologico: L'approccio delle misure di rischio ricorsive potrebbe influenzare la direzione della ricerca nei campi correlati
- Significato Interdisciplinare: Connette ricerca operativa, matematica finanziaria e teoria della probabilità
- Ingegneria Finanziaria: Ottimizzazione del portafoglio, gestione del rischio
- Attuaria Assicurativa: Gestione delle riserve, strategie di riassicurazione
- Gestione della Catena di Approvvigionamento: Decisioni sensibili al rischio in condizioni di incertezza
- Gestione Energetica: Programmazione e determinazione dei prezzi dell'energia considerando il rischio
L'articolo cita 34 importanti riferimenti bibliografici, coprendo i campi fondamentali e all'avanguardia della teoria delle misure di rischio, dei processi decisionali di Markov e della programmazione dinamica, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce importanti contributi nel campo dei processi decisionali di Markov sensibili al rischio. Sebbene enfatizzi l'analisi teorica, pone una base importante per lo sviluppo futuro del campo.