2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

Bäuerle, Glauner
In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.
academic

Processi Decisionali di Markov con Misure di Rischio Ricorsive

Informazioni Fondamentali

  • ID Articolo: 2010.07220
  • Titolo: Markov Decision Processes with Recursive Risk Measures
  • Autori: Nicole Bäuerle, Alexander Glauner
  • Classificazione: math.OC (Ottimizzazione e Controllo), q-fin.RM (Finanza Quantitativa - Gestione del Rischio)
  • Data di Pubblicazione: 14 ottobre 2020 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2010.07220

Riassunto

Il presente articolo esamina processi decisionali di Markov (MDP) sensibili al rischio con spazi di stato e azione di Borel e costi illimitati, coprendo orizzonti di pianificazione finiti e infiniti. Il criterio di ottimizzazione si basa sull'applicazione ricorsiva di misure di rischio statiche. Questo approccio è ispirato dall'utilità ricorsiva nella letteratura economica, precedentemente studiato nelle misure di rischio entropiche, e viene qui esteso alle caratterizzazioni assiomatiche delle misure di rischio appropriate. L'articolo deriva l'equazione di Bellman e dimostra l'esistenza di politiche ottimali markoviane. Per orizzonti di pianificazione infiniti, il modello si rivela essere una contrazione e la politica ottimale è stazionaria. Inoltre, viene stabilito un collegamento con gli MDP robusti rispetto alla distribuzione, fornendo un'interpretazione globale per le funzioni obiettivo definite ricorsivamente.

Contesto di Ricerca e Motivazione

Sfondo del Problema

La teoria tradizionale dei processi decisionali di Markov si concentra sulla minimizzazione del costo atteso scontato di sistemi dinamici controllati su orizzonti temporali finiti o infiniti. Tuttavia, la semplice aspettativa non riflette il vero rischio della decisione, il che è particolarmente importante in applicazioni come la gestione dei flussi di cassa.

Motivazione della Ricerca

  1. Necessità di Sensibilità al Rischio: Nei settori finanziario e assicurativo, i decisori preferiscono utilizzare utilità dinamiche per valutare le prestazioni piuttosto che semplici aspettative
  2. Coerenza Temporale: La teoria delle misure di rischio dinamiche esistente suggerisce che le uniche misure di rischio temporalmente coerenti sono quelle che iterano misure di rischio statiche
  3. Perfezionamento Teorico: È necessario stabilire un quadro teorico completo per misure di rischio generali, non limitato a specifiche misure di rischio entropiche

Limitazioni degli Approcci Esistenti

  • La maggior parte della ricerca è limitata a variabili casuali limitate o a tipi specifici di misure di rischio
  • Alcuni approcci richiedono ipotesi indirette sulle proprietà delle misure di rischio
  • Manca un trattamento sistematico di spazi di Borel generali e funzioni di costo illimitate

Contributi Fondamentali

  1. Estensione del Quadro Teorico: Estensione della teoria MDP delle misure di rischio ricorsive dalle misure di rischio entropiche alle misure di rischio assiomatiche generali
  2. Derivazione dell'Equazione di Bellman: Derivazione dell'equazione di Bellman per MDP con misure di rischio ricorsive e dimostrazione dell'esistenza di politiche ottimali markoviane
  3. Dimostrazione della Contrazione: Dimostrazione della proprietà di contrazione del modello a orizzonte infinito e dell'esistenza di politiche ottimali stazionarie
  4. Collegamento con la Robustezza Distributiva: Stabilimento di un collegamento teorico con gli MDP robusti rispetto alla distribuzione, fornendo un'interpretazione globale delle funzioni obiettivo ricorsive
  5. Analisi di Modelli Monotoni: Studio approfondito di modelli speciali con proprietà di monotonia, rilassando ipotesi di continuità

Dettagli Metodologici

Definizione del Compito

Si consideri un processo decisionale di Markov con spazi di stato E e azione A come spazi di Borel, dove:

  • La transizione di stato è data dalla funzione di transizione misurabile Tn:Dn×ZET_n: D_n \times Z \to E
  • La funzione di costo a un stadio cn:Dn×ERc_n: D_n \times E \to \mathbb{R}
  • La funzione di costo terminale cN:ERc_N: E \to \mathbb{R}

Quadro delle Misure di Rischio Ricorsive

Proprietà delle Misure di Rischio

L'articolo considera misure di rischio ρ:LpR\rho: L^p \to \overline{\mathbb{R}} con le seguenti proprietà:

  • Monetarietà: Monotonicità e invarianza traslazionale
  • Coerenza: Omogeneità positiva e subadditività
  • Proprietà di Fatou: Semicontinuità inferiore rispetto alla convergenza controllata

Definizione del Valore Ricorsivo

Per una politica π=(d0,,dN1)\pi = (d_0, \ldots, d_{N-1}), il valore della funzione è definito ricorsivamente: VNπ(hN)=cN(xN)V_N^\pi(h_N) = c_N(x_N)Vnπ(hn)=ρn(cn(xn,dn(hn),Tn(xn,dn(hn),Zn+1))+Vn+1π())V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)

Punti di Innovazione Tecnica

1. Metodo della Funzione di Limite Globale

Viene proposto il concetto di funzioni di limite superiore e inferiore globali, più adatto alle misure di rischio ricorsive rispetto alle funzioni di limite locali tradizionali:

Lemma 4.3: Per misure di rischio coerenti appropriate, se esistono funzioni di limite locali che soddisfano: ρn(cn(x,a,Tn(x,a,Zn+1)))b(x)\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)ρn(b(Tn(x,a,Zn+1)))αb(x)\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)

allora la funzione di limite globale è B=11αb\underline{B} = \frac{1}{1-\alpha}\underline{b}.

2. Equazione di Bellman

Teorema 4.7: Sotto ipotesi appropriate, la funzione di valore soddisfa l'equazione di Bellman: JN(x)=cN(x)J_N(x) = c_N(x)Jn(x)=TnJn+1(x)=infaDn(x)ρn(cn(x,a,Tn(x,a,Zn+1))+Jn+1(Tn(x,a,Zn+1)))J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))

3. Proprietà di Contrazione

Lemma 5.4: L'operatore di Bellman TT è una contrazione con modulo αβ\alpha\beta sull'intervallo I=[B,B]I = [\underline{B}, \overline{B}].

Configurazione Sperimentale

Verifica Teorica

L'articolo verifica principalmente l'efficacia del metodo attraverso analisi teorica ed esempi matematici, piuttosto che attraverso esperimenti numerici su larga scala.

Casi di Applicazione

  1. Miopia del Value-at-Risk: Dimostrazione nel modello monotono che la politica ottimale secondo il criterio VaR è miope
  2. Problema di Arresto: Dimostrazione della conservazione della struttura della politica di soglia
  3. Gioco d'Azzardo: Analisi della strategia di scommessa ottimale
  4. Problema di Equilibrio di Cassa: Dimostrazione dell'optimalità della politica (S⁻, S⁺)

Risultati Sperimentali

Risultati Teorici Principali

Orizzonte Finito

  • Dimostrazione dell'esistenza di politiche ottimali markoviane
  • Stabilimento dell'equazione di Bellman ricorsiva
  • La funzione di valore possiede semicontinuità inferiore

Orizzonte Infinito

  • Teorema 5.5:
    • La funzione di valore limite è il punto fisso unico dell'operatore di Bellman
    • Esiste una politica stazionaria ottimale
    • Il modello possiede proprietà di contrazione con modulo di contrazione αβ<1\alpha\beta < 1

Risultati per Casi Speciali

Caso di Costi Limitati

Corollario 5.6: Quando il costo a un stadio è limitato, qualsiasi misura di rischio monetaria normalizzata con proprietà di Fatou è applicabile.

Modelli Monotoni

Proposizione 7.5: Sotto ipotesi di monotonia, è possibile rilassare il requisito di coerenza della misura di rischio, richiedendo solo l'additività comonotona.

Analisi dei Casi

Miopia del Value-at-Risk

Nel modello monotono, quando la funzione di costo non dipende dall'azione: Jn(x)=infaD(x)h(VaRα(T(x,a,Z)))J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z))) dove hh è una funzione crescente e semicontinua inferiormente, portando a una politica ottimale stazionaria e miope.

Problema di Equilibrio di Cassa

Conserva le proprietà strutturali del MDP classico:

  • Esistenza di livelli critici SS^- e S+S^+
  • La politica ottimale ha forma (S,S+)(S^-, S^+)
  • La funzione di valore mantiene la convessità

Lavori Correlati

Teoria delle Misure di Rischio Dinamiche

  • Epstein & Schneider (2003): Modelli ricorsivi multiprior
  • Riedel (2004): Misure di rischio dinamicamente coerenti
  • Shapiro (2012): Teoria della coerenza temporale

MDP Sensibili al Rischio

  • Ruszczyński (2010): Approccio assiomatico, limitato a variabili casuali limitate
  • Shen et al. (2013): Metodo di mappatura del rischio
  • Chu & Zhang (2014): Misure di rischio coerenti, richiedono l'esistenza del limite

Applicazioni di Misure di Rischio Specifiche

  • Asienkiewicz & Jaśkiewicz (2017): Misure di rischio entropiche
  • Bäuerle & Jaśkiewicz (2017, 2018): Applicazioni finanziarie

Conclusioni e Discussione

Conclusioni Principali

  1. L'applicazione ricorsiva di misure di rischio statiche fornisce un quadro teorico unificato per gli MDP sensibili al rischio
  2. Sotto ipotesi appropriate, è possibile stabilire una teoria di Bellman completa
  3. I modelli monotoni consentono un significativo rilassamento delle ipotesi tecniche
  4. Il collegamento con gli MDP robusti rispetto alla distribuzione fornisce un'interpretazione globale

Limitazioni

  1. Ipotesi Tecniche: Richiedono ipotesi di funzione di limite globale relativamente complesse
  2. Complessità Computazionale: L'articolo non affronta sufficientemente i metodi di calcolo numerico
  3. Verifica Empirica: Mancanza di esperimenti numerici su larga scala per verificare i risultati teorici

Direzioni Future

  1. Sviluppo di algoritmi numerici efficienti
  2. Ricerca di classi di misure di rischio più generali
  3. Esplorazione di algoritmi di apprendimento in ambienti sensibili al rischio

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornisce un quadro matematico completo con dimostrazioni rigorose
  2. Generalità: Applicabile a una gamma più ampia di misure di rischio e impostazioni di modelli rispetto ai lavori esistenti
  3. Innovatività: Il metodo della funzione di limite globale e il collegamento con gli MDP robusti rispetto alla distribuzione sono innovativi
  4. Conservazione della Struttura: Dimostra che molte proprietà strutturali degli MDP classici rimangono valide nel caso sensibile al rischio

Insufficienze

  1. Aspetto Computazionale: Mancanza di algoritmi concreti e metodi numerici
  2. Applicazione Pratica: Natura teorica forte con casi di applicazione pratica relativamente limitati
  3. Condizioni di Ipotesi: Alcune ipotesi tecniche potrebbero essere difficili da verificare nelle applicazioni pratiche

Impatto

  1. Contributo Teorico: Fornisce una base teorica solida per gli MDP sensibili al rischio
  2. Valore Metodologico: L'approccio delle misure di rischio ricorsive potrebbe influenzare la direzione della ricerca nei campi correlati
  3. Significato Interdisciplinare: Connette ricerca operativa, matematica finanziaria e teoria della probabilità

Scenari di Applicazione

  1. Ingegneria Finanziaria: Ottimizzazione del portafoglio, gestione del rischio
  2. Attuaria Assicurativa: Gestione delle riserve, strategie di riassicurazione
  3. Gestione della Catena di Approvvigionamento: Decisioni sensibili al rischio in condizioni di incertezza
  4. Gestione Energetica: Programmazione e determinazione dei prezzi dell'energia considerando il rischio

Bibliografia

L'articolo cita 34 importanti riferimenti bibliografici, coprendo i campi fondamentali e all'avanguardia della teoria delle misure di rischio, dei processi decisionali di Markov e della programmazione dinamica, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce importanti contributi nel campo dei processi decisionali di Markov sensibili al rischio. Sebbene enfatizzi l'analisi teorica, pone una base importante per lo sviluppo futuro del campo.