2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

Procesos de Decisión de Markov con Medidas de Riesgo Recursivas

Información Básica

ID del Artículo: 2010.07220
Título: Markov Decision Processes with Recursive Risk Measures
Autores: Nicole Bäuerle, Alexander Glauner
Clasificación: math.OC (Optimización y Control), q-fin.RM (Finanzas Cuantitativas - Gestión de Riesgos)
Fecha de Publicación: 14 de octubre de 2020 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2010.07220

Resumen

Este artículo estudia procesos de decisión de Markov (MDPs) sensibles al riesgo con espacios de estado y acción de Borel, así como costos no acotados, abarcando horizontes de planificación finitos e infinitos. El criterio de optimización se basa en la aplicación recursiva de medidas de riesgo estáticas. Este enfoque está inspirado en la literatura económica sobre utilidad recursiva y ha sido previamente investigado en medidas de riesgo entrópico; el artículo lo extiende a caracterizaciones axiomáticas apropiadas para medidas de riesgo. Se derivan ecuaciones de Bellman y se demuestra la existencia de políticas óptimas de Markov. Para horizontes de planificación infinitos, se demuestra que el modelo es contractivo y la política óptima es estacionaria. Además, se establece una conexión con MDPs robustos en distribución, proporcionando una interpretación global para funciones objetivo definidas recursivamente.

Antecedentes y Motivación de la Investigación

Contexto del Problema

La teoría tradicional de procesos de decisión de Markov se enfoca en minimizar el costo esperado descontado de sistemas dinámicos controlados en horizontes de tiempo finitos o infinitos. Sin embargo, la simple esperanza no refleja el riesgo verdadero de las decisiones, lo cual es particularmente importante en aplicaciones como la gestión de flujos de efectivo.

Motivación de la Investigación

Necesidad de Sensibilidad al Riesgo: En campos como finanzas y seguros, los tomadores de decisiones prefieren utilizar utilidad dinámica para evaluar el desempeño en lugar de simple esperanza
Consistencia Temporal: La teoría existente de medidas de riesgo dinámicas indica que las únicas medidas de riesgo temporalmente consistentes son aquellas que iteran medidas de riesgo estáticas
Perfeccionamiento Teórico: Se requiere establecer un marco teórico completo para medidas de riesgo generales, no limitado a medidas de riesgo entrópico específicas

Limitaciones de los Enfoques Existentes

La mayoría de investigaciones se limitan a variables aleatorias acotadas o tipos específicos de medidas de riesgo
Algunos enfoques requieren supuestos indirectos sobre propiedades de medidas de riesgo
Falta tratamiento sistemático de espacios de Borel generales y funciones de costo no acotadas

Contribuciones Principales

Extensión del Marco Teórico: Extiende la teoría de MDPs con medidas de riesgo recursivas desde medidas de riesgo entrópico a medidas de riesgo axiomáticas generales
Derivación de Ecuaciones de Bellman: Deriva ecuaciones de Bellman para MDPs con medidas de riesgo recursivas y demuestra la existencia de políticas óptimas de Markov
Prueba de Contractibilidad: Demuestra la contractibilidad del modelo de horizonte infinito y la existencia de políticas óptimas estacionarias
Conexión de Robustez Distributiva: Establece conexiones teóricas con MDPs robustos en distribución, proporcionando interpretación global para funciones objetivo recursivas
Análisis de Modelos Monótonos: Realiza investigación profunda de modelos especiales con propiedades de monotonía, relajando supuestos de continuidad

Explicación Detallada de Métodos

Definición de Tareas

Se considera un proceso de decisión de Markov donde el espacio de estado E y el espacio de acción A son espacios de Borel, donde:

La transición de estado está dada por la función de transición medible $T_n: D_n \times Z \to E$
La función de costo de una etapa $c_n: D_n \times E \to \mathbb{R}$
La función de costo terminal $c_N: E \to \mathbb{R}$

Marco de Medidas de Riesgo Recursivas

Propiedades de Medidas de Riesgo

El artículo considera medidas de riesgo $\rho: L^p \to \overline{\mathbb{R}}$ con las siguientes propiedades:

Monetariedad: Monotonía e invariancia de traslación
Coherencia: Homogeneidad positiva y subaditividad
Propiedad de Fatou: Semicontinuidad inferior respecto a convergencia controlada

Definición de Valor Recursivo

Para una política $\pi = (d_0, \ldots, d_{N-1})$ , se define recursivamente la función de valor: $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

Puntos de Innovación Técnica

1. Método de Función de Límite Global

Se propone el concepto de funciones de límite superior e inferior global, más apropiadas para medidas de riesgo recursivas que las funciones de límite local tradicionales:

Lema 4.3: Para medidas de riesgo coherentes apropiadas, si existen funciones de límite local que satisfacen: $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

entonces la función de límite global es $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ .

2. Ecuación de Bellman

Teorema 4.7: Bajo supuestos apropiados, la función de valor satisface la ecuación de Bellman: $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$

3. Propiedad de Contractibilidad

Lema 5.4: El operador de Bellman $T$ es una contracción con módulo $\alpha\beta$ en el intervalo $I = [\underline{B}, \overline{B}]$ .

Configuración Experimental

Verificación Teórica

El artículo verifica principalmente la efectividad del método mediante análisis teórico y ejemplos matemáticos, en lugar de experimentos numéricos a gran escala.

Casos de Aplicación

Miopía del Valor en Riesgo: En modelos monótonos, se demuestra que la política óptima bajo el criterio VaR es miope
Problemas de Parada: Se muestra la preservación de la estructura de política de umbral
Juegos de Casino: Se analiza la estrategia óptima de apuestas
Problema de Balance de Efectivo: Se demuestra la optimalidad de la política $(S^-, S^+)$

Resultados Experimentales

Resultados Teóricos Principales

Horizonte Finito

Se demuestra la existencia de políticas óptimas de Markov
Se establece la ecuación de Bellman recursiva
La función de valor posee semicontinuidad inferior

Horizonte Infinito

Teorema 5.5:
- La función de valor límite es el punto fijo único del operador de Bellman
- Existe una política estacionaria óptima
- El modelo posee propiedad de contractibilidad con módulo de contracción $\alpha\beta < 1$

Resultados de Casos Especiales

Caso de Costo Acotado

Corolario 5.6: Cuando el costo de una etapa está acotado, cualquier medida de riesgo monetaria normalizada con propiedad de Fatou es aplicable.

Modelos Monótonos

Proposición 7.5: Bajo supuestos de monotonía, se pueden relajar los requisitos de coherencia de la medida de riesgo, requiriendo solo aditividad comonotónica.

Análisis de Casos

Miopía del Valor en Riesgo

En modelos monótonos, cuando la función de costo no depende de la acción: $J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z)))$ donde $h$ es una función creciente y semicontinua inferiormente, lo que resulta en que la política óptima es estacionaria y miope.

Problema de Balance de Efectivo

Se preservan las propiedades estructurales del MDP clásico:

Existen niveles críticos $S^-$ y $S^+$
La política óptima tiene forma $(S^-, S^+)$
La función de valor mantiene convexidad

Trabajo Relacionado

Teoría de Medidas de Riesgo Dinámicas

Epstein & Schneider (2003): Modelos recursivos multiprior
Riedel (2004): Medidas de riesgo dinámicamente consistentes
Shapiro (2012): Teoría de consistencia temporal

MDPs Sensibles al Riesgo

Ruszczyński (2010): Enfoque axiomático, limitado a variables aleatorias acotadas
Shen et al. (2013): Método de mapeo de riesgo
Chu & Zhang (2014): Medidas de riesgo coherentes, requiere supuesto de existencia de límite

Aplicaciones de Medidas de Riesgo Específicas

Asienkiewicz & Jaśkiewicz (2017): Medidas de riesgo entrópico
Bäuerle & Jaśkiewicz (2017, 2018): Aplicaciones financieras

Conclusiones y Discusión

Conclusiones Principales

La aplicación recursiva de medidas de riesgo estáticas proporciona un marco teórico unificado para MDPs sensibles al riesgo
Bajo supuestos apropiados, se puede establecer una teoría completa de Bellman
Los modelos monótonos permiten relajar significativamente supuestos técnicos
La conexión con MDPs robustos en distribución proporciona interpretación global

Limitaciones

Supuestos Técnicos: Requiere supuestos relativamente complejos sobre funciones de límite global
Complejidad Computacional: El artículo no discute suficientemente métodos de cálculo numérico
Verificación Empírica: Carece de experimentos numéricos a gran escala para verificar resultados teóricos

Direcciones Futuras

Desarrollar algoritmos numéricos eficientes
Investigar clases más generales de medidas de riesgo
Explorar aplicaciones de algoritmos de aprendizaje en entornos sensibles al riesgo

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona un marco matemático completo con pruebas rigurosas
Generalidad: Aplicable a medidas de riesgo y configuraciones de modelo más amplias que trabajos existentes
Innovación: El método de función de límite global y la conexión con MDPs robustos en distribución son innovadores
Preservación de Estructura: Demuestra que muchas propiedades estructurales de MDPs clásicos se mantienen en casos sensibles al riesgo

Deficiencias

Aspecto Computacional: Carece de algoritmos específicos y métodos numéricos
Aplicación Práctica: Naturaleza teórica fuerte con casos de aplicación relativamente limitados
Condiciones de Supuestos: Algunos supuestos técnicos pueden ser difíciles de verificar en aplicaciones prácticas

Impacto

Contribución Teórica: Proporciona base teórica sólida para MDPs sensibles al riesgo
Valor Metodológico: El método de medidas de riesgo recursivas puede influir en la dirección de investigación en campos relacionados
Significado Interdisciplinario: Conecta investigación en investigación operativa, matemáticas financieras y teoría de probabilidad

Escenarios Aplicables

Ingeniería Financiera: Optimización de cartera, gestión de riesgos
Actuaría de Seguros: Gestión de reservas, estrategias de reaseguro
Gestión de Cadena de Suministro: Decisiones sensibles al riesgo bajo incertidumbre
Gestión de Energía: Despacho de energía eléctrica y fijación de precios considerando riesgo

Referencias Bibliográficas

El artículo cita 34 referencias importantes que abarcan teoría de medidas de riesgo, procesos de decisión de Markov, programación dinámica y otros trabajos clásicos y de vanguardia en campos centrales, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad que realiza contribuciones importantes en el campo de procesos de decisión de Markov sensibles al riesgo. Aunque enfatiza el análisis teórico, establece una base importante para el desarrollo futuro en este campo.