2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

Bäuerle, Glauner
In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.
academic

Procesos de Decisión de Markov con Medidas de Riesgo Recursivas

Información Básica

  • ID del Artículo: 2010.07220
  • Título: Markov Decision Processes with Recursive Risk Measures
  • Autores: Nicole Bäuerle, Alexander Glauner
  • Clasificación: math.OC (Optimización y Control), q-fin.RM (Finanzas Cuantitativas - Gestión de Riesgos)
  • Fecha de Publicación: 14 de octubre de 2020 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2010.07220

Resumen

Este artículo estudia procesos de decisión de Markov (MDPs) sensibles al riesgo con espacios de estado y acción de Borel, así como costos no acotados, abarcando horizontes de planificación finitos e infinitos. El criterio de optimización se basa en la aplicación recursiva de medidas de riesgo estáticas. Este enfoque está inspirado en la literatura económica sobre utilidad recursiva y ha sido previamente investigado en medidas de riesgo entrópico; el artículo lo extiende a caracterizaciones axiomáticas apropiadas para medidas de riesgo. Se derivan ecuaciones de Bellman y se demuestra la existencia de políticas óptimas de Markov. Para horizontes de planificación infinitos, se demuestra que el modelo es contractivo y la política óptima es estacionaria. Además, se establece una conexión con MDPs robustos en distribución, proporcionando una interpretación global para funciones objetivo definidas recursivamente.

Antecedentes y Motivación de la Investigación

Contexto del Problema

La teoría tradicional de procesos de decisión de Markov se enfoca en minimizar el costo esperado descontado de sistemas dinámicos controlados en horizontes de tiempo finitos o infinitos. Sin embargo, la simple esperanza no refleja el riesgo verdadero de las decisiones, lo cual es particularmente importante en aplicaciones como la gestión de flujos de efectivo.

Motivación de la Investigación

  1. Necesidad de Sensibilidad al Riesgo: En campos como finanzas y seguros, los tomadores de decisiones prefieren utilizar utilidad dinámica para evaluar el desempeño en lugar de simple esperanza
  2. Consistencia Temporal: La teoría existente de medidas de riesgo dinámicas indica que las únicas medidas de riesgo temporalmente consistentes son aquellas que iteran medidas de riesgo estáticas
  3. Perfeccionamiento Teórico: Se requiere establecer un marco teórico completo para medidas de riesgo generales, no limitado a medidas de riesgo entrópico específicas

Limitaciones de los Enfoques Existentes

  • La mayoría de investigaciones se limitan a variables aleatorias acotadas o tipos específicos de medidas de riesgo
  • Algunos enfoques requieren supuestos indirectos sobre propiedades de medidas de riesgo
  • Falta tratamiento sistemático de espacios de Borel generales y funciones de costo no acotadas

Contribuciones Principales

  1. Extensión del Marco Teórico: Extiende la teoría de MDPs con medidas de riesgo recursivas desde medidas de riesgo entrópico a medidas de riesgo axiomáticas generales
  2. Derivación de Ecuaciones de Bellman: Deriva ecuaciones de Bellman para MDPs con medidas de riesgo recursivas y demuestra la existencia de políticas óptimas de Markov
  3. Prueba de Contractibilidad: Demuestra la contractibilidad del modelo de horizonte infinito y la existencia de políticas óptimas estacionarias
  4. Conexión de Robustez Distributiva: Establece conexiones teóricas con MDPs robustos en distribución, proporcionando interpretación global para funciones objetivo recursivas
  5. Análisis de Modelos Monótonos: Realiza investigación profunda de modelos especiales con propiedades de monotonía, relajando supuestos de continuidad

Explicación Detallada de Métodos

Definición de Tareas

Se considera un proceso de decisión de Markov donde el espacio de estado E y el espacio de acción A son espacios de Borel, donde:

  • La transición de estado está dada por la función de transición medible Tn:Dn×ZET_n: D_n \times Z \to E
  • La función de costo de una etapa cn:Dn×ERc_n: D_n \times E \to \mathbb{R}
  • La función de costo terminal cN:ERc_N: E \to \mathbb{R}

Marco de Medidas de Riesgo Recursivas

Propiedades de Medidas de Riesgo

El artículo considera medidas de riesgo ρ:LpR\rho: L^p \to \overline{\mathbb{R}} con las siguientes propiedades:

  • Monetariedad: Monotonía e invariancia de traslación
  • Coherencia: Homogeneidad positiva y subaditividad
  • Propiedad de Fatou: Semicontinuidad inferior respecto a convergencia controlada

Definición de Valor Recursivo

Para una política π=(d0,,dN1)\pi = (d_0, \ldots, d_{N-1}), se define recursivamente la función de valor: VNπ(hN)=cN(xN)V_N^\pi(h_N) = c_N(x_N)Vnπ(hn)=ρn(cn(xn,dn(hn),Tn(xn,dn(hn),Zn+1))+Vn+1π())V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)

Puntos de Innovación Técnica

1. Método de Función de Límite Global

Se propone el concepto de funciones de límite superior e inferior global, más apropiadas para medidas de riesgo recursivas que las funciones de límite local tradicionales:

Lema 4.3: Para medidas de riesgo coherentes apropiadas, si existen funciones de límite local que satisfacen: ρn(cn(x,a,Tn(x,a,Zn+1)))b(x)\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)ρn(b(Tn(x,a,Zn+1)))αb(x)\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)

entonces la función de límite global es B=11αb\underline{B} = \frac{1}{1-\alpha}\underline{b}.

2. Ecuación de Bellman

Teorema 4.7: Bajo supuestos apropiados, la función de valor satisface la ecuación de Bellman: JN(x)=cN(x)J_N(x) = c_N(x)Jn(x)=TnJn+1(x)=infaDn(x)ρn(cn(x,a,Tn(x,a,Zn+1))+Jn+1(Tn(x,a,Zn+1)))J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))

3. Propiedad de Contractibilidad

Lema 5.4: El operador de Bellman TT es una contracción con módulo αβ\alpha\beta en el intervalo I=[B,B]I = [\underline{B}, \overline{B}].

Configuración Experimental

Verificación Teórica

El artículo verifica principalmente la efectividad del método mediante análisis teórico y ejemplos matemáticos, en lugar de experimentos numéricos a gran escala.

Casos de Aplicación

  1. Miopía del Valor en Riesgo: En modelos monótonos, se demuestra que la política óptima bajo el criterio VaR es miope
  2. Problemas de Parada: Se muestra la preservación de la estructura de política de umbral
  3. Juegos de Casino: Se analiza la estrategia óptima de apuestas
  4. Problema de Balance de Efectivo: Se demuestra la optimalidad de la política (S,S+)(S^-, S^+)

Resultados Experimentales

Resultados Teóricos Principales

Horizonte Finito

  • Se demuestra la existencia de políticas óptimas de Markov
  • Se establece la ecuación de Bellman recursiva
  • La función de valor posee semicontinuidad inferior

Horizonte Infinito

  • Teorema 5.5:
    • La función de valor límite es el punto fijo único del operador de Bellman
    • Existe una política estacionaria óptima
    • El modelo posee propiedad de contractibilidad con módulo de contracción αβ<1\alpha\beta < 1

Resultados de Casos Especiales

Caso de Costo Acotado

Corolario 5.6: Cuando el costo de una etapa está acotado, cualquier medida de riesgo monetaria normalizada con propiedad de Fatou es aplicable.

Modelos Monótonos

Proposición 7.5: Bajo supuestos de monotonía, se pueden relajar los requisitos de coherencia de la medida de riesgo, requiriendo solo aditividad comonotónica.

Análisis de Casos

Miopía del Valor en Riesgo

En modelos monótonos, cuando la función de costo no depende de la acción: Jn(x)=infaD(x)h(VaRα(T(x,a,Z)))J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z))) donde hh es una función creciente y semicontinua inferiormente, lo que resulta en que la política óptima es estacionaria y miope.

Problema de Balance de Efectivo

Se preservan las propiedades estructurales del MDP clásico:

  • Existen niveles críticos SS^- y S+S^+
  • La política óptima tiene forma (S,S+)(S^-, S^+)
  • La función de valor mantiene convexidad

Trabajo Relacionado

Teoría de Medidas de Riesgo Dinámicas

  • Epstein & Schneider (2003): Modelos recursivos multiprior
  • Riedel (2004): Medidas de riesgo dinámicamente consistentes
  • Shapiro (2012): Teoría de consistencia temporal

MDPs Sensibles al Riesgo

  • Ruszczyński (2010): Enfoque axiomático, limitado a variables aleatorias acotadas
  • Shen et al. (2013): Método de mapeo de riesgo
  • Chu & Zhang (2014): Medidas de riesgo coherentes, requiere supuesto de existencia de límite

Aplicaciones de Medidas de Riesgo Específicas

  • Asienkiewicz & Jaśkiewicz (2017): Medidas de riesgo entrópico
  • Bäuerle & Jaśkiewicz (2017, 2018): Aplicaciones financieras

Conclusiones y Discusión

Conclusiones Principales

  1. La aplicación recursiva de medidas de riesgo estáticas proporciona un marco teórico unificado para MDPs sensibles al riesgo
  2. Bajo supuestos apropiados, se puede establecer una teoría completa de Bellman
  3. Los modelos monótonos permiten relajar significativamente supuestos técnicos
  4. La conexión con MDPs robustos en distribución proporciona interpretación global

Limitaciones

  1. Supuestos Técnicos: Requiere supuestos relativamente complejos sobre funciones de límite global
  2. Complejidad Computacional: El artículo no discute suficientemente métodos de cálculo numérico
  3. Verificación Empírica: Carece de experimentos numéricos a gran escala para verificar resultados teóricos

Direcciones Futuras

  1. Desarrollar algoritmos numéricos eficientes
  2. Investigar clases más generales de medidas de riesgo
  3. Explorar aplicaciones de algoritmos de aprendizaje en entornos sensibles al riesgo

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona un marco matemático completo con pruebas rigurosas
  2. Generalidad: Aplicable a medidas de riesgo y configuraciones de modelo más amplias que trabajos existentes
  3. Innovación: El método de función de límite global y la conexión con MDPs robustos en distribución son innovadores
  4. Preservación de Estructura: Demuestra que muchas propiedades estructurales de MDPs clásicos se mantienen en casos sensibles al riesgo

Deficiencias

  1. Aspecto Computacional: Carece de algoritmos específicos y métodos numéricos
  2. Aplicación Práctica: Naturaleza teórica fuerte con casos de aplicación relativamente limitados
  3. Condiciones de Supuestos: Algunos supuestos técnicos pueden ser difíciles de verificar en aplicaciones prácticas

Impacto

  1. Contribución Teórica: Proporciona base teórica sólida para MDPs sensibles al riesgo
  2. Valor Metodológico: El método de medidas de riesgo recursivas puede influir en la dirección de investigación en campos relacionados
  3. Significado Interdisciplinario: Conecta investigación en investigación operativa, matemáticas financieras y teoría de probabilidad

Escenarios Aplicables

  1. Ingeniería Financiera: Optimización de cartera, gestión de riesgos
  2. Actuaría de Seguros: Gestión de reservas, estrategias de reaseguro
  3. Gestión de Cadena de Suministro: Decisiones sensibles al riesgo bajo incertidumbre
  4. Gestión de Energía: Despacho de energía eléctrica y fijación de precios considerando riesgo

Referencias Bibliográficas

El artículo cita 34 referencias importantes que abarcan teoría de medidas de riesgo, procesos de decisión de Markov, programación dinámica y otros trabajos clásicos y de vanguardia en campos centrales, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad que realiza contribuciones importantes en el campo de procesos de decisión de Markov sensibles al riesgo. Aunque enfatiza el análisis teórico, establece una base importante para el desarrollo futuro en este campo.