2025-11-13T03:28:10.622967

Distributionally Robust Markov Decision Processes and their Connection to Risk Measures

BÃ¤uerle, Glauner

We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.

academic

Procesos de Decisión de Markov Distribucionalmente Robustos y su Conexión con Medidas de Riesgo

Información Básica

ID del Artículo: 2007.13103
Título: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
Autores: Nicole Bäuerle, Alexander Glauner
Clasificación: math.OC (Optimización y Control Matemático), q-fin.RM (Gestión de Riesgo en Finanzas Cuantitativas)
Fecha de Publicación: 26 de julio de 2020
Enlace del Artículo: https://arxiv.org/abs/2007.13103

Resumen

Este artículo estudia procesos robustos de decisión de Markov con espacios de estado y acción de Borel, costos no acotados y horizonte temporal finito. El problema se modela como un juego de Stackelberg contra la naturaleza. Bajo supuestos de integrabilidad, continuidad y compacidad, los autores derivan la iteración de costos robustos bajo una política fija del tomador de decisiones y la iteración de valores para el problema de optimización robusto. Además, se demuestra que existen políticas óptimas deterministas para ambas partes, lo que contrasta con los juegos de suma cero clásicos. Cuando el espacio de estados es la recta real, bajo ciertos supuestos de convexidad, se logra el intercambio de supremo e ínfimo utilizando el teorema minimax de Sion. El artículo también considera casos de conjuntos de ambigüedad especiales, derivando en particular la situación en la que el problema de optimización robusto coincide con la minimización de medidas de riesgo coherentes.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Los procesos de decisión de Markov (MDP) tradicionales asumen que todos los parámetros y distribuciones son conocidos o pueden estimarse con precisión. Sin embargo, en aplicaciones prácticas, cuando los parámetros o distribuciones reales se desvían de los supuestos, el uso de esta política "óptima" puede resultar en un deterioro significativo del desempeño.

Motivación de la Investigación

Problema de Incertidumbre del Modelo: En la realidad, las probabilidades de transición a menudo no pueden obtenerse con precisión, existiendo ambigüedad del modelo
Necesidad de Aversión al Riesgo: La paradoja de Ellsberg demuestra que los tomadores de decisiones tienden a ser aversos a la ambigüedad
Limitaciones Teóricas: La investigación existente sobre MDP robustos se limita principalmente a espacios de estado y acción finitos
Demanda de Aplicaciones: Se requiere abordar problemas prácticos con espacios de estado continuos y funciones de costo no acotadas

Limitaciones de Métodos Existentes

La mayoría de investigaciones se limitan a espacios de estado y acción contables o finitos
Falta de tratamiento de espacios continuos y costos no acotados
Conexión insuficiente con medidas de riesgo
Falta de pruebas sobre la existencia de políticas óptimas deterministas

Contribuciones Principales

Extensión del Marco Teórico: Ampliación de la teoría de MDP robusto existente de espacios contables a espacios de Borel, manejando funciones de costo no acotadas
Modelado de Teoría de Juegos: Modelado del problema como un juego de Stackelberg, con la naturaleza como seguidor y el tomador de decisiones como líder
Existencia de Políticas Óptimas: Demostración de la existencia de políticas óptimas deterministas para ambas partes, diferente de los juegos de suma cero clásicos
Condiciones de Intercambio de Extremos: Bajo supuestos de convexidad, se logra el intercambio de supremo e ínfimo utilizando el teorema minimax de Sion
Conexión con Medidas de Riesgo: Establecimiento de la equivalencia entre optimización robusto y medidas de riesgo coherentes bajo conjuntos de ambigüedad especiales
Aplicaciones Prácticas: Provisión de dos ejemplos de aplicación: problema LQ robusto y gestión de energías renovables

Explicación Detallada de Métodos

Definición de la Tarea

Considérese un proceso de decisión de Markov con horizonte temporal finito N:

Espacio de Estados: E (espacio de Borel)
Espacio de Acciones: A (espacio de Borel)
Función de Transición: $T_n: D_n \times Z \to E$
Función de Costo: $c_n: D_n \times E \to \mathbb{R}$
Perturbaciones: $Z_1, \ldots, Z_N$ elementos aleatorios independientes

El objetivo es minimizar el costo esperado en el peor caso: $V_0(x) = \inf_{\pi \in \Pi^R} \sup_{\gamma \in \Gamma} V_0^{\pi\gamma}(x)$

Arquitectura del Modelo

1. Modelado del Conjunto de Ambigüedad

Se define el conjunto de ambigüedad $\mathcal{Q}_n \subseteq M_q(\Omega_n, \mathcal{A}_n, P_n)$ , donde:

$M_q(\Omega_n, \mathcal{A}_n, P_n)$ : conjunto de medidas de probabilidad absolutamente continuas respecto a $P_n$
Dotado de la topología débil* $\sigma(L^q, L^p)$ , donde $\frac{1}{p} + \frac{1}{q} = 1$

2. Estructura del Juego de Stackelberg

Tomador de Decisiones: elige la política $\pi = (\pi_0, \pi_1, \ldots, \pi_{N-1})$
Naturaleza: observa las acciones del tomador de decisiones y elige $\gamma = (\gamma_0, \ldots, \gamma_{N-1})$
Estructura de Información: la naturaleza es seguidora y puede observar las acciones del tomador de decisiones

3. Relación Recursiva de Funciones de Valor

Bajo condiciones de supuestos, la función de valor satisface la ecuación de Bellman: $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q)$

donde: $L_n v(x,a,Q) = \int c_n(x,a,T_n(x,a,z)) + v(T_n(x,a,z)) \, Q(dz)$

Puntos de Innovación Técnica

1. Aplicación del Teorema de Selección Medible

Se utiliza el teorema de selección medible de Rieder para manejar problemas de medibilidad en espacios continuos, asegurando la existencia de políticas óptimas.

2. Tratamiento de Topología Débil*

Se adopta la topología débil* $\sigma(L^q, L^p)$ en lugar de la topología de convergencia débil, facilitando el establecimiento de conexiones con medidas de riesgo recursivas.

3. Técnica de Funciones Frontera

Se introducen funciones frontera superior e inferior $\bar{b}$ y $\underline{b}$ para manejar costos no acotados, asegurando la buena definición de funciones de valor.

4. Análisis de Convexidad

Bajo supuestos de modelo convexo, se utiliza el teorema minimax de Sion para lograr: $\inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$

Resultados Teóricos Principales

Teorema 3.6: Iteración de Valores de Política Robusto

Bajo los supuestos 2.1 y 3.1:

El valor de política robusto $V_n^\pi(h_n)$ es medible y satisface la relación recursiva
Si el conjunto de ambigüedad es débil* cerrado, existe una regla de decisión óptima para la naturaleza

Teorema 3.10: Existencia de Políticas Óptimas

Es suficiente considerar políticas de Markov deterministas: $V_n(h_n) = J_n(x_n)$
$J_n \in B$ y satisface la ecuación de Bellman
Existe una política de Markov óptima para el tomador de decisiones

Teorema 5.2: Intercambio de Extremos

En modelos convexos: $J_n(x) = \inf_{a \in D_n(x)} \sup_{Q \in \mathcal{Q}_{n+1}} L_n J_{n+1}(x,a,Q) = \sup_{Q \in \mathcal{Q}_{n+1}} \inf_{a \in D_n(x)} L_n J_{n+1}(x,a,Q)$

Teorema 5.5: Existencia de Equilibrio de Nash

Bajo condiciones de modelo convexo y conjunto de ambigüedad débil* cerrado, existe un par de políticas de equilibrio de Nash.

Conexión con Medidas de Riesgo

Representación de Medidas de Riesgo Espectral

Cuando el conjunto de ambigüedad tiene estructura especial, la optimización robusto es equivalente a la optimización de medidas de riesgo espectral: $\rho_\phi(X) = \sup_{Y \in \mathcal{Q}_d} E[XY]$

donde $\phi$ es una función espectral.

Medidas de Riesgo Coherentes

Bajo conjuntos de ambigüedad invariantes a la ley, el problema puede reescribirse como: $\inf_{\pi \in \Pi^M} \rho\left(\sum_{n=0}^{N-1} c_n(X_n, d_n(X_n), X_{n+1}) + c_N(X_N)\right)$

Aplicaciones Experimentales

Aplicación 1: Problema LQ Robusto

Considérese el problema lineal cuadrático:

Espacio de Estados: $E = \mathbb{R}$ , Espacio de Acciones: $A = \mathbb{R}^d$
Función de Transición: $T_n(x,a,Z_{n+1}) = U_{n+1}x + V_{n+1}^T a + W_{n+1}$
Función de Costo: $c_n(x,a) = x^2 Q_n + a^T R_n a$

Hallazgos Clave

Bajo supuestos de independencia, la política óptima de la naturaleza no depende del estado
Se puede intercambiar extremos mediante el teorema de Sion, simplificando la solución
Cuando se puede elegir $E^Q[U_n V_n] = 0$ , el control óptimo es $d_n^*(x) = 0$

Aplicación 2: Gestión de Energías Renovables

Gestión conjunta de instalaciones de generación eólica y almacenamiento de energía:

Estado: cantidad de energía almacenada en batería $x \in [0,K]$
Acción: cantidad de generación predicha $a \in [0,B]$
Recompensa: $Pa$ ( $P > 0$ es el precio de la electricidad)
Penalización: penalización proporcional $c > 0$ en caso de escasez

Ecuación de Bellman

$J_n(x) = \inf_{a \in D(x)} \sup_{Q \in \mathcal{Q}} \left\{-aP + \int_a^B J_{n+1}((x+z-a) \wedge K) Q(dz) + \int_0^a [(P+c)(x+z-a)^- + J_{n+1}((x+z-a)^+)] Q(dz)\right\}$

Trabajo Relacionado

Trayectoria de Desarrollo de MDP Robusto

Iyengar (2005): Primera propuesta de MDP robusto bajo condiciones rectangulares
Nilim & El Ghaoui (2005): Trabajo contemporáneo en espacios de estado finito
Wiesemann et al. (2013): Método de región de confianza
Xu & Mannor (2010): Conjuntos de incertidumbre anidados

Ventajas Relativas de Este Artículo

Extensión de Espacio: Ampliación de finito/contable a espacio de Borel general
Tratamiento de Costos: Permite funciones de costo no acotadas
Propiedades de Política: Demostración de existencia de políticas óptimas deterministas
Profundidad Teórica: Establecimiento de conexión profunda con medidas de riesgo

Conclusiones y Discusión

Conclusiones Principales

Ampliación exitosa de la teoría de MDP robusto a espacios continuos y costos no acotados
Establecimiento de teoría completa de iteración de valores y existencia de políticas óptimas
Revelación de conexión profunda entre optimización robusto y medidas de riesgo
Provisión de métodos de solución prácticos y ejemplos de aplicación

Limitaciones

Condiciones de Supuestos: Requiere supuestos relativamente fuertes de integrabilidad, continuidad y compacidad
Requisito de Convexidad: El intercambio de extremos requiere estructura de modelo convexa
Complejidad Computacional: El cálculo de supremum en espacios continuos sigue siendo difícil
Selección de Conjunto de Ambigüedad: La construcción razonable del conjunto de ambigüedad en aplicaciones prácticas requiere conocimiento del dominio

Direcciones Futuras

Desarrollo de Algoritmos: Diseño de algoritmos numéricos eficientes para solución
Relajación de Supuestos: Exploración de resultados teóricos bajo condiciones más generales
Extensión de Aplicaciones: Aplicaciones específicas en finanzas, investigación de operaciones y otros campos
Combinación con Aprendizaje: Integración con métodos de aprendizaje en línea y adaptativos

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Ampliación fundamental del rango de aplicabilidad de MDP robusto
Metodología Rigurosa: Aplicación de teoría profunda de teoría de medida y análisis funcional
Estructura Clara: Lógica clara desde supuestos fundamentales hasta teoremas principales
Conexión Profunda: Establecimiento de puente entre teoría de optimización y gestión de riesgos
Valor de Aplicación: Provisión de marco de modelado práctico y utilizable

Insuficiencias

Umbral Técnico Alto: Requiere trasfondo matemático sólido para comprensión completa
Desafío Computacional: Distancia entre resultados teóricos y cálculo práctico
Restricción de Supuestos: Ciertos supuestos pueden ser difíciles de satisfacer en aplicaciones prácticas
Verificación Numérica Insuficiente: Falta de experimentos numéricos a gran escala

Impacto

Valor Académico: Provisión de base teórica importante para optimización robusto y gestión de riesgos
Perspectiva de Aplicación: Amplia aplicación potencial en gestión de riesgos financieros, sistemas de energía y otros campos
Contribución Metodológica: Modelado de juego de Stackelberg proporciona nuevas perspectivas para problemas relacionados
Investigación Posterior: Establecimiento de base para desarrollo teórico adicional y diseño de algoritmos

Escenarios Aplicables

Ingeniería Financiera: Optimización de cartera, gestión de riesgos
Sistemas de Energía: Despacho de energías renovables, gestión de almacenamiento
Gestión de Cadena de Suministro: Control de inventario bajo incertidumbre de demanda
Investigación de Operaciones: Asignación de recursos, planificación de producción

Referencias

El artículo cita 75 referencias relacionadas, incluyendo principalmente:

Iyengar (2005): Trabajo fundamental en programación dinámica robusto
Sion (1958): Resultado clásico del teorema minimax
Bäuerle & Rieder (2011): Monografía sobre procesos de decisión de Markov
Epstein & Schneider (2003): Teoría de múltiples priors recursivos
Ruszczyński (2010): Programación dinámica con aversión al riesgo

Evaluación General: Este es un artículo de alta calidad que realiza contribuciones importantes en el campo de intersección de optimización robusto y procesos de decisión de Markov. Aunque es técnicamente denso, proporciona una base sólida para el desarrollo teórico y aplicaciones prácticas en el campo.