We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
- ID del Artículo: 2007.13103
- Título: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- Autores: Nicole Bäuerle, Alexander Glauner
- Clasificación: math.OC (Optimización y Control Matemático), q-fin.RM (Gestión de Riesgo en Finanzas Cuantitativas)
- Fecha de Publicación: 26 de julio de 2020
- Enlace del Artículo: https://arxiv.org/abs/2007.13103
Este artículo estudia procesos robustos de decisión de Markov con espacios de estado y acción de Borel, costos no acotados y horizonte temporal finito. El problema se modela como un juego de Stackelberg contra la naturaleza. Bajo supuestos de integrabilidad, continuidad y compacidad, los autores derivan la iteración de costos robustos bajo una política fija del tomador de decisiones y la iteración de valores para el problema de optimización robusto. Además, se demuestra que existen políticas óptimas deterministas para ambas partes, lo que contrasta con los juegos de suma cero clásicos. Cuando el espacio de estados es la recta real, bajo ciertos supuestos de convexidad, se logra el intercambio de supremo e ínfimo utilizando el teorema minimax de Sion. El artículo también considera casos de conjuntos de ambigüedad especiales, derivando en particular la situación en la que el problema de optimización robusto coincide con la minimización de medidas de riesgo coherentes.
Los procesos de decisión de Markov (MDP) tradicionales asumen que todos los parámetros y distribuciones son conocidos o pueden estimarse con precisión. Sin embargo, en aplicaciones prácticas, cuando los parámetros o distribuciones reales se desvían de los supuestos, el uso de esta política "óptima" puede resultar en un deterioro significativo del desempeño.
- Problema de Incertidumbre del Modelo: En la realidad, las probabilidades de transición a menudo no pueden obtenerse con precisión, existiendo ambigüedad del modelo
- Necesidad de Aversión al Riesgo: La paradoja de Ellsberg demuestra que los tomadores de decisiones tienden a ser aversos a la ambigüedad
- Limitaciones Teóricas: La investigación existente sobre MDP robustos se limita principalmente a espacios de estado y acción finitos
- Demanda de Aplicaciones: Se requiere abordar problemas prácticos con espacios de estado continuos y funciones de costo no acotadas
- La mayoría de investigaciones se limitan a espacios de estado y acción contables o finitos
- Falta de tratamiento de espacios continuos y costos no acotados
- Conexión insuficiente con medidas de riesgo
- Falta de pruebas sobre la existencia de políticas óptimas deterministas
- Extensión del Marco Teórico: Ampliación de la teoría de MDP robusto existente de espacios contables a espacios de Borel, manejando funciones de costo no acotadas
- Modelado de Teoría de Juegos: Modelado del problema como un juego de Stackelberg, con la naturaleza como seguidor y el tomador de decisiones como líder
- Existencia de Políticas Óptimas: Demostración de la existencia de políticas óptimas deterministas para ambas partes, diferente de los juegos de suma cero clásicos
- Condiciones de Intercambio de Extremos: Bajo supuestos de convexidad, se logra el intercambio de supremo e ínfimo utilizando el teorema minimax de Sion
- Conexión con Medidas de Riesgo: Establecimiento de la equivalencia entre optimización robusto y medidas de riesgo coherentes bajo conjuntos de ambigüedad especiales
- Aplicaciones Prácticas: Provisión de dos ejemplos de aplicación: problema LQ robusto y gestión de energías renovables
Considérese un proceso de decisión de Markov con horizonte temporal finito N:
- Espacio de Estados: E (espacio de Borel)
- Espacio de Acciones: A (espacio de Borel)
- Función de Transición: Tn:Dn×Z→E
- Función de Costo: cn:Dn×E→R
- Perturbaciones: Z1,…,ZN elementos aleatorios independientes
El objetivo es minimizar el costo esperado en el peor caso:
V0(x)=infπ∈ΠRsupγ∈ΓV0πγ(x)
Se define el conjunto de ambigüedad Qn⊆Mq(Ωn,An,Pn), donde:
- Mq(Ωn,An,Pn): conjunto de medidas de probabilidad absolutamente continuas respecto a Pn
- Dotado de la topología débil* σ(Lq,Lp), donde p1+q1=1
- Tomador de Decisiones: elige la política π=(π0,π1,…,πN−1)
- Naturaleza: observa las acciones del tomador de decisiones y elige γ=(γ0,…,γN−1)
- Estructura de Información: la naturaleza es seguidora y puede observar las acciones del tomador de decisiones
Bajo condiciones de supuestos, la función de valor satisface la ecuación de Bellman:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)
donde:
Lnv(x,a,Q)=∫cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)
Se utiliza el teorema de selección medible de Rieder para manejar problemas de medibilidad en espacios continuos, asegurando la existencia de políticas óptimas.
Se adopta la topología débil* σ(Lq,Lp) en lugar de la topología de convergencia débil, facilitando el establecimiento de conexiones con medidas de riesgo recursivas.
Se introducen funciones frontera superior e inferior bˉ y b para manejar costos no acotados, asegurando la buena definición de funciones de valor.
Bajo supuestos de modelo convexo, se utiliza el teorema minimax de Sion para lograr:
infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
Bajo los supuestos 2.1 y 3.1:
- El valor de política robusto Vnπ(hn) es medible y satisface la relación recursiva
- Si el conjunto de ambigüedad es débil* cerrado, existe una regla de decisión óptima para la naturaleza
- Es suficiente considerar políticas de Markov deterministas: Vn(hn)=Jn(xn)
- Jn∈B y satisface la ecuación de Bellman
- Existe una política de Markov óptima para el tomador de decisiones
En modelos convexos:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
Bajo condiciones de modelo convexo y conjunto de ambigüedad débil* cerrado, existe un par de políticas de equilibrio de Nash.
Cuando el conjunto de ambigüedad tiene estructura especial, la optimización robusto es equivalente a la optimización de medidas de riesgo espectral:
ρϕ(X)=supY∈QdE[XY]
donde ϕ es una función espectral.
Bajo conjuntos de ambigüedad invariantes a la ley, el problema puede reescribirse como:
infπ∈ΠMρ(∑n=0N−1cn(Xn,dn(Xn),Xn+1)+cN(XN))
Considérese el problema lineal cuadrático:
- Espacio de Estados: E=R, Espacio de Acciones: A=Rd
- Función de Transición: Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1
- Función de Costo: cn(x,a)=x2Qn+aTRna
- Bajo supuestos de independencia, la política óptima de la naturaleza no depende del estado
- Se puede intercambiar extremos mediante el teorema de Sion, simplificando la solución
- Cuando se puede elegir EQ[UnVn]=0, el control óptimo es dn∗(x)=0
Gestión conjunta de instalaciones de generación eólica y almacenamiento de energía:
- Estado: cantidad de energía almacenada en batería x∈[0,K]
- Acción: cantidad de generación predicha a∈[0,B]
- Recompensa: Pa (P>0 es el precio de la electricidad)
- Penalización: penalización proporcional c>0 en caso de escasez
Jn(x)=infa∈D(x)supQ∈Q{−aP+∫aBJn+1((x+z−a)∧K)Q(dz)+∫0a[(P+c)(x+z−a)−+Jn+1((x+z−a)+)]Q(dz)}
- Iyengar (2005): Primera propuesta de MDP robusto bajo condiciones rectangulares
- Nilim & El Ghaoui (2005): Trabajo contemporáneo en espacios de estado finito
- Wiesemann et al. (2013): Método de región de confianza
- Xu & Mannor (2010): Conjuntos de incertidumbre anidados
- Extensión de Espacio: Ampliación de finito/contable a espacio de Borel general
- Tratamiento de Costos: Permite funciones de costo no acotadas
- Propiedades de Política: Demostración de existencia de políticas óptimas deterministas
- Profundidad Teórica: Establecimiento de conexión profunda con medidas de riesgo
- Ampliación exitosa de la teoría de MDP robusto a espacios continuos y costos no acotados
- Establecimiento de teoría completa de iteración de valores y existencia de políticas óptimas
- Revelación de conexión profunda entre optimización robusto y medidas de riesgo
- Provisión de métodos de solución prácticos y ejemplos de aplicación
- Condiciones de Supuestos: Requiere supuestos relativamente fuertes de integrabilidad, continuidad y compacidad
- Requisito de Convexidad: El intercambio de extremos requiere estructura de modelo convexa
- Complejidad Computacional: El cálculo de supremum en espacios continuos sigue siendo difícil
- Selección de Conjunto de Ambigüedad: La construcción razonable del conjunto de ambigüedad en aplicaciones prácticas requiere conocimiento del dominio
- Desarrollo de Algoritmos: Diseño de algoritmos numéricos eficientes para solución
- Relajación de Supuestos: Exploración de resultados teóricos bajo condiciones más generales
- Extensión de Aplicaciones: Aplicaciones específicas en finanzas, investigación de operaciones y otros campos
- Combinación con Aprendizaje: Integración con métodos de aprendizaje en línea y adaptativos
- Contribución Teórica Significativa: Ampliación fundamental del rango de aplicabilidad de MDP robusto
- Metodología Rigurosa: Aplicación de teoría profunda de teoría de medida y análisis funcional
- Estructura Clara: Lógica clara desde supuestos fundamentales hasta teoremas principales
- Conexión Profunda: Establecimiento de puente entre teoría de optimización y gestión de riesgos
- Valor de Aplicación: Provisión de marco de modelado práctico y utilizable
- Umbral Técnico Alto: Requiere trasfondo matemático sólido para comprensión completa
- Desafío Computacional: Distancia entre resultados teóricos y cálculo práctico
- Restricción de Supuestos: Ciertos supuestos pueden ser difíciles de satisfacer en aplicaciones prácticas
- Verificación Numérica Insuficiente: Falta de experimentos numéricos a gran escala
- Valor Académico: Provisión de base teórica importante para optimización robusto y gestión de riesgos
- Perspectiva de Aplicación: Amplia aplicación potencial en gestión de riesgos financieros, sistemas de energía y otros campos
- Contribución Metodológica: Modelado de juego de Stackelberg proporciona nuevas perspectivas para problemas relacionados
- Investigación Posterior: Establecimiento de base para desarrollo teórico adicional y diseño de algoritmos
- Ingeniería Financiera: Optimización de cartera, gestión de riesgos
- Sistemas de Energía: Despacho de energías renovables, gestión de almacenamiento
- Gestión de Cadena de Suministro: Control de inventario bajo incertidumbre de demanda
- Investigación de Operaciones: Asignación de recursos, planificación de producción
El artículo cita 75 referencias relacionadas, incluyendo principalmente:
- Iyengar (2005): Trabajo fundamental en programación dinámica robusto
- Sion (1958): Resultado clásico del teorema minimax
- Bäuerle & Rieder (2011): Monografía sobre procesos de decisión de Markov
- Epstein & Schneider (2003): Teoría de múltiples priors recursivos
- Ruszczyński (2010): Programación dinámica con aversión al riesgo
Evaluación General: Este es un artículo de alta calidad que realiza contribuciones importantes en el campo de intersección de optimización robusto y procesos de decisión de Markov. Aunque es técnicamente denso, proporciona una base sólida para el desarrollo teórico y aplicaciones prácticas en el campo.