Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
Hacia la Optimalidad de Blackwell: La Optimalidad de Bellman Es Todo Lo Que Puede Obtener
Aunque la optimalidad de ganancia promedio es una medida de desempeño comúnmente utilizada en procesos de decisión de Markov (MDPs), a menudo es demasiado asintótica. La incorporación adicional de medidas de pérdida instantánea ha conducido a una jerarquía de optimalidades sesgadas, hasta la optimalidad de Blackwell. Este artículo investiga el problema de identificar políticas de orden de optimalidad de este tipo. Para ello, para cada orden, construimos un algoritmo de aprendizaje con probabilidad de error que se desvanece. Además, caracterizamos la clase de MDPs donde el algoritmo de identificación puede detenerse en tiempo finito. Esta clase corresponde a MDPs con una política óptima de Bellman única y no depende del orden de optimalidad considerado. Finalmente, proporcionamos una regla de parada tratable que, cuando se acopla con nuestro algoritmo de aprendizaje, se activa en tiempo finito siempre que sea posible.
El problema central investigado en este artículo es el problema de identificabilidad del aprendizaje de políticas óptimas de orden superior en procesos de decisión de Markov. Específicamente:
Limitaciones de la optimalidad de ganancia promedio tradicional: En MDPs, la optimalidad de ganancia promedio tradicional solo se enfoca en el desempeño asintótico a largo plazo, ignorando la importancia de las recompensas instantáneas a corto plazo.
Jerarquía de optimalidades de orden superior: Desde la optimalidad de ganancia hasta la optimalidad sesgada, y luego a la optimalidad de Blackwell, se forma una jerarquía completa de optimalidad, donde cada nivel considera diferencias de desempeño más refinadas.
Dificultad de aprendizaje: El artículo demuestra a través de un ejemplo simple pero profundo (Figura 1) que incluso en el caso más simple, el aprendizaje de políticas óptimas de orden superior enfrenta dificultades fundamentales.
La motivación central del artículo surge de una observación importante: incluso en MDPs simples con un único parámetro desconocido, el aprendizaje de políticas óptimas de orden superior puede ser imposible. Este fenómeno aparentemente paradójico revela las dificultades esenciales del aprendizaje de optimalidad de orden superior.
Construcción del algoritmo consistente HOPE: Para cada orden de optimalidad n≥-1, se propone el algoritmo Higher Order Policy iteration Epsilonized (HOPE), que posee probabilidad de error que se desvanece.
Caracterización completa de la clase de MDPs no degenerados: Se demuestra que un MDP es no degenerado (es decir, el algoritmo de identificación puede detenerse en tiempo finito) si y solo si posee una política óptima de Bellman única.
Teorema de colapso de degeneración: Se demuestra que la clase de MDPs no degenerados para todos los órdenes de optimalidad (desde optimalidad de ganancia hasta optimalidad de Blackwell) es exactamente la misma, un resultado sorprendente.
Provisión de regla de parada computable: Se proporciona una regla de parada tratable que permite que el algoritmo HOPE se detenga en tiempo finito cuando sea posible.
Entrada: MDP comunicativo desconocido M = (Z, ν, p), donde Z es el espacio de pares estado-acción, ν es la función de recompensa, p es el núcleo de transición
Salida: Política óptima de orden n π ∈ Π*_n(M)
Objetivo: Construir un algoritmo de identificación tal que la probabilidad de error de la política recomendada tienda a 0
La iteración de política tradicional requiere satisfacer exactamente la ecuación de Bellman, pero esto es imposible en entornos de aprendizaje. HOPI introduce un parámetro de relajación ε, permitiendo que el algoritmo funcione correctamente bajo ruido.
Proposición 5: Para cualquier política óptima de Bellman de cadena única π y precisión ε > 0, existe M' ∈ M tal que d_∞(M,M') < ε y π es la política óptima de ganancia única de M'.
Esta técnica se implementa en dos pasos:
Primero, penalizar acciones no óptimas para hacer que π sea la política óptima de Bellman única
Luego, mediante transformación ergódica, hacer que π sea la política óptima de ganancia única
Si M es no degenerado, entonces existe una política π ∈ Π*(M) que permanece óptima en la vecindad de M. La prueba utiliza la continuidad de las decisiones del algoritmo.
Mediante la construcción de reglas de parada explícitas e intervalos de confianza, se demuestra que los MDPs con política óptima de Bellman única son efectivamente no degenerados.
El artículo es principalmente un trabajo teórico, verificando todos los resultados principales mediante pruebas matemáticas rigurosas. Las verificaciones clave incluyen:
Corrección del algoritmo: Demostrar que HOPI en caso sin ruido devuelve el conjunto correcto de políticas óptimas
Garantías de consistencia: Demostrar que la probabilidad de error del algoritmo HOPE tiende efectivamente a 0
Validez de regla de parada: Demostrar que la regla de parada propuesta efectivamente se activa en tiempo finito
Complejidad temporal: La complejidad temporal para determinar la unicidad de política óptima de Bellman es O(|Z| + |S|^4)
Complejidad de muestra: Aunque el artículo no proporciona límites exactos de complejidad de muestra, demuestra que en casos no degenerados el algoritmo debe converger
Relacionado con el problema de identificación de brazo óptimo en máquinas tragamonedas multi-brazo, pero la dependencia de estado en configuración MDP hace el problema más complejo.
Trabajo reciente en configuración (ε,δ)-PAC para identificar políticas óptimas de ganancia, pero estos trabajos se enfocaban principalmente en optimalidad aproximada en lugar de exacta.
Grand-Clément y Petrik (2023) y otros investigaron la complejidad computacional de políticas óptimas de Blackwell basadas en definiciones históricas de factores de descuento.
Boone y Gaujal (2023) investigaron la capacidad de aprendizaje de políticas óptimas de Blackwell en MDPs con transiciones determinísticas, este artículo generaliza a casos estocásticos.
Optimalidad de Bellman como limitación fundamental: La capacidad de aprendizaje de todas las optimalidades de orden superior se reduce a la unicidad de la política óptima de Bellman
Universalidad de degeneración: La clase de MDPs degenerados para diferentes órdenes de optimalidad es exactamente la misma
Existencia de algoritmo: A pesar de las dificultades, existen algoritmos consistentes
El artículo cita literatura importante en campos de aprendizaje por refuerzo y procesos de decisión de Markov, incluyendo:
Puterman (1994): Libro de texto clásico sobre procesos de decisión de Markov
Blackwell (1962): Definición original de optimalidad de Blackwell
Kaufmann et al. (2016): Teoría de complejidad de identificación de brazo óptimo
Boone and Gaujal (2023): Capacidad de aprendizaje de optimalidad de Blackwell en MDPs determinísticos
Este artículo revela a través de análisis teórico riguroso un fenómeno fundamental y profundo en aprendizaje por refuerzo: la dificultad de aprendizaje de optimalidad de orden superior está completamente determinada por la estructura de optimalidad de Bellman. Este resultado no solo posee importancia teórica significativa, sino que también proporciona orientación importante para diseño de algoritmos prácticos.