2025-11-20T13:28:14.804433

Towards Blackwell Optimality: Bellman Optimality Is All You Can Get

Boone, Tuynman

Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.

academic

Hacia la Optimalidad de Blackwell: La Optimalidad de Bellman Es Todo Lo Que Puede Obtener

Información Básica

ID del Artículo: 2510.13476
Título: Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Autores: Victor Boone (Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LIG & IRIT, Université de Toulouse), Adrienne Tuynman (Univ. Lille, Inria, CNRS, Centrale Lille, UMR 9189-CRIStAL)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13476v1

Resumen

Aunque la optimalidad de ganancia promedio es una medida de desempeño comúnmente utilizada en procesos de decisión de Markov (MDPs), a menudo es demasiado asintótica. La incorporación adicional de medidas de pérdida instantánea ha conducido a una jerarquía de optimalidades sesgadas, hasta la optimalidad de Blackwell. Este artículo investiga el problema de identificar políticas de orden de optimalidad de este tipo. Para ello, para cada orden, construimos un algoritmo de aprendizaje con probabilidad de error que se desvanece. Además, caracterizamos la clase de MDPs donde el algoritmo de identificación puede detenerse en tiempo finito. Esta clase corresponde a MDPs con una política óptima de Bellman única y no depende del orden de optimalidad considerado. Finalmente, proporcionamos una regla de parada tratable que, cuando se acopla con nuestro algoritmo de aprendizaje, se activa en tiempo finito siempre que sea posible.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central investigado en este artículo es el problema de identificabilidad del aprendizaje de políticas óptimas de orden superior en procesos de decisión de Markov. Específicamente:

Limitaciones de la optimalidad de ganancia promedio tradicional: En MDPs, la optimalidad de ganancia promedio tradicional solo se enfoca en el desempeño asintótico a largo plazo, ignorando la importancia de las recompensas instantáneas a corto plazo.
Jerarquía de optimalidades de orden superior: Desde la optimalidad de ganancia hasta la optimalidad sesgada, y luego a la optimalidad de Blackwell, se forma una jerarquía completa de optimalidad, donde cada nivel considera diferencias de desempeño más refinadas.
Dificultad de aprendizaje: El artículo demuestra a través de un ejemplo simple pero profundo (Figura 1) que incluso en el caso más simple, el aprendizaje de políticas óptimas de orden superior enfrenta dificultades fundamentales.

Motivación de la Investigación

La motivación central del artículo surge de una observación importante: incluso en MDPs simples con un único parámetro desconocido, el aprendizaje de políticas óptimas de orden superior puede ser imposible. Este fenómeno aparentemente paradójico revela las dificultades esenciales del aprendizaje de optimalidad de orden superior.

Limitaciones de los Métodos Existentes

Fallo de métodos de aprendizaje estándar: La selección de política óptima empírica tradicional ya no es aplicable bajo optimalidad de orden superior
Limitaciones de pruebas estadísticas: No se puede determinar el valor exacto de parámetros (como θ=0) mediante pruebas estadísticas
Problema de discontinuidad: La discontinuidad del conjunto de políticas óptimas en el espacio de parámetros conduce a dificultades de aprendizaje

Contribuciones Principales

Construcción del algoritmo consistente HOPE: Para cada orden de optimalidad n≥-1, se propone el algoritmo Higher Order Policy iteration Epsilonized (HOPE), que posee probabilidad de error que se desvanece.
Caracterización completa de la clase de MDPs no degenerados: Se demuestra que un MDP es no degenerado (es decir, el algoritmo de identificación puede detenerse en tiempo finito) si y solo si posee una política óptima de Bellman única.
Teorema de colapso de degeneración: Se demuestra que la clase de MDPs no degenerados para todos los órdenes de optimalidad (desde optimalidad de ganancia hasta optimalidad de Blackwell) es exactamente la misma, un resultado sorprendente.
Provisión de regla de parada computable: Se proporciona una regla de parada tratable que permite que el algoritmo HOPE se detenga en tiempo finito cuando sea posible.

Explicación Detallada del Método

Definición de la Tarea

Entrada: MDP comunicativo desconocido M = (Z, ν, p), donde Z es el espacio de pares estado-acción, ν es la función de recompensa, p es el núcleo de transición Salida: Política óptima de orden n π ∈ Π*_n(M) Objetivo: Construir un algoritmo de identificación tal que la probabilidad de error de la política recomendada tienda a 0

Arquitectura del Algoritmo Principal

Algoritmo HOPE (Algoritmo 1)

Entrada: Orden de optimalidad deseado n ≥ -1
Inicialización: t ← 0
Bucle:
    1. Construir MDP empírico M̂_t
    2. Establecer ε ← t^(-1/4)
    3. Calcular ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t)
    4. Recomendar cualquier política en ∏_s A_n(s)
    5. Muestrear acciones uniformemente, observar recompensa y siguiente estado
    6. t ← t + 1

Idea Central del Algoritmo HOPI

HOPI es una versión "epsilonizada" de iteración de política de orden superior, cuya innovación clave radica en:

Operación de argmax suave: Relajar la restricción exacta de ecuación de Bellman Δ^π_m(s,a) = 0 a Δ^π_m(s,a) ≤ ε
Mejora de política en dos fases:
- Primera fase: Buscar mejora de orden m+1 entre acciones conocidas como óptimas de orden m-1
- Segunda fase: Refinar aún más a optimalidad de orden m+2
Control de precisión progresiva: Seleccionar ε_t = t^(-1/4) para asegurar la consistencia del algoritmo

Puntos de Innovación Técnica

1. Iteración de Política Bajo Ruido

La iteración de política tradicional requiere satisfacer exactamente la ecuación de Bellman, pero esto es imposible en entornos de aprendizaje. HOPI introduce un parámetro de relajación ε, permitiendo que el algoritmo funcione correctamente bajo ruido.

2. Técnica de Fragmentación (Shattering)

Proposición 5: Para cualquier política óptima de Bellman de cadena única π y precisión ε > 0, existe M' ∈ M tal que d_∞(M,M') < ε y π es la política óptima de ganancia única de M'.

Esta técnica se implementa en dos pasos:

Primero, penalizar acciones no óptimas para hacer que π sea la política óptima de Bellman única
Luego, mediante transformación ergódica, hacer que π sea la política óptima de ganancia única

3. Diseño de Regla de Parada

Definir función de umbral:

β(M) := min{d_min(Δ*)/((1+4α)(2+sp(b*))), 1/α}

donde α es el peor tiempo de llegada, proporcionando una medida precisa del radio de vecindario.

Resultados Teóricos

Teoremas Principales

Teorema 1 (Consistencia)

Para todo n ≥ -1, el algoritmo HOPE(n) es consistente para Π*_n.

Teorema 2 (Caracterización de No Degeneración)

Sea n ≥ -1. Un MDP M es no degenerado respecto a Π*_n(M) si y solo si M posee una política óptima de Bellman única.

Corolario 3 (Colapso de Degeneración)

El conjunto de modelos degenerados respecto a Π_{-1}, Π0, Π_1, ..., Π∞ es exactamente el mismo.

Estrategia de Prueba

Necesidad de No Degeneración (Teorema 4)

Si M es no degenerado, entonces existe una política π ∈ Π*(M) que permanece óptima en la vecindad de M. La prueba utiliza la continuidad de las decisiones del algoritmo.

Suficiencia (Teoremas 10-11)

Mediante la construcción de reglas de parada explícitas e intervalos de confianza, se demuestra que los MDPs con política óptima de Bellman única son efectivamente no degenerados.

Configuración Experimental y Resultados

Verificación Teórica

El artículo es principalmente un trabajo teórico, verificando todos los resultados principales mediante pruebas matemáticas rigurosas. Las verificaciones clave incluyen:

Corrección del algoritmo: Demostrar que HOPI en caso sin ruido devuelve el conjunto correcto de políticas óptimas
Garantías de consistencia: Demostrar que la probabilidad de error del algoritmo HOPE tiende efectivamente a 0
Validez de regla de parada: Demostrar que la regla de parada propuesta efectivamente se activa en tiempo finito

Análisis de Complejidad

Complejidad temporal: La complejidad temporal para determinar la unicidad de política óptima de Bellman es O(|Z| + |S|^4)
Complejidad de muestra: Aunque el artículo no proporciona límites exactos de complejidad de muestra, demuestra que en casos no degenerados el algoritmo debe converger

Trabajo Relacionado

Identificación de Brazo Óptimo

Relacionado con el problema de identificación de brazo óptimo en máquinas tragamonedas multi-brazo, pero la dependencia de estado en configuración MDP hace el problema más complejo.

Aprendizaje por Refuerzo de Recompensa Promedio

Trabajo reciente en configuración (ε,δ)-PAC para identificar políticas óptimas de ganancia, pero estos trabajos se enfocaban principalmente en optimalidad aproximada en lugar de exacta.

Computación de Optimalidad de Blackwell

Grand-Clément y Petrik (2023) y otros investigaron la complejidad computacional de políticas óptimas de Blackwell basadas en definiciones históricas de factores de descuento.

Resultados Relacionados en MDPs Determinísticos

Boone y Gaujal (2023) investigaron la capacidad de aprendizaje de políticas óptimas de Blackwell en MDPs con transiciones determinísticas, este artículo generaliza a casos estocásticos.

Conclusiones y Discusión

Conclusiones Principales

Optimalidad de Bellman como limitación fundamental: La capacidad de aprendizaje de todas las optimalidades de orden superior se reduce a la unicidad de la política óptima de Bellman
Universalidad de degeneración: La clase de MDPs degenerados para diferentes órdenes de optimalidad es exactamente la misma
Existencia de algoritmo: A pesar de las dificultades, existen algoritmos consistentes

Limitaciones

Ausencia de configuración PAC: El artículo se enfoca principalmente en optimalidad exacta, sin abordar aprendizaje de optimalidad aproximada
Límites de complejidad de muestra: No proporciona análisis exacto de complejidad de muestra
Aplicación práctica: Los resultados teóricos pueden limitar la aplicación en problemas prácticos

Direcciones Futuras

Extensión de marco PAC: Investigar aprendizaje de políticas óptimas aproximadas
Análisis de complejidad de muestra: Establecer límites exactos de complejidad de muestra
Optimización de algoritmo: Mejorar el desempeño práctico del algoritmo HOPE

Evaluación Profunda

Fortalezas

Profundidad teórica: Proporciona caracterización teórica completa del problema de aprendizaje de optimalidad de orden superior
Sorpresa de resultados: El teorema de colapso de degeneración es un resultado sorprendente y profundo
Innovación técnica: La técnica de fragmentación e iteración de política con argmax suave demuestran innovación técnica
Claridad de escritura: El artículo tiene estructura clara y pruebas matemáticas rigurosas

Insuficiencias

Limitación de practicidad: Los resultados teóricos sugieren que la mayoría de MDPs prácticos pueden ser degenerados
Complejidad computacional: Aunque proporciona algoritmo de tiempo polinomial, las constantes pueden ser grandes
Ausencia de verificación experimental: Como trabajo puramente teórico, carece de verificación experimental

Impacto

Contribución teórica: Proporciona resultado negativo importante para teoría de aprendizaje por refuerzo
Inspiración metodológica: La técnica de fragmentación puede tener aplicaciones en otros problemas
Dirección de investigación: Señala la importancia de la configuración PAC para investigación posterior

Escenarios Aplicables

Investigación teórica: Proporciona referencia importante para investigación teórica en aprendizaje por refuerzo
Diseño de algoritmo: Proporciona orientación teórica para diseño de algoritmos prácticos de aprendizaje de política
Análisis de problema: Ayuda a entender el impacto de la estructura MDP en dificultad de aprendizaje

Referencias

El artículo cita literatura importante en campos de aprendizaje por refuerzo y procesos de decisión de Markov, incluyendo:

Puterman (1994): Libro de texto clásico sobre procesos de decisión de Markov
Blackwell (1962): Definición original de optimalidad de Blackwell
Kaufmann et al. (2016): Teoría de complejidad de identificación de brazo óptimo
Boone and Gaujal (2023): Capacidad de aprendizaje de optimalidad de Blackwell en MDPs determinísticos

Este artículo revela a través de análisis teórico riguroso un fenómeno fundamental y profundo en aprendizaje por refuerzo: la dificultad de aprendizaje de optimalidad de orden superior está completamente determinada por la estructura de optimalidad de Bellman. Este resultado no solo posee importancia teórica significativa, sino que también proporciona orientación importante para diseño de algoritmos prácticos.