2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic

Un Coeficiente de Decisión-Estimación Mejorado sin Modelo con Aplicaciones en MDPs Adversariales

Información Básica

  • ID del Artículo: 2510.08882
  • Título: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
  • Autores: Haolin Liu (University of Virginia), Chen-Yu Wei (University of Virginia), Julian Zimmert (Google Research)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: Octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.08882v1

Resumen

Este artículo estudia el problema de toma de decisiones con observaciones estructuradas (DMSO). Trabajos previos caracterizaron la complejidad de DMSO mediante el coeficiente de decisión-estimación (DEC), pero dejaron una brecha entre los límites superiores e inferiores de arrepentimiento relacionada con el tamaño de la clase de modelos. Foster et al. (2023b) introdujeron el DEC optimista para cerrar esta brecha, logrando límites relacionados únicamente con el tamaño de la clase de funciones de valor. Sin embargo, la exploración basada en optimismo solo puede manejar entornos estocásticos, y no está claro si puede extenderse a entornos adversariales.

Este artículo propone Dig-DEC, un método DEC sin modelo que elimina la optimismo y conduce la exploración puramente mediante ganancia de información. Dig-DEC siempre es menor o igual que el DEC optimista y puede ser significativamente más pequeño en casos especiales. Importantemente, la eliminación de la optimismo permite manejar entornos adversariales sin requerir estimadores de recompensa explícitos. Al aplicar Dig-DEC a MDPs híbridos con transiciones estocásticas y recompensas adversariales, se obtienen los primeros límites de arrepentimiento sin modelo para MDPs híbridos con retroalimentación de bandido bajo diversas estructuras de transición generales.

Antecedentes y Motivación de la Investigación

  1. Problema a Resolver: El marco existente del coeficiente de decisión-estimación (DEC) presenta una brecha entre el tamaño de la clase de modelos y el tamaño de la clase de funciones de valor, y los métodos basados en optimismo no pueden manejar efectivamente entornos adversariales.
  2. Importancia del Problema:
    • La toma de decisiones en línea es un problema central en el aprendizaje por refuerzo
    • Las aplicaciones prácticas frecuentemente enfrentan entornos híbridos parcialmente estocásticos y parcialmente adversariales
    • Existe una brecha entre las garantías teóricas y el desempeño práctico de los métodos existentes
  3. Limitaciones de Métodos Existentes:
    • El modelo de Foster et al. basado en DEC/E2D debe asumir un costo de estimación de modelo de log|M|
    • Aunque el DEC optimista mejora la complejidad, depende del principio de optimismo y no puede manejar configuraciones adversariales
    • El método de MDP híbrido de Liu et al. (2025) solo puede manejar retroalimentación de información completa, dejando el caso de bandido como un problema abierto
  4. Motivación de la Investigación: Desarrollar un marco unificado que mejore los resultados existentes en entornos estocásticos y maneje por primera vez el caso de retroalimentación de bandido en MDPs híbridos.

Contribuciones Principales

  1. Propone la Medida de Complejidad Dig-DEC: Introduce el coeficiente de decisión-estimación de ganancia dual de información, eliminando la optimismo y conduciendo la exploración puramente mediante ganancia de información
  2. Marco Teórico Unificado: Construye un marco de algoritmo general que puede manejar simultáneamente entornos estocásticos e híbridos
  3. Estimación de Función en Línea Mejorada:
    • Error de estimación promedio: mejora de T^{3/4}/T^{5/6} a T^{2/3}/T^{7/9}
    • Error cuadrático: mejora de T^{2/3} a √T, logrando por primera vez el mismo desempeño que los métodos optimistas en MDPs Bellman-completos
  4. Resuelve Problemas Abiertos: Proporciona por primera vez límites de arrepentimiento sin modelo para MDPs híbridos bajo retroalimentación de bandido

Explicación Detallada del Método

Definición de la Tarea

Marco DMSO: Dado un espacio de modelos M, espacio de políticas Π, espacio de observaciones O y funciones de valor V. En cada ronda t:

  • El entorno selecciona un modelo Mt ∈ M
  • El aprendiz selecciona una política πt ∈ Π
  • Observación ot ~ Mt(·|πt)
  • Objetivo: minimizar el arrepentimiento Reg(π*) = Σt(VMt(π*) - VMt(πt))

Entorno Φ-Restringido: Particiona M×Π mediante conjuntos de información Φ, donde cada conjunto de información ϕ contiene una única política πϕ.

Arquitectura del Modelo

1. Marco General (Algoritmo 1)

La idea central es resolver el siguiente problema de punto de silla:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

donde la medida de divergencia es:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Definición de Dig-DEC

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. Mecanismo de Actualización Posterior

Según la elección de D:

  • Error de Estimación Promedio: Utiliza algoritmo de procesamiento por lotes (Algoritmo 2)
  • Error de Estimación Cuadrática: Utiliza algoritmo de aprendizaje de dos capas (Algoritmo 3)

Puntos de Innovación Técnica

  1. Diseño de Ganancia Dual de Información:
    • El término KL se utiliza para regularización, evitando mecanismos de optimismo
    • El término D^π captura diferencias de distribución, logrando mejoras estrictas
  2. Eliminación de la Optimismo: Reemplaza el término V_ϕ(π_ϕ) del DEC optimista mediante el término de regularización KL(ν_{ϕ}, ρ)
  3. Procedimientos de Estimación Mejorados:
    • Error promedio: utiliza estimadores insesgados en lugar de estimadores sesgados
    • Error cuadrático: rediseña el procedimiento de dos escalas de tiempo, mejorando el límite Est de T^{1/3} a constante

Configuración Experimental

Entornos de Verificación Teórica

  1. Configuración Estocástica:
    • MDP de clase bilineal
    • MDP con dimensión de elusor de Bellman acotada
    • MDP con cobertura acotada
  2. Configuración Híbrida:
    • Clase bilineal híbrida
    • MDP de cobertura híbrida
    • Características de recompensa lineal conocidas

Métricas de Evaluación

  • Límite de Arrepentimiento: Cota superior de EReg(π*)
  • Comparación de Complejidad: dig-dec vs o-dec vs DEC clásico
  • Velocidad de Convergencia: Dependencia de potencia de T

Métodos de Comparación

  • DEC optimista de Foster et al. (2023b)
  • Marco AIR de Liu et al. (2025)
  • Métodos optimistas clásicos (Jin et al. 2021, Xie et al. 2023)

Resultados Experimentales

Resultados Principales

Mejoras en Entorno Estocástico (Tabla 1):

Categoría de ConfiguraciónFoster et al. (2023b)Método Propuesto
Bilineal/BE (Error Promedio)T^{3/4}/T^{5/6}T^{2/3}/T^{7/9}
Bellman-Completo (Error Cuadrático)T^{2/3}√T

Avance en Entorno Híbrido (Tabla 2):

Categoría de ConfiguraciónLiu et al. (2025)Método Propuesto
Bilineal (Error Promedio)Solo información completaT^{5/6}/T^{13/15}
Bellman-Completo (Error Cuadrático)No aplicableT^{3/4}

Verificación de Ventajas Teóricas

Teorema 13: En configuración estocástica, dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

Teorema 14: Construye una instancia de bandido de tres brazos, probando que existe un caso donde:

  • Método de Foster et al.: EReg(a) ≥ Ω(√T)
  • Método propuesto: EReg(a) ≤ 1

Hallazgos Experimentales

  1. Importancia de la Ganancia de Información: El término KL puede capturar información de distribución que el DEC optimista ignora
  2. Mejora del Procedimiento de Estimación: Los estimadores insesgados mejoran significativamente el efecto de las desigualdades de concentración
  3. Ventajas de Eliminar la Optimismo: Permite que el algoritmo se extienda naturalmente a entornos adversariales

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Desarrollo del Marco DEC:
    • Foster et al. (2021b, 2023a): Teoría DEC fundamental
    • Foster et al. (2023b): Introducción del DEC optimista
    • Chen et al. (2025): Extensión a otras configuraciones
  2. Investigación de MDP Adversariales:
    • Neu et al. (2013): MDP adversariales tabulares
    • Luo et al. (2021): MDP adversariales lineales
    • Liu et al. (2025): Teoría de MDP híbridos
  3. Aprendizaje por Refuerzo sin Modelo:
    • Jin et al. (2021): Dimensión de elusor de Bellman
    • Xie et al. (2023): Teoría de cobertura

Ventajas de Este Artículo

  1. Unificación Teórica: Primer marco DEC que maneja simultáneamente entornos estocásticos e híbridos
  2. Innovación Técnica: Diseño de ganancia dual de información, eliminación de dependencia de optimismo
  3. Resolución de Problemas: Resuelve el problema abierto dejado por Liu et al. (2025)

Conclusiones y Discusión

Conclusiones Principales

  1. Dig-DEC proporciona una caracterización de complejidad más precisa, logrando mejoras arbitrariamente grandes en casos especiales
  2. La eliminación de la optimismo permite que el algoritmo maneje naturalmente entornos adversariales
  3. El procedimiento de estimación mejorado tiene importancia significativa tanto teórica como práctica

Limitaciones

  1. Restricciones de Supuestos: La configuración híbrida requiere características de recompensa lineal conocidas (Supuesto 4)
  2. Restricciones Técnicas: Algunos casos de MDP de bajo rango aún no pueden manejarse
  3. Complejidad Computacional: La eficiencia computacional práctica de la optimización de punto de silla no se discute en detalle

Direcciones Futuras

  1. Relajar las restricciones de los Supuestos 3 y 4
  2. Investigar limitaciones fundamentales del aprendizaje sin modelo
  3. Desarrollar algoritmos computacionales más eficientes

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa:
    • Propone nueva medida de complejidad dig-dec
    • Maneja unificadamente entornos estocásticos y adversariales
    • Resuelve problemas abiertos importantes
  2. Innovación Técnica Fuerte:
    • Diseño de ganancia dual de información ingenioso
    • Mejora de procedimiento de estimación efectiva
    • Técnicas de análisis avanzadas
  3. Resultados Convincentes:
    • Límites teóricos ajustados y prácticos
    • Instancias constructivas prueban mejoras estrictas
    • Cobertura de múltiples clases de MDP clásicas

Insuficiencias

  1. Verificación Experimental Limitada: Principalmente análisis teórico, carece de implementación de algoritmos reales y verificación empírica
  2. Rango de Aplicabilidad Limitado: Los supuestos para MDP híbridos son relativamente fuertes, limitando la generalidad del método
  3. Complejidad Computacional: La solubilidad práctica y eficiencia de la optimización de punto de silla requieren investigación adicional

Impacto

  1. Valor Teórico: Proporciona nueva dirección para el desarrollo de la teoría DEC, potencialmente inspirando investigación posterior
  2. Potencial Práctico: Proporciona orientación teórica para el diseño de algoritmos de aprendizaje por refuerzo prácticos
  3. Avance del Campo: Logra avance en la intersección de aprendizaje sin modelo y MDP adversariales

Escenarios Aplicables

  1. Investigación Teórica: Extensión del marco DEC, análisis de complejidad
  2. Diseño de Algoritmos: Algoritmos de aprendizaje por refuerzo que necesitan manejar entornos híbridos
  3. Campos de Aplicación: Comercio financiero, sistemas de recomendación y otros entornos parcialmente adversariales

Referencias

Las referencias clave incluyen:

  • Foster et al. (2021b, 2023a, 2023b): Fundamentos de la teoría DEC
  • Liu et al. (2025): Investigación de MDP híbridos
  • Jin et al. (2021): Dimensión de elusor de Bellman
  • Xie et al. (2023): Teoría de cobertura
  • Xu and Zeevi (2023): Marco AIR

Este artículo logra avances importantes en la teoría del coeficiente de decisión-estimación, resolviendo problemas clave en el campo mediante innovación técnica ingeniosa, haciendo una contribución valiosa al desarrollo de la teoría del aprendizaje por refuerzo. Aunque hay espacio para mejora en la verificación de aplicaciones prácticas, su valor teórico e innovación lo convierten en un trabajo importante en el campo.