2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert

We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.

academic

Un Coeficiente de Decisión-Estimación Mejorado sin Modelo con Aplicaciones en MDPs Adversariales

Información Básica

ID del Artículo: 2510.08882
Título: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Autores: Haolin Liu (University of Virginia), Chen-Yu Wei (University of Virginia), Julian Zimmert (Google Research)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: Octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.08882v1

Resumen

Este artículo estudia el problema de toma de decisiones con observaciones estructuradas (DMSO). Trabajos previos caracterizaron la complejidad de DMSO mediante el coeficiente de decisión-estimación (DEC), pero dejaron una brecha entre los límites superiores e inferiores de arrepentimiento relacionada con el tamaño de la clase de modelos. Foster et al. (2023b) introdujeron el DEC optimista para cerrar esta brecha, logrando límites relacionados únicamente con el tamaño de la clase de funciones de valor. Sin embargo, la exploración basada en optimismo solo puede manejar entornos estocásticos, y no está claro si puede extenderse a entornos adversariales.

Este artículo propone Dig-DEC, un método DEC sin modelo que elimina la optimismo y conduce la exploración puramente mediante ganancia de información. Dig-DEC siempre es menor o igual que el DEC optimista y puede ser significativamente más pequeño en casos especiales. Importantemente, la eliminación de la optimismo permite manejar entornos adversariales sin requerir estimadores de recompensa explícitos. Al aplicar Dig-DEC a MDPs híbridos con transiciones estocásticas y recompensas adversariales, se obtienen los primeros límites de arrepentimiento sin modelo para MDPs híbridos con retroalimentación de bandido bajo diversas estructuras de transición generales.

Antecedentes y Motivación de la Investigación

Problema a Resolver: El marco existente del coeficiente de decisión-estimación (DEC) presenta una brecha entre el tamaño de la clase de modelos y el tamaño de la clase de funciones de valor, y los métodos basados en optimismo no pueden manejar efectivamente entornos adversariales.
Importancia del Problema:
- La toma de decisiones en línea es un problema central en el aprendizaje por refuerzo
- Las aplicaciones prácticas frecuentemente enfrentan entornos híbridos parcialmente estocásticos y parcialmente adversariales
- Existe una brecha entre las garantías teóricas y el desempeño práctico de los métodos existentes
Limitaciones de Métodos Existentes:
- El modelo de Foster et al. basado en DEC/E2D debe asumir un costo de estimación de modelo de log|M|
- Aunque el DEC optimista mejora la complejidad, depende del principio de optimismo y no puede manejar configuraciones adversariales
- El método de MDP híbrido de Liu et al. (2025) solo puede manejar retroalimentación de información completa, dejando el caso de bandido como un problema abierto
Motivación de la Investigación: Desarrollar un marco unificado que mejore los resultados existentes en entornos estocásticos y maneje por primera vez el caso de retroalimentación de bandido en MDPs híbridos.

Contribuciones Principales

Propone la Medida de Complejidad Dig-DEC: Introduce el coeficiente de decisión-estimación de ganancia dual de información, eliminando la optimismo y conduciendo la exploración puramente mediante ganancia de información
Marco Teórico Unificado: Construye un marco de algoritmo general que puede manejar simultáneamente entornos estocásticos e híbridos
Estimación de Función en Línea Mejorada:
- Error de estimación promedio: mejora de T^{3/4}/T^{5/6} a T^{2/3}/T^{7/9}
- Error cuadrático: mejora de T^{2/3} a √T, logrando por primera vez el mismo desempeño que los métodos optimistas en MDPs Bellman-completos
Resuelve Problemas Abiertos: Proporciona por primera vez límites de arrepentimiento sin modelo para MDPs híbridos bajo retroalimentación de bandido

Explicación Detallada del Método

Definición de la Tarea

Marco DMSO: Dado un espacio de modelos M, espacio de políticas Π, espacio de observaciones O y funciones de valor V. En cada ronda t:

El entorno selecciona un modelo Mt ∈ M
El aprendiz selecciona una política πt ∈ Π
Observación ot ~ Mt(·|πt)
Objetivo: minimizar el arrepentimiento Reg(π*) = Σt(VMt(π*) - VMt(πt))

Entorno Φ-Restringido: Particiona M×Π mediante conjuntos de información Φ, donde cada conjunto de información ϕ contiene una única política πϕ.

Arquitectura del Modelo

1. Marco General (Algoritmo 1)

La idea central es resolver el siguiente problema de punto de silla:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

donde la medida de divergencia es:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Definición de Dig-DEC

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. Mecanismo de Actualización Posterior

Según la elección de D:

Error de Estimación Promedio: Utiliza algoritmo de procesamiento por lotes (Algoritmo 2)
Error de Estimación Cuadrática: Utiliza algoritmo de aprendizaje de dos capas (Algoritmo 3)

Puntos de Innovación Técnica

Diseño de Ganancia Dual de Información:
- El término KL se utiliza para regularización, evitando mecanismos de optimismo
- El término D^π captura diferencias de distribución, logrando mejoras estrictas
Eliminación de la Optimismo: Reemplaza el término V_ϕ(π_ϕ) del DEC optimista mediante el término de regularización KL(ν_{ϕ}, ρ)
Procedimientos de Estimación Mejorados:
- Error promedio: utiliza estimadores insesgados en lugar de estimadores sesgados
- Error cuadrático: rediseña el procedimiento de dos escalas de tiempo, mejorando el límite Est de T^{1/3} a constante

Configuración Experimental

Entornos de Verificación Teórica

Configuración Estocástica:
- MDP de clase bilineal
- MDP con dimensión de elusor de Bellman acotada
- MDP con cobertura acotada
Configuración Híbrida:
- Clase bilineal híbrida
- MDP de cobertura híbrida
- Características de recompensa lineal conocidas

Métricas de Evaluación

Límite de Arrepentimiento: Cota superior de EReg(π*)
Comparación de Complejidad: dig-dec vs o-dec vs DEC clásico
Velocidad de Convergencia: Dependencia de potencia de T

Métodos de Comparación

DEC optimista de Foster et al. (2023b)
Marco AIR de Liu et al. (2025)
Métodos optimistas clásicos (Jin et al. 2021, Xie et al. 2023)

Resultados Experimentales

Resultados Principales

Mejoras en Entorno Estocástico (Tabla 1):

Categoría de Configuración	Foster et al. (2023b)	Método Propuesto
Bilineal/BE (Error Promedio)	T^{3/4}/T^{5/6}	T^{2/3}/T^{7/9}
Bellman-Completo (Error Cuadrático)	T^{2/3}	√T

Avance en Entorno Híbrido (Tabla 2):

Categoría de Configuración	Liu et al. (2025)	Método Propuesto
Bilineal (Error Promedio)	Solo información completa	T^{5/6}/T^{13/15}
Bellman-Completo (Error Cuadrático)	No aplicable	T^{3/4}

Verificación de Ventajas Teóricas

Teorema 13: En configuración estocástica, dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

Teorema 14: Construye una instancia de bandido de tres brazos, probando que existe un caso donde:

Método de Foster et al.: EReg(a) ≥ Ω(√T)
Método propuesto: EReg(a) ≤ 1

Hallazgos Experimentales

Importancia de la Ganancia de Información: El término KL puede capturar información de distribución que el DEC optimista ignora
Mejora del Procedimiento de Estimación: Los estimadores insesgados mejoran significativamente el efecto de las desigualdades de concentración
Ventajas de Eliminar la Optimismo: Permite que el algoritmo se extienda naturalmente a entornos adversariales

Trabajo Relacionado

Direcciones de Investigación Principales

Desarrollo del Marco DEC:
- Foster et al. (2021b, 2023a): Teoría DEC fundamental
- Foster et al. (2023b): Introducción del DEC optimista
- Chen et al. (2025): Extensión a otras configuraciones
Investigación de MDP Adversariales:
- Neu et al. (2013): MDP adversariales tabulares
- Luo et al. (2021): MDP adversariales lineales
- Liu et al. (2025): Teoría de MDP híbridos
Aprendizaje por Refuerzo sin Modelo:
- Jin et al. (2021): Dimensión de elusor de Bellman
- Xie et al. (2023): Teoría de cobertura

Ventajas de Este Artículo

Unificación Teórica: Primer marco DEC que maneja simultáneamente entornos estocásticos e híbridos
Innovación Técnica: Diseño de ganancia dual de información, eliminación de dependencia de optimismo
Resolución de Problemas: Resuelve el problema abierto dejado por Liu et al. (2025)

Conclusiones y Discusión

Conclusiones Principales

Dig-DEC proporciona una caracterización de complejidad más precisa, logrando mejoras arbitrariamente grandes en casos especiales
La eliminación de la optimismo permite que el algoritmo maneje naturalmente entornos adversariales
El procedimiento de estimación mejorado tiene importancia significativa tanto teórica como práctica

Limitaciones

Restricciones de Supuestos: La configuración híbrida requiere características de recompensa lineal conocidas (Supuesto 4)
Restricciones Técnicas: Algunos casos de MDP de bajo rango aún no pueden manejarse
Complejidad Computacional: La eficiencia computacional práctica de la optimización de punto de silla no se discute en detalle

Direcciones Futuras

Relajar las restricciones de los Supuestos 3 y 4
Investigar limitaciones fundamentales del aprendizaje sin modelo
Desarrollar algoritmos computacionales más eficientes

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa:
- Propone nueva medida de complejidad dig-dec
- Maneja unificadamente entornos estocásticos y adversariales
- Resuelve problemas abiertos importantes
Innovación Técnica Fuerte:
- Diseño de ganancia dual de información ingenioso
- Mejora de procedimiento de estimación efectiva
- Técnicas de análisis avanzadas
Resultados Convincentes:
- Límites teóricos ajustados y prácticos
- Instancias constructivas prueban mejoras estrictas
- Cobertura de múltiples clases de MDP clásicas

Insuficiencias

Verificación Experimental Limitada: Principalmente análisis teórico, carece de implementación de algoritmos reales y verificación empírica
Rango de Aplicabilidad Limitado: Los supuestos para MDP híbridos son relativamente fuertes, limitando la generalidad del método
Complejidad Computacional: La solubilidad práctica y eficiencia de la optimización de punto de silla requieren investigación adicional

Impacto

Valor Teórico: Proporciona nueva dirección para el desarrollo de la teoría DEC, potencialmente inspirando investigación posterior
Potencial Práctico: Proporciona orientación teórica para el diseño de algoritmos de aprendizaje por refuerzo prácticos
Avance del Campo: Logra avance en la intersección de aprendizaje sin modelo y MDP adversariales

Escenarios Aplicables

Investigación Teórica: Extensión del marco DEC, análisis de complejidad
Diseño de Algoritmos: Algoritmos de aprendizaje por refuerzo que necesitan manejar entornos híbridos
Campos de Aplicación: Comercio financiero, sistemas de recomendación y otros entornos parcialmente adversariales

Referencias

Las referencias clave incluyen:

Foster et al. (2021b, 2023a, 2023b): Fundamentos de la teoría DEC
Liu et al. (2025): Investigación de MDP híbridos
Jin et al. (2021): Dimensión de elusor de Bellman
Xie et al. (2023): Teoría de cobertura
Xu and Zeevi (2023): Marco AIR

Este artículo logra avances importantes en la teoría del coeficiente de decisión-estimación, resolviendo problemas clave en el campo mediante innovación técnica ingeniosa, haciendo una contribución valiosa al desarrollo de la teoría del aprendizaje por refuerzo. Aunque hay espacio para mejora en la verificación de aplicaciones prácticas, su valor teórico e innovación lo convierten en un trabajo importante en el campo.