An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic
Un Coeficiente de Decisión-Estimación Mejorado sin Modelo con Aplicaciones en MDPs Adversariales
Este artículo estudia el problema de toma de decisiones con observaciones estructuradas (DMSO). Trabajos previos caracterizaron la complejidad de DMSO mediante el coeficiente de decisión-estimación (DEC), pero dejaron una brecha entre los límites superiores e inferiores de arrepentimiento relacionada con el tamaño de la clase de modelos. Foster et al. (2023b) introdujeron el DEC optimista para cerrar esta brecha, logrando límites relacionados únicamente con el tamaño de la clase de funciones de valor. Sin embargo, la exploración basada en optimismo solo puede manejar entornos estocásticos, y no está claro si puede extenderse a entornos adversariales.
Este artículo propone Dig-DEC, un método DEC sin modelo que elimina la optimismo y conduce la exploración puramente mediante ganancia de información. Dig-DEC siempre es menor o igual que el DEC optimista y puede ser significativamente más pequeño en casos especiales. Importantemente, la eliminación de la optimismo permite manejar entornos adversariales sin requerir estimadores de recompensa explícitos. Al aplicar Dig-DEC a MDPs híbridos con transiciones estocásticas y recompensas adversariales, se obtienen los primeros límites de arrepentimiento sin modelo para MDPs híbridos con retroalimentación de bandido bajo diversas estructuras de transición generales.
Problema a Resolver: El marco existente del coeficiente de decisión-estimación (DEC) presenta una brecha entre el tamaño de la clase de modelos y el tamaño de la clase de funciones de valor, y los métodos basados en optimismo no pueden manejar efectivamente entornos adversariales.
Importancia del Problema:
La toma de decisiones en línea es un problema central en el aprendizaje por refuerzo
Las aplicaciones prácticas frecuentemente enfrentan entornos híbridos parcialmente estocásticos y parcialmente adversariales
Existe una brecha entre las garantías teóricas y el desempeño práctico de los métodos existentes
Limitaciones de Métodos Existentes:
El modelo de Foster et al. basado en DEC/E2D debe asumir un costo de estimación de modelo de log|M|
Aunque el DEC optimista mejora la complejidad, depende del principio de optimismo y no puede manejar configuraciones adversariales
El método de MDP híbrido de Liu et al. (2025) solo puede manejar retroalimentación de información completa, dejando el caso de bandido como un problema abierto
Motivación de la Investigación: Desarrollar un marco unificado que mejore los resultados existentes en entornos estocásticos y maneje por primera vez el caso de retroalimentación de bandido en MDPs híbridos.
Propone la Medida de Complejidad Dig-DEC: Introduce el coeficiente de decisión-estimación de ganancia dual de información, eliminando la optimismo y conduciendo la exploración puramente mediante ganancia de información
Marco Teórico Unificado: Construye un marco de algoritmo general que puede manejar simultáneamente entornos estocásticos e híbridos
Estimación de Función en Línea Mejorada:
Error de estimación promedio: mejora de T^{3/4}/T^{5/6} a T^{2/3}/T^{7/9}
Error cuadrático: mejora de T^{2/3} a √T, logrando por primera vez el mismo desempeño que los métodos optimistas en MDPs Bellman-completos
Resuelve Problemas Abiertos: Proporciona por primera vez límites de arrepentimiento sin modelo para MDPs híbridos bajo retroalimentación de bandido
Foster et al. (2021b, 2023a, 2023b): Fundamentos de la teoría DEC
Liu et al. (2025): Investigación de MDP híbridos
Jin et al. (2021): Dimensión de elusor de Bellman
Xie et al. (2023): Teoría de cobertura
Xu and Zeevi (2023): Marco AIR
Este artículo logra avances importantes en la teoría del coeficiente de decisión-estimación, resolviendo problemas clave en el campo mediante innovación técnica ingeniosa, haciendo una contribución valiosa al desarrollo de la teoría del aprendizaje por refuerzo. Aunque hay espacio para mejora en la verificación de aplicaciones prácticas, su valor teórico e innovación lo convierten en un trabajo importante en el campo.