An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic
Улучшенный коэффициент решения-оценки без модели с приложениями в противодействующих MDP
В данной работе исследуется проблема структурированного принятия решений с наблюдениями (DMSO). Предыдущие работы характеризовали сложность DMSO через коэффициент решения-оценки (DEC), однако оставили разрыв между верхней и нижней границами сожаления, связанный с размером класса модели. Foster и др. (2023b) ввели оптимистичный DEC для сокращения этого разрыва, достигнув границ, зависящих только от размера класса функций стоимости. Однако исследование, основанное на оптимизме, может обрабатывать только стохастические среды, и остается неясным, может ли оно быть расширено на противодействующие среды.
В данной работе предлагается Dig-DEC — метод DEC без модели, который устраняет оптимизм и управляет исследованием исключительно через информационный прирост. Dig-DEC всегда не превышает оптимистичный DEC и в особых случаях может быть значительно меньше. Важно отметить, что устранение оптимизма позволяет ему обрабатывать противодействующие среды без явного оценивателя вознаграждения. Применяя Dig-DEC к смешанным MDP со стохастическими переходами и противодействующими вознаграждениями, получены первые границы сожаления без модели для смешанных MDP с обратной связью по бандитам при различных общих структурах переходов.
Проблема, которую необходимо решить: Существующая структура коэффициента решения-оценки (DEC) оставляет разрыв между размером класса модели и размером класса функций стоимости, а методы, основанные на оптимизме, не могут эффективно обрабатывать противодействующие среды.
Важность проблемы:
Принятие решений в режиме онлайн является центральной проблемой обучения с подкреплением
В практических приложениях часто встречаются смешанные среды, частично стохастические и частично противодействующие
Существует разрыв между теоретическими гарантиями и практической производительностью существующих методов
Ограничения существующих методов:
Модель Foster и др. на основе DEC/E2D требует затрат на оценку модели log|M|
Хотя оптимистичный DEC улучшает сложность, он зависит от принципа оптимизма и не может обрабатывать противодействующие параметры
Метод смешанного MDP Liu и др. (2025) может обрабатывать только полную обратную связь, случай с бандитами остается открытой проблемой
Исследовательская мотивация: Разработать унифицированную структуру, которая может как улучшить существующие результаты в стохастических средах, так и впервые обработать случай с бандитами для смешанных MDP.
Предложение меры сложности Dig-DEC: Введение двойного информационного прироста коэффициента решения-оценки, устранение оптимизма, управление исследованием исключительно через информационный прирост
Унифицированная теоретическая структура: Построение универсальной структуры алгоритма, способной одновременно обрабатывать стохастические и смешанные среды
Улучшенная онлайн-оценка функций:
Средняя ошибка оценки: улучшение с T^{3/4}/T^{5/6} до T^{2/3}/T^{7/9}
Квадратичная ошибка: улучшение с T^{2/3} до √T, впервые достигнута производительность, эквивалентная оптимистичным методам в Bellman-полных MDP
Решение открытой проблемы: Впервые получены границы сожаления без модели для смешанных MDP с обратной связью по бандитам
Foster и др. (2021b, 2023a, 2023b): основы теории DEC
Liu и др. (2025): исследование смешанных MDP
Jin и др. (2021): размерность Bellman-eluder
Xie и др. (2023): теория покрываемости
Xu и Zeevi (2023): структура AIR
Данная работа достигла важного прогресса в теории коэффициента решения-оценки, решив ключевые проблемы в этой области благодаря умным техническим инновациям, внося ценный вклад в развитие теории обучения с подкреплением. Хотя в проверке практического применения еще есть место для улучшения, ее теоретическая ценность и инновационность делают ее важной работой в этой области.