An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
본 논문은 구조화된 관측 결정 제작 문제(DMSO)를 연구한다. 선행 연구는 결정-추정 계수(DEC)를 통해 DMSO의 복잡도를 특성화했으나, 후회 상한과 하한 사이에 모델 클래스 크기와 관련된 간격을 남겼다. Foster 등(2023b)은 낙관적 DEC를 도입하여 이 간격을 좁혔으며, 값 함수 클래스 크기와만 관련된 경계를 달성했다. 그러나 낙관성 기반 탐색은 확률적 환경만 처리할 수 있으며, 적대적 환경으로의 확장 가능성은 불명확하다.
본 논문은 Dig-DEC를 제안하는데, 이는 모델-무관 DEC 방법으로 낙관성을 제거하고 순수하게 정보 이득으로 탐색을 주도한다. Dig-DEC는 항상 낙관적 DEC 이하이며, 특수한 경우에는 현저히 더 작을 수 있다. 중요하게도, 낙관성 제거는 명시적 보상 추정기 없이 적대적 환경을 처리할 수 있게 한다. Dig-DEC를 확률적 전이와 적대적 보상을 가진 혼합 MDP에 적용하여, 다양한 일반 전이 구조 하에서 밴딧 피드백을 가진 혼합 MDP에 대한 첫 번째 모델-무관 후회 경계를 얻었다.
본 논문은 결정-추정 계수 이론에서 중요한 진전을 이루었으며, 정교한 기술 혁신을 통해 해당 분야의 핵심 문제를 해결하여 강화학습 이론 발전에 가치 있는 기여를 했다. 실제 응용 검증 측면에서 개선 여지가 있지만, 이론적 가치와 혁신성으로 인해 해당 분야의 중요한 연구가 되었다.