An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic
Un Coefficient de Décision-Estimation Amélioré sans Modèle avec Applications aux MDP Adversariels
Cet article étudie le problème de la prise de décision avec observations structurées (DMSO). Les travaux antérieurs ont caractérisé la complexité du DMSO par le coefficient de décision-estimation (DEC), mais ont laissé un écart entre les bornes supérieures et inférieures du regret lié à la taille de la classe de modèles. Foster et al. (2023b) ont introduit le DEC optimiste pour réduire cet écart, en obtenant des bornes dépendant uniquement de la taille de la classe de fonctions de valeur. Cependant, l'exploration basée sur l'optimisme ne peut traiter que les environnements stochastiques, et il n'est pas clair si elle peut s'étendre aux environnements adversariels.
Cet article propose Dig-DEC, une méthode DEC sans modèle qui supprime l'optimisme et pilote l'exploration uniquement par le gain d'information. Dig-DEC est toujours inférieur ou égal au DEC optimiste et peut être significativement plus petit dans certains cas. Surtout, la suppression de l'optimisme permet de traiter les environnements adversariels sans estimateur de récompense explicite. En appliquant Dig-DEC aux MDP hybrides avec transitions stochastiques et récompenses adversarielles, nous obtenons les premières bornes de regret sans modèle pour les MDP hybrides avec retours bandit dans diverses structures de transitions générales.
Problème à résoudre: Le cadre existant du coefficient de décision-estimation (DEC) présente un écart entre la taille de la classe de modèles et la taille de la classe de fonctions de valeur, et les méthodes basées sur l'optimisme ne peuvent pas traiter efficacement les environnements adversariels.
Importance du problème:
La prise de décision en ligne est un problème fondamental de l'apprentissage par renforcement
Les applications pratiques font souvent face à des environnements hybrides partiellement stochastiques et partiellement adversariels
Il existe un écart entre les garanties théoriques et les performances pratiques des méthodes existantes
Limitations des méthodes existantes:
Le modèle de Foster et al. basé sur DEC/E2D doit supporter le coût d'estimation du modèle log|M|
Bien que le DEC optimiste améliore la complexité, il dépend du principe d'optimisme et ne peut pas traiter les paramètres adversariels
La méthode MDP hybride de Liu et al. (2025) ne peut traiter que les retours d'information complète, le cas bandit reste un problème ouvert
Motivation de la recherche: Développer un cadre unifié qui améliore les résultats existants dans les environnements stochastiques et traite pour la première fois le cas des retours bandit pour les MDP hybrides.
Proposition de la mesure de complexité Dig-DEC: Introduction du coefficient de décision-estimation à double gain d'information, suppression de l'optimisme, pilotage de l'exploration uniquement par le gain d'information
Cadre théorique unifié: Construction d'un cadre algorithmique générique capable de traiter simultanément les environnements stochastiques et hybrides
Amélioration de l'estimation de fonction en ligne:
Erreur d'estimation moyenne: améliorée de T^{3/4}/T^{5/6} à T^{2/3}/T^{7/9}
Erreur quadratique: améliorée de T^{2/3} à √T, atteignant pour la première fois dans les MDP Bellman-complets les mêmes performances que les méthodes optimistes
Résolution d'un problème ouvert: Première borne de regret sans modèle pour les MDP hybrides avec retours bandit
Cadre DMSO: Étant donné un espace de modèles M, un espace de stratégies Π, un espace d'observations O et une classe de fonctions de valeur V. À chaque tour t:
L'environnement choisit un modèle Mt ∈ M
L'apprenant choisit une stratégie πt ∈ Π
Observation ot ~ Mt(·|πt)
Objectif: minimiser le regret Reg(π*) = Σt(VMt(π*) - VMt(πt))
Environnement Φ-restreint: Partition de M×Π par des ensembles d'information Φ, où chaque ensemble d'information ϕ contient une stratégie unique πϕ.
Foster et al. (2021b, 2023a, 2023b): Fondements de la théorie DEC
Liu et al. (2025): Recherche sur les MDP hybrides
Jin et al. (2021): Dimension d'éluder de Bellman
Xie et al. (2023): Théorie de la couverture
Xu and Zeevi (2023): Cadre AIR
Cet article a réalisé des progrès importants dans la théorie du coefficient de décision-estimation, résolvant des problèmes clés du domaine par des innovations techniques ingénieuses, et apportant une contribution précieuse au développement de la théorie de l'apprentissage par renforcement. Bien qu'il y ait de la place pour l'amélioration dans la vérification des applications pratiques, sa valeur théorique et son caractère innovant en font un travail important dans ce domaine.