An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic
Un Modello Migliorato Senza Modello del Coefficiente di Decisione-Stima con Applicazioni negli MDP Avversariali
Questo articolo esamina il problema del processo decisionale con osservazioni strutturate (DMSO). Lavori precedenti hanno caratterizzato la complessità di DMSO attraverso il coefficiente di decisione-stima (DEC), ma hanno lasciato un divario tra i limiti superiori e inferiori della rimpianto correlato alla dimensione della classe di modelli. Foster et al. (2023b) hanno introdotto il DEC ottimistico per ridurre questo divario, ottenendo limiti correlati solo alla dimensione della classe di funzioni di valore. Tuttavia, l'esplorazione basata sull'ottimismo può gestire solo ambienti stocastici, e rimane poco chiaro se possa essere estesa ad ambienti avversariali.
Questo articolo propone Dig-DEC, un metodo DEC senza modello che elimina l'ottimismo e guida l'esplorazione puramente attraverso il guadagno informativo. Dig-DEC è sempre non maggiore del DEC ottimistico e può essere significativamente più piccolo in casi particolari. Importantemente, l'eliminazione dell'ottimismo consente di gestire ambienti avversariali senza richiedere stimatori di ricompensa espliciti. Applicando Dig-DEC agli MDP ibridi con transizioni stocastiche e ricompense avversariali, si ottengono i primi limiti di rimpianto senza modello per MDP ibridi con feedback bandit in diverse strutture di transizione generali.
Problema da Risolvere: Il framework del coefficiente di decisione-stima (DEC) esistente presenta un divario tra la dimensione della classe di modelli e la dimensione della classe di funzioni di valore, e i metodi basati sull'ottimismo non possono gestire efficacemente ambienti avversariali.
Importanza del Problema:
Il processo decisionale online è un problema centrale nell'apprendimento per rinforzo
Le applicazioni pratiche affrontano frequentemente ambienti ibridi, parzialmente stocastici e parzialmente avversariali
Esiste un divario tra le garanzie teoriche e le prestazioni pratiche dei metodi esistenti
Limitazioni dei Metodi Esistenti:
Il modello di Foster et al. basato su DEC/E2D deve sostenere il costo di stima del modello log|M|
Sebbene il DEC ottimistico migliori la complessità, dipende dal principio di ottimismo e non può gestire impostazioni avversariali
Il metodo MDP ibrido di Liu et al. (2025) può gestire solo feedback con informazioni complete; il caso bandit rimane un problema aperto
Motivazione della Ricerca: Sviluppare un framework unificato che possa sia migliorare i risultati esistenti in ambienti stocastici sia affrontare per la prima volta il caso di feedback bandit negli MDP ibridi.
Proposta della Misura di Complessità Dig-DEC: Introduzione del coefficiente di decisione-stima a doppio guadagno informativo, che elimina l'ottimismo e guida l'esplorazione puramente attraverso il guadagno informativo
Framework Teorico Unificato: Costruzione di un framework algoritmico generico che può gestire simultaneamente ambienti stocastici e ibridi
Stima di Funzioni Online Migliorata:
Errore di stima medio: migliorato da T^{3/4}/T^{5/6} a T^{2/3}/T^{7/9}
Errore quadratico: migliorato da T^{2/3} a √T, raggiungendo per la prima volta le stesse prestazioni dei metodi ottimistici negli MDP Bellman-completi
Risoluzione di Problemi Aperti: Primo limite di rimpianto senza modello per MDP ibridi con feedback bandit
Foster et al. (2021b, 2023a, 2023b): Fondamenti della teoria DEC
Liu et al. (2025): Ricerca su MDP ibridi
Jin et al. (2021): Dimensione di elusione Bellman
Xie et al. (2023): Teoria della coperibilità
Xu and Zeevi (2023): Framework AIR
Questo articolo ha ottenuto importanti progressi nella teoria del coefficiente di decisione-stima, risolvendo problemi chiave in questo campo attraverso innovazioni tecniche ingegnose, fornendo contributi preziosi allo sviluppo della teoria dell'apprendimento per rinforzo. Sebbene vi sia spazio per miglioramenti nella verifica delle applicazioni pratiche, il suo valore teorico e la sua innovatività lo rendono un lavoro importante in questo campo.