2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic

Un Modello Migliorato Senza Modello del Coefficiente di Decisione-Stima con Applicazioni negli MDP Avversariali

Informazioni Fondamentali

  • ID Articolo: 2510.08882
  • Titolo: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
  • Autori: Haolin Liu (University of Virginia), Chen-Yu Wei (University of Virginia), Julian Zimmert (Google Research)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: Ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.08882v1

Riassunto

Questo articolo esamina il problema del processo decisionale con osservazioni strutturate (DMSO). Lavori precedenti hanno caratterizzato la complessità di DMSO attraverso il coefficiente di decisione-stima (DEC), ma hanno lasciato un divario tra i limiti superiori e inferiori della rimpianto correlato alla dimensione della classe di modelli. Foster et al. (2023b) hanno introdotto il DEC ottimistico per ridurre questo divario, ottenendo limiti correlati solo alla dimensione della classe di funzioni di valore. Tuttavia, l'esplorazione basata sull'ottimismo può gestire solo ambienti stocastici, e rimane poco chiaro se possa essere estesa ad ambienti avversariali.

Questo articolo propone Dig-DEC, un metodo DEC senza modello che elimina l'ottimismo e guida l'esplorazione puramente attraverso il guadagno informativo. Dig-DEC è sempre non maggiore del DEC ottimistico e può essere significativamente più piccolo in casi particolari. Importantemente, l'eliminazione dell'ottimismo consente di gestire ambienti avversariali senza richiedere stimatori di ricompensa espliciti. Applicando Dig-DEC agli MDP ibridi con transizioni stocastiche e ricompense avversariali, si ottengono i primi limiti di rimpianto senza modello per MDP ibridi con feedback bandit in diverse strutture di transizione generali.

Contesto di Ricerca e Motivazione

  1. Problema da Risolvere: Il framework del coefficiente di decisione-stima (DEC) esistente presenta un divario tra la dimensione della classe di modelli e la dimensione della classe di funzioni di valore, e i metodi basati sull'ottimismo non possono gestire efficacemente ambienti avversariali.
  2. Importanza del Problema:
    • Il processo decisionale online è un problema centrale nell'apprendimento per rinforzo
    • Le applicazioni pratiche affrontano frequentemente ambienti ibridi, parzialmente stocastici e parzialmente avversariali
    • Esiste un divario tra le garanzie teoriche e le prestazioni pratiche dei metodi esistenti
  3. Limitazioni dei Metodi Esistenti:
    • Il modello di Foster et al. basato su DEC/E2D deve sostenere il costo di stima del modello log|M|
    • Sebbene il DEC ottimistico migliori la complessità, dipende dal principio di ottimismo e non può gestire impostazioni avversariali
    • Il metodo MDP ibrido di Liu et al. (2025) può gestire solo feedback con informazioni complete; il caso bandit rimane un problema aperto
  4. Motivazione della Ricerca: Sviluppare un framework unificato che possa sia migliorare i risultati esistenti in ambienti stocastici sia affrontare per la prima volta il caso di feedback bandit negli MDP ibridi.

Contributi Principali

  1. Proposta della Misura di Complessità Dig-DEC: Introduzione del coefficiente di decisione-stima a doppio guadagno informativo, che elimina l'ottimismo e guida l'esplorazione puramente attraverso il guadagno informativo
  2. Framework Teorico Unificato: Costruzione di un framework algoritmico generico che può gestire simultaneamente ambienti stocastici e ibridi
  3. Stima di Funzioni Online Migliorata:
    • Errore di stima medio: migliorato da T^{3/4}/T^{5/6} a T^{2/3}/T^{7/9}
    • Errore quadratico: migliorato da T^{2/3} a √T, raggiungendo per la prima volta le stesse prestazioni dei metodi ottimistici negli MDP Bellman-completi
  4. Risoluzione di Problemi Aperti: Primo limite di rimpianto senza modello per MDP ibridi con feedback bandit

Spiegazione Dettagliata del Metodo

Definizione del Compito

Framework DMSO: Dati lo spazio di modelli M, lo spazio di strategie Π, lo spazio di osservazioni O e le funzioni di valore V. Ad ogni round t:

  • L'ambiente seleziona un modello Mt ∈ M
  • L'apprendente seleziona una strategia πt ∈ Π
  • Osservazione ot ~ Mt(·|πt)
  • Obiettivo: minimizzare il rimpianto Reg(π*) = Σt(VMt(π*) - VMt(πt))

Ambiente Φ-ristretto: Partizione di M×Π attraverso l'insieme informativo Φ, dove ogni insieme informativo ϕ contiene una singola strategia πϕ.

Architettura del Modello

1. Framework Generico (Algoritmo 1)

L'idea centrale è risolvere il seguente problema di punto di sella:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

dove la misura di divergenza è:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Definizione di Dig-DEC

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. Meccanismo di Aggiornamento Posteriore

In base alla scelta di D:

  • Errore di Stima Media: Utilizzo dell'algoritmo batch (Algoritmo 2)
  • Errore di Stima Quadratica: Utilizzo dell'algoritmo di apprendimento a doppio livello (Algoritmo 3)

Punti di Innovazione Tecnica

  1. Progettazione a Doppio Guadagno Informativo:
    • Il termine KL per la regolarizzazione, evitando il meccanismo di ottimismo
    • Il termine D^π cattura le differenze di distribuzione, realizzando miglioramenti rigorosi
  2. Eliminazione dell'Ottimismo: Sostituzione del termine V_ϕ(π_ϕ) nel DEC ottimistico con il termine di regolarizzazione KL(ν_{ϕ}, ρ)
  3. Procedure di Stima Migliorate:
    • Errore medio: utilizzo di stimatori imparziali al posto di stimatori distorti
    • Errore quadratico: riprogettazione della procedura a doppia scala temporale, miglioramento del limite Est da T^{1/3} a costante

Impostazione Sperimentale

Ambienti di Verifica Teorica

  1. Impostazione Stocastica:
    • MDP di classe bilineare
    • MDP con dimensione di elusione Bellman limitata
    • MDP con coperibilità limitata
  2. Impostazione Ibrida:
    • Classe bilineare ibrida
    • MDP di coperibilità ibrida
    • Caratteristiche di ricompensa lineare note

Metriche di Valutazione

  • Limite di Rimpianto: Limite superiore di EReg(π*)
  • Confronto di Complessità: dig-dec vs o-dec vs DEC classico
  • Velocità di Convergenza: Dipendenza dalla potenza di T

Metodi di Confronto

  • DEC ottimistico di Foster et al. (2023b)
  • Framework AIR di Liu et al. (2025)
  • Metodi ottimistici classici (Jin et al. 2021, Xie et al. 2023)

Risultati Sperimentali

Risultati Principali

Miglioramenti in Ambiente Stocastico (Tabella 1):

Categoria di ImpostazioneFoster et al. (2023b)Metodo Proposto
Bilineare/BE (Errore Medio)T^{3/4}/T^{5/6}T^{2/3}/T^{7/9}
Bellman-Completo (Errore Quadratico)T^{2/3}√T

Avanzamento in Ambiente Ibrido (Tabella 2):

Categoria di ImpostazioneLiu et al. (2025)Metodo Proposto
Bilineare (Errore Medio)Solo Informazione CompletaT^{5/6}/T^{13/15}
Bellman-Completo (Errore Quadratico)Non ApplicabileT^{3/4}

Verifica dei Vantaggi Teorici

Teorema 13: In impostazione stocastica, dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

Teorema 14: Costruzione di un'istanza bandit a tre braccia che dimostra:

  • Metodo di Foster: EReg(a) ≥ Ω(√T)
  • Metodo proposto: EReg(a) ≤ 1

Scoperte Sperimentali

  1. Importanza del Guadagno Informativo: Il termine KL cattura le informazioni di distribuzione trascurate dal DEC ottimistico
  2. Miglioramento della Procedura di Stima: Gli stimatori imparziali migliorano significativamente l'effetto delle disuguaglianze di concentrazione
  3. Vantaggi dell'Eliminazione dell'Ottimismo: Consente all'algoritmo di estendersi naturalmente ad ambienti avversariali

Lavori Correlati

Principali Direzioni di Ricerca

  1. Sviluppo del Framework DEC:
    • Foster et al. (2021b, 2023a): Stabilimento della teoria DEC fondamentale
    • Foster et al. (2023b): Introduzione del DEC ottimistico
    • Chen et al. (2025): Estensione ad altre impostazioni
  2. Ricerca su MDP Avversariali:
    • Neu et al. (2013): MDP avversariali tabulari
    • Luo et al. (2021): MDP avversariali lineari
    • Liu et al. (2025): Teoria MDP ibrida
  3. Apprendimento per Rinforzo Senza Modello:
    • Jin et al. (2021): Dimensione di elusione Bellman
    • Xie et al. (2023): Teoria della coperibilità

Vantaggi di Questo Articolo

  1. Unificazione Teorica: Primo framework DEC che gestisce simultaneamente ambienti stocastici e ibridi
  2. Innovazione Tecnica: Progettazione a doppio guadagno informativo, eliminazione della dipendenza dall'ottimismo
  3. Risoluzione di Problemi: Risoluzione del problema aperto lasciato da Liu et al. (2025)

Conclusioni e Discussione

Conclusioni Principali

  1. Dig-DEC fornisce una caratterizzazione di complessità più precisa, ottenendo miglioramenti arbitrariamente grandi in casi particolari
  2. L'eliminazione dell'ottimismo consente all'algoritmo di gestire naturalmente ambienti avversariali
  3. La procedura di stima migliorata ha un significato importante sia teorico che pratico

Limitazioni

  1. Restrizioni di Assunzioni: L'impostazione ibrida richiede caratteristiche di ricompensa lineare note (Assunzione 4)
  2. Vincoli Tecnici: Alcuni casi MDP a basso rango rimangono ancora non gestibili
  3. Complessità Computazionale: L'efficienza computazionale pratica dell'ottimizzazione del punto di sella non è discussa in dettaglio

Direzioni Future

  1. Allentamento delle restrizioni delle Assunzioni 3 e 4
  2. Ricerca sui limiti fondamentali dell'apprendimento senza modello
  3. Sviluppo di algoritmi computazionali più efficienti

Valutazione Approfondita

Punti di Forza

  1. Contributi Teorici Significativi:
    • Proposta di una nuova misura di complessità dig-dec
    • Gestione unificata di ambienti stocastici e avversariali
    • Risoluzione di importanti problemi aperti
  2. Forte Innovazione Tecnica:
    • Progettazione a doppio guadagno informativo ingegnosa
    • Miglioramento efficace della procedura di stima
    • Tecniche di analisi avanzate
  3. Risultati Convincenti:
    • Limiti teorici tight e pratici
    • Costruzione di istanze che dimostrano miglioramenti rigorosi
    • Copertura di diverse classi MDP classiche

Carenze

  1. Verifica Sperimentale Limitata: Principalmente analisi teorica, mancanza di implementazione di algoritmi pratici e verifica empirica
  2. Ambito di Applicabilità Limitato: Le assunzioni per MDP ibridi sono piuttosto forti, limitando la generalità del metodo
  3. Complessità Computazionale: La risolvibilità pratica e l'efficienza dell'ottimizzazione del punto di sella richiedono ulteriore ricerca

Impatto

  1. Valore Teorico: Fornisce una nuova direzione per lo sviluppo della teoria DEC, potenzialmente ispirando ricerche successive
  2. Potenziale Pratico: Fornisce guida teorica per la progettazione di algoritmi di apprendimento per rinforzo pratico
  3. Avanzamento del Campo: Raggiungimento di un avanzamento nell'intersezione tra apprendimento senza modello e MDP avversariali

Scenari Applicabili

  1. Ricerca Teorica: Estensione del framework DEC, analisi di complessità
  2. Progettazione di Algoritmi: Algoritmi di apprendimento per rinforzo che devono gestire ambienti ibridi
  3. Domini Applicativi: Trading finanziario, sistemi di raccomandazione e altri ambienti parzialmente avversariali

Bibliografia

Le principali referenze includono:

  • Foster et al. (2021b, 2023a, 2023b): Fondamenti della teoria DEC
  • Liu et al. (2025): Ricerca su MDP ibridi
  • Jin et al. (2021): Dimensione di elusione Bellman
  • Xie et al. (2023): Teoria della coperibilità
  • Xu and Zeevi (2023): Framework AIR

Questo articolo ha ottenuto importanti progressi nella teoria del coefficiente di decisione-stima, risolvendo problemi chiave in questo campo attraverso innovazioni tecniche ingegnose, fornendo contributi preziosi allo sviluppo della teoria dell'apprendimento per rinforzo. Sebbene vi sia spazio per miglioramenti nella verifica delle applicazioni pratiche, il suo valore teorico e la sua innovatività lo rendono un lavoro importante in questo campo.