2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic

Ein verbessertes modellfreies Entscheidungsschätzungs-Koeffizient mit Anwendungen in adversarialen MDPs

Grundinformationen

  • Paper-ID: 2510.08882
  • Titel: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
  • Autoren: Haolin Liu (University of Virginia), Chen-Yu Wei (University of Virginia), Julian Zimmert (Google Research)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungszeit: Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.08882v1

Zusammenfassung

Diese Arbeit untersucht das strukturierte Beobachtungsentscheidungsproblem (DMSO). Frühere Arbeiten charakterisierten die Komplexität von DMSO durch den Entscheidungsschätzungs-Koeffizient (DEC), hinterließen aber eine Lücke zwischen oberen und unteren Schranken der Reue, die mit der Größe der Modellklasse zusammenhängt. Foster et al. (2023b) führten den optimistischen DEC ein, um diese Lücke zu schließen und erreichten Schranken, die nur von der Größe der Wertefunktionsklasse abhängen. Jedoch ist unklar, ob die auf Optimismus basierende Exploration auf adversariale Umgebungen erweitert werden kann.

Diese Arbeit schlägt Dig-DEC vor, eine modellfreie DEC-Methode, die Optimismus entfernt und die Exploration rein durch Informationsgewinn antreibt. Dig-DEC ist immer nicht größer als optimistischer DEC und kann in speziellen Fällen erheblich kleiner sein. Wichtig ist, dass die Entfernung von Optimismus es ermöglicht, adversariale Umgebungen ohne explizite Belohnungsschätzer zu verarbeiten. Durch die Anwendung von Dig-DEC auf hybride MDPs mit stochastischen Übergängen und adversarialen Belohnungen werden erste modellfreie Reue-Schranken für hybride MDPs mit Bandit-Rückmeldung unter verschiedenen allgemeinen Übergangsstrukturen erreicht.

Forschungshintergrund und Motivation

  1. Zu lösende Probleme: Der bestehende Entscheidungsschätzungs-Koeffizient (DEC)-Rahmen weist eine Lücke zwischen der Größe der Modellklasse und der Größe der Wertefunktionsklasse auf, und auf Optimismus basierende Methoden können adversariale Umgebungen nicht effektiv verarbeiten.
  2. Bedeutung des Problems:
    • Online-Entscheidungsfindung ist ein Kernproblem des verstärkten Lernens
    • Praktische Anwendungen sehen sich häufig mit hybriden Umgebungen gegenüber, die teilweise stochastisch und teilweise adversarial sind
    • Es besteht eine Lücke zwischen theoretischen Garantien und praktischer Leistung bestehender Methoden
  3. Einschränkungen bestehender Methoden:
    • Foster et al.s Modell basierend auf DEC/E2D muss die Modellschätzungskosten von log|M| tragen
    • Obwohl optimistischer DEC die Komplexität verbessert, hängt er vom Optimismusprinzip ab und kann adversariale Einstellungen nicht verarbeiten
    • Liu et al.s (2025) Hybrid-MDP-Methode kann nur vollständige Informationsrückmeldung verarbeiten; der Bandit-Fall bleibt offen
  4. Forschungsmotivation: Entwicklung eines einheitlichen Rahmens, der sowohl bestehende Ergebnisse in stochastischen Umgebungen verbessert als auch erstmals Bandit-Rückmeldung in hybriden MDPs verarbeitet.

Kernbeiträge

  1. Einführung der Dig-DEC-Komplexitätsmessung: Einführung des dualen Informationsgewinn-Entscheidungsschätzungs-Koeffizients, der Optimismus entfernt und die Exploration rein durch Informationsgewinn antreibt
  2. Einheitlicher theoretischer Rahmen: Konstruktion eines universellen Algorithmus-Rahmens, der sowohl stochastische als auch hybride Umgebungen verarbeiten kann
  3. Verbesserte Online-Funktionsschätzung:
    • Durchschnittlicher Schätzfehler: Verbesserung von T^{3/4}/T^{5/6} auf T^{2/3}/T^{7/9}
    • Quadratischer Fehler: Verbesserung von T^{2/3} auf √T, erstmals in Bellman-vollständigen MDPs die gleiche Leistung wie optimistische Methoden erreicht
  4. Lösung offener Probleme: Erste modellfreie Reue-Schranken für hybride MDPs unter Bandit-Rückmeldung

Methodische Details

Aufgabendefinition

DMSO-Rahmen: Gegeben ein Modellraum M, Strategieraum Π, Beobachtungsraum O und Wertefunktion V. In jeder Runde t:

  • Die Umgebung wählt Modell Mt ∈ M
  • Der Lernende wählt Strategie πt ∈ Π
  • Beobachtung ot ~ Mt(·|πt)
  • Ziel: Minimierung der Reue Reg(π*) = Σt(VMt(π*) - VMt(πt))

Φ-beschränkte Umgebung: Partitionierung von M×Π durch Informationsmenge Φ, wobei jede Informationsmenge ϕ eine einzelne Strategie πϕ enthält.

Modellarchitektur

1. Universeller Rahmen (Algorithmus 1)

Die Kernidee ist die Lösung des folgenden Sattelpunktproblems:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

wobei das Divergenzmaß wie folgt definiert ist:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Dig-DEC-Definition

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. Posterior-Aktualisierungsmechanismus

Je nach Wahl von D:

  • Durchschnittlicher Schätzfehler: Verwendung von Batch-Algorithmus (Algorithmus 2)
  • Quadratischer Schätzfehler: Verwendung von Zwei-Ebenen-Lernalgorithmus (Algorithmus 3)

Technische Innovationspunkte

  1. Duales Informationsgewinn-Design:
    • KL-Term zur Regularisierung, Vermeidung des Optimismus-Mechanismus
    • D^π-Term erfasst Verteilungsunterschiede und realisiert strikte Verbesserung
  2. Entfernung von Optimismus: Ersetzung des V_ϕ(π_ϕ)-Terms im optimistischen DEC durch den Regularisierungsterm KL(ν_{ϕ}, ρ)
  3. Verbesserte Schätzverfahren:
    • Durchschnittlicher Fehler: Verwendung unverzerrter Schätzer statt verzerrter Schätzer
    • Quadratischer Fehler: Neugestaltung des Zwei-Zeitskalen-Verfahrens, Verbesserung der Est-Schranke von T^{1/3} auf Konstante

Experimentelle Einrichtung

Theoretische Validierungsumgebung

  1. Stochastische Einstellung:
    • Bilineare Klasse MDPs
    • MDPs mit begrenzter Bellman-Eluder-Dimension
    • MDPs mit begrenzter Abdeckbarkeit
  2. Hybride Einstellung:
    • Hybride bilineare Klasse
    • Hybride abdeckbare MDPs
    • Bekannte lineare Belohnungsmerkmale

Bewertungsindikatoren

  • Reue-Schranken: Obere Schranke von EReg(π*)
  • Komplexitätsvergleich: dig-dec vs o-dec vs klassischer DEC
  • Konvergenzrate: Potenzabhängigkeit von T

Vergleichsmethoden

  • Optimistischer DEC von Foster et al. (2023b)
  • AIR-Rahmen von Liu et al. (2025)
  • Klassische optimistische Methoden (Jin et al. 2021, Xie et al. 2023)

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserungen in stochastischer Umgebung (Tabelle 1):

EinstellungskategorieFoster et al. (2023b)Diese Arbeit
Bilinear/BE (Durchschnittsfehler)T^{3/4}/T^{5/6}T^{2/3}/T^{7/9}
Bellman-vollständig (Quadratischer Fehler)T^{2/3}√T

Durchbruch in hybrider Umgebung (Tabelle 2):

EinstellungskategorieLiu et al. (2025)Diese Arbeit
Bilinear (Durchschnittsfehler)Nur vollständige InformationT^{5/6}/T^{13/15}
Bellman-vollständig (Quadratischer Fehler)Nicht anwendbarT^{3/4}

Theoretische Vorteilsvalidierung

Theorem 13: In stochastischer Einstellung gilt dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

Theorem 14: Konstruktion einer Drei-Arm-Bandit-Instanz, die beweist, dass in bestimmten Fällen:

  • Foster et al. Methode: EReg(a) ≥ Ω(√T)
  • Diese Arbeit: EReg(a) ≤ 1

Experimentelle Erkenntnisse

  1. Bedeutung des Informationsgewinns: Der KL-Term erfasst Verteilungsinformationen, die optimistischer DEC übersieht
  2. Verbesserung des Schätzverfahrens: Unverzerrte Schätzer verbessern die Konzentrationungleichung erheblich
  3. Vorteile der Optimismus-Entfernung: Ermöglicht natürliche Erweiterung des Algorithmus auf adversariale Umgebungen

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. DEC-Rahmen-Entwicklung:
    • Foster et al. (2021b, 2023a): Etablierung grundlegender DEC-Theorie
    • Foster et al. (2023b): Einführung optimistischer DEC
    • Chen et al. (2025): Erweiterung auf andere Einstellungen
  2. Adversariale MDP-Forschung:
    • Neu et al. (2013): Tabellare adversariale MDPs
    • Luo et al. (2021): Lineare adversariale MDPs
    • Liu et al. (2025): Hybrid-MDP-Theorie
  3. Modellfreies verstärktes Lernen:
    • Jin et al. (2021): Bellman-Eluder-Dimension
    • Xie et al. (2023): Abdeckbarkeitstheorie

Vorteile dieser Arbeit

  1. Theoretische Vereinigung: Erster DEC-Rahmen, der sowohl stochastische als auch hybride Umgebungen verarbeitet
  2. Technische Innovation: Duales Informationsgewinn-Design, Entfernung der Optimismus-Abhängigkeit
  3. Problemlösung: Lösung des von Liu et al. (2025) hinterlassenen offenen Problems

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Dig-DEC bietet eine präzisere Komplexitätsmessung und kann in speziellen Fällen beliebig große Verbesserungen erzielen
  2. Die Entfernung von Optimismus ermöglicht es dem Algorithmus, adversariale Umgebungen natürlich zu verarbeiten
  3. Das verbesserte Schätzverfahren hat theoretische und praktische Bedeutung

Einschränkungen

  1. Annahmebeschränkungen: Die hybride Einstellung erfordert bekannte lineare Belohnungsmerkmale (Annahme 4)
  2. Technische Einschränkungen: Bestimmte Low-Rank-MDP-Fälle können immer noch nicht verarbeitet werden
  3. Rechenkomplexität: Die praktische Recheneffizienz der Sattelpunkt-Optimierung wird nicht ausführlich diskutiert

Zukünftige Richtungen

  1. Lockerung der Einschränkungen von Annahme 3 und 4
  2. Untersuchung grundlegender Grenzen des modellfreien Lernens
  3. Entwicklung effizienterer Rechenalgorithmen

Tiefgreifende Bewertung

Stärken

  1. Bedeutende theoretische Beiträge:
    • Einführung neuer Komplexitätsmessung dig-dec
    • Einheitliche Verarbeitung stochastischer und adversarialer Umgebungen
    • Lösung wichtiger offener Probleme
  2. Starke technische Innovation:
    • Geschicktes duales Informationsgewinn-Design
    • Effektive Verbesserung des Schätzverfahrens
    • Fortgeschrittene Analysetechniken
  3. Starke Überzeugungskraft der Ergebnisse:
    • Theoretische Schranken sind eng und praktisch
    • Konstruierte Instanzen beweisen strikte Verbesserung
    • Abdeckung mehrerer klassischer MDP-Klassen

Mängel

  1. Begrenzte experimentelle Validierung: Hauptsächlich theoretische Analyse, fehlende praktische Algorithmus-Implementierung und empirische Validierung
  2. Begrenzte Anwendbarkeit: Starke Annahmen für hybride MDPs, die die Allgemeinheit der Methode einschränken
  3. Rechenkomplexität: Praktische Lösbarkeit und Effizienz der Sattelpunkt-Optimierung erfordern weitere Forschung

Auswirkungen

  1. Theoretischer Wert: Bietet neue Richtung für DEC-Theorie-Entwicklung, kann nachfolgende Forschung inspirieren
  2. Praktisches Potenzial: Bietet theoretische Anleitung für praktisches Algorithmus-Design im verstärkten Lernen
  3. Feldförderung: Durchbruch in der Schnittmenge von modellfreiem Lernen und adversarialen MDPs

Anwendungsszenarien

  1. Theoretische Forschung: DEC-Rahmen-Erweiterung, Komplexitätsanalyse
  2. Algorithmus-Design: Verstärktes Lernen-Algorithmen, die hybride Umgebungen verarbeiten müssen
  3. Anwendungsfelder: Finanzhandel, Empfehlungssysteme und andere teilweise adversariale Umgebungen

Literaturverzeichnis

Wichtige Referenzen umfassen:

  • Foster et al. (2021b, 2023a, 2023b): DEC-Theorie-Grundlagen
  • Liu et al. (2025): Hybrid-MDP-Forschung
  • Jin et al. (2021): Bellman-Eluder-Dimension
  • Xie et al. (2023): Abdeckbarkeitstheorie
  • Xu and Zeevi (2023): AIR-Rahmen

Diese Arbeit hat wichtige Fortschritte in der Entscheidungsschätzungs-Koeffizient-Theorie erzielt und durch geschickte technische Innovationen Schlüsselprobleme in diesem Bereich gelöst, was einen wertvollen Beitrag zur Entwicklung der Theorie des verstärkten Lernens darstellt. Obwohl es in der praktischen Anwendungsvalidierung noch Verbesserungsspielraum gibt, machen sein theoretischer Wert und seine Innovativität es zu einer wichtigen Arbeit in diesem Bereich.