2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert

We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.

academic

Ein verbessertes modellfreies Entscheidungsschätzungs-Koeffizient mit Anwendungen in adversarialen MDPs

Grundinformationen

Paper-ID: 2510.08882
Titel: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Autoren: Haolin Liu (University of Virginia), Chen-Yu Wei (University of Virginia), Julian Zimmert (Google Research)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungszeit: Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.08882v1

Zusammenfassung

Diese Arbeit untersucht das strukturierte Beobachtungsentscheidungsproblem (DMSO). Frühere Arbeiten charakterisierten die Komplexität von DMSO durch den Entscheidungsschätzungs-Koeffizient (DEC), hinterließen aber eine Lücke zwischen oberen und unteren Schranken der Reue, die mit der Größe der Modellklasse zusammenhängt. Foster et al. (2023b) führten den optimistischen DEC ein, um diese Lücke zu schließen und erreichten Schranken, die nur von der Größe der Wertefunktionsklasse abhängen. Jedoch ist unklar, ob die auf Optimismus basierende Exploration auf adversariale Umgebungen erweitert werden kann.

Diese Arbeit schlägt Dig-DEC vor, eine modellfreie DEC-Methode, die Optimismus entfernt und die Exploration rein durch Informationsgewinn antreibt. Dig-DEC ist immer nicht größer als optimistischer DEC und kann in speziellen Fällen erheblich kleiner sein. Wichtig ist, dass die Entfernung von Optimismus es ermöglicht, adversariale Umgebungen ohne explizite Belohnungsschätzer zu verarbeiten. Durch die Anwendung von Dig-DEC auf hybride MDPs mit stochastischen Übergängen und adversarialen Belohnungen werden erste modellfreie Reue-Schranken für hybride MDPs mit Bandit-Rückmeldung unter verschiedenen allgemeinen Übergangsstrukturen erreicht.

Forschungshintergrund und Motivation

Zu lösende Probleme: Der bestehende Entscheidungsschätzungs-Koeffizient (DEC)-Rahmen weist eine Lücke zwischen der Größe der Modellklasse und der Größe der Wertefunktionsklasse auf, und auf Optimismus basierende Methoden können adversariale Umgebungen nicht effektiv verarbeiten.
Bedeutung des Problems:
- Online-Entscheidungsfindung ist ein Kernproblem des verstärkten Lernens
- Praktische Anwendungen sehen sich häufig mit hybriden Umgebungen gegenüber, die teilweise stochastisch und teilweise adversarial sind
- Es besteht eine Lücke zwischen theoretischen Garantien und praktischer Leistung bestehender Methoden
Einschränkungen bestehender Methoden:
- Foster et al.s Modell basierend auf DEC/E2D muss die Modellschätzungskosten von log|M| tragen
- Obwohl optimistischer DEC die Komplexität verbessert, hängt er vom Optimismusprinzip ab und kann adversariale Einstellungen nicht verarbeiten
- Liu et al.s (2025) Hybrid-MDP-Methode kann nur vollständige Informationsrückmeldung verarbeiten; der Bandit-Fall bleibt offen
Forschungsmotivation: Entwicklung eines einheitlichen Rahmens, der sowohl bestehende Ergebnisse in stochastischen Umgebungen verbessert als auch erstmals Bandit-Rückmeldung in hybriden MDPs verarbeitet.

Kernbeiträge

Einführung der Dig-DEC-Komplexitätsmessung: Einführung des dualen Informationsgewinn-Entscheidungsschätzungs-Koeffizients, der Optimismus entfernt und die Exploration rein durch Informationsgewinn antreibt
Einheitlicher theoretischer Rahmen: Konstruktion eines universellen Algorithmus-Rahmens, der sowohl stochastische als auch hybride Umgebungen verarbeiten kann
Verbesserte Online-Funktionsschätzung:
- Durchschnittlicher Schätzfehler: Verbesserung von T^{3/4}/T^{5/6} auf T^{2/3}/T^{7/9}
- Quadratischer Fehler: Verbesserung von T^{2/3} auf √T, erstmals in Bellman-vollständigen MDPs die gleiche Leistung wie optimistische Methoden erreicht
Lösung offener Probleme: Erste modellfreie Reue-Schranken für hybride MDPs unter Bandit-Rückmeldung

Methodische Details

Aufgabendefinition

DMSO-Rahmen: Gegeben ein Modellraum M, Strategieraum Π, Beobachtungsraum O und Wertefunktion V. In jeder Runde t:

Die Umgebung wählt Modell Mt ∈ M
Der Lernende wählt Strategie πt ∈ Π
Beobachtung ot ~ Mt(·|πt)
Ziel: Minimierung der Reue Reg(π*) = Σt(VMt(π*) - VMt(πt))

Φ-beschränkte Umgebung: Partitionierung von M×Π durch Informationsmenge Φ, wobei jede Informationsmenge ϕ eine einzelne Strategie πϕ enthält.

Modellarchitektur

1. Universeller Rahmen (Algorithmus 1)

Die Kernidee ist die Lösung des folgenden Sattelpunktproblems:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

wobei das Divergenzmaß wie folgt definiert ist:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Dig-DEC-Definition

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. Posterior-Aktualisierungsmechanismus

Je nach Wahl von D:

Durchschnittlicher Schätzfehler: Verwendung von Batch-Algorithmus (Algorithmus 2)
Quadratischer Schätzfehler: Verwendung von Zwei-Ebenen-Lernalgorithmus (Algorithmus 3)

Technische Innovationspunkte

Duales Informationsgewinn-Design:
- KL-Term zur Regularisierung, Vermeidung des Optimismus-Mechanismus
- D^π-Term erfasst Verteilungsunterschiede und realisiert strikte Verbesserung
Entfernung von Optimismus: Ersetzung des V_ϕ(π_ϕ)-Terms im optimistischen DEC durch den Regularisierungsterm KL(ν_{ϕ}, ρ)
Verbesserte Schätzverfahren:
- Durchschnittlicher Fehler: Verwendung unverzerrter Schätzer statt verzerrter Schätzer
- Quadratischer Fehler: Neugestaltung des Zwei-Zeitskalen-Verfahrens, Verbesserung der Est-Schranke von T^{1/3} auf Konstante

Experimentelle Einrichtung

Theoretische Validierungsumgebung

Stochastische Einstellung:
- Bilineare Klasse MDPs
- MDPs mit begrenzter Bellman-Eluder-Dimension
- MDPs mit begrenzter Abdeckbarkeit
Hybride Einstellung:
- Hybride bilineare Klasse
- Hybride abdeckbare MDPs
- Bekannte lineare Belohnungsmerkmale

Bewertungsindikatoren

Reue-Schranken: Obere Schranke von EReg(π*)
Komplexitätsvergleich: dig-dec vs o-dec vs klassischer DEC
Konvergenzrate: Potenzabhängigkeit von T

Vergleichsmethoden

Optimistischer DEC von Foster et al. (2023b)
AIR-Rahmen von Liu et al. (2025)
Klassische optimistische Methoden (Jin et al. 2021, Xie et al. 2023)

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserungen in stochastischer Umgebung (Tabelle 1):

Einstellungskategorie	Foster et al. (2023b)	Diese Arbeit
Bilinear/BE (Durchschnittsfehler)	T^{3/4}/T^{5/6}	T^{2/3}/T^{7/9}
Bellman-vollständig (Quadratischer Fehler)	T^{2/3}	√T

Durchbruch in hybrider Umgebung (Tabelle 2):

Einstellungskategorie	Liu et al. (2025)	Diese Arbeit
Bilinear (Durchschnittsfehler)	Nur vollständige Information	T^{5/6}/T^{13/15}
Bellman-vollständig (Quadratischer Fehler)	Nicht anwendbar	T^{3/4}

Theoretische Vorteilsvalidierung

Theorem 13: In stochastischer Einstellung gilt dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

Theorem 14: Konstruktion einer Drei-Arm-Bandit-Instanz, die beweist, dass in bestimmten Fällen:

Foster et al. Methode: EReg(a) ≥ Ω(√T)
Diese Arbeit: EReg(a) ≤ 1

Experimentelle Erkenntnisse

Bedeutung des Informationsgewinns: Der KL-Term erfasst Verteilungsinformationen, die optimistischer DEC übersieht
Verbesserung des Schätzverfahrens: Unverzerrte Schätzer verbessern die Konzentrationungleichung erheblich
Vorteile der Optimismus-Entfernung: Ermöglicht natürliche Erweiterung des Algorithmus auf adversariale Umgebungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Dig-DEC bietet eine präzisere Komplexitätsmessung und kann in speziellen Fällen beliebig große Verbesserungen erzielen
Die Entfernung von Optimismus ermöglicht es dem Algorithmus, adversariale Umgebungen natürlich zu verarbeiten
Das verbesserte Schätzverfahren hat theoretische und praktische Bedeutung

Einschränkungen

Annahmebeschränkungen: Die hybride Einstellung erfordert bekannte lineare Belohnungsmerkmale (Annahme 4)
Technische Einschränkungen: Bestimmte Low-Rank-MDP-Fälle können immer noch nicht verarbeitet werden
Rechenkomplexität: Die praktische Recheneffizienz der Sattelpunkt-Optimierung wird nicht ausführlich diskutiert

Zukünftige Richtungen

Lockerung der Einschränkungen von Annahme 3 und 4
Untersuchung grundlegender Grenzen des modellfreien Lernens
Entwicklung effizienterer Rechenalgorithmen

Tiefgreifende Bewertung

Stärken

Bedeutende theoretische Beiträge:
- Einführung neuer Komplexitätsmessung dig-dec
- Einheitliche Verarbeitung stochastischer und adversarialer Umgebungen
- Lösung wichtiger offener Probleme
Starke technische Innovation:
- Geschicktes duales Informationsgewinn-Design
- Effektive Verbesserung des Schätzverfahrens
- Fortgeschrittene Analysetechniken
Starke Überzeugungskraft der Ergebnisse:
- Theoretische Schranken sind eng und praktisch
- Konstruierte Instanzen beweisen strikte Verbesserung
- Abdeckung mehrerer klassischer MDP-Klassen

Mängel

Begrenzte experimentelle Validierung: Hauptsächlich theoretische Analyse, fehlende praktische Algorithmus-Implementierung und empirische Validierung
Begrenzte Anwendbarkeit: Starke Annahmen für hybride MDPs, die die Allgemeinheit der Methode einschränken
Rechenkomplexität: Praktische Lösbarkeit und Effizienz der Sattelpunkt-Optimierung erfordern weitere Forschung

Auswirkungen

Theoretischer Wert: Bietet neue Richtung für DEC-Theorie-Entwicklung, kann nachfolgende Forschung inspirieren
Praktisches Potenzial: Bietet theoretische Anleitung für praktisches Algorithmus-Design im verstärkten Lernen
Feldförderung: Durchbruch in der Schnittmenge von modellfreiem Lernen und adversarialen MDPs

Anwendungsszenarien

Theoretische Forschung: DEC-Rahmen-Erweiterung, Komplexitätsanalyse
Algorithmus-Design: Verstärktes Lernen-Algorithmen, die hybride Umgebungen verarbeiten müssen
Anwendungsfelder: Finanzhandel, Empfehlungssysteme und andere teilweise adversariale Umgebungen

Literaturverzeichnis

Wichtige Referenzen umfassen:

Foster et al. (2021b, 2023a, 2023b): DEC-Theorie-Grundlagen
Liu et al. (2025): Hybrid-MDP-Forschung
Jin et al. (2021): Bellman-Eluder-Dimension
Xie et al. (2023): Abdeckbarkeitstheorie
Xu and Zeevi (2023): AIR-Rahmen

Diese Arbeit hat wichtige Fortschritte in der Entscheidungsschätzungs-Koeffizient-Theorie erzielt und durch geschickte technische Innovationen Schlüsselprobleme in diesem Bereich gelöst, was einen wertvollen Beitrag zur Entwicklung der Theorie des verstärkten Lernens darstellt. Obwohl es in der praktischen Anwendungsvalidierung noch Verbesserungsspielraum gibt, machen sein theoretischer Wert und seine Innovativität es zu einer wichtigen Arbeit in diesem Bereich.