An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting.
We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025).
We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic
Ein verbessertes modellfreies Entscheidungsschätzungs-Koeffizient mit Anwendungen in adversarialen MDPs
Diese Arbeit untersucht das strukturierte Beobachtungsentscheidungsproblem (DMSO). Frühere Arbeiten charakterisierten die Komplexität von DMSO durch den Entscheidungsschätzungs-Koeffizient (DEC), hinterließen aber eine Lücke zwischen oberen und unteren Schranken der Reue, die mit der Größe der Modellklasse zusammenhängt. Foster et al. (2023b) führten den optimistischen DEC ein, um diese Lücke zu schließen und erreichten Schranken, die nur von der Größe der Wertefunktionsklasse abhängen. Jedoch ist unklar, ob die auf Optimismus basierende Exploration auf adversariale Umgebungen erweitert werden kann.
Diese Arbeit schlägt Dig-DEC vor, eine modellfreie DEC-Methode, die Optimismus entfernt und die Exploration rein durch Informationsgewinn antreibt. Dig-DEC ist immer nicht größer als optimistischer DEC und kann in speziellen Fällen erheblich kleiner sein. Wichtig ist, dass die Entfernung von Optimismus es ermöglicht, adversariale Umgebungen ohne explizite Belohnungsschätzer zu verarbeiten. Durch die Anwendung von Dig-DEC auf hybride MDPs mit stochastischen Übergängen und adversarialen Belohnungen werden erste modellfreie Reue-Schranken für hybride MDPs mit Bandit-Rückmeldung unter verschiedenen allgemeinen Übergangsstrukturen erreicht.
Zu lösende Probleme: Der bestehende Entscheidungsschätzungs-Koeffizient (DEC)-Rahmen weist eine Lücke zwischen der Größe der Modellklasse und der Größe der Wertefunktionsklasse auf, und auf Optimismus basierende Methoden können adversariale Umgebungen nicht effektiv verarbeiten.
Bedeutung des Problems:
Online-Entscheidungsfindung ist ein Kernproblem des verstärkten Lernens
Praktische Anwendungen sehen sich häufig mit hybriden Umgebungen gegenüber, die teilweise stochastisch und teilweise adversarial sind
Es besteht eine Lücke zwischen theoretischen Garantien und praktischer Leistung bestehender Methoden
Einschränkungen bestehender Methoden:
Foster et al.s Modell basierend auf DEC/E2D muss die Modellschätzungskosten von log|M| tragen
Obwohl optimistischer DEC die Komplexität verbessert, hängt er vom Optimismusprinzip ab und kann adversariale Einstellungen nicht verarbeiten
Liu et al.s (2025) Hybrid-MDP-Methode kann nur vollständige Informationsrückmeldung verarbeiten; der Bandit-Fall bleibt offen
Forschungsmotivation: Entwicklung eines einheitlichen Rahmens, der sowohl bestehende Ergebnisse in stochastischen Umgebungen verbessert als auch erstmals Bandit-Rückmeldung in hybriden MDPs verarbeitet.
Einführung der Dig-DEC-Komplexitätsmessung: Einführung des dualen Informationsgewinn-Entscheidungsschätzungs-Koeffizients, der Optimismus entfernt und die Exploration rein durch Informationsgewinn antreibt
Einheitlicher theoretischer Rahmen: Konstruktion eines universellen Algorithmus-Rahmens, der sowohl stochastische als auch hybride Umgebungen verarbeiten kann
Verbesserte Online-Funktionsschätzung:
Durchschnittlicher Schätzfehler: Verbesserung von T^{3/4}/T^{5/6} auf T^{2/3}/T^{7/9}
Quadratischer Fehler: Verbesserung von T^{2/3} auf √T, erstmals in Bellman-vollständigen MDPs die gleiche Leistung wie optimistische Methoden erreicht
Lösung offener Probleme: Erste modellfreie Reue-Schranken für hybride MDPs unter Bandit-Rückmeldung
Foster et al. (2021b, 2023a, 2023b): DEC-Theorie-Grundlagen
Liu et al. (2025): Hybrid-MDP-Forschung
Jin et al. (2021): Bellman-Eluder-Dimension
Xie et al. (2023): Abdeckbarkeitstheorie
Xu and Zeevi (2023): AIR-Rahmen
Diese Arbeit hat wichtige Fortschritte in der Entscheidungsschätzungs-Koeffizient-Theorie erzielt und durch geschickte technische Innovationen Schlüsselprobleme in diesem Bereich gelöst, was einen wertvollen Beitrag zur Entwicklung der Theorie des verstärkten Lernens darstellt. Obwohl es in der praktischen Anwendungsvalidierung noch Verbesserungsspielraum gibt, machen sein theoretischer Wert und seine Innovativität es zu einer wichtigen Arbeit in diesem Bereich.