Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
Auf dem Weg zur Blackwell-Optimalität: Bellman-Optimalität ist alles, was Sie erreichen können
Obwohl die durchschnittliche Gewinnoptimalität ein häufig verwendetes Leistungsmaß in Markov-Entscheidungsprozessen (MDPs) ist, ist sie oft zu asymptotisch. Die weitere Kombination von Maßstäben für unmittelbare Verluste führt zu einer Hierarchie von Abweichungsoptimalität bis hin zur Blackwell-Optimalität. Dieses Paper untersucht das Problem der Identifikation von Strategien dieser Optimalitätsordnungen. Zu diesem Zweck konstruieren wir für jede Ordnung einen Lernalgorithmus mit verschwindender Fehlerwahrscheinlichkeit. Darüber hinaus charakterisieren wir die Klasse von MDPs, bei denen der Identifikationsalgorithmus in endlicher Zeit stoppen kann. Diese Klasse entspricht MDPs mit einer eindeutigen Bellman-Optimalstrategie und hängt nicht von der betrachteten Optimalitätsordnung ab. Schließlich stellen wir eine handhabbare Stoppregeln bereit, die bei Kopplung mit unserem Lernalgorithmus immer dann in endlicher Zeit ausgelöst wird, wenn dies möglich ist.
Das Kernproblem dieser Forschung ist die Identifizierbarkeit von Strategien höherer Ordnung in Markov-Entscheidungsprozessen. Konkret:
Einschränkungen der traditionellen durchschnittlichen Gewinnoptimalität: In MDPs konzentriert sich die traditionelle durchschnittliche Gewinnoptimalität nur auf die langfristige asymptotische Leistung und ignoriert die Bedeutung kurzfristiger unmittelbarer Belohnungen.
Hierarchie der Optimalität höherer Ordnung: Von der Gewinnoptimalität über die Abweichungsoptimalität bis zur Blackwell-Optimalität bildet sich eine vollständige Hierarchie der Optimalität, wobei jede Ebene feinere Leistungsunterschiede berücksichtigt.
Lernherausforderung: Das Paper demonstriert durch ein einfaches, aber tiefgreifendes Beispiel (Abbildung 1), dass das Lernen von Strategien höherer Ordnung selbst in den einfachsten Fällen mit grundlegenden Schwierigkeiten konfrontiert ist.
Die Kernmotivation dieses Papers stammt aus einer wichtigen Beobachtung: Selbst in einfachen MDPs mit nur einem unbekannten Parameter kann das Lernen von Strategien höherer Ordnung unmöglich sein. Dieses scheinbar paradoxe Phänomen offenbart die wesentlichen Schwierigkeiten beim Lernen von Optimalität höherer Ordnung.
Konstruktion des konsistenten Algorithmus HOPE: Für jede Optimalitätsordnung n≥-1 wird der Algorithmus Higher Order Policy iteration Epsilonized (HOPE) mit verschwindender Fehlerwahrscheinlichkeit vorgeschlagen.
Vollständige Charakterisierung der nicht-degenerierten MDP-Klasse: Es wird bewiesen, dass ein MDP nicht-degeneriert ist (d.h. der Identifikationsalgorithmus kann in endlicher Zeit stoppen) genau dann, wenn er eine eindeutige Bellman-Optimalstrategie besitzt.
Degenerations-Kollaps-Theorem: Es wird bewiesen, dass die nicht-degenerierten MDP-Klassen für alle Optimalitätsordnungen (von Gewinnoptimalität bis Blackwell-Optimalität) völlig identisch sind – ein überraschendes Ergebnis.
Bereitstellung einer berechenbaren Stoppregeln: Eine handhabbare Stoppregeln wird bereitgestellt, die es dem HOPE-Algorithmus ermöglicht, in endlicher Zeit zu stoppen, wenn dies möglich ist.
Eingabe: Unbekannter kommunizierender MDP M = (Z, ν, p), wobei Z der Raum der Zustands-Aktions-Paare ist, ν die Belohnungsfunktion und p der Übergangskern
Ausgabe: n-te Ordnung optimale Strategie π ∈ Π*_n(M)
Ziel: Konstruktion eines Identifikationsalgorithmus, so dass die Fehlerwahrscheinlichkeit der empfohlenen Strategie gegen 0 konvergiert
Die traditionelle Strategieiteration erfordert die genaue Erfüllung der Bellman-Gleichung, was in einer Lernumgebung unmöglich ist. HOPI ermöglicht es dem Algorithmus, durch Einführung eines Relaxationsparameters ε unter Rauschbedingungen korrekt zu funktionieren.
Proposition 5: Für jede einzelne Kette Bellman-Optimalstrategie π und Genauigkeit ε > 0 existiert M' ∈ M mit d_∞(M,M') < ε, so dass π die eindeutige Gewinnoptimalstrategie von M' ist.
Diese Technik wird in zwei Schritten realisiert:
Zunächst wird π durch Bestrafung nicht-optimaler Aktionen zur eindeutigen Bellman-Optimalstrategie
Dann wird π durch ergodische Transformation zur eindeutigen Gewinnoptimalstrategie
Wenn M nicht-degeneriert ist, dann existiert eine Strategie π ∈ Π*(M), die in der Nachbarschaft von M optimal bleibt. Der Beweis nutzt die Kontinuität der algorithmischen Entscheidungen.
Durch Konstruktion expliziter Stoppregeln und Konfidenzintervalle wird bewiesen, dass MDPs mit eindeutiger Bellman-Optimalstrategie tatsächlich nicht-degeneriert sind.
Das Paper ist hauptsächlich eine theoretische Arbeit, die alle Hauptergebnisse durch strenge mathematische Beweise verifiziert. Wichtige Verifikationen umfassen:
Algorithmus-Korrektheit: Beweis, dass HOPI im rauschfreien Fall die korrekte optimale Strategiemenge zurückgibt
Konsistenzgarantien: Beweis, dass die Fehlerwahrscheinlichkeit des HOPE-Algorithmus tatsächlich gegen 0 konvergiert
Gültigkeit der Stoppregeln: Beweis, dass die vorgeschlagenen Stoppregeln tatsächlich in endlicher Zeit ausgelöst werden
Zeitkomplexität: Die Zeitkomplexität zur Bestimmung der Eindeutigkeit der Bellman-Optimalstrategie beträgt O(|Z| + |S|^4)
Stichprobenkomplexität: Obwohl das Paper keine genaue Stichprobenkomplexitätsgrenze angibt, wird bewiesen, dass der Algorithmus im nicht-degenerierten Fall notwendigerweise konvergiert
Verwandt mit dem Problem der optimalen Arm-Identifikation in Multi-Armed-Bandit-Problemen, aber die Zustandsabhängigkeit in der MDP-Einstellung macht das Problem komplexer.
Jüngste Arbeiten zur Identifikation von Gewinn-optimalen Strategien unter (ε,δ)-PAC-Einstellung, aber diese Arbeiten konzentrieren sich hauptsächlich auf approximative Optimalität statt exakter Optimalität.
Grand-Clément und Petrik (2023) und andere untersuchen die Rechenkomplexität von Blackwell-Optimalstrategien basierend auf der historischen Definition des Diskontfaktors.
Boone und Gaujal (2023) untersuchen die Lernbarkeit von Blackwell-Optimalstrategien in MDPs mit deterministischen Übergängen; dieses Paper verallgemeinert dies auf den stochastischen Fall.
Bellman-Optimalität ist eine grundlegende Beschränkung: Die Lernbarkeit aller Optimalitätsordnungen höherer Ordnung reduziert sich auf die Eindeutigkeit der Bellman-Optimalität
Universalität der Degeneriertheit: Die degenerierten MDP-Klassen verschiedener Optimalitätsordnungen sind völlig identisch
Existenz von Algorithmen: Trotz Schwierigkeiten existieren konsistente Algorithmen
Fehlende PAC-Einstellung: Das Paper konzentriert sich hauptsächlich auf exakte Optimalität und behandelt nicht das Lernen von approximativer Optimalität
Stichprobenkomplexitätsgrenzen: Keine genaue Stichprobenkomplexitätsanalyse bereitgestellt
Praktische Anwendung: Theoretische Ergebnisse könnten die Anwendung bei praktischen Problemen einschränken
Das Paper zitiert wichtige Literatur in den Bereichen Verstärkungslernen und Markov-Entscheidungsprozesse, einschließlich:
Puterman (1994): Klassisches Lehrbuch zu Markov-Entscheidungsprozessen
Blackwell (1962): Ursprüngliche Definition der Blackwell-Optimalität
Kaufmann et al. (2016): Komplexitätstheorie der optimalen Arm-Identifikation
Boone und Gaujal (2023): Lernbarkeit von Blackwell-Optimalität in deterministischen MDPs
Dieses Paper offenbart durch strenge theoretische Analyse ein grundlegendes und tiefgreifendes Phänomen im Verstärkungslernen: Die Lernkomplexität von Optimalität höherer Ordnung wird vollständig durch die Struktur der Bellman-Optimalität bestimmt. Dieses Ergebnis hat nicht nur wichtige theoretische Bedeutung, sondern bietet auch wichtige Anleitung für das praktische Algorithmus-Design.