We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
In diesem Artikel wird ein Posterior-Sampling-Algorithmus für Verstärkungslernens in kontinuierlichen Umgebungen (Continuing PSRL) vorgestellt, der sich natürlich in skalierbare Agenten-Designs integrieren lässt. Der Algorithmus verwaltet ein statistisch fundiertes Umgebungsmodell und folgt einer Strategie, die die γ-diskontierte Rendite in diesem Modell maximiert. Bei jedem Zeitschritt wird das Modell mit Wahrscheinlichkeit 1-γ aus der Posterior-Verteilung der Umgebung neu abgetastet. Durch geeignete Wahl des zeitabhängigen Diskontfaktors wird eine Bayes'sche Bedauerns-Schranke von Õ(τS√AT) etabliert, wobei S die Anzahl der Umgebungszustände, A die Anzahl der Aktionen und τ die durchschnittliche Belohnungszeit darstellt.
Bestehende Posterior-Sampling-Algorithmen für Verstärkungslernen sind hauptsächlich für episodische Umgebungen konzipiert und beruhen auf der Verwaltung von Zustands-Aktions-Besuchszählern, was sie für komplexe kontinuierliche Umgebungen mit hochdimensionalen Zustandsräumen ungeeignet macht.
Lernen in kontinuierlichen Umgebungen ist ein grundlegendes Problem im Verstärkungslernen, aber bestehende randomisierte Explorationsmethoden sind hauptsächlich auf episodische Umgebungen beschränkt
Skalierbarkeitsanforderungen: Traditionelle Methoden beruhen auf Zustands-Aktions-Besuchszählern, was in komplexen Umgebungen nicht machbar ist
Theoretische Lücke: Mangel an strenger theoretischer Analyse für kontinuierliche Umgebungen
TSDE (Ouyang et al., 2017): Erfordert komplexe Neuabstastungskriterien, einschließlich Bedingungen zur Verdopplung von Besuchszählern, in großen Zustandsräumen nicht machbar
DS-PSRL (Theocharous et al., 2018): Vermeidet zwar Besuchszähler, aber die Analyse hängt von starken technischen Annahmen ab; ohne diese wächst die Bedauerns-Schranke linear
Klassisches PSRL: Nur für episodische Umgebungen geeignet, kann nicht direkt auf kontinuierliche Einstellungen erweitert werden
Erster skalierbarer kontinuierlicher PSRL-Algorithmus: Vorstellung von Continuing PSRL basierend auf einem einfachen Randomisierungsschema, das komplexe Neuabstastungskriterien vermeidet
Strenge theoretische Analyse: Etablierung einer Bayes'schen Bedauerns-Schranke von Õ(τS√AT), die mit bestehenden besten Ergebnissen übereinstimmt
Durchbruch in der Skalierbarkeit: Der Algorithmus kann sich natürlich auf hochdimensionale Zustandsräume und Funktionsapproximationseinstellungen erweitern
Neue Perspektive auf Diskontfaktoren: Interpretation des Diskontfaktors als Algorithmus-Designwerkzeug statt als Umgebungseigenschaft, bietet neue Einsichten in die Rolle von Diskontfaktoren
Das Schlüsselkonzept ist die durchschnittliche Belohnungszeit τ_{π,E}, definiert als der Mindestwert τ, sodass:
Eπ[∑t=0T−1Rt+1∣E,S0=s]−T⋅λπ,E(s)≤τ
Effektivität einfacher Neuabstastung: Trotz des einfachen Neuabstastungsmechanismus ist die Leistung mit komplexeren Methoden vergleichbar
Skalierbarkeitsvorteil: In hochdimensionalen Zustandsräumen versagen traditionelle auf Besuchszählern basierende Methoden, während diese Methode weiterhin wirksam ist
Konsistenz zwischen Theorie und Praxis: Experimentelle Ergebnisse validieren die Korrektheit der theoretischen Analyse
Theoretische Strenge: Bietet vollständige theoretische Analyse und Beweise, füllt die theoretische Lücke für PSRL in kontinuierlichen Umgebungen
Algorithmus-Einfachheit: Im Vergleich zu bestehenden Methoden ist der Neuabstastungsmechanismus äußerst einfach, leicht zu implementieren und zu verstehen
Skalierbarkeit: Unterstützt natürlich Funktionsapproximation und hochdimensionale Zustandsräume mit starkem praktischen Wert
Innovative Perspektive: Neuinterpretation des Diskontfaktors als Algorithmus-Designwerkzeug bietet neue theoretische Einsichten
Unzureichende experimentelle Tiefe: Experimente werden hauptsächlich in einfachen Umgebungen durchgeführt, es fehlt die Validierung in großen komplexen Umgebungen
Parameterempfindlichkeit: Die Wahl des Diskontfaktors γ hängt von Problemparametern ab, kann in praktischen Anwendungen sorgfältige Optimierung erfordern
Unvollständige Vergleiche: Mangel an Vergleichen mit einigen verwandten Explorationsmethoden (wie UCB-Methoden)
Fehlende praktische Anwendungsfälle: Hauptsächlich Theorie und einfache Simulationen, es fehlen Validierungen in realen Anwendungsszenarien
Das Papier zitiert wichtige Arbeiten im Bereich Verstärkungslernen, einschließlich:
Klassische Arbeiten zum Thompson-Sampling (Thompson, 1933)
Bahnbrechende Arbeiten zu PSRL (Osband et al., 2013)
Verwandte Forschung zu kontinuierlichen Umgebungen (Ouyang et al., 2017; Theocharous et al., 2018)
Wichtige Fortschritte im Deep Reinforcement Learning (Mnih et al., 2015)
Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Verstärkungslern-Papier, das wichtige Beiträge zur Posterior-Sampling-Methode in kontinuierlichen Umgebungen leistet. Das Algorithmus-Design ist elegant und einfach, die theoretische Analyse ist streng und vollständig, und es bietet neue Perspektiven und Werkzeuge für dieses Forschungsgebiet. Obwohl es Raum für Verbesserungen in der experimentellen Validierung gibt, sind sein theoretischer Wert und sein praktisches Potenzial beide hervorragend.