2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $Î³$-discounted return in that model. At each time, with probability $1-Î³$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.

academic

Posterior Sampling für kontinuierliche Umgebungen

Grundinformationen

Paper-ID: 2211.15931
Titel: Posterior Sampling for Continuing Environments
Autoren: Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
Klassifizierung: cs.LG stat.ML
Veröffentlichungskonferenz: RLJ | RLC 2024
Paper-Link: https://arxiv.org/abs/2211.15931

Zusammenfassung

In diesem Artikel wird ein Posterior-Sampling-Algorithmus für Verstärkungslernens in kontinuierlichen Umgebungen (Continuing PSRL) vorgestellt, der sich natürlich in skalierbare Agenten-Designs integrieren lässt. Der Algorithmus verwaltet ein statistisch fundiertes Umgebungsmodell und folgt einer Strategie, die die γ-diskontierte Rendite in diesem Modell maximiert. Bei jedem Zeitschritt wird das Modell mit Wahrscheinlichkeit 1-γ aus der Posterior-Verteilung der Umgebung neu abgetastet. Durch geeignete Wahl des zeitabhängigen Diskontfaktors wird eine Bayes'sche Bedauerns-Schranke von Õ(τS√AT) etabliert, wobei S die Anzahl der Umgebungszustände, A die Anzahl der Aktionen und τ die durchschnittliche Belohnungszeit darstellt.

Forschungshintergrund und Motivation

Kernproblem

Bestehende Posterior-Sampling-Algorithmen für Verstärkungslernen sind hauptsächlich für episodische Umgebungen konzipiert und beruhen auf der Verwaltung von Zustands-Aktions-Besuchszählern, was sie für komplexe kontinuierliche Umgebungen mit hochdimensionalen Zustandsräumen ungeeignet macht.

Bedeutung des Problems

Lernen in kontinuierlichen Umgebungen ist ein grundlegendes Problem im Verstärkungslernen, aber bestehende randomisierte Explorationsmethoden sind hauptsächlich auf episodische Umgebungen beschränkt
Skalierbarkeitsanforderungen: Traditionelle Methoden beruhen auf Zustands-Aktions-Besuchszählern, was in komplexen Umgebungen nicht machbar ist
Theoretische Lücke: Mangel an strenger theoretischer Analyse für kontinuierliche Umgebungen

Einschränkungen bestehender Methoden

TSDE (Ouyang et al., 2017): Erfordert komplexe Neuabstastungskriterien, einschließlich Bedingungen zur Verdopplung von Besuchszählern, in großen Zustandsräumen nicht machbar
DS-PSRL (Theocharous et al., 2018): Vermeidet zwar Besuchszähler, aber die Analyse hängt von starken technischen Annahmen ab; ohne diese wächst die Bedauerns-Schranke linear
Klassisches PSRL: Nur für episodische Umgebungen geeignet, kann nicht direkt auf kontinuierliche Einstellungen erweitert werden

Forschungsmotivation

Einen einfachen, skalierbaren und theoretisch strengen Posterior-Sampling-Algorithmus für kontinuierliche Umgebungen zu entwickeln, der:

Die Verwaltung von Zustands-Aktions-Besuchszählern vermeidet
Sich natürlich in bestehende Funktionsapproximationsmethoden integriert
Theoretische Garantien bietet, die mit den besten bestehenden Methoden übereinstimmen

Kernbeiträge

Erster skalierbarer kontinuierlicher PSRL-Algorithmus: Vorstellung von Continuing PSRL basierend auf einem einfachen Randomisierungsschema, das komplexe Neuabstastungskriterien vermeidet
Strenge theoretische Analyse: Etablierung einer Bayes'schen Bedauerns-Schranke von Õ(τS√AT), die mit bestehenden besten Ergebnissen übereinstimmt
Durchbruch in der Skalierbarkeit: Der Algorithmus kann sich natürlich auf hochdimensionale Zustandsräume und Funktionsapproximationseinstellungen erweitern
Neue Perspektive auf Diskontfaktoren: Interpretation des Diskontfaktors als Algorithmus-Designwerkzeug statt als Umgebungseigenschaft, bietet neue Einsichten in die Rolle von Diskontfaktoren

Methodische Details

Aufgabendefinition

Betrachten Sie einen unbekannten Markov-Entscheidungsprozess, modelliert durch Umgebung E = (A,S,ρ), wobei:

A ist der endliche Aktionsraum, |A| = A
S ist der endliche Zustandsraum, |S| = S
ρ ist die Zustandsübergangwahrscheinlichkeitsfunktion
Die Belohnungsfunktion r : S × A → 0,1 ist deterministisch und bekannt

Das Ziel ist die Minimierung des kumulativen Bedauerns: $\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})$

wobei λ_{*,E} die optimale durchschnittliche Belohnung ist.

Modellarchitektur

Pseudo-Episode-Konstruktion

Der Algorithmus zerlegt das Lernproblem mit unendlichem Zeithorizont in Pseudo-Episoden zufälliger Länge:

Bei jedem Zeitschritt t wird ein binärer Indikator X_t abgetastet
Wenn X_t = 0, beginnt eine neue Pseudo-Episode und das Umgebungsmodell wird neu abgetastet
Wenn X_t = 1, wird die aktuelle Pseudo-Episode fortgesetzt

Diskontierte Wertfunktion

Für Umgebung E und Strategie π ist die γ-diskontierte Wertfunktion definiert als: $V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]$

wobei H die Pseudo-Episode-Länge ist, die einer geometrischen Verteilung folgt.

Durchschnittliche Belohnungszeit

Das Schlüsselkonzept ist die durchschnittliche Belohnungszeit τ_{π,E}, definiert als der Mindestwert τ, sodass: $\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ$

Algorithmus-Ablauf

Algorithmus 1: Continuing PSRL

Eingabe: Prior-Verteilung f, Diskontfaktor γ, Gesamtlernzeit T
1. Initialisiere t=1, k=1, X₁=0
2. für t ≤ T:
3.   wenn Xₜ = 0:
4.     tₖ ← t
5.     Taste Eₖ ~ f(·|H_tₖ) ab
6.     Berechne πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Taste und führe Aₜ ~ πₖ(·|Sₜ) aus
9.   Beobachte Rₜ₊₁ und Sₜ₊₁
10.  t ← t+1
11.  Taste Xₜ₊₁ ~ Bernoulli(γ) ab

Technische Innovationen

Einfacher Neuabstastungsmechanismus: Verwendet nur einen Bernoulli-Zufallszahlengenerator, vermeidet komplexe Besuchszähler-Bedingungen
Verbindung zwischen Diskontfaktor und Neuabstastungswahrscheinlichkeit: Setzt γ = 1-p, wobei p die Neuabstastungswahrscheinlichkeit ist
Strategieunabhängige Neuabstastung: Neuabstastungskriterium ist unabhängig von der Strategie, vereinfacht die Analyse
Zeitvarianter Diskontfaktor: Ermöglicht, dass der Diskontfaktor mit der Zeit wächst, um sublineares Bedauern zu erreichen

Experimentelle Einrichtung

Datensätze

Tabellarische RiverSwim-Umgebung:
- Kettenstruktur mit 6 Zuständen
- Belohnung 0,005 im linken Zustand, 1,0 im rechten Zustand
- Optimale Strategie ist, immer nach rechts zu schwimmen
Kontinuierliche Feature-RiverSwim-Umgebung:
- Ähnliche Struktur, aber mit Pixel-Feature-Beobachtungen
- Feature-Mapping: φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
- Testet Algorithmus-Leistung unter Funktionsapproximation

Bewertungsmetriken

Kumulatives Bedauern (Cumulative Regret)
Durchschnittliches Bedauern über die Zeit

Vergleichsmethoden

TSDE (Ouyang et al., 2017): Thompson-Sampling basierend auf Besuchszählern
DS-PSRL (Theocharous et al., 2018): Neuabstastungsschema mit festen Zeitintervallen
Zufälliger Agent: Als Baseline
DQN mit ε-greedy: Vergleich in kontinuierlicher Feature-Umgebung

Implementierungsdetails

Prior-Verteilungen: Dirichlet-Verteilung (Übergänge) und Normal-Gamma-Verteilung (Belohnungen)
Hyperparameter: Pseudo-Zähler n=1, α=1/S, μ=σ²=1
Bootstrapped DQN in kontinuierlicher Umgebung, γ=0,99

Experimentelle Ergebnisse

Hauptergebnisse

Tabellarische Umgebung:
- Continuing PSRL zeigt vergleichbare Leistung mit TSDE, obwohl letzteres direkt die durchschnittliche Belohnung optimiert
- Deutlich besser als DS-PSRL
- Validiert das theoretisch vorhergesagte sublineare Bedauernswachstum
Kontinuierliche Feature-Umgebung:
- Bootstrapped DQN + zufällige Neuabstastung erreicht sublineares Bedauern
- Deutlich besser als Vanilla DQN mit ε-greedy-Exploration
- Demonstriert Skalierbarkeit der Methode in komplexen Umgebungen

Experimentelle Erkenntnisse

Effektivität einfacher Neuabstastung: Trotz des einfachen Neuabstastungsmechanismus ist die Leistung mit komplexeren Methoden vergleichbar
Skalierbarkeitsvorteil: In hochdimensionalen Zustandsräumen versagen traditionelle auf Besuchszählern basierende Methoden, während diese Methode weiterhin wirksam ist
Konsistenz zwischen Theorie und Praxis: Experimentelle Ergebnisse validieren die Korrektheit der theoretischen Analyse

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Etablierung einer Bedauerns-Schranke von Õ(τS√AT), die mit bestehenden besten Ergebnissen übereinstimmt
Algorithmus-Einfachheit: Benötigt nur einen Bernoulli-Zufallszahlengenerator für effektive Exploration
Praktischer Wert: Der Algorithmus kann direkt in bestehende Deep-Reinforcement-Learning-Methoden integriert werden
Neue Perspektive auf Diskontfaktoren: Interpretation des Diskontfaktors als Algorithmus-Designwerkzeug statt als Umgebungseigenschaft

Einschränkungen

Theoretische Annahmen: Erfordert Annahmen über schwach verbundene MDPs und begrenzte durchschnittliche Belohnungszeit
Prior-Abhängigkeit: Die Leistung hängt von einer angemessenen Prior-Verteilungseinstellung ab
Parameteroptimierung: Die Wahl des Diskontfaktors γ erfordert Wissen über den Zeithorizont T
Experimenteller Umfang: Experimente werden hauptsächlich in relativ einfachen Umgebungen durchgeführt

Zukünftige Richtungen

Einstellung ohne Prior-Wissen: Untersuchung adaptiver Methoden, die keine vorherige Kenntnis von T benötigen
Komplexere Umgebungen: Validierung der Methode in größeren und komplexeren Umgebungen
Theoretische Verbesserungen: Lockerung von Annahmen wie schwacher Konnektivität
Praktische Anwendungen: Testen der Algorithmus-Leistung in realen Anwendungsszenarien

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Bietet vollständige theoretische Analyse und Beweise, füllt die theoretische Lücke für PSRL in kontinuierlichen Umgebungen
Algorithmus-Einfachheit: Im Vergleich zu bestehenden Methoden ist der Neuabstastungsmechanismus äußerst einfach, leicht zu implementieren und zu verstehen
Skalierbarkeit: Unterstützt natürlich Funktionsapproximation und hochdimensionale Zustandsräume mit starkem praktischen Wert
Innovative Perspektive: Neuinterpretation des Diskontfaktors als Algorithmus-Designwerkzeug bietet neue theoretische Einsichten

Schwächen

Unzureichende experimentelle Tiefe: Experimente werden hauptsächlich in einfachen Umgebungen durchgeführt, es fehlt die Validierung in großen komplexen Umgebungen
Parameterempfindlichkeit: Die Wahl des Diskontfaktors γ hängt von Problemparametern ab, kann in praktischen Anwendungen sorgfältige Optimierung erfordern
Unvollständige Vergleiche: Mangel an Vergleichen mit einigen verwandten Explorationsmethoden (wie UCB-Methoden)
Fehlende praktische Anwendungsfälle: Hauptsächlich Theorie und einfache Simulationen, es fehlen Validierungen in realen Anwendungsszenarien

Einfluss

Theoretischer Beitrag: Bietet einen neuen theoretischen Rahmen für Explorationsprobleme in kontinuierlichen Umgebungen
Praktischer Wert: Die Einfachheit des Algorithmus ermöglicht einfache Adoption und Erweiterung
Inspirative Bedeutung: Die neue Interpretation des Diskontfaktors könnte zukünftige Algorithmus-Designs beeinflussen
Reproduzierbarkeit: Klare Algorithmus-Beschreibung und vollständige theoretische Analyse ermöglichen gute Reproduzierbarkeit

Anwendungsszenarien

Kontinuierliches Verstärkungslernen: Umgebungen, die langfristige Interaktion ohne natürliche episodische Struktur erfordern
Hochdimensionale Zustandsräume: Komplexe Umgebungen, in denen traditionelle zählbasierte Methoden ungeeignet sind
Online-Lernen: Szenarien, die kontinuierliches Lernen und Anpassung während der Interaktion erfordern
Deep Reinforcement Learning: Kann in bestehende Deep-RL-Frameworks integriert werden

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im Bereich Verstärkungslernen, einschließlich:

Klassische Arbeiten zum Thompson-Sampling (Thompson, 1933)
Bahnbrechende Arbeiten zu PSRL (Osband et al., 2013)
Verwandte Forschung zu kontinuierlichen Umgebungen (Ouyang et al., 2017; Theocharous et al., 2018)
Wichtige Fortschritte im Deep Reinforcement Learning (Mnih et al., 2015)

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Verstärkungslern-Papier, das wichtige Beiträge zur Posterior-Sampling-Methode in kontinuierlichen Umgebungen leistet. Das Algorithmus-Design ist elegant und einfach, die theoretische Analyse ist streng und vollständig, und es bietet neue Perspektiven und Werkzeuge für dieses Forschungsgebiet. Obwohl es Raum für Verbesserungen in der experimentellen Validierung gibt, sind sein theoretischer Wert und sein praktisches Potenzial beide hervorragend.