2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(τS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $τ$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
academic

Posterior Sampling für kontinuierliche Umgebungen

Grundinformationen

  • Paper-ID: 2211.15931
  • Titel: Posterior Sampling for Continuing Environments
  • Autoren: Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
  • Klassifizierung: cs.LG stat.ML
  • Veröffentlichungskonferenz: RLJ | RLC 2024
  • Paper-Link: https://arxiv.org/abs/2211.15931

Zusammenfassung

In diesem Artikel wird ein Posterior-Sampling-Algorithmus für Verstärkungslernens in kontinuierlichen Umgebungen (Continuing PSRL) vorgestellt, der sich natürlich in skalierbare Agenten-Designs integrieren lässt. Der Algorithmus verwaltet ein statistisch fundiertes Umgebungsmodell und folgt einer Strategie, die die γ-diskontierte Rendite in diesem Modell maximiert. Bei jedem Zeitschritt wird das Modell mit Wahrscheinlichkeit 1-γ aus der Posterior-Verteilung der Umgebung neu abgetastet. Durch geeignete Wahl des zeitabhängigen Diskontfaktors wird eine Bayes'sche Bedauerns-Schranke von Õ(τS√AT) etabliert, wobei S die Anzahl der Umgebungszustände, A die Anzahl der Aktionen und τ die durchschnittliche Belohnungszeit darstellt.

Forschungshintergrund und Motivation

Kernproblem

Bestehende Posterior-Sampling-Algorithmen für Verstärkungslernen sind hauptsächlich für episodische Umgebungen konzipiert und beruhen auf der Verwaltung von Zustands-Aktions-Besuchszählern, was sie für komplexe kontinuierliche Umgebungen mit hochdimensionalen Zustandsräumen ungeeignet macht.

Bedeutung des Problems

  1. Lernen in kontinuierlichen Umgebungen ist ein grundlegendes Problem im Verstärkungslernen, aber bestehende randomisierte Explorationsmethoden sind hauptsächlich auf episodische Umgebungen beschränkt
  2. Skalierbarkeitsanforderungen: Traditionelle Methoden beruhen auf Zustands-Aktions-Besuchszählern, was in komplexen Umgebungen nicht machbar ist
  3. Theoretische Lücke: Mangel an strenger theoretischer Analyse für kontinuierliche Umgebungen

Einschränkungen bestehender Methoden

  1. TSDE (Ouyang et al., 2017): Erfordert komplexe Neuabstastungskriterien, einschließlich Bedingungen zur Verdopplung von Besuchszählern, in großen Zustandsräumen nicht machbar
  2. DS-PSRL (Theocharous et al., 2018): Vermeidet zwar Besuchszähler, aber die Analyse hängt von starken technischen Annahmen ab; ohne diese wächst die Bedauerns-Schranke linear
  3. Klassisches PSRL: Nur für episodische Umgebungen geeignet, kann nicht direkt auf kontinuierliche Einstellungen erweitert werden

Forschungsmotivation

Einen einfachen, skalierbaren und theoretisch strengen Posterior-Sampling-Algorithmus für kontinuierliche Umgebungen zu entwickeln, der:

  • Die Verwaltung von Zustands-Aktions-Besuchszählern vermeidet
  • Sich natürlich in bestehende Funktionsapproximationsmethoden integriert
  • Theoretische Garantien bietet, die mit den besten bestehenden Methoden übereinstimmen

Kernbeiträge

  1. Erster skalierbarer kontinuierlicher PSRL-Algorithmus: Vorstellung von Continuing PSRL basierend auf einem einfachen Randomisierungsschema, das komplexe Neuabstastungskriterien vermeidet
  2. Strenge theoretische Analyse: Etablierung einer Bayes'schen Bedauerns-Schranke von Õ(τS√AT), die mit bestehenden besten Ergebnissen übereinstimmt
  3. Durchbruch in der Skalierbarkeit: Der Algorithmus kann sich natürlich auf hochdimensionale Zustandsräume und Funktionsapproximationseinstellungen erweitern
  4. Neue Perspektive auf Diskontfaktoren: Interpretation des Diskontfaktors als Algorithmus-Designwerkzeug statt als Umgebungseigenschaft, bietet neue Einsichten in die Rolle von Diskontfaktoren

Methodische Details

Aufgabendefinition

Betrachten Sie einen unbekannten Markov-Entscheidungsprozess, modelliert durch Umgebung E = (A,S,ρ), wobei:

  • A ist der endliche Aktionsraum, |A| = A
  • S ist der endliche Zustandsraum, |S| = S
  • ρ ist die Zustandsübergangwahrscheinlichkeitsfunktion
  • Die Belohnungsfunktion r : S × A → 0,1 ist deterministisch und bekannt

Das Ziel ist die Minimierung des kumulativen Bedauerns: Regret(T,π):=t=0T1(λ,ERt+1)\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})

wobei λ_{*,E} die optimale durchschnittliche Belohnung ist.

Modellarchitektur

Pseudo-Episode-Konstruktion

Der Algorithmus zerlegt das Lernproblem mit unendlichem Zeithorizont in Pseudo-Episoden zufälliger Länge:

  • Bei jedem Zeitschritt t wird ein binärer Indikator X_t abgetastet
  • Wenn X_t = 0, beginnt eine neue Pseudo-Episode und das Umgebungsmodell wird neu abgetastet
  • Wenn X_t = 1, wird die aktuelle Pseudo-Episode fortgesetzt

Diskontierte Wertfunktion

Für Umgebung E und Strategie π ist die γ-diskontierte Wertfunktion definiert als: Vπ,Eγ:=E[h=0H1PπhrπE]=E[h=0γhPπhrπE]V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]

wobei H die Pseudo-Episode-Länge ist, die einer geometrischen Verteilung folgt.

Durchschnittliche Belohnungszeit

Das Schlüsselkonzept ist die durchschnittliche Belohnungszeit τ_{π,E}, definiert als der Mindestwert τ, sodass: Eπ[t=0T1Rt+1E,S0=s]Tλπ,E(s)τ\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ

Algorithmus-Ablauf

Algorithmus 1: Continuing PSRL

Eingabe: Prior-Verteilung f, Diskontfaktor γ, Gesamtlernzeit T
1. Initialisiere t=1, k=1, X₁=0
2. für t ≤ T:
3.   wenn Xₜ = 0:
4.     tₖ ← t
5.     Taste Eₖ ~ f(·|H_tₖ) ab
6.     Berechne πₖ = π^γ_Eₖ
7.     k ← k+1
8.   Taste und führe Aₜ ~ πₖ(·|Sₜ) aus
9.   Beobachte Rₜ₊₁ und Sₜ₊₁
10.  t ← t+1
11.  Taste Xₜ₊₁ ~ Bernoulli(γ) ab

Technische Innovationen

  1. Einfacher Neuabstastungsmechanismus: Verwendet nur einen Bernoulli-Zufallszahlengenerator, vermeidet komplexe Besuchszähler-Bedingungen
  2. Verbindung zwischen Diskontfaktor und Neuabstastungswahrscheinlichkeit: Setzt γ = 1-p, wobei p die Neuabstastungswahrscheinlichkeit ist
  3. Strategieunabhängige Neuabstastung: Neuabstastungskriterium ist unabhängig von der Strategie, vereinfacht die Analyse
  4. Zeitvarianter Diskontfaktor: Ermöglicht, dass der Diskontfaktor mit der Zeit wächst, um sublineares Bedauern zu erreichen

Experimentelle Einrichtung

Datensätze

  1. Tabellarische RiverSwim-Umgebung:
    • Kettenstruktur mit 6 Zuständen
    • Belohnung 0,005 im linken Zustand, 1,0 im rechten Zustand
    • Optimale Strategie ist, immer nach rechts zu schwimmen
  2. Kontinuierliche Feature-RiverSwim-Umgebung:
    • Ähnliche Struktur, aber mit Pixel-Feature-Beobachtungen
    • Feature-Mapping: φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
    • Testet Algorithmus-Leistung unter Funktionsapproximation

Bewertungsmetriken

  • Kumulatives Bedauern (Cumulative Regret)
  • Durchschnittliches Bedauern über die Zeit

Vergleichsmethoden

  1. TSDE (Ouyang et al., 2017): Thompson-Sampling basierend auf Besuchszählern
  2. DS-PSRL (Theocharous et al., 2018): Neuabstastungsschema mit festen Zeitintervallen
  3. Zufälliger Agent: Als Baseline
  4. DQN mit ε-greedy: Vergleich in kontinuierlicher Feature-Umgebung

Implementierungsdetails

  • Prior-Verteilungen: Dirichlet-Verteilung (Übergänge) und Normal-Gamma-Verteilung (Belohnungen)
  • Hyperparameter: Pseudo-Zähler n=1, α=1/S, μ=σ²=1
  • Bootstrapped DQN in kontinuierlicher Umgebung, γ=0,99

Experimentelle Ergebnisse

Hauptergebnisse

  1. Tabellarische Umgebung:
    • Continuing PSRL zeigt vergleichbare Leistung mit TSDE, obwohl letzteres direkt die durchschnittliche Belohnung optimiert
    • Deutlich besser als DS-PSRL
    • Validiert das theoretisch vorhergesagte sublineare Bedauernswachstum
  2. Kontinuierliche Feature-Umgebung:
    • Bootstrapped DQN + zufällige Neuabstastung erreicht sublineares Bedauern
    • Deutlich besser als Vanilla DQN mit ε-greedy-Exploration
    • Demonstriert Skalierbarkeit der Methode in komplexen Umgebungen

Experimentelle Erkenntnisse

  1. Effektivität einfacher Neuabstastung: Trotz des einfachen Neuabstastungsmechanismus ist die Leistung mit komplexeren Methoden vergleichbar
  2. Skalierbarkeitsvorteil: In hochdimensionalen Zustandsräumen versagen traditionelle auf Besuchszählern basierende Methoden, während diese Methode weiterhin wirksam ist
  3. Konsistenz zwischen Theorie und Praxis: Experimentelle Ergebnisse validieren die Korrektheit der theoretischen Analyse

Verwandte Arbeiten

Thompson-Sampling und Posterior-Sampling

  • Klassisches Thompson-Sampling: Ursprünglich für Multi-Armed-Bandit-Probleme entwickelt
  • PSRL-Erweiterungen: Osband et al. erweiterten es auf Verstärkungslernen, hauptsächlich für episodische Umgebungen
  • Bootstrapped DQN: Verwendet Ensemble-Methoden zur Approximation der Posterior-Verteilung

Exploration in kontinuierlichen Umgebungen

  • TSDE: Erste Thompson-Sampling-Methode für kontinuierliche Umgebungen, aber abhängig von komplexen Neuabstastungskriterien
  • DS-PSRL: Vereinfachte Neuabstastung, aber benötigt starke technische Annahmen
  • Diese Arbeit: Erste einfache und strenge zufällige Neuabstastungsmethode

Theoretische Analyse

  • Bestehende Arbeiten berücksichtigen hauptsächlich γ-diskontiertes Bedauern, diese Arbeit konzentriert sich auf undiskontiertes Bedauern
  • Verwendung der durchschnittlichen Belohnungszeit τ ersetzt das traditionelle Span-Konzept
  • Schwache Konnektivitäts-MDP-Annahme ist die allgemeinste Einstellung für endliche Bedauerns-Schranken

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Etablierung einer Bedauerns-Schranke von Õ(τS√AT), die mit bestehenden besten Ergebnissen übereinstimmt
  2. Algorithmus-Einfachheit: Benötigt nur einen Bernoulli-Zufallszahlengenerator für effektive Exploration
  3. Praktischer Wert: Der Algorithmus kann direkt in bestehende Deep-Reinforcement-Learning-Methoden integriert werden
  4. Neue Perspektive auf Diskontfaktoren: Interpretation des Diskontfaktors als Algorithmus-Designwerkzeug statt als Umgebungseigenschaft

Einschränkungen

  1. Theoretische Annahmen: Erfordert Annahmen über schwach verbundene MDPs und begrenzte durchschnittliche Belohnungszeit
  2. Prior-Abhängigkeit: Die Leistung hängt von einer angemessenen Prior-Verteilungseinstellung ab
  3. Parameteroptimierung: Die Wahl des Diskontfaktors γ erfordert Wissen über den Zeithorizont T
  4. Experimenteller Umfang: Experimente werden hauptsächlich in relativ einfachen Umgebungen durchgeführt

Zukünftige Richtungen

  1. Einstellung ohne Prior-Wissen: Untersuchung adaptiver Methoden, die keine vorherige Kenntnis von T benötigen
  2. Komplexere Umgebungen: Validierung der Methode in größeren und komplexeren Umgebungen
  3. Theoretische Verbesserungen: Lockerung von Annahmen wie schwacher Konnektivität
  4. Praktische Anwendungen: Testen der Algorithmus-Leistung in realen Anwendungsszenarien

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Bietet vollständige theoretische Analyse und Beweise, füllt die theoretische Lücke für PSRL in kontinuierlichen Umgebungen
  2. Algorithmus-Einfachheit: Im Vergleich zu bestehenden Methoden ist der Neuabstastungsmechanismus äußerst einfach, leicht zu implementieren und zu verstehen
  3. Skalierbarkeit: Unterstützt natürlich Funktionsapproximation und hochdimensionale Zustandsräume mit starkem praktischen Wert
  4. Innovative Perspektive: Neuinterpretation des Diskontfaktors als Algorithmus-Designwerkzeug bietet neue theoretische Einsichten

Schwächen

  1. Unzureichende experimentelle Tiefe: Experimente werden hauptsächlich in einfachen Umgebungen durchgeführt, es fehlt die Validierung in großen komplexen Umgebungen
  2. Parameterempfindlichkeit: Die Wahl des Diskontfaktors γ hängt von Problemparametern ab, kann in praktischen Anwendungen sorgfältige Optimierung erfordern
  3. Unvollständige Vergleiche: Mangel an Vergleichen mit einigen verwandten Explorationsmethoden (wie UCB-Methoden)
  4. Fehlende praktische Anwendungsfälle: Hauptsächlich Theorie und einfache Simulationen, es fehlen Validierungen in realen Anwendungsszenarien

Einfluss

  1. Theoretischer Beitrag: Bietet einen neuen theoretischen Rahmen für Explorationsprobleme in kontinuierlichen Umgebungen
  2. Praktischer Wert: Die Einfachheit des Algorithmus ermöglicht einfache Adoption und Erweiterung
  3. Inspirative Bedeutung: Die neue Interpretation des Diskontfaktors könnte zukünftige Algorithmus-Designs beeinflussen
  4. Reproduzierbarkeit: Klare Algorithmus-Beschreibung und vollständige theoretische Analyse ermöglichen gute Reproduzierbarkeit

Anwendungsszenarien

  1. Kontinuierliches Verstärkungslernen: Umgebungen, die langfristige Interaktion ohne natürliche episodische Struktur erfordern
  2. Hochdimensionale Zustandsräume: Komplexe Umgebungen, in denen traditionelle zählbasierte Methoden ungeeignet sind
  3. Online-Lernen: Szenarien, die kontinuierliches Lernen und Anpassung während der Interaktion erfordern
  4. Deep Reinforcement Learning: Kann in bestehende Deep-RL-Frameworks integriert werden

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im Bereich Verstärkungslernen, einschließlich:

  • Klassische Arbeiten zum Thompson-Sampling (Thompson, 1933)
  • Bahnbrechende Arbeiten zu PSRL (Osband et al., 2013)
  • Verwandte Forschung zu kontinuierlichen Umgebungen (Ouyang et al., 2017; Theocharous et al., 2018)
  • Wichtige Fortschritte im Deep Reinforcement Learning (Mnih et al., 2015)

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Verstärkungslern-Papier, das wichtige Beiträge zur Posterior-Sampling-Methode in kontinuierlichen Umgebungen leistet. Das Algorithmus-Design ist elegant und einfach, die theoretische Analyse ist streng und vollständig, und es bietet neue Perspektiven und Werkzeuge für dieses Forschungsgebiet. Obwohl es Raum für Verbesserungen in der experimentellen Validierung gibt, sind sein theoretischer Wert und sein praktisches Potenzial beide hervorragend.