2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $Î³$-discounted return in that model. At each time, with probability $1-Î³$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.

academic

継続環境における後験サンプリング

基本情報

論文ID: 2211.15931
タイトル: Posterior Sampling for Continuing Environments
著者: Wanqiao Xu (スタンフォード大学)、Shi Dong (Google DeepMind)、Benjamin Van Roy (スタンフォード大学)
分類: cs.LG stat.ML
発表会議: RLJ | RLC 2024
論文リンク: https://arxiv.org/abs/2211.15931

要旨

本論文は、継続環境に適用可能な後験サンプリング強化学習アルゴリズム(Continuing PSRL)を提案する。このアルゴリズムはスケーラブルなエージェント設計に自然に統合できる。アルゴリズムは統計的に妥当な環境モデルを維持し、当該モデルにおいてγ割引報酬を最大化する方針に従う。各時間ステップにおいて、アルゴリズムは確率1-γで環境の後験分布からモデルを再サンプリングする。時間範囲Tに依存する割引因子を適切に選択することにより、Õ(τS√AT)のベイズ後悔界を確立する。ここでSは環境の状態数、Aは行動数、τは報酬平均時間を表す。

研究背景と動機

核心的問題

既存の後験サンプリング強化学習アルゴリズムは主にエピソード型環境向けに設計されており、状態-行動訪問計数の維持に依存している。これにより、高次元状態空間を持つ複雑な継続環境には適用不可能である。

問題の重要性

継続環境学習は強化学習の基礎的問題であるが、既存の確率的探索方法はエピソード型環境に限定されている
スケーラビリティの必要性：従来の方法は状態-行動訪問計数に依存するため、複雑な環境では実行不可能である
理論的空白：継続環境に対する厳密な理論分析が欠如している

既存方法の限界

TSDE (Ouyang et al., 2017)：訪問計数の倍増条件を含む複雑な再サンプリング基準が必要であり、大規模状態空間では実行不可能
DS-PSRL (Theocharous et al., 2018)：訪問計数を回避しているが、分析は強い技術的仮定に依存し、これらの仮定がない場合は後悔界が線形に増加する
従来のPSRL：エピソード型環境のみに適用可能で、継続設定への直接的な拡張ができない

研究動機

以下を実現する、シンプルでスケーラブルかつ理論的に厳密な継続環境向け後験サンプリングアルゴリズムを提案する：

状態-行動訪問計数の維持を回避する
既存の関数近似方法に自然に統合される
既存の最良方法と一致する理論的保証を提供する

核心的貢献

初のスケーラブルな継続型PSRLアルゴリズム：シンプルな確率化スキームに基づくContinuing PSRLを提案し、複雑な再サンプリング基準を回避する
厳密な理論分析：Õ(τS√AT)のベイズ後悔界を確立し、既存の最良結果と一致する
スケーラビリティの突破：アルゴリズムは高次元状態空間と関数近似設定に自然に拡張可能
割引因子の新しい視点：割引因子を環境属性ではなくアルゴリズム設計ツールとして解釈し、割引因子の役割を理解するための新しい視点を提供する

方法の詳細

タスク定義

未知環境E = (A,S,ρ)でモデル化されたマルコフ決定過程を考える。ここで：

Aは有限行動空間、|A| = A
Sは有限状態空間、|S| = S
ρは状態遷移確率関数
報酬関数r : S × A → 0,1は確定的で既知

目標は累積後悔を最小化することである： $\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})$

ここでλ_{*,E}は最適平均報酬である。

モデルアーキテクチャ

疑似エピソード構成

アルゴリズムは無限時間範囲の学習問題をランダム長の疑似エピソードに分解する：

各時間ステップtで二値指示器X_tをサンプリングする
X_t = 0の場合、新しい疑似エピソードを開始し環境モデルを再サンプリングする
X_t = 1の場合、現在の疑似エピソードを継続する

割引価値関数

環境Eと方針πに対して、γ割引価値関数は以下のように定義される： $V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]$

ここでHは疑似エピソード長であり、幾何分布に従う。

報酬平均時間

重要な概念は報酬平均時間τ_{π,E}であり、以下を満たす最小値τとして定義される： $\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ$

アルゴリズムの流れ

アルゴリズム1：Continuing PSRL

入力：事前分布f、割引因子γ、総学習時間T
1. 初期化 t=1, k=1, X₁=0
2. t ≤ T の間：
3.   Xₜ = 0 の場合：
4.     tₖ ← t
5.     Eₖ ~ f(·|H_tₖ) をサンプリング
6.     πₖ = π^γ_Eₖ を計算
7.     k ← k+1
8.   Aₜ ~ πₖ(·|Sₜ) をサンプリングして実行
9.   Rₜ₊₁ と Sₜ₊₁ を観察
10.  t ← t+1
11.  Xₜ₊₁ ~ Bernoulli(γ) をサンプリング

技術的革新点

シンプルな再サンプリング機構：ベルヌーイ乱数生成器のみを使用し、複雑な訪問計数条件を回避する
割引因子と再サンプリング確率の関連性：γ = 1-pと設定。ここでpは再サンプリング確率
方針非依存の再サンプリング：再サンプリング基準は方針に独立し、分析を簡化する
時変割引因子：割引因子が時間とともに増加することを許可し、準線形後悔を実現する

実験設定

データセット

表形式RiverSwim環境：
- 6状態のチェーン構造
- 左端状態の報酬0.005、右端状態の報酬1.0
- 最適方針は常に右に移動すること
連続特徴RiverSwim環境：
- 類似の構造だがピクセル特徴観測を使用
- 特徴マッピング：φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
- 関数近似設定下でのアルゴリズム性能をテスト

評価指標

累積後悔(Cumulative Regret)
平均後悔の時間に対する変化

比較方法

TSDE (Ouyang et al., 2017)：訪問計数ベースのThompsonサンプリング
DS-PSRL (Theocharous et al., 2018)：固定時間間隔の再サンプリング方式
ランダムエージェント：ベースライン
DQN with ε-greedy：連続特徴環境での比較

実装の詳細

事前分布：ディリクレ分布(遷移)と正規-ガンマ分布(報酬)
ハイパーパラメータ：疑似計数n=1、α=1/S、μ=σ²=1
連続環境ではBootstrapped DQNを使用、γ=0.99

実験結果

主要な結果

表形式環境：
- Continuing PSRLはTSDEと同等の性能を示し、後者は平均報酬を直接最適化しているにもかかわらず
- DS-PSRLを大幅に上回る
- 理論で予測された準線形後悔増加を検証
連続特徴環境：
- Bootstrapped DQN + ランダム再サンプリングは準線形後悔を実現
- バニラDQN with ε-greedy探索を明らかに上回る
- 複雑な環境でのメソッドのスケーラビリティを証明

実験的発見

シンプルな再サンプリングの有効性：再サンプリング機構がシンプルであるにもかかわらず、性能は複雑な方法と同等
スケーラビリティの利点：高次元状態空間では、訪問計数に依存する従来の方法は失敗するが、本方法は依然として有効
理論と実践の一貫性：実験結果は理論分析の正確性を検証

結論と議論

主要な結論

理論的貢献：Õ(τS√AT)の後悔界を確立し、既存の最良結果と一致する
アルゴリズムの簡潔性：ベルヌーイ乱数生成器のみで効果的な探索を実現
実用的価値：アルゴリズムは既存の深層強化学習方法に直接統合可能
割引因子の新しい視点：割引因子を環境属性ではなくアルゴリズム設計ツールとして解釈

限界

理論的仮定：弱連結MDPと有界報酬平均時間の仮定が必要
事前分布への依存：性能は合理的な事前分布の設定に依存
パラメータ調整：割引因子γの選択は時間範囲Tの知識を必要とする
実験範囲：実験は比較的シンプルな環境で主に実施

今後の方向

事前知識不要の設定：T事前知識を必要としない適応的方法の研究
より複雑な環境：より大規模で複雑な環境でのメソッド検証
理論的改善：弱連結性などの仮定条件の緩和
実際の応用：実世界の応用シナリオでのアルゴリズム性能テスト

深い評価

利点

理論的厳密性：完全な理論分析と証明を提供し、継続環境PSRLの理論的空白を埋める
アルゴリズムの簡潔性：既存方法と比較して再サンプリング機構は極めてシンプルで、実装と理解が容易
スケーラビリティ：関数近似と高次元状態空間を自然にサポートし、強い実用的価値を持つ
革新的視点：割引因子をアルゴリズム設計ツールとして再解釈し、新しい理論的洞察を提供

不足点

実験の深さが不十分：実験は主にシンプルな環境で実施され、大規模複雑環境の検証が欠ける
パラメータ感度：割引因子γの選択は問題パラメータに依存し、実際の応用では慎重な調整が必要
比較が不十分：UCBクラスの方法など、いくつかの関連探索方法との比較が欠ける
実際の応用事例の欠如：主に理論と簡単なシミュレーションであり、実世界の応用シナリオの検証が欠ける

影響力

理論的貢献：継続環境の探索問題に新しい理論的フレームワークを提供
実用的価値：アルゴリズムの簡潔性により採用と拡張が容易
啓発的意義：割引因子の新しい解釈は将来のアルゴリズム設計に影響を与える可能性
再現性：アルゴリズム記述が明確で理論分析が完全であり、優れた再現性を持つ

適用可能なシナリオ

継続強化学習：自然な分幕構造がない長期相互作用環境
高次元状態空間：従来のカウントベース方法が適用不可能な複雑環境
オンライン学習：相互作用過程で継続的に学習と適応が必要なシナリオ
深層強化学習：既存の深層RLフレームワークに統合可能

参考文献

論文は強化学習分野の重要な研究を引用している：

Thompsonサンプリングの古典的研究 (Thompson, 1933)
PSRLの開拓的研究 (Osband et al., 2013)
継続環境の関連研究 (Ouyang et al., 2017; Theocharous et al., 2018)
深層強化学習の重要な進展 (Mnih et al., 2015)

総合評価：これは継続環境の後験サンプリング方法に重要な貢献をした高品質の理論強化学習論文である。アルゴリズム設計はシンプルで優雅であり、理論分析は厳密かつ完全であり、この分野に新しい視点とツールを提供している。実験検証の面ではまだ改善の余地があるが、その理論的価値と実用的可能性は非常に優れている。