2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy
We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(τS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $τ$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
academic

Posterior Sampling for Continuing Environments

基本信息

  • 论文ID: 2211.15931
  • 标题: Posterior Sampling for Continuing Environments
  • 作者: Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)
  • 分类: cs.LG stat.ML
  • 发表会议: RLJ | RLC 2024
  • 论文链接: https://arxiv.org/abs/2211.15931

摘要

本文提出了一种适用于持续性环境的后验采样强化学习算法(Continuing PSRL),该算法能够自然地集成到可扩展的智能体设计中。算法维护一个统计上合理的环境模型,并遵循一个在该模型中最大化γ折扣回报的策略。在每个时间步,算法以概率1-γ从环境的后验分布中重新采样模型。通过适当选择依赖于时间范围T的折扣因子,建立了Õ(τS√AT)的贝叶斯后悔界,其中S是环境状态数,A是动作数,τ表示奖励平均时间。

研究背景与动机

核心问题

现有的后验采样强化学习算法主要针对分幕式(episodic)环境设计,依赖于维护状态-动作访问计数,这使得它们不适用于具有高维状态空间的复杂持续性环境。

问题重要性

  1. 持续性环境学习是强化学习中的基础问题,但现有的随机化探索方法主要局限于分幕式环境
  2. 可扩展性需求:传统方法依赖状态-动作访问计数,在复杂环境中不可行
  3. 理论空白:缺乏针对持续性环境的严格理论分析

现有方法局限性

  1. TSDE (Ouyang et al., 2017):需要复杂的重采样标准,包括访问计数翻倍条件,在大状态空间中不可行
  2. DS-PSRL (Theocharous et al., 2018):虽然避免了访问计数,但分析依赖于强技术假设,在没有这些假设时后悔界线性增长
  3. 传统PSRL:仅适用于分幕式环境,无法直接扩展到持续性设置

研究动机

提出一个简单、可扩展且理论上严格的持续性环境后验采样算法,能够:

  • 避免维护状态-动作访问计数
  • 自然集成到现有的函数逼近方法中
  • 提供与现有最佳方法相匹配的理论保证

核心贡献

  1. 首个可扩展的持续性PSRL算法:提出了基于简单随机化方案的Continuing PSRL,避免了复杂的重采样标准
  2. 严格的理论分析:建立了Õ(τS√AT)的贝叶斯后悔界,匹配现有最佳结果
  3. 可扩展性突破:算法可以自然扩展到高维状态空间和函数逼近设置
  4. 折扣因子的新视角:将折扣因子视为算法设计工具而非环境属性,提供了理解折扣因子作用的新视角

方法详解

任务定义

考虑一个未知环境E = (A,S,ρ)建模的马尔可夫决策过程,其中:

  • A是有限动作空间,|A| = A
  • S是有限状态空间,|S| = S
  • ρ是状态转移概率函数
  • 奖励函数r : S × A → 0,1是确定性的已知函数

目标是最小化累积后悔: Regret(T,π):=t=0T1(λ,ERt+1)\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})

其中λ_{*,E}是最优平均奖励。

模型架构

伪分幕构造

算法将无限时间范围学习问题分解为随机长度的伪分幕:

  • 在每个时间步t,采样二进制指示器X_t
  • 当X_t = 0时,开始新的伪分幕并重新采样环境模型
  • 当X_t = 1时,继续当前伪分幕

折扣价值函数

对于环境E和策略π,γ折扣价值函数定义为: Vπ,Eγ:=E[h=0H1PπhrπE]=E[h=0γhPπhrπE]V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]

其中H是伪分幕长度,服从几何分布。

奖励平均时间

关键概念是奖励平均时间τ_{π,E},定义为最小值τ使得: Eπ[t=0T1Rt+1E,S0=s]Tλπ,E(s)τ\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ

算法流程

Algorithm 1: Continuing PSRL

输入:先验分布f,折扣因子γ,总学习时间T
1. 初始化 t=1, k=1, X₁=0
2. for t ≤ T:
3.   if Xₜ = 0:
4.     tₖ ← t
5.     采样 Eₖ ~ f(·|H_tₖ)
6.     计算 πₖ = π^γ_Eₖ
7.     k ← k+1
8.   采样并执行 Aₜ ~ πₖ(·|Sₜ)
9.   观察 Rₜ₊₁ 和 Sₜ₊₁
10.  t ← t+1
11.  采样 Xₜ₊₁ ~ Bernoulli(γ)

技术创新点

  1. 简单重采样机制:仅使用伯努利随机数生成器,避免复杂的访问计数条件
  2. 折扣因子与重采样概率的联系:设定γ = 1-p,其中p是重采样概率
  3. 策略无关的重采样:重采样标准独立于策略,简化了分析
  4. 时变折扣因子:允许折扣因子随时间增长,实现次线性后悔

实验设置

数据集

  1. 表格式RiverSwim环境
    • 6个状态的链式结构
    • 左端状态奖励0.005,右端状态奖励1.0
    • 最优策略是始终向右游
  2. 连续特征RiverSwim环境
    • 类似结构但使用像素特征观察
    • 特征映射:φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
    • 测试函数逼近设置下的算法性能

评价指标

  • 累积后悔(Cumulative Regret)
  • 平均后悔随时间的变化

对比方法

  1. TSDE (Ouyang et al., 2017):基于访问计数的Thompson采样
  2. DS-PSRL (Theocharous et al., 2018):固定时间间隔的重采样方案
  3. 随机智能体:作为基线
  4. DQN with ε-greedy:在连续特征环境中的对比

实现细节

  • 先验分布:狄利克雷分布(转移)和正态-伽马分布(奖励)
  • 超参数:伪计数n=1,α=1/S,μ=σ²=1
  • 连续环境中使用Bootstrapped DQN,γ=0.99

实验结果

主要结果

  1. 表格式环境
    • Continuing PSRL与TSDE性能相当,尽管后者直接优化平均奖励
    • 显著优于DS-PSRL
    • 验证了理论预测的次线性后悔增长
  2. 连续特征环境
    • Bootstrapped DQN + 随机重采样实现次线性后悔
    • 明显优于vanilla DQN with ε-greedy探索
    • 证明了方法在复杂环境中的可扩展性

实验发现

  1. 简单重采样的有效性:尽管重采样机制简单,但性能与复杂方法相当
  2. 可扩展性优势:在高维状态空间中,传统依赖访问计数的方法失效,而本方法仍然有效
  3. 理论与实践的一致性:实验结果验证了理论分析的正确性

相关工作

Thompson采样与后验采样

  • 经典Thompson采样:最初用于多臂老虎机问题
  • PSRL扩展:Osband等人将其扩展到强化学习,但主要针对分幕式环境
  • Bootstrapped DQN:使用集成方法近似后验分布

持续性环境中的探索

  • TSDE:首个针对持续性环境的Thompson采样方法,但依赖复杂重采样标准
  • DS-PSRL:简化了重采样但需要强技术假设
  • 本工作:首次提供简单且严格的随机重采样方法

理论分析

  • 现有工作多考虑γ折扣后悔,本文关注无折扣后悔
  • 奖励平均时间τ的使用替代了传统的span概念
  • 弱连通MDP假设是有限时间后悔界的最一般设置

结论与讨论

主要结论

  1. 理论贡献:建立了Õ(τS√AT)的后悔界,匹配现有最佳结果
  2. 算法简洁性:仅需要一个伯努利随机数生成器即可实现有效探索
  3. 实用价值:算法可以直接集成到现有的深度强化学习方法中
  4. 折扣因子新视角:将折扣因子视为算法设计工具而非环境属性

局限性

  1. 理论假设:需要弱连通MDP和有界奖励平均时间的假设
  2. 先验依赖:性能依赖于合理的先验分布设置
  3. 参数调优:折扣因子γ的选择需要依赖时间范围T的知识
  4. 实验范围:实验主要在相对简单的环境中进行

未来方向

  1. 无先验知识设置:研究不需要T先验知识的自适应方法
  2. 更复杂环境:在更大规模和更复杂的环境中验证方法
  3. 理论改进:放松弱连通性等假设条件
  4. 实际应用:在真实应用场景中测试算法性能

深度评价

优点

  1. 理论严格性:提供了完整的理论分析和证明,填补了持续性环境PSRL的理论空白
  2. 算法简洁性:相比现有方法,重采样机制极其简单,易于实现和理解
  3. 可扩展性:自然支持函数逼近和高维状态空间,具有很强的实用价值
  4. 创新视角:将折扣因子重新解释为算法设计工具,提供了新的理论洞察

不足

  1. 实验深度不足:实验主要在简单环境中进行,缺乏大规模复杂环境的验证
  2. 参数敏感性:对折扣因子γ的选择依赖于问题参数,实际应用中可能需要仔细调优
  3. 对比不够全面:与一些相关的探索方法(如UCB类方法)缺乏对比
  4. 实际应用案例缺乏:主要是理论和简单仿真,缺乏真实应用场景的验证

影响力

  1. 理论贡献:为持续性环境的探索问题提供了新的理论框架
  2. 实用价值:算法的简洁性使其容易被采用和扩展
  3. 启发意义:折扣因子的新解释可能影响未来的算法设计
  4. 可复现性:算法描述清晰,理论分析完整,具有良好的可复现性

适用场景

  1. 持续性强化学习:需要长期交互而无自然分幕结构的环境
  2. 高维状态空间:传统基于计数的方法不适用的复杂环境
  3. 在线学习:需要在交互过程中持续学习和适应的场景
  4. 深度强化学习:可以集成到现有的深度RL框架中

参考文献

论文引用了强化学习领域的重要工作,包括:

  • Thompson sampling的经典工作 (Thompson, 1933)
  • PSRL的开创性工作 (Osband et al., 2013)
  • 持续性环境的相关研究 (Ouyang et al., 2017; Theocharous et al., 2018)
  • 深度强化学习的重要进展 (Mnih et al., 2015)

总体评价:这是一篇高质量的理论强化学习论文,在持续性环境的后验采样方法上做出了重要贡献。算法设计简洁优雅,理论分析严格完整,为该领域提供了新的视角和工具。尽管在实验验证方面还有提升空间,但其理论价值和实用潜力都很突出。