We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $γ$-discounted return in that model. At each time, with probability $1-γ$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
论文ID : 2211.15931标题 : Posterior Sampling for Continuing Environments作者 : Wanqiao Xu (Stanford University), Shi Dong (Google DeepMind), Benjamin Van Roy (Stanford University)分类 : cs.LG stat.ML发表会议 : RLJ | RLC 2024论文链接 : https://arxiv.org/abs/2211.15931 本文提出了一种适用于持续性环境的后验采样强化学习算法(Continuing PSRL),该算法能够自然地集成到可扩展的智能体设计中。算法维护一个统计上合理的环境模型,并遵循一个在该模型中最大化γ折扣回报的策略。在每个时间步,算法以概率1-γ从环境的后验分布中重新采样模型。通过适当选择依赖于时间范围T的折扣因子,建立了Õ(τS√AT)的贝叶斯后悔界,其中S是环境状态数,A是动作数,τ表示奖励平均时间。
现有的后验采样强化学习算法主要针对分幕式(episodic)环境设计,依赖于维护状态-动作访问计数,这使得它们不适用于具有高维状态空间的复杂持续性环境。
持续性环境学习 是强化学习中的基础问题,但现有的随机化探索方法主要局限于分幕式环境可扩展性需求 :传统方法依赖状态-动作访问计数,在复杂环境中不可行理论空白 :缺乏针对持续性环境的严格理论分析TSDE (Ouyang et al., 2017) :需要复杂的重采样标准,包括访问计数翻倍条件,在大状态空间中不可行DS-PSRL (Theocharous et al., 2018) :虽然避免了访问计数,但分析依赖于强技术假设,在没有这些假设时后悔界线性增长传统PSRL :仅适用于分幕式环境,无法直接扩展到持续性设置提出一个简单、可扩展且理论上严格的持续性环境后验采样算法,能够:
避免维护状态-动作访问计数 自然集成到现有的函数逼近方法中 提供与现有最佳方法相匹配的理论保证 首个可扩展的持续性PSRL算法 :提出了基于简单随机化方案的Continuing PSRL,避免了复杂的重采样标准严格的理论分析 :建立了Õ(τS√AT)的贝叶斯后悔界,匹配现有最佳结果可扩展性突破 :算法可以自然扩展到高维状态空间和函数逼近设置折扣因子的新视角 :将折扣因子视为算法设计工具而非环境属性,提供了理解折扣因子作用的新视角考虑一个未知环境E = (A,S,ρ)建模的马尔可夫决策过程,其中:
A是有限动作空间,|A| = A S是有限状态空间,|S| = S ρ是状态转移概率函数 奖励函数r : S × A → 0,1 是确定性的已知函数 目标是最小化累积后悔:
Regret ( T , π ) : = ∑ t = 0 T − 1 ( λ ∗ , E − R t + 1 ) \text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1}) Regret ( T , π ) := ∑ t = 0 T − 1 ( λ ∗ , E − R t + 1 )
其中λ_{*,E}是最优平均奖励。
算法将无限时间范围学习问题分解为随机长度的伪分幕:
在每个时间步t,采样二进制指示器X_t 当X_t = 0时,开始新的伪分幕并重新采样环境模型 当X_t = 1时,继续当前伪分幕 对于环境E和策略π,γ折扣价值函数定义为:
V π , E γ : = E [ ∑ h = 0 H − 1 P π h r π ∣ E ] = E [ ∑ h = 0 ∞ γ h P π h r π ∣ E ] V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right] V π , E γ := E [ ∑ h = 0 H − 1 P π h r π ∣ E ] = E [ ∑ h = 0 ∞ γ h P π h r π ∣ E ]
其中H是伪分幕长度,服从几何分布。
关键概念是奖励平均时间τ_{π,E},定义为最小值τ使得:
∣ E π [ ∑ t = 0 T − 1 R t + 1 ∣ E , S 0 = s ] − T ⋅ λ π , E ( s ) ∣ ≤ τ \left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ E π [ ∑ t = 0 T − 1 R t + 1 ∣ E , S 0 = s ] − T ⋅ λ π , E ( s ) ≤ τ
Algorithm 1: Continuing PSRL
输入:先验分布f,折扣因子γ,总学习时间T
1. 初始化 t=1, k=1, X₁=0
2. for t ≤ T:
3. if Xₜ = 0:
4. tₖ ← t
5. 采样 Eₖ ~ f(·|H_tₖ)
6. 计算 πₖ = π^γ_Eₖ
7. k ← k+1
8. 采样并执行 Aₜ ~ πₖ(·|Sₜ)
9. 观察 Rₜ₊₁ 和 Sₜ₊₁
10. t ← t+1
11. 采样 Xₜ₊₁ ~ Bernoulli(γ)
简单重采样机制 :仅使用伯努利随机数生成器,避免复杂的访问计数条件折扣因子与重采样概率的联系 :设定γ = 1-p,其中p是重采样概率策略无关的重采样 :重采样标准独立于策略,简化了分析时变折扣因子 :允许折扣因子随时间增长,实现次线性后悔表格式RiverSwim环境 :6个状态的链式结构 左端状态奖励0.005,右端状态奖励1.0 最优策略是始终向右游 连续特征RiverSwim环境 :类似结构但使用像素特征观察 特征映射:φ(s_t) = 1{x ≤ s_t} ∈ 0,1 ^N 测试函数逼近设置下的算法性能 累积后悔(Cumulative Regret) 平均后悔随时间的变化 TSDE (Ouyang et al., 2017):基于访问计数的Thompson采样DS-PSRL (Theocharous et al., 2018):固定时间间隔的重采样方案随机智能体 :作为基线DQN with ε-greedy :在连续特征环境中的对比先验分布:狄利克雷分布(转移)和正态-伽马分布(奖励) 超参数:伪计数n=1,α=1/S,μ=σ²=1 连续环境中使用Bootstrapped DQN,γ=0.99 表格式环境 :Continuing PSRL与TSDE性能相当,尽管后者直接优化平均奖励 显著优于DS-PSRL 验证了理论预测的次线性后悔增长 连续特征环境 :Bootstrapped DQN + 随机重采样实现次线性后悔 明显优于vanilla DQN with ε-greedy探索 证明了方法在复杂环境中的可扩展性 简单重采样的有效性 :尽管重采样机制简单,但性能与复杂方法相当可扩展性优势 :在高维状态空间中,传统依赖访问计数的方法失效,而本方法仍然有效理论与实践的一致性 :实验结果验证了理论分析的正确性经典Thompson采样 :最初用于多臂老虎机问题PSRL扩展 :Osband等人将其扩展到强化学习,但主要针对分幕式环境Bootstrapped DQN :使用集成方法近似后验分布TSDE :首个针对持续性环境的Thompson采样方法,但依赖复杂重采样标准DS-PSRL :简化了重采样但需要强技术假设本工作 :首次提供简单且严格的随机重采样方法现有工作多考虑γ折扣后悔,本文关注无折扣后悔 奖励平均时间τ的使用替代了传统的span概念 弱连通MDP假设是有限时间后悔界的最一般设置 理论贡献 :建立了Õ(τS√AT)的后悔界,匹配现有最佳结果算法简洁性 :仅需要一个伯努利随机数生成器即可实现有效探索实用价值 :算法可以直接集成到现有的深度强化学习方法中折扣因子新视角 :将折扣因子视为算法设计工具而非环境属性理论假设 :需要弱连通MDP和有界奖励平均时间的假设先验依赖 :性能依赖于合理的先验分布设置参数调优 :折扣因子γ的选择需要依赖时间范围T的知识实验范围 :实验主要在相对简单的环境中进行无先验知识设置 :研究不需要T先验知识的自适应方法更复杂环境 :在更大规模和更复杂的环境中验证方法理论改进 :放松弱连通性等假设条件实际应用 :在真实应用场景中测试算法性能理论严格性 :提供了完整的理论分析和证明,填补了持续性环境PSRL的理论空白算法简洁性 :相比现有方法,重采样机制极其简单,易于实现和理解可扩展性 :自然支持函数逼近和高维状态空间,具有很强的实用价值创新视角 :将折扣因子重新解释为算法设计工具,提供了新的理论洞察实验深度不足 :实验主要在简单环境中进行,缺乏大规模复杂环境的验证参数敏感性 :对折扣因子γ的选择依赖于问题参数,实际应用中可能需要仔细调优对比不够全面 :与一些相关的探索方法(如UCB类方法)缺乏对比实际应用案例缺乏 :主要是理论和简单仿真,缺乏真实应用场景的验证理论贡献 :为持续性环境的探索问题提供了新的理论框架实用价值 :算法的简洁性使其容易被采用和扩展启发意义 :折扣因子的新解释可能影响未来的算法设计可复现性 :算法描述清晰,理论分析完整,具有良好的可复现性持续性强化学习 :需要长期交互而无自然分幕结构的环境高维状态空间 :传统基于计数的方法不适用的复杂环境在线学习 :需要在交互过程中持续学习和适应的场景深度强化学习 :可以集成到现有的深度RL框架中论文引用了强化学习领域的重要工作,包括:
Thompson sampling的经典工作 (Thompson, 1933) PSRL的开创性工作 (Osband et al., 2013) 持续性环境的相关研究 (Ouyang et al., 2017; Theocharous et al., 2018) 深度强化学习的重要进展 (Mnih et al., 2015) 总体评价 :这是一篇高质量的理论强化学习论文,在持续性环境的后验采样方法上做出了重要贡献。算法设计简洁优雅,理论分析严格完整,为该领域提供了新的视角和工具。尽管在实验验证方面还有提升空间,但其理论价值和实用潜力都很突出。