2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
academic

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

基本信息

  • 论文ID: 2510.12334
  • 标题: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
  • 作者: Rui Hu, Yu Chen, Longbo Huang (清华大学IIIS)
  • 分类: cs.LG (机器学习), cs.AI (人工智能)
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12334v1

摘要

许多流行的强化学习算法采用演化奖励函数——通过奖励塑形、熵正则化或课程学习等技术——但其理论基础仍不完善。本文首次提供了在马尔可夫采样下存在演化奖励函数的单时间尺度Actor-Critic算法的有限时间收敛分析。研究考虑奖励参数在每个时间步都可能变化的设置,同时影响策略优化和价值估计。在标准假设下,推导出Actor和Critic误差的非渐近界。结果表明,在奖励参数演化足够缓慢的条件下,可以实现O(1/T)O(1/\sqrt{T})的收敛率,与静态奖励的最佳已知率相匹配。当奖励通过有界梯度的基于梯度的规则在与Actor和Critic相同的时间尺度上更新时,这一收敛率得以保持,为许多流行的强化学习技术提供了理论基础。

研究背景与动机

问题背景

  1. 理论与实践的差距: 强化学习理论通常建立在静态奖励函数的马尔可夫决策过程(MDP)基础上,但实际应用中广泛使用演化奖励技术
  2. 演化奖励的普遍性: 实际RL算法中普遍采用奖励塑形、熵正则化、课程学习等技术来改善学习效果
  3. 设计挑战: 在现实场景中设计既可学习又与期望任务对齐的奖励函数存在显著困难

核心问题

奖励函数可以以多快的速度变化而仍能保证RL算法的收敛性?

现有方法局限性

  1. 现有理论分析主要集中在静态奖励设置
  2. 缺乏对演化奖励下Actor-Critic算法收敛性的理论保证
  3. 马尔可夫采样下的分布不匹配分析有待改进

核心贡献

  1. 首创性理论分析: 提供了演化奖励下单时间尺度Actor-Critic算法的首个有限时间收敛分析
  2. 收敛率保证: 证明在奖励参数演化足够缓慢的条件下可实现O(1/T)O(1/\sqrt{T})收敛率,与静态奖励情况相匹配
  3. 实用性验证: 证明基于梯度的奖励更新规则满足收敛条件,为实际RL技术提供理论支撑
  4. 技术改进: 引入新的马尔可夫采样下分布不匹配分析,将静态奖励情况下的收敛率改进了log2T\log^2 T因子

方法详解

任务定义

研究无限视野折扣马尔可夫决策过程M=(S,A,P,r,γ)M = (S,A,P,r,\gamma),其中奖励函数rr可能随时间演化。目标是在演化奖励设置下分析Actor-Critic算法的收敛性。

模型架构

1. 演化奖励框架

引入通用奖励参数ϕ\phi,包含所有决定正则化奖励r~ϕ,θ(s,a)\tilde{r}_{\phi,\theta}(s,a)的因子: r~ϕ,θ(s,a)=r(s,a)αlogπθ(as)\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)

其中α0\alpha \geq 0是熵正则化参数。

2. Actor-Critic更新规则

Actor更新: θt+1θt+ηtθδ^tθlogπθ(atst)\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)

Critic更新: ωt+1ProjCω(ωt+ηtωδ^tϕ(st))\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))

其中时序差分误差为: δ^t=r~ϕt,θt(st,at)+(γϕ(st)ϕ(st))ωt\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t

3. 马尔可夫采样策略

采用采样核P^(s,a)=γP(s,a)+(1γ)ρ()\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot)确保遍历性。

技术创新点

1. 演化奖励的Lipschitz连续性分析

建立策略目标Jϕ(θ)J_\phi(\theta)和最优Critic参数ω(ϕ,θ)\omega^*(\phi,\theta)关于奖励参数ϕ\phi的Lipschitz连续性:

  • Jϕ(θ)J_\phi(\theta)DJD_J-Lipschitz关于ϕ\phi
  • ω(ϕ,θ)\omega^*(\phi,\theta)DωD_\omega-Lipschitz关于ϕ\phi

2. 新颖的分布不匹配分析

提出关键命题4.8,直接利用诱导算子在状态分布上的收缩性质: Eν^tνρπθt1LCδLνk=0t1γt1kηkθ+γtρνρπθ01E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1

3. 系统不等式求解

通过代数不等式2GTWT1γ2LGT+2L1γWT2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T解耦Actor和Critic误差。

实验设置

理论分析框架

本文主要进行理论分析,采用以下设置:

评价指标

  • Actor误差: GT=1T/2t=T/2T1EθJϕt(θt)22G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2
  • Critic误差: WT=1T/2t=T/2T1Eωtωt22W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2
  • 奖励变化: FT=1T/2t=T/2T1Eϕt+1ϕt22F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2

关键假设

  1. 充分探索 (假设4.1): 对任意θΩ(θ)\theta \in \Omega(\theta)AθA_\theta负定且奇异值上界为λ-\lambda
  2. 策略Lipschitz连续性 (假设4.3): θlogπθ(as)2L\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L
  3. 正则化奖励Lipschitz连续性 (假设4.5): 关于ϕ\phi的Lipschitz常数为DD

实验结果

主要理论结果

定理4.6 (主要收敛定理)

在步长ηtθ=cθt\eta_t^\theta = \frac{c_\theta}{\sqrt{t}}ηtω=cωt\eta_t^\omega = \frac{c_\omega}{\sqrt{t}}cθcωλLSω116LLω\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}条件下:

GT=O(1T)+O(FTT)+O(FTT)+O(ϵ)G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

WT=O(1T)+O(FTT)+O(FTT)+O(ϵ)W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

推论4.7 (梯度更新规则)

当奖励参数采用梯度更新规则ϕt+1ϕt+ηtϕhϕ(t)\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t),且Ehϕ(t)22Cϕ2E\|h_\phi(t)\|_2^2 \leq C_\phi^2ηtϕ=cϕt\eta_t^\phi = \frac{c_\phi}{t}时:

FT=O(1T)GT=O(1T)+O(ϵ),WT=O(1T)+O(ϵ)F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)

关键发现

1. 收敛条件

  • 渐近收敛: 需要FT=o(1/T)F_T = o(1/\sqrt{T})
  • 保持O(1/T)O(1/\sqrt{T})收敛率: 需要FT=O(1/T)F_T = O(1/T)

2. 静态奖励情况改进

FT0F_T \equiv 0时,算法实现标准O(1/T)O(1/\sqrt{T})收敛率,相比之前工作消除了log2T\log^2 T因子。

3. 实用性验证

证明了包括好奇心驱动奖励塑形、随机网络蒸馏、软Actor-Critic自动熵调整等在内的广泛实际技术满足理论保证条件。

相关工作

策略梯度方法有限时间分析

  • Agarwal et al. (2021), Mei et al. (2020): 精确梯度oracle假设下的收敛保证
  • Liu et al. (2020), Ding et al. (2022): 随机情况下的样本复杂度

Actor-Critic方法有限时间分析

  • 双循环设置: Yang et al. (2019), Kumar et al. (2023)
  • 双时间尺度: Wu et al. (2020), Xu et al. (2020b)
  • 单时间尺度: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

演化奖励技术

  • 奖励塑形: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
  • 熵/KL正则化: Haarnoja et al. (2018a,b), Jaques et al. (2019)
  • 课程学习: Narvekar et al. (2020)

结论与讨论

主要结论

  1. 单时间尺度Actor-Critic算法对奖励非平稳性具有显著鲁棒性
  2. 在奖励参数控制演化速度下可保持标准O(1/T)O(1/\sqrt{T})收敛率
  3. 基于梯度的奖励更新满足理论保证条件,为实际成功提供理论基础

局限性

  1. 分析局限于线性函数逼近的Critic
  2. 需要满足Lipschitz连续性等标准假设
  3. 奖励变化速度需要受到严格控制

未来方向

  1. 扩展到非线性函数逼近,特别是神经网络
  2. 探索理论发现对更有效、可证明稳定的奖励塑形算法设计的启示
  3. 分析动态目标下的强化学习(演化奖励、变化初始分布或转移概率)

深度评价

优点

  1. 开创性贡献: 首次为演化奖励下的Actor-Critic算法提供理论分析
  2. 技术严谨: 证明过程完整,假设合理,分析深入
  3. 实用价值: 为广泛使用的RL技术提供理论支撑
  4. 方法创新: 分布不匹配分析的改进具有独立价值

不足

  1. 适用范围: 仅限于线性函数逼近,现实应用多采用深度神经网络
  2. 假设限制: Lipschitz连续性等假设在实践中可能难以验证
  3. 实验验证: 缺乏数值实验验证理论结果

影响力

  1. 理论贡献: 填补了演化奖励RL理论分析的空白
  2. 实践指导: 为算法设计提供理论指导原则
  3. 后续研究: 为扩展到更复杂设置奠定基础

适用场景

  1. 需要理论保证的RL算法设计
  2. 奖励塑形和课程学习的理论分析
  3. 自适应熵正则化算法的收敛性研究

参考文献

论文引用了强化学习理论分析领域的重要工作,包括:

  • Sutton & Barto (1998): 强化学习基础理论
  • Chen et al. (2021), Olshevsky & Gharesifard (2023): 单时间尺度Actor-Critic分析
  • Haarnoja et al. (2018): 软Actor-Critic算法
  • Pathak et al. (2017): 好奇心驱动探索

总体评价: 这是一篇高质量的理论论文,首次为演化奖励下的Actor-Critic算法提供了严格的收敛性分析。虽然在适用范围上存在一定局限,但其理论贡献显著,为理解和设计实际RL算法提供了重要的理论基础。