Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
论文ID : 2510.12334标题 : Finite-time Convergence Analysis of Actor-Critic with Evolving Reward作者 : Rui Hu, Yu Chen, Longbo Huang (清华大学IIIS)分类 : cs.LG (机器学习), cs.AI (人工智能)发表时间 : 2025年10月14日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.12334v1 许多流行的强化学习算法采用演化奖励函数——通过奖励塑形、熵正则化或课程学习等技术——但其理论基础仍不完善。本文首次提供了在马尔可夫采样下存在演化奖励函数的单时间尺度Actor-Critic算法的有限时间收敛分析。研究考虑奖励参数在每个时间步都可能变化的设置,同时影响策略优化和价值估计。在标准假设下,推导出Actor和Critic误差的非渐近界。结果表明,在奖励参数演化足够缓慢的条件下,可以实现O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 的收敛率,与静态奖励的最佳已知率相匹配。当奖励通过有界梯度的基于梯度的规则在与Actor和Critic相同的时间尺度上更新时,这一收敛率得以保持,为许多流行的强化学习技术提供了理论基础。
理论与实践的差距 : 强化学习理论通常建立在静态奖励函数的马尔可夫决策过程(MDP)基础上,但实际应用中广泛使用演化奖励技术演化奖励的普遍性 : 实际RL算法中普遍采用奖励塑形、熵正则化、课程学习等技术来改善学习效果设计挑战 : 在现实场景中设计既可学习又与期望任务对齐的奖励函数存在显著困难奖励函数可以以多快的速度变化而仍能保证RL算法的收敛性?
现有理论分析主要集中在静态奖励设置 缺乏对演化奖励下Actor-Critic算法收敛性的理论保证 马尔可夫采样下的分布不匹配分析有待改进 首创性理论分析 : 提供了演化奖励下单时间尺度Actor-Critic算法的首个有限时间收敛分析收敛率保证 : 证明在奖励参数演化足够缓慢的条件下可实现O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 收敛率,与静态奖励情况相匹配实用性验证 : 证明基于梯度的奖励更新规则满足收敛条件,为实际RL技术提供理论支撑技术改进 : 引入新的马尔可夫采样下分布不匹配分析,将静态奖励情况下的收敛率改进了log 2 T \log^2 T log 2 T 因子研究无限视野折扣马尔可夫决策过程M = ( S , A , P , r , γ ) M = (S,A,P,r,\gamma) M = ( S , A , P , r , γ ) ,其中奖励函数r r r 可能随时间演化。目标是在演化奖励设置下分析Actor-Critic算法的收敛性。
引入通用奖励参数ϕ \phi ϕ ,包含所有决定正则化奖励r ~ ϕ , θ ( s , a ) \tilde{r}_{\phi,\theta}(s,a) r ~ ϕ , θ ( s , a ) 的因子:
r ~ ϕ , θ ( s , a ) = r ( s , a ) − α log π θ ( a ∣ s ) \tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s) r ~ ϕ , θ ( s , a ) = r ( s , a ) − α log π θ ( a ∣ s )
其中α ≥ 0 \alpha \geq 0 α ≥ 0 是熵正则化参数。
Actor更新 :
θ t + 1 ← θ t + η t θ δ ^ t ∇ θ log π θ ( a t ∣ s t ) \theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t) θ t + 1 ← θ t + η t θ δ ^ t ∇ θ log π θ ( a t ∣ s t )
Critic更新 :
ω t + 1 ← Proj C ω ( ω t + η t ω δ ^ t ϕ ( s t ) ) \omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t)) ω t + 1 ← Proj C ω ( ω t + η t ω δ ^ t ϕ ( s t ))
其中时序差分误差为:
δ ^ t = r ~ ϕ t , θ t ( s t , a t ) + ( γ ϕ ( s t ′ ) − ϕ ( s t ) ) ⊤ ω t \hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t δ ^ t = r ~ ϕ t , θ t ( s t , a t ) + ( γ ϕ ( s t ′ ) − ϕ ( s t ) ) ⊤ ω t
采用采样核P ^ ( ⋅ ∣ s , a ) = γ P ( ⋅ ∣ s , a ) + ( 1 − γ ) ρ ( ⋅ ) \hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot) P ^ ( ⋅ ∣ s , a ) = γ P ( ⋅ ∣ s , a ) + ( 1 − γ ) ρ ( ⋅ ) 确保遍历性。
建立策略目标J ϕ ( θ ) J_\phi(\theta) J ϕ ( θ ) 和最优Critic参数ω ∗ ( ϕ , θ ) \omega^*(\phi,\theta) ω ∗ ( ϕ , θ ) 关于奖励参数ϕ \phi ϕ 的Lipschitz连续性:
J ϕ ( θ ) J_\phi(\theta) J ϕ ( θ ) 是D J D_J D J -Lipschitz关于ϕ \phi ϕ ω ∗ ( ϕ , θ ) \omega^*(\phi,\theta) ω ∗ ( ϕ , θ ) 是D ω D_\omega D ω -Lipschitz关于ϕ \phi ϕ 提出关键命题4.8,直接利用诱导算子在状态分布上的收缩性质:
E ∥ ν ^ t − ν ρ π θ t ∥ 1 ≤ L C δ L ν ∑ k = 0 t − 1 γ t − 1 − k η k θ + γ t ∥ ρ − ν ρ π θ 0 ∥ 1 E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1 E ∥ ν ^ t − ν ρ π θ t ∥ 1 ≤ L C δ L ν ∑ k = 0 t − 1 γ t − 1 − k η k θ + γ t ∥ ρ − ν ρ π θ 0 ∥ 1
通过代数不等式2 G T W T ≤ 1 − γ 2 L G T + 2 L 1 − γ W T 2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T 2 G T W T ≤ 2 L 1 − γ G T + 1 − γ 2 L W T 解耦Actor和Critic误差。
本文主要进行理论分析,采用以下设置:
Actor误差 : G T = 1 T / 2 ∑ t = T / 2 T − 1 E ∥ ∇ θ J ϕ t ( θ t ) ∥ 2 2 G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2 G T = T /2 1 ∑ t = T /2 T − 1 E ∥ ∇ θ J ϕ t ( θ t ) ∥ 2 2 Critic误差 : W T = 1 T / 2 ∑ t = T / 2 T − 1 E ∥ ω t − ω t ∗ ∥ 2 2 W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2 W T = T /2 1 ∑ t = T /2 T − 1 E ∥ ω t − ω t ∗ ∥ 2 2 奖励变化 : F T = 1 T / 2 ∑ t = T / 2 T − 1 E ∥ ϕ t + 1 − ϕ t ∥ 2 2 F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2 F T = T /2 1 ∑ t = T /2 T − 1 E ∥ ϕ t + 1 − ϕ t ∥ 2 2 充分探索 (假设4.1): 对任意θ ∈ Ω ( θ ) \theta \in \Omega(\theta) θ ∈ Ω ( θ ) ,A θ A_\theta A θ 负定且奇异值上界为− λ -\lambda − λ 策略Lipschitz连续性 (假设4.3): ∥ ∇ θ log π θ ( a ∣ s ) ∥ 2 ≤ L \|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L ∥ ∇ θ log π θ ( a ∣ s ) ∥ 2 ≤ L 正则化奖励Lipschitz连续性 (假设4.5): 关于ϕ \phi ϕ 的Lipschitz常数为D D D 在步长η t θ = c θ t \eta_t^\theta = \frac{c_\theta}{\sqrt{t}} η t θ = t c θ 和η t ω = c ω t \eta_t^\omega = \frac{c_\omega}{\sqrt{t}} η t ω = t c ω 且c θ c ω ≤ λ L S ω ∧ 1 16 L L ω \frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega} c ω c θ ≤ L S ω λ ∧ 16 L L ω 1 条件下:
G T = O ( 1 T ) + O ( F T T ) + O ( F T T ) + O ( ϵ ) G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon) G T = O ( T 1 ) + O ( F T T ) + O ( T F T ) + O ( ϵ )
W T = O ( 1 T ) + O ( F T T ) + O ( F T T ) + O ( ϵ ) W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon) W T = O ( T 1 ) + O ( F T T ) + O ( T F T ) + O ( ϵ )
当奖励参数采用梯度更新规则ϕ t + 1 ← ϕ t + η t ϕ h ϕ ( t ) \phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t) ϕ t + 1 ← ϕ t + η t ϕ h ϕ ( t ) ,且E ∥ h ϕ ( t ) ∥ 2 2 ≤ C ϕ 2 E\|h_\phi(t)\|_2^2 \leq C_\phi^2 E ∥ h ϕ ( t ) ∥ 2 2 ≤ C ϕ 2 ,η t ϕ = c ϕ t \eta_t^\phi = \frac{c_\phi}{t} η t ϕ = t c ϕ 时:
F T = O ( 1 T ) ⇒ G T = O ( 1 T ) + O ( ϵ ) , W T = O ( 1 T ) + O ( ϵ ) F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon) F T = O ( T 1 ) ⇒ G T = O ( T 1 ) + O ( ϵ ) , W T = O ( T 1 ) + O ( ϵ )
渐近收敛 : 需要F T = o ( 1 / T ) F_T = o(1/\sqrt{T}) F T = o ( 1/ T ) 保持O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 收敛率 : 需要F T = O ( 1 / T ) F_T = O(1/T) F T = O ( 1/ T ) 当F T ≡ 0 F_T \equiv 0 F T ≡ 0 时,算法实现标准O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 收敛率,相比之前工作消除了log 2 T \log^2 T log 2 T 因子。
证明了包括好奇心驱动奖励塑形、随机网络蒸馏、软Actor-Critic自动熵调整等在内的广泛实际技术满足理论保证条件。
Agarwal et al. (2021), Mei et al. (2020): 精确梯度oracle假设下的收敛保证 Liu et al. (2020), Ding et al. (2022): 随机情况下的样本复杂度 双循环设置 : Yang et al. (2019), Kumar et al. (2023)双时间尺度 : Wu et al. (2020), Xu et al. (2020b)单时间尺度 : Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)奖励塑形 : Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)熵/KL正则化 : Haarnoja et al. (2018a,b), Jaques et al. (2019)课程学习 : Narvekar et al. (2020)单时间尺度Actor-Critic算法对奖励非平稳性具有显著鲁棒性 在奖励参数控制演化速度下可保持标准O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 收敛率 基于梯度的奖励更新满足理论保证条件,为实际成功提供理论基础 分析局限于线性函数逼近的Critic 需要满足Lipschitz连续性等标准假设 奖励变化速度需要受到严格控制 扩展到非线性函数逼近,特别是神经网络 探索理论发现对更有效、可证明稳定的奖励塑形算法设计的启示 分析动态目标下的强化学习(演化奖励、变化初始分布或转移概率) 开创性贡献 : 首次为演化奖励下的Actor-Critic算法提供理论分析技术严谨 : 证明过程完整,假设合理,分析深入实用价值 : 为广泛使用的RL技术提供理论支撑方法创新 : 分布不匹配分析的改进具有独立价值适用范围 : 仅限于线性函数逼近,现实应用多采用深度神经网络假设限制 : Lipschitz连续性等假设在实践中可能难以验证实验验证 : 缺乏数值实验验证理论结果理论贡献 : 填补了演化奖励RL理论分析的空白实践指导 : 为算法设计提供理论指导原则后续研究 : 为扩展到更复杂设置奠定基础需要理论保证的RL算法设计 奖励塑形和课程学习的理论分析 自适应熵正则化算法的收敛性研究 论文引用了强化学习理论分析领域的重要工作,包括:
Sutton & Barto (1998): 强化学习基础理论 Chen et al. (2021), Olshevsky & Gharesifard (2023): 单时间尺度Actor-Critic分析 Haarnoja et al. (2018): 软Actor-Critic算法 Pathak et al. (2017): 好奇心驱动探索 总体评价 : 这是一篇高质量的理论论文,首次为演化奖励下的Actor-Critic算法提供了严格的收敛性分析。虽然在适用范围上存在一定局限,但其理论贡献显著,为理解和设计实际RL算法提供了重要的理论基础。