Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
論文ID : 2510.12334タイトル : Finite-time Convergence Analysis of Actor-Critic with Evolving Reward著者 : Rui Hu, Yu Chen, Longbo Huang (清華大学IIIS)分類 : cs.LG (機械学習), cs.AI (人工知能)発表日 : 2025年10月14日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.12334v1 多くの一般的な強化学習アルゴリズムは、報酬塑形、エントロピー正則化、またはカリキュラム学習などの技術を通じて進化報酬関数を採用していますが、その理論的基礎はまだ不十分です。本論文は、マルコフサンプリングの下で進化報酬関数が存在する場合の単一時間スケールアクター・クリティック法の有限時間収束分析を初めて提供します。研究では、報酬パラメータが各時間ステップで変化する可能性があり、政策最適化と価値推定の両方に影響を与える設定を考慮しています。標準的な仮定の下で、アクターとクリティックの誤差に対する非漸近的な境界を導出しています。結果は、報酬パラメータの進化が十分に遅い条件下では、O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) の収束率を達成でき、これは静的報酬の最良既知率と一致することを示しています。報酬が有界勾配を持つ勾配ベースの規則を通じてアクターとクリティックと同じ時間スケールで更新される場合、この収束率は保持され、多くの一般的な強化学習技術に対する理論的基礎を提供します。
理論と実践のギャップ : 強化学習理論は通常、静的報酬関数を持つマルコフ決定過程(MDP)に基づいて構築されていますが、実際のアプリケーションでは進化報酬技術が広く使用されています進化報酬の普遍性 : 実際のRLアルゴリズムでは、報酬塑形、エントロピー正則化、カリキュラム学習などの技術が学習効果を改善するために一般的に採用されています設計上の課題 : 現実のシナリオで学習可能かつ期待されるタスクと一致する報酬関数を設計することは大きな困難があります報酬関数はどの程度の速度で変化しながら、RLアルゴリズムの収束性を保証できるのか?
既存の理論分析は主に静的報酬設定に焦点を当てています 進化報酬下のアクター・クリティック法の収束性に関する理論的保証が不足しています マルコフサンプリング下の分布ミスマッチ分析の改善が必要です 先駆的理論分析 : 進化報酬下の単一時間スケールアクター・クリティック法の初の有限時間収束分析を提供収束率保証 : 報酬パラメータの進化が十分に遅い条件下でO ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 収束率を達成可能であることを証明し、静的報酬の場合と一致実用性の検証 : 勾配ベースの報酬更新規則が収束条件を満たすことを証明し、実際のRL技術に理論的支援を提供技術的改善 : マルコフサンプリング下の新しい分布ミスマッチ分析を導入し、静的報酬の場合の収束率をlog 2 T \log^2 T log 2 T 因子で改善無限視野割引マルコフ決定過程M = ( S , A , P , r , γ ) M = (S,A,P,r,\gamma) M = ( S , A , P , r , γ ) を研究対象とし、報酬関数r r r は時間とともに進化する可能性があります。目標は、進化報酬設定下でアクター・クリティック法の収束性を分析することです。
正則化報酬r ~ ϕ , θ ( s , a ) \tilde{r}_{\phi,\theta}(s,a) r ~ ϕ , θ ( s , a ) を決定するすべての要因を含む一般的な報酬パラメータϕ \phi ϕ を導入します:
r ~ ϕ , θ ( s , a ) = r ( s , a ) − α log π θ ( a ∣ s ) \tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s) r ~ ϕ , θ ( s , a ) = r ( s , a ) − α log π θ ( a ∣ s )
ここでα ≥ 0 \alpha \geq 0 α ≥ 0 はエントロピー正則化パラメータです。
アクター更新 :
θ t + 1 ← θ t + η t θ δ ^ t ∇ θ log π θ ( a t ∣ s t ) \theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t) θ t + 1 ← θ t + η t θ δ ^ t ∇ θ log π θ ( a t ∣ s t )
クリティック更新 :
ω t + 1 ← Proj C ω ( ω t + η t ω δ ^ t ϕ ( s t ) ) \omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t)) ω t + 1 ← Proj C ω ( ω t + η t ω δ ^ t ϕ ( s t ))
ここで時間差分誤差は以下の通りです:
δ ^ t = r ~ ϕ t , θ t ( s t , a t ) + ( γ ϕ ( s t ′ ) − ϕ ( s t ) ) ⊤ ω t \hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t δ ^ t = r ~ ϕ t , θ t ( s t , a t ) + ( γ ϕ ( s t ′ ) − ϕ ( s t ) ) ⊤ ω t
遍歴性を確保するため、サンプリングカーネルP ^ ( ⋅ ∣ s , a ) = γ P ( ⋅ ∣ s , a ) + ( 1 − γ ) ρ ( ⋅ ) \hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot) P ^ ( ⋅ ∣ s , a ) = γ P ( ⋅ ∣ s , a ) + ( 1 − γ ) ρ ( ⋅ ) を採用します。
政策目的J ϕ ( θ ) J_\phi(\theta) J ϕ ( θ ) と最適クリティックパラメータω ∗ ( ϕ , θ ) \omega^*(\phi,\theta) ω ∗ ( ϕ , θ ) の報酬パラメータϕ \phi ϕ に関するリプシッツ連続性を確立します:
J ϕ ( θ ) J_\phi(\theta) J ϕ ( θ ) はD J D_J D J -リプシッツ(ϕ \phi ϕ に関して)ω ∗ ( ϕ , θ ) \omega^*(\phi,\theta) ω ∗ ( ϕ , θ ) はD ω D_\omega D ω -リプシッツ(ϕ \phi ϕ に関して)命題4.8を提案し、状態分布上の誘導演算子の収縮性を直接利用します:
E ∥ ν ^ t − ν ρ π θ t ∥ 1 ≤ L C δ L ν ∑ k = 0 t − 1 γ t − 1 − k η k θ + γ t ∥ ρ − ν ρ π θ 0 ∥ 1 E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1 E ∥ ν ^ t − ν ρ π θ t ∥ 1 ≤ L C δ L ν ∑ k = 0 t − 1 γ t − 1 − k η k θ + γ t ∥ ρ − ν ρ π θ 0 ∥ 1
代数不等式2 G T W T ≤ 1 − γ 2 L G T + 2 L 1 − γ W T 2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T 2 G T W T ≤ 2 L 1 − γ G T + 1 − γ 2 L W T を通じてアクターとクリティックの誤差を分離します。
本論文は主に理論分析を実施し、以下の設定を採用しています:
アクター誤差 : G T = 1 T / 2 ∑ t = T / 2 T − 1 E ∥ ∇ θ J ϕ t ( θ t ) ∥ 2 2 G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2 G T = T /2 1 ∑ t = T /2 T − 1 E ∥ ∇ θ J ϕ t ( θ t ) ∥ 2 2 クリティック誤差 : W T = 1 T / 2 ∑ t = T / 2 T − 1 E ∥ ω t − ω t ∗ ∥ 2 2 W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2 W T = T /2 1 ∑ t = T /2 T − 1 E ∥ ω t − ω t ∗ ∥ 2 2 報酬変化 : F T = 1 T / 2 ∑ t = T / 2 T − 1 E ∥ ϕ t + 1 − ϕ t ∥ 2 2 F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2 F T = T /2 1 ∑ t = T /2 T − 1 E ∥ ϕ t + 1 − ϕ t ∥ 2 2 十分な探索 (仮定4.1): すべてのθ ∈ Ω ( θ ) \theta \in \Omega(\theta) θ ∈ Ω ( θ ) に対して、A θ A_\theta A θ は負定値で特異値の上界は− λ -\lambda − λ 政策リプシッツ連続性 (仮定4.3): ∥ ∇ θ log π θ ( a ∣ s ) ∥ 2 ≤ L \|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L ∥ ∇ θ log π θ ( a ∣ s ) ∥ 2 ≤ L 正則化報酬リプシッツ連続性 (仮定4.5): ϕ \phi ϕ に関するリプシッツ定数はD D D ステップサイズη t θ = c θ t \eta_t^\theta = \frac{c_\theta}{\sqrt{t}} η t θ = t c θ とη t ω = c ω t \eta_t^\omega = \frac{c_\omega}{\sqrt{t}} η t ω = t c ω でc θ c ω ≤ λ L S ω ∧ 1 16 L L ω \frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega} c ω c θ ≤ L S ω λ ∧ 16 L L ω 1 の条件下で:
G T = O ( 1 T ) + O ( F T T ) + O ( F T T ) + O ( ϵ ) G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon) G T = O ( T 1 ) + O ( F T T ) + O ( T F T ) + O ( ϵ )
W T = O ( 1 T ) + O ( F T T ) + O ( F T T ) + O ( ϵ ) W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon) W T = O ( T 1 ) + O ( F T T ) + O ( T F T ) + O ( ϵ )
報酬パラメータが勾配更新規則ϕ t + 1 ← ϕ t + η t ϕ h ϕ ( t ) \phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t) ϕ t + 1 ← ϕ t + η t ϕ h ϕ ( t ) を採用し、E ∥ h ϕ ( t ) ∥ 2 2 ≤ C ϕ 2 E\|h_\phi(t)\|_2^2 \leq C_\phi^2 E ∥ h ϕ ( t ) ∥ 2 2 ≤ C ϕ 2 、η t ϕ = c ϕ t \eta_t^\phi = \frac{c_\phi}{t} η t ϕ = t c ϕ の場合:
F T = O ( 1 T ) ⇒ G T = O ( 1 T ) + O ( ϵ ) , W T = O ( 1 T ) + O ( ϵ ) F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon) F T = O ( T 1 ) ⇒ G T = O ( T 1 ) + O ( ϵ ) , W T = O ( T 1 ) + O ( ϵ )
漸近収束 : F T = o ( 1 / T ) F_T = o(1/\sqrt{T}) F T = o ( 1/ T ) が必要O ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 収束率の維持 : F T = O ( 1 / T ) F_T = O(1/T) F T = O ( 1/ T ) が必要F T ≡ 0 F_T \equiv 0 F T ≡ 0 の場合、アルゴリズムは標準的なO ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 収束率を達成し、以前の研究と比較してlog 2 T \log^2 T log 2 T 因子を排除しています。
好奇心駆動報酬塑形、ランダムネットワーク蒸留、ソフトアクター・クリティック自動エントロピー調整を含む広範な実際の技術が理論的保証条件を満たすことを証明しています。
Agarwal et al. (2021), Mei et al. (2020): 正確な勾配オラクル仮定下の収束保証 Liu et al. (2020), Ding et al. (2022): 確率的設定下のサンプル複雑性 二重ループ設定 : Yang et al. (2019), Kumar et al. (2023)二重時間スケール : Wu et al. (2020), Xu et al. (2020b)単一時間スケール : Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)報酬塑形 : Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)エントロピー/KL正則化 : Haarnoja et al. (2018a,b), Jaques et al. (2019)カリキュラム学習 : Narvekar et al. (2020)単一時間スケールアクター・クリティック法は報酬の非定常性に対して顕著なロバスト性を示す 報酬パラメータの進化速度が制御される条件下で、標準的なO ( 1 / T ) O(1/\sqrt{T}) O ( 1/ T ) 収束率を維持できる 勾配ベースの報酬更新は理論的保証条件を満たし、実際の成功に対する理論的基礎を提供する 分析は線形関数近似のクリティックに限定されている リプシッツ連続性などの標準的な仮定を満たす必要がある 報酬変化の速度は厳密に制御される必要がある 非線形関数近似、特にニューラルネットワークへの拡張 理論的発見が、より効果的で証明可能に安定した報酬塑形アルゴリズム設計にもたらす示唆の探索 動的目標下の強化学習の分析(進化報酬、変化する初期分布または遷移確率) 先駆的貢献 : 進化報酬下のアクター・クリティック法に対する理論分析を初めて提供技術的厳密性 : 証明過程が完全で、仮定が合理的、分析が深い実用的価値 : 広く使用されているRL技術に理論的支援を提供方法的革新 : 分布ミスマッチ分析の改善は独立した価値を持つ適用範囲 : 線形関数近似に限定され、実際のアプリケーションは深いニューラルネットワークを多く採用仮定の制限 : リプシッツ連続性などの仮定は実践で検証が困難な場合がある実験検証 : 理論結果を検証する数値実験が不足している理論的貢献 : 進化報酬RL理論分析の空白を埋める実践的指導 : アルゴリズム設計に理論的指導原則を提供後続研究 : より複雑な設定への拡張の基礎を確立理論的保証が必要なRLアルゴリズム設計 報酬塑形とカリキュラム学習の理論分析 適応的エントロピー正則化アルゴリズムの収束性研究 論文は強化学習理論分析分野の重要な研究を引用しています:
Sutton & Barto (1998): 強化学習基礎理論 Chen et al. (2021), Olshevsky & Gharesifard (2023): 単一時間スケールアクター・クリティック分析 Haarnoja et al. (2018): ソフトアクター・クリティックアルゴリズム Pathak et al. (2017): 好奇心駆動探索 総合評価 : これは高品質な理論論文であり、進化報酬下のアクター・クリティック法に対する厳密な収束性分析を初めて提供しています。適用範囲に一定の限界がありますが、その理論的貢献は顕著であり、実際のRLアルゴリズムの理解と設計に重要な理論的基礎を提供しています。