2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
academic

進化報酬を伴うアクター・クリティック法の有限時間収束分析

基本情報

  • 論文ID: 2510.12334
  • タイトル: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
  • 著者: Rui Hu, Yu Chen, Longbo Huang (清華大学IIIS)
  • 分類: cs.LG (機械学習), cs.AI (人工知能)
  • 発表日: 2025年10月14日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.12334v1

要約

多くの一般的な強化学習アルゴリズムは、報酬塑形、エントロピー正則化、またはカリキュラム学習などの技術を通じて進化報酬関数を採用していますが、その理論的基礎はまだ不十分です。本論文は、マルコフサンプリングの下で進化報酬関数が存在する場合の単一時間スケールアクター・クリティック法の有限時間収束分析を初めて提供します。研究では、報酬パラメータが各時間ステップで変化する可能性があり、政策最適化と価値推定の両方に影響を与える設定を考慮しています。標準的な仮定の下で、アクターとクリティックの誤差に対する非漸近的な境界を導出しています。結果は、報酬パラメータの進化が十分に遅い条件下では、O(1/T)O(1/\sqrt{T})の収束率を達成でき、これは静的報酬の最良既知率と一致することを示しています。報酬が有界勾配を持つ勾配ベースの規則を通じてアクターとクリティックと同じ時間スケールで更新される場合、この収束率は保持され、多くの一般的な強化学習技術に対する理論的基礎を提供します。

研究背景と動機

問題背景

  1. 理論と実践のギャップ: 強化学習理論は通常、静的報酬関数を持つマルコフ決定過程(MDP)に基づいて構築されていますが、実際のアプリケーションでは進化報酬技術が広く使用されています
  2. 進化報酬の普遍性: 実際のRLアルゴリズムでは、報酬塑形、エントロピー正則化、カリキュラム学習などの技術が学習効果を改善するために一般的に採用されています
  3. 設計上の課題: 現実のシナリオで学習可能かつ期待されるタスクと一致する報酬関数を設計することは大きな困難があります

中核的問題

報酬関数はどの程度の速度で変化しながら、RLアルゴリズムの収束性を保証できるのか?

既存手法の限界

  1. 既存の理論分析は主に静的報酬設定に焦点を当てています
  2. 進化報酬下のアクター・クリティック法の収束性に関する理論的保証が不足しています
  3. マルコフサンプリング下の分布ミスマッチ分析の改善が必要です

核心的貢献

  1. 先駆的理論分析: 進化報酬下の単一時間スケールアクター・クリティック法の初の有限時間収束分析を提供
  2. 収束率保証: 報酬パラメータの進化が十分に遅い条件下でO(1/T)O(1/\sqrt{T})収束率を達成可能であることを証明し、静的報酬の場合と一致
  3. 実用性の検証: 勾配ベースの報酬更新規則が収束条件を満たすことを証明し、実際のRL技術に理論的支援を提供
  4. 技術的改善: マルコフサンプリング下の新しい分布ミスマッチ分析を導入し、静的報酬の場合の収束率をlog2T\log^2 T因子で改善

方法の詳細

タスク定義

無限視野割引マルコフ決定過程M=(S,A,P,r,γ)M = (S,A,P,r,\gamma)を研究対象とし、報酬関数rrは時間とともに進化する可能性があります。目標は、進化報酬設定下でアクター・クリティック法の収束性を分析することです。

モデルアーキテクチャ

1. 進化報酬フレームワーク

正則化報酬r~ϕ,θ(s,a)\tilde{r}_{\phi,\theta}(s,a)を決定するすべての要因を含む一般的な報酬パラメータϕ\phiを導入します: r~ϕ,θ(s,a)=r(s,a)αlogπθ(as)\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)

ここでα0\alpha \geq 0はエントロピー正則化パラメータです。

2. アクター・クリティック更新規則

アクター更新: θt+1θt+ηtθδ^tθlogπθ(atst)\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)

クリティック更新: ωt+1ProjCω(ωt+ηtωδ^tϕ(st))\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))

ここで時間差分誤差は以下の通りです: δ^t=r~ϕt,θt(st,at)+(γϕ(st)ϕ(st))ωt\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t

3. マルコフサンプリング戦略

遍歴性を確保するため、サンプリングカーネルP^(s,a)=γP(s,a)+(1γ)ρ()\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot)を採用します。

技術的革新点

1. 進化報酬のリプシッツ連続性分析

政策目的Jϕ(θ)J_\phi(\theta)と最適クリティックパラメータω(ϕ,θ)\omega^*(\phi,\theta)の報酬パラメータϕ\phiに関するリプシッツ連続性を確立します:

  • Jϕ(θ)J_\phi(\theta)DJD_J-リプシッツ(ϕ\phiに関して)
  • ω(ϕ,θ)\omega^*(\phi,\theta)DωD_\omega-リプシッツ(ϕ\phiに関して)

2. 新規の分布ミスマッチ分析

命題4.8を提案し、状態分布上の誘導演算子の収縮性を直接利用します: Eν^tνρπθt1LCδLνk=0t1γt1kηkθ+γtρνρπθ01E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1

3. システム不等式の解法

代数不等式2GTWT1γ2LGT+2L1γWT2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_Tを通じてアクターとクリティックの誤差を分離します。

実験設定

理論分析フレームワーク

本論文は主に理論分析を実施し、以下の設定を採用しています:

評価指標

  • アクター誤差: GT=1T/2t=T/2T1EθJϕt(θt)22G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2
  • クリティック誤差: WT=1T/2t=T/2T1Eωtωt22W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2
  • 報酬変化: FT=1T/2t=T/2T1Eϕt+1ϕt22F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2

主要な仮定

  1. 十分な探索 (仮定4.1): すべてのθΩ(θ)\theta \in \Omega(\theta)に対して、AθA_\thetaは負定値で特異値の上界はλ-\lambda
  2. 政策リプシッツ連続性 (仮定4.3): θlogπθ(as)2L\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L
  3. 正則化報酬リプシッツ連続性 (仮定4.5): ϕ\phiに関するリプシッツ定数はDD

実験結果

主要な理論結果

定理4.6 (主要収束定理)

ステップサイズηtθ=cθt\eta_t^\theta = \frac{c_\theta}{\sqrt{t}}ηtω=cωt\eta_t^\omega = \frac{c_\omega}{\sqrt{t}}cθcωλLSω116LLω\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}の条件下で:

GT=O(1T)+O(FTT)+O(FTT)+O(ϵ)G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

WT=O(1T)+O(FTT)+O(FTT)+O(ϵ)W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

系4.7 (勾配更新規則)

報酬パラメータが勾配更新規則ϕt+1ϕt+ηtϕhϕ(t)\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t)を採用し、Ehϕ(t)22Cϕ2E\|h_\phi(t)\|_2^2 \leq C_\phi^2ηtϕ=cϕt\eta_t^\phi = \frac{c_\phi}{t}の場合:

FT=O(1T)GT=O(1T)+O(ϵ),WT=O(1T)+O(ϵ)F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)

主要な発見

1. 収束条件

  • 漸近収束: FT=o(1/T)F_T = o(1/\sqrt{T})が必要
  • O(1/T)O(1/\sqrt{T})収束率の維持: FT=O(1/T)F_T = O(1/T)が必要

2. 静的報酬の場合の改善

FT0F_T \equiv 0の場合、アルゴリズムは標準的なO(1/T)O(1/\sqrt{T})収束率を達成し、以前の研究と比較してlog2T\log^2 T因子を排除しています。

3. 実用性の検証

好奇心駆動報酬塑形、ランダムネットワーク蒸留、ソフトアクター・クリティック自動エントロピー調整を含む広範な実際の技術が理論的保証条件を満たすことを証明しています。

関連研究

政策勾配法の有限時間分析

  • Agarwal et al. (2021), Mei et al. (2020): 正確な勾配オラクル仮定下の収束保証
  • Liu et al. (2020), Ding et al. (2022): 確率的設定下のサンプル複雑性

アクター・クリティック法の有限時間分析

  • 二重ループ設定: Yang et al. (2019), Kumar et al. (2023)
  • 二重時間スケール: Wu et al. (2020), Xu et al. (2020b)
  • 単一時間スケール: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

進化報酬技術

  • 報酬塑形: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
  • エントロピー/KL正則化: Haarnoja et al. (2018a,b), Jaques et al. (2019)
  • カリキュラム学習: Narvekar et al. (2020)

結論と考察

主要な結論

  1. 単一時間スケールアクター・クリティック法は報酬の非定常性に対して顕著なロバスト性を示す
  2. 報酬パラメータの進化速度が制御される条件下で、標準的なO(1/T)O(1/\sqrt{T})収束率を維持できる
  3. 勾配ベースの報酬更新は理論的保証条件を満たし、実際の成功に対する理論的基礎を提供する

限界

  1. 分析は線形関数近似のクリティックに限定されている
  2. リプシッツ連続性などの標準的な仮定を満たす必要がある
  3. 報酬変化の速度は厳密に制御される必要がある

今後の方向性

  1. 非線形関数近似、特にニューラルネットワークへの拡張
  2. 理論的発見が、より効果的で証明可能に安定した報酬塑形アルゴリズム設計にもたらす示唆の探索
  3. 動的目標下の強化学習の分析(進化報酬、変化する初期分布または遷移確率)

深い評価

利点

  1. 先駆的貢献: 進化報酬下のアクター・クリティック法に対する理論分析を初めて提供
  2. 技術的厳密性: 証明過程が完全で、仮定が合理的、分析が深い
  3. 実用的価値: 広く使用されているRL技術に理論的支援を提供
  4. 方法的革新: 分布ミスマッチ分析の改善は独立した価値を持つ

不足

  1. 適用範囲: 線形関数近似に限定され、実際のアプリケーションは深いニューラルネットワークを多く採用
  2. 仮定の制限: リプシッツ連続性などの仮定は実践で検証が困難な場合がある
  3. 実験検証: 理論結果を検証する数値実験が不足している

影響力

  1. 理論的貢献: 進化報酬RL理論分析の空白を埋める
  2. 実践的指導: アルゴリズム設計に理論的指導原則を提供
  3. 後続研究: より複雑な設定への拡張の基礎を確立

適用シーン

  1. 理論的保証が必要なRLアルゴリズム設計
  2. 報酬塑形とカリキュラム学習の理論分析
  3. 適応的エントロピー正則化アルゴリズムの収束性研究

参考文献

論文は強化学習理論分析分野の重要な研究を引用しています:

  • Sutton & Barto (1998): 強化学習基礎理論
  • Chen et al. (2021), Olshevsky & Gharesifard (2023): 単一時間スケールアクター・クリティック分析
  • Haarnoja et al. (2018): ソフトアクター・クリティックアルゴリズム
  • Pathak et al. (2017): 好奇心駆動探索

総合評価: これは高品質な理論論文であり、進化報酬下のアクター・クリティック法に対する厳密な収束性分析を初めて提供しています。適用範囲に一定の限界がありますが、その理論的貢献は顕著であり、実際のRLアルゴリズムの理解と設計に重要な理論的基礎を提供しています。