2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang

Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.

academic

進化報酬を伴うアクター・クリティック法の有限時間収束分析

基本情報

論文ID: 2510.12334
タイトル: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
著者: Rui Hu, Yu Chen, Longbo Huang (清華大学IIIS)
分類: cs.LG (機械学習), cs.AI (人工知能)
発表日: 2025年10月14日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.12334v1

要約

多くの一般的な強化学習アルゴリズムは、報酬塑形、エントロピー正則化、またはカリキュラム学習などの技術を通じて進化報酬関数を採用していますが、その理論的基礎はまだ不十分です。本論文は、マルコフサンプリングの下で進化報酬関数が存在する場合の単一時間スケールアクター・クリティック法の有限時間収束分析を初めて提供します。研究では、報酬パラメータが各時間ステップで変化する可能性があり、政策最適化と価値推定の両方に影響を与える設定を考慮しています。標準的な仮定の下で、アクターとクリティックの誤差に対する非漸近的な境界を導出しています。結果は、報酬パラメータの進化が十分に遅い条件下では、 $O(1/\sqrt{T})$ の収束率を達成でき、これは静的報酬の最良既知率と一致することを示しています。報酬が有界勾配を持つ勾配ベースの規則を通じてアクターとクリティックと同じ時間スケールで更新される場合、この収束率は保持され、多くの一般的な強化学習技術に対する理論的基礎を提供します。

研究背景と動機

問題背景

理論と実践のギャップ: 強化学習理論は通常、静的報酬関数を持つマルコフ決定過程(MDP)に基づいて構築されていますが、実際のアプリケーションでは進化報酬技術が広く使用されています
進化報酬の普遍性: 実際のRLアルゴリズムでは、報酬塑形、エントロピー正則化、カリキュラム学習などの技術が学習効果を改善するために一般的に採用されています
設計上の課題: 現実のシナリオで学習可能かつ期待されるタスクと一致する報酬関数を設計することは大きな困難があります

中核的問題

報酬関数はどの程度の速度で変化しながら、RLアルゴリズムの収束性を保証できるのか？

既存手法の限界

既存の理論分析は主に静的報酬設定に焦点を当てています
進化報酬下のアクター・クリティック法の収束性に関する理論的保証が不足しています
マルコフサンプリング下の分布ミスマッチ分析の改善が必要です

核心的貢献

先駆的理論分析: 進化報酬下の単一時間スケールアクター・クリティック法の初の有限時間収束分析を提供
収束率保証: 報酬パラメータの進化が十分に遅い条件下で $O(1/\sqrt{T})$ 収束率を達成可能であることを証明し、静的報酬の場合と一致
実用性の検証: 勾配ベースの報酬更新規則が収束条件を満たすことを証明し、実際のRL技術に理論的支援を提供
技術的改善: マルコフサンプリング下の新しい分布ミスマッチ分析を導入し、静的報酬の場合の収束率を $\log^2 T$ 因子で改善

方法の詳細

タスク定義

無限視野割引マルコフ決定過程 $M = (S,A,P,r,\gamma)$ を研究対象とし、報酬関数 $r$ は時間とともに進化する可能性があります。目標は、進化報酬設定下でアクター・クリティック法の収束性を分析することです。

モデルアーキテクチャ

1. 進化報酬フレームワーク

正則化報酬 $\tilde{r}_{\phi,\theta}(s,a)$ を決定するすべての要因を含む一般的な報酬パラメータ $\phi$ を導入します： $\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)$

ここで $\alpha \geq 0$ はエントロピー正則化パラメータです。

2. アクター・クリティック更新規則

アクター更新: $\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)$

クリティック更新: $\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))$

ここで時間差分誤差は以下の通りです： $\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t$

3. マルコフサンプリング戦略

遍歴性を確保するため、サンプリングカーネル $\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot)$ を採用します。

技術的革新点

1. 進化報酬のリプシッツ連続性分析

政策目的 $J_\phi(\theta)$ と最適クリティックパラメータ $\omega^*(\phi,\theta)$ の報酬パラメータ $\phi$ に関するリプシッツ連続性を確立します：

$J_\phi(\theta)$ は $D_J$ -リプシッツ（ $\phi$ に関して）
$\omega^*(\phi,\theta)$ は $D_\omega$ -リプシッツ（ $\phi$ に関して）

2. 新規の分布ミスマッチ分析

命題4.8を提案し、状態分布上の誘導演算子の収縮性を直接利用します： $E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1$

3. システム不等式の解法

代数不等式 $2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T$ を通じてアクターとクリティックの誤差を分離します。

実験設定

理論分析フレームワーク

本論文は主に理論分析を実施し、以下の設定を採用しています：

評価指標

アクター誤差: $G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2$
クリティック誤差: $W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2$
報酬変化: $F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2$

主要な仮定

十分な探索 (仮定4.1): すべての $\theta \in \Omega(\theta)$ に対して、 $A_\theta$ は負定値で特異値の上界は $-\lambda$
政策リプシッツ連続性 (仮定4.3): $\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L$
正則化報酬リプシッツ連続性 (仮定4.5): $\phi$ に関するリプシッツ定数は $D$

実験結果

主要な理論結果

定理4.6 (主要収束定理)

ステップサイズ $\eta_t^\theta = \frac{c_\theta}{\sqrt{t}}$ と $\eta_t^\omega = \frac{c_\omega}{\sqrt{t}}$ で $\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}$ の条件下で：

$G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

$W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

系4.7 (勾配更新規則)

報酬パラメータが勾配更新規則 $\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t)$ を採用し、 $E\|h_\phi(t)\|_2^2 \leq C_\phi^2$ 、 $\eta_t^\phi = \frac{c_\phi}{t}$ の場合：

$F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)$