2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
academic

Analyse de Convergence en Temps Fini d'Actor-Critic avec Récompense Évolutive

Informations Fondamentales

  • ID de l'article: 2510.12334
  • Titre: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
  • Auteurs: Rui Hu, Yu Chen, Longbo Huang (IIIS, Université Tsinghua)
  • Classification: cs.LG (Apprentissage automatique), cs.AI (Intelligence artificielle)
  • Date de publication: 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.12334v1

Résumé

De nombreux algorithmes populaires d'apprentissage par renforcement emploient des fonctions de récompense évolutives — par le biais de techniques telles que le façonnage des récompenses, la régularisation entropique ou l'apprentissage par curriculum — mais leurs fondements théoriques restent incomplets. Cet article fournit pour la première fois une analyse de convergence en temps fini pour l'algorithme Actor-Critic à une seule échelle de temps en présence de fonctions de récompense évolutives sous échantillonnage markovien. L'étude considère le cadre où les paramètres de récompense peuvent changer à chaque pas de temps, affectant simultanément l'optimisation de la politique et l'estimation de la valeur. Sous des hypothèses standard, nous dérivons des bornes non-asymptotiques pour les erreurs de l'Actor et du Critic. Les résultats montrent qu'une vitesse de convergence de O(1/T)O(1/\sqrt{T}) peut être atteinte lorsque l'évolution des paramètres de récompense est suffisamment lente, ce qui correspond aux meilleurs taux connus pour les récompenses statiques. Cette vitesse de convergence est maintenue lorsque la récompense est mise à jour selon une règle basée sur le gradient avec des gradients bornés à la même échelle de temps que l'Actor et le Critic, fournissant une base théorique pour de nombreuses techniques d'apprentissage par renforcement populaires.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Écart entre théorie et pratique: La théorie de l'apprentissage par renforcement s'établit généralement sur des processus de décision markoviens (MDP) avec des fonctions de récompense statiques, tandis que les applications pratiques utilisent largement des techniques de récompense évolutive
  2. Omniprésence des récompenses évolutives: Les algorithmes RL pratiques emploient couramment le façonnage des récompenses, la régularisation entropique, l'apprentissage par curriculum et d'autres techniques pour améliorer l'efficacité de l'apprentissage
  3. Défis de conception: La conception de fonctions de récompense à la fois apprises et alignées avec les tâches souhaitées présente des difficultés significatives dans les scénarios réels

Problème Central

À quelle vitesse une fonction de récompense peut-elle évoluer tout en garantissant la convergence de l'algorithme RL?

Limitations des Approches Existantes

  1. L'analyse théorique existante se concentre principalement sur les paramètres de récompense statiques
  2. Absence de garanties théoriques de convergence pour les algorithmes Actor-Critic sous récompenses évolutives
  3. L'analyse de l'inadéquation de distribution sous échantillonnage markovien nécessite des améliorations

Contributions Principales

  1. Analyse théorique pionnière: Fournit la première analyse de convergence en temps fini pour l'algorithme Actor-Critic à une seule échelle de temps avec récompenses évolutives
  2. Garanties de taux de convergence: Démontre qu'une vitesse de convergence de O(1/T)O(1/\sqrt{T}) peut être atteinte lorsque l'évolution des paramètres de récompense est suffisamment lente, correspondant au cas des récompenses statiques
  3. Validation pratique: Démontre que les règles de mise à jour de récompense basées sur le gradient satisfont les conditions de convergence, fournissant un soutien théorique aux techniques RL pratiques
  4. Améliorations techniques: Introduit une nouvelle analyse de l'inadéquation de distribution sous échantillonnage markovien, améliorant le taux de convergence du cas de récompense statique d'un facteur log2T\log^2 T

Détails de la Méthode

Définition de la Tâche

L'étude porte sur les processus de décision markoviens à horizon infini avec actualisation M=(S,A,P,r,γ)M = (S,A,P,r,\gamma), où la fonction de récompense rr peut évoluer dans le temps. L'objectif est d'analyser la convergence de l'algorithme Actor-Critic dans le cadre des récompenses évolutives.

Architecture du Modèle

1. Cadre de Récompense Évolutive

Introduction d'un paramètre de récompense générique ϕ\phi englobant tous les facteurs déterminant la récompense régularisée r~ϕ,θ(s,a)\tilde{r}_{\phi,\theta}(s,a): r~ϕ,θ(s,a)=r(s,a)αlogπθ(as)\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)

α0\alpha \geq 0 est le paramètre de régularisation entropique.

2. Règles de Mise à Jour Actor-Critic

Mise à jour de l'Actor: θt+1θt+ηtθδ^tθlogπθ(atst)\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)

Mise à jour du Critic: ωt+1ProjCω(ωt+ηtωδ^tϕ(st))\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))

où l'erreur de différence temporelle est: δ^t=r~ϕt,θt(st,at)+(γϕ(st)ϕ(st))ωt\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t

3. Stratégie d'Échantillonnage Markovien

Utilisation d'un noyau d'échantillonnage P^(s,a)=γP(s,a)+(1γ)ρ()\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot) pour assurer l'ergodicité.

Points d'Innovation Technique

1. Analyse de Continuité Lipschitz des Récompenses Évolutives

Établissement de la continuité Lipschitz de l'objectif de politique Jϕ(θ)J_\phi(\theta) et du paramètre Critic optimal ω(ϕ,θ)\omega^*(\phi,\theta) par rapport au paramètre de récompense ϕ\phi:

  • Jϕ(θ)J_\phi(\theta) est DJD_J-Lipschitz par rapport à ϕ\phi
  • ω(ϕ,θ)\omega^*(\phi,\theta) est DωD_\omega-Lipschitz par rapport à ϕ\phi

2. Analyse Novatrice de l'Inadéquation de Distribution

Proposition clé 4.8 exploitant directement la propriété de contraction de l'opérateur induit sur la distribution d'états: Eν^tνρπθt1LCδLνk=0t1γt1kηkθ+γtρνρπθ01E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1

3. Résolution d'Inégalités Systémiques

Découplage des erreurs de l'Actor et du Critic par l'inégalité algébrique 2GTWT1γ2LGT+2L1γWT2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T.

Configuration Expérimentale

Cadre d'Analyse Théorique

Cet article se concentre principalement sur l'analyse théorique, adoptant les paramètres suivants:

Métriques d'Évaluation

  • Erreur de l'Actor: GT=1T/2t=T/2T1EθJϕt(θt)22G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2
  • Erreur du Critic: WT=1T/2t=T/2T1Eωtωt22W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2
  • Variation de récompense: FT=1T/2t=T/2T1Eϕt+1ϕt22F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2

Hypothèses Clés

  1. Exploration suffisante (Hypothèse 4.1): Pour tout θΩ(θ)\theta \in \Omega(\theta), AθA_\theta est défini négatif avec valeurs singulières bornées par λ-\lambda
  2. Continuité Lipschitz de la politique (Hypothèse 4.3): θlogπθ(as)2L\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L
  3. Continuité Lipschitz de la récompense régularisée (Hypothèse 4.5): Constante de Lipschitz par rapport à ϕ\phi égale à DD

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 4.6 (Théorème de Convergence Principal)

Sous les pas ηtθ=cθt\eta_t^\theta = \frac{c_\theta}{\sqrt{t}} et ηtω=cωt\eta_t^\omega = \frac{c_\omega}{\sqrt{t}} avec cθcωλLSω116LLω\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}:

GT=O(1T)+O(FTT)+O(FTT)+O(ϵ)G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

WT=O(1T)+O(FTT)+O(FTT)+O(ϵ)W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

Corollaire 4.7 (Règle de Mise à Jour par Gradient)

Lorsque les paramètres de récompense sont mis à jour selon la règle ϕt+1ϕt+ηtϕhϕ(t)\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t), avec Ehϕ(t)22Cϕ2E\|h_\phi(t)\|_2^2 \leq C_\phi^2, ηtϕ=cϕt\eta_t^\phi = \frac{c_\phi}{t}:

FT=O(1T)GT=O(1T)+O(ϵ),WT=O(1T)+O(ϵ)F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)

Découvertes Clés

1. Conditions de Convergence

  • Convergence asymptotique: Nécessite FT=o(1/T)F_T = o(1/\sqrt{T})
  • Maintien du taux de convergence O(1/T)O(1/\sqrt{T}): Nécessite FT=O(1/T)F_T = O(1/T)

2. Amélioration du Cas de Récompense Statique

Lorsque FT0F_T \equiv 0, l'algorithme atteint le taux de convergence standard O(1/T)O(1/\sqrt{T}), éliminant le facteur log2T\log^2 T des travaux antérieurs.

3. Validation Pratique

Démonstration que de nombreuses techniques pratiques, notamment le façonnage des récompenses guidé par la curiosité, la distillation de réseaux stochastiques, et l'ajustement automatique de l'entropie du Soft Actor-Critic, satisfont les conditions de garantie théorique.

Travaux Connexes

Analyse en Temps Fini des Méthodes de Gradient de Politique

  • Agarwal et al. (2021), Mei et al. (2020): Garanties de convergence sous hypothèse d'oracle de gradient exact
  • Liu et al. (2020), Ding et al. (2022): Complexité d'échantillon en cas stochastique

Analyse en Temps Fini des Méthodes Actor-Critic

  • Paramètre double boucle: Yang et al. (2019), Kumar et al. (2023)
  • Double échelle de temps: Wu et al. (2020), Xu et al. (2020b)
  • Échelle de temps unique: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

Techniques de Récompense Évolutive

  • Façonnage des récompenses: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
  • Régularisation entropique/KL: Haarnoja et al. (2018a,b), Jaques et al. (2019)
  • Apprentissage par curriculum: Narvekar et al. (2020)

Conclusion et Discussion

Conclusions Principales

  1. L'algorithme Actor-Critic à échelle de temps unique présente une robustesse significative face à la non-stationnarité des récompenses
  2. Sous contrôle de la vitesse d'évolution des paramètres de récompense, le taux de convergence standard O(1/T)O(1/\sqrt{T}) peut être maintenu
  3. Les mises à jour de récompense basées sur le gradient satisfont les conditions de garantie théorique, fournissant une base théorique aux succès pratiques

Limitations

  1. L'analyse se limite à l'approximation linéaire de fonction pour le Critic
  2. Nécessite de satisfaire les hypothèses standard telles que la continuité Lipschitz
  3. La vitesse de variation des récompenses doit être strictement contrôlée

Directions Futures

  1. Extension à l'approximation non-linéaire de fonction, particulièrement les réseaux de neurones
  2. Exploration des implications des découvertes théoriques pour la conception d'algorithmes de façonnage des récompenses plus efficaces et provablement stables
  3. Analyse de l'apprentissage par renforcement sous objectifs dynamiques (récompenses évolutives, distributions initiales changeantes ou probabilités de transition)

Évaluation Approfondie

Points Forts

  1. Contribution pionnière: Première analyse théorique pour l'algorithme Actor-Critic avec récompenses évolutives
  2. Rigueur technique: Preuve complète, hypothèses raisonnables, analyse approfondie
  3. Valeur pratique: Fournit un soutien théorique aux techniques RL largement utilisées
  4. Innovation méthodologique: L'amélioration de l'analyse de l'inadéquation de distribution possède une valeur indépendante

Insuffisances

  1. Portée d'application: Limitée à l'approximation linéaire de fonction, tandis que les applications réelles utilisent principalement des réseaux de neurones profonds
  2. Limitations des hypothèses: Les hypothèses de continuité Lipschitz peuvent être difficiles à vérifier en pratique
  3. Validation expérimentale: Absence d'expériences numériques validant les résultats théoriques

Impact

  1. Contribution théorique: Comble le vide dans l'analyse théorique du RL avec récompenses évolutives
  2. Orientation pratique: Fournit des principes directeurs théoriques pour la conception d'algorithmes
  3. Recherche ultérieure: Établit les fondations pour l'extension à des cadres plus complexes

Scénarios d'Application

  1. Conception d'algorithmes RL nécessitant des garanties théoriques
  2. Analyse théorique du façonnage des récompenses et de l'apprentissage par curriculum
  3. Recherche sur la convergence des algorithmes d'ajustement automatique de l'entropie

Références

L'article cite des travaux importants dans le domaine de l'analyse théorique de l'apprentissage par renforcement, notamment:

  • Sutton & Barto (1998): Théorie fondamentale de l'apprentissage par renforcement
  • Chen et al. (2021), Olshevsky & Gharesifard (2023): Analyse Actor-Critic à échelle de temps unique
  • Haarnoja et al. (2018): Algorithme Soft Actor-Critic
  • Pathak et al. (2017): Exploration guidée par la curiosité

Évaluation Globale: Ceci est un article théorique de haute qualité fournissant pour la première fois une analyse rigoureuse de la convergence de l'algorithme Actor-Critic avec récompenses évolutives. Bien que présentant certaines limitations dans sa portée d'application, sa contribution théorique est significative et fournit une base théorique importante pour la compréhension et la conception d'algorithmes RL pratiques.