2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang

Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.

academic

Analyse de Convergence en Temps Fini d'Actor-Critic avec Récompense Évolutive

Informations Fondamentales

ID de l'article: 2510.12334
Titre: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
Auteurs: Rui Hu, Yu Chen, Longbo Huang (IIIS, Université Tsinghua)
Classification: cs.LG (Apprentissage automatique), cs.AI (Intelligence artificielle)
Date de publication: 14 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.12334v1

Résumé

De nombreux algorithmes populaires d'apprentissage par renforcement emploient des fonctions de récompense évolutives — par le biais de techniques telles que le façonnage des récompenses, la régularisation entropique ou l'apprentissage par curriculum — mais leurs fondements théoriques restent incomplets. Cet article fournit pour la première fois une analyse de convergence en temps fini pour l'algorithme Actor-Critic à une seule échelle de temps en présence de fonctions de récompense évolutives sous échantillonnage markovien. L'étude considère le cadre où les paramètres de récompense peuvent changer à chaque pas de temps, affectant simultanément l'optimisation de la politique et l'estimation de la valeur. Sous des hypothèses standard, nous dérivons des bornes non-asymptotiques pour les erreurs de l'Actor et du Critic. Les résultats montrent qu'une vitesse de convergence de $O(1/\sqrt{T})$ peut être atteinte lorsque l'évolution des paramètres de récompense est suffisamment lente, ce qui correspond aux meilleurs taux connus pour les récompenses statiques. Cette vitesse de convergence est maintenue lorsque la récompense est mise à jour selon une règle basée sur le gradient avec des gradients bornés à la même échelle de temps que l'Actor et le Critic, fournissant une base théorique pour de nombreuses techniques d'apprentissage par renforcement populaires.

Contexte et Motivation de la Recherche

Contexte du Problème

Écart entre théorie et pratique: La théorie de l'apprentissage par renforcement s'établit généralement sur des processus de décision markoviens (MDP) avec des fonctions de récompense statiques, tandis que les applications pratiques utilisent largement des techniques de récompense évolutive
Omniprésence des récompenses évolutives: Les algorithmes RL pratiques emploient couramment le façonnage des récompenses, la régularisation entropique, l'apprentissage par curriculum et d'autres techniques pour améliorer l'efficacité de l'apprentissage
Défis de conception: La conception de fonctions de récompense à la fois apprises et alignées avec les tâches souhaitées présente des difficultés significatives dans les scénarios réels

Problème Central

À quelle vitesse une fonction de récompense peut-elle évoluer tout en garantissant la convergence de l'algorithme RL?

Limitations des Approches Existantes

L'analyse théorique existante se concentre principalement sur les paramètres de récompense statiques
Absence de garanties théoriques de convergence pour les algorithmes Actor-Critic sous récompenses évolutives
L'analyse de l'inadéquation de distribution sous échantillonnage markovien nécessite des améliorations

Contributions Principales

Analyse théorique pionnière: Fournit la première analyse de convergence en temps fini pour l'algorithme Actor-Critic à une seule échelle de temps avec récompenses évolutives
Garanties de taux de convergence: Démontre qu'une vitesse de convergence de $O(1/\sqrt{T})$ peut être atteinte lorsque l'évolution des paramètres de récompense est suffisamment lente, correspondant au cas des récompenses statiques
Validation pratique: Démontre que les règles de mise à jour de récompense basées sur le gradient satisfont les conditions de convergence, fournissant un soutien théorique aux techniques RL pratiques
Améliorations techniques: Introduit une nouvelle analyse de l'inadéquation de distribution sous échantillonnage markovien, améliorant le taux de convergence du cas de récompense statique d'un facteur $\log^2 T$

Détails de la Méthode

Définition de la Tâche

L'étude porte sur les processus de décision markoviens à horizon infini avec actualisation $M = (S,A,P,r,\gamma)$ , où la fonction de récompense $r$ peut évoluer dans le temps. L'objectif est d'analyser la convergence de l'algorithme Actor-Critic dans le cadre des récompenses évolutives.

Architecture du Modèle

1. Cadre de Récompense Évolutive

Introduction d'un paramètre de récompense générique $\phi$ englobant tous les facteurs déterminant la récompense régularisée $\tilde{r}_{\phi,\theta}(s,a)$ : $\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)$

où $\alpha \geq 0$ est le paramètre de régularisation entropique.

2. Règles de Mise à Jour Actor-Critic

Mise à jour de l'Actor: $\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)$

Mise à jour du Critic: $\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))$

où l'erreur de différence temporelle est: $\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t$

3. Stratégie d'Échantillonnage Markovien

Utilisation d'un noyau d'échantillonnage $\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot)$ pour assurer l'ergodicité.

Points d'Innovation Technique

1. Analyse de Continuité Lipschitz des Récompenses Évolutives

Établissement de la continuité Lipschitz de l'objectif de politique $J_\phi(\theta)$ et du paramètre Critic optimal $\omega^*(\phi,\theta)$ par rapport au paramètre de récompense $\phi$ :

$J_\phi(\theta)$ est $D_J$ -Lipschitz par rapport à $\phi$
$\omega^*(\phi,\theta)$ est $D_\omega$ -Lipschitz par rapport à $\phi$

2. Analyse Novatrice de l'Inadéquation de Distribution

Proposition clé 4.8 exploitant directement la propriété de contraction de l'opérateur induit sur la distribution d'états: $E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1$

3. Résolution d'Inégalités Systémiques

Découplage des erreurs de l'Actor et du Critic par l'inégalité algébrique $2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T$ .

Configuration Expérimentale

Cadre d'Analyse Théorique

Cet article se concentre principalement sur l'analyse théorique, adoptant les paramètres suivants:

Métriques d'Évaluation

Erreur de l'Actor: $G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2$
Erreur du Critic: $W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2$
Variation de récompense: $F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2$

Hypothèses Clés

Exploration suffisante (Hypothèse 4.1): Pour tout $\theta \in \Omega(\theta)$ , $A_\theta$ est défini négatif avec valeurs singulières bornées par $-\lambda$
Continuité Lipschitz de la politique (Hypothèse 4.3): $\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L$
Continuité Lipschitz de la récompense régularisée (Hypothèse 4.5): Constante de Lipschitz par rapport à $\phi$ égale à $D$

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 4.6 (Théorème de Convergence Principal)

Sous les pas $\eta_t^\theta = \frac{c_\theta}{\sqrt{t}}$ et $\eta_t^\omega = \frac{c_\omega}{\sqrt{t}}$ avec $\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}$ :

$G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

$W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

Corollaire 4.7 (Règle de Mise à Jour par Gradient)

Lorsque les paramètres de récompense sont mis à jour selon la règle $\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t)$ , avec $E\|h_\phi(t)\|_2^2 \leq C_\phi^2$ , $\eta_t^\phi = \frac{c_\phi}{t}$ :

$F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)$

Découvertes Clés

1. Conditions de Convergence

Convergence asymptotique: Nécessite $F_T = o(1/\sqrt{T})$
Maintien du taux de convergence $O(1/\sqrt{T})$ : Nécessite $F_T = O(1/T)$

2. Amélioration du Cas de Récompense Statique

Lorsque $F_T \equiv 0$ , l'algorithme atteint le taux de convergence standard $O(1/\sqrt{T})$ , éliminant le facteur $\log^2 T$ des travaux antérieurs.

3. Validation Pratique

Démonstration que de nombreuses techniques pratiques, notamment le façonnage des récompenses guidé par la curiosité, la distillation de réseaux stochastiques, et l'ajustement automatique de l'entropie du Soft Actor-Critic, satisfont les conditions de garantie théorique.

Travaux Connexes

Analyse en Temps Fini des Méthodes de Gradient de Politique

Agarwal et al. (2021), Mei et al. (2020): Garanties de convergence sous hypothèse d'oracle de gradient exact
Liu et al. (2020), Ding et al. (2022): Complexité d'échantillon en cas stochastique

Analyse en Temps Fini des Méthodes Actor-Critic

Paramètre double boucle: Yang et al. (2019), Kumar et al. (2023)
Double échelle de temps: Wu et al. (2020), Xu et al. (2020b)
Échelle de temps unique: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

Techniques de Récompense Évolutive

Façonnage des récompenses: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
Régularisation entropique/KL: Haarnoja et al. (2018a,b), Jaques et al. (2019)
Apprentissage par curriculum: Narvekar et al. (2020)

Conclusion et Discussion

Conclusions Principales

L'algorithme Actor-Critic à échelle de temps unique présente une robustesse significative face à la non-stationnarité des récompenses
Sous contrôle de la vitesse d'évolution des paramètres de récompense, le taux de convergence standard $O(1/\sqrt{T})$ peut être maintenu
Les mises à jour de récompense basées sur le gradient satisfont les conditions de garantie théorique, fournissant une base théorique aux succès pratiques

Limitations

L'analyse se limite à l'approximation linéaire de fonction pour le Critic
Nécessite de satisfaire les hypothèses standard telles que la continuité Lipschitz
La vitesse de variation des récompenses doit être strictement contrôlée

Directions Futures

Extension à l'approximation non-linéaire de fonction, particulièrement les réseaux de neurones
Exploration des implications des découvertes théoriques pour la conception d'algorithmes de façonnage des récompenses plus efficaces et provablement stables
Analyse de l'apprentissage par renforcement sous objectifs dynamiques (récompenses évolutives, distributions initiales changeantes ou probabilités de transition)

Évaluation Approfondie

Points Forts

Contribution pionnière: Première analyse théorique pour l'algorithme Actor-Critic avec récompenses évolutives
Rigueur technique: Preuve complète, hypothèses raisonnables, analyse approfondie
Valeur pratique: Fournit un soutien théorique aux techniques RL largement utilisées
Innovation méthodologique: L'amélioration de l'analyse de l'inadéquation de distribution possède une valeur indépendante

Insuffisances

Portée d'application: Limitée à l'approximation linéaire de fonction, tandis que les applications réelles utilisent principalement des réseaux de neurones profonds
Limitations des hypothèses: Les hypothèses de continuité Lipschitz peuvent être difficiles à vérifier en pratique
Validation expérimentale: Absence d'expériences numériques validant les résultats théoriques

Impact

Contribution théorique: Comble le vide dans l'analyse théorique du RL avec récompenses évolutives
Orientation pratique: Fournit des principes directeurs théoriques pour la conception d'algorithmes
Recherche ultérieure: Établit les fondations pour l'extension à des cadres plus complexes

Scénarios d'Application

Conception d'algorithmes RL nécessitant des garanties théoriques
Analyse théorique du façonnage des récompenses et de l'apprentissage par curriculum
Recherche sur la convergence des algorithmes d'ajustement automatique de l'entropie

Références

L'article cite des travaux importants dans le domaine de l'analyse théorique de l'apprentissage par renforcement, notamment:

Sutton & Barto (1998): Théorie fondamentale de l'apprentissage par renforcement
Chen et al. (2021), Olshevsky & Gharesifard (2023): Analyse Actor-Critic à échelle de temps unique
Haarnoja et al. (2018): Algorithme Soft Actor-Critic
Pathak et al. (2017): Exploration guidée par la curiosité

Évaluation Globale: Ceci est un article théorique de haute qualité fournissant pour la première fois une analyse rigoureuse de la convergence de l'algorithme Actor-Critic avec récompenses évolutives. Bien que présentant certaines limitations dans sa portée d'application, sa contribution théorique est significative et fournit une base théorique importante pour la compréhension et la conception d'algorithmes RL pratiques.