Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
academic
Analyse de Convergence en Temps Fini d'Actor-Critic avec Récompense Évolutive
De nombreux algorithmes populaires d'apprentissage par renforcement emploient des fonctions de récompense évolutives — par le biais de techniques telles que le façonnage des récompenses, la régularisation entropique ou l'apprentissage par curriculum — mais leurs fondements théoriques restent incomplets. Cet article fournit pour la première fois une analyse de convergence en temps fini pour l'algorithme Actor-Critic à une seule échelle de temps en présence de fonctions de récompense évolutives sous échantillonnage markovien. L'étude considère le cadre où les paramètres de récompense peuvent changer à chaque pas de temps, affectant simultanément l'optimisation de la politique et l'estimation de la valeur. Sous des hypothèses standard, nous dérivons des bornes non-asymptotiques pour les erreurs de l'Actor et du Critic. Les résultats montrent qu'une vitesse de convergence de O(1/T) peut être atteinte lorsque l'évolution des paramètres de récompense est suffisamment lente, ce qui correspond aux meilleurs taux connus pour les récompenses statiques. Cette vitesse de convergence est maintenue lorsque la récompense est mise à jour selon une règle basée sur le gradient avec des gradients bornés à la même échelle de temps que l'Actor et le Critic, fournissant une base théorique pour de nombreuses techniques d'apprentissage par renforcement populaires.
Écart entre théorie et pratique: La théorie de l'apprentissage par renforcement s'établit généralement sur des processus de décision markoviens (MDP) avec des fonctions de récompense statiques, tandis que les applications pratiques utilisent largement des techniques de récompense évolutive
Omniprésence des récompenses évolutives: Les algorithmes RL pratiques emploient couramment le façonnage des récompenses, la régularisation entropique, l'apprentissage par curriculum et d'autres techniques pour améliorer l'efficacité de l'apprentissage
Défis de conception: La conception de fonctions de récompense à la fois apprises et alignées avec les tâches souhaitées présente des difficultés significatives dans les scénarios réels
Analyse théorique pionnière: Fournit la première analyse de convergence en temps fini pour l'algorithme Actor-Critic à une seule échelle de temps avec récompenses évolutives
Garanties de taux de convergence: Démontre qu'une vitesse de convergence de O(1/T) peut être atteinte lorsque l'évolution des paramètres de récompense est suffisamment lente, correspondant au cas des récompenses statiques
Validation pratique: Démontre que les règles de mise à jour de récompense basées sur le gradient satisfont les conditions de convergence, fournissant un soutien théorique aux techniques RL pratiques
Améliorations techniques: Introduit une nouvelle analyse de l'inadéquation de distribution sous échantillonnage markovien, améliorant le taux de convergence du cas de récompense statique d'un facteur log2T
L'étude porte sur les processus de décision markoviens à horizon infini avec actualisation M=(S,A,P,r,γ), où la fonction de récompense r peut évoluer dans le temps. L'objectif est d'analyser la convergence de l'algorithme Actor-Critic dans le cadre des récompenses évolutives.
Introduction d'un paramètre de récompense générique ϕ englobant tous les facteurs déterminant la récompense régularisée r~ϕ,θ(s,a):
r~ϕ,θ(s,a)=r(s,a)−αlogπθ(a∣s)
où α≥0 est le paramètre de régularisation entropique.
Établissement de la continuité Lipschitz de l'objectif de politique Jϕ(θ) et du paramètre Critic optimal ω∗(ϕ,θ) par rapport au paramètre de récompense ϕ:
Proposition clé 4.8 exploitant directement la propriété de contraction de l'opérateur induit sur la distribution d'états:
E∥ν^t−νρπθt∥1≤LCδLν∑k=0t−1γt−1−kηkθ+γt∥ρ−νρπθ0∥1
Démonstration que de nombreuses techniques pratiques, notamment le façonnage des récompenses guidé par la curiosité, la distillation de réseaux stochastiques, et l'ajustement automatique de l'entropie du Soft Actor-Critic, satisfont les conditions de garantie théorique.
L'algorithme Actor-Critic à échelle de temps unique présente une robustesse significative face à la non-stationnarité des récompenses
Sous contrôle de la vitesse d'évolution des paramètres de récompense, le taux de convergence standard O(1/T) peut être maintenu
Les mises à jour de récompense basées sur le gradient satisfont les conditions de garantie théorique, fournissant une base théorique aux succès pratiques
Extension à l'approximation non-linéaire de fonction, particulièrement les réseaux de neurones
Exploration des implications des découvertes théoriques pour la conception d'algorithmes de façonnage des récompenses plus efficaces et provablement stables
Analyse de l'apprentissage par renforcement sous objectifs dynamiques (récompenses évolutives, distributions initiales changeantes ou probabilités de transition)
Portée d'application: Limitée à l'approximation linéaire de fonction, tandis que les applications réelles utilisent principalement des réseaux de neurones profonds
Limitations des hypothèses: Les hypothèses de continuité Lipschitz peuvent être difficiles à vérifier en pratique
Validation expérimentale: Absence d'expériences numériques validant les résultats théoriques
L'article cite des travaux importants dans le domaine de l'analyse théorique de l'apprentissage par renforcement, notamment:
Sutton & Barto (1998): Théorie fondamentale de l'apprentissage par renforcement
Chen et al. (2021), Olshevsky & Gharesifard (2023): Analyse Actor-Critic à échelle de temps unique
Haarnoja et al. (2018): Algorithme Soft Actor-Critic
Pathak et al. (2017): Exploration guidée par la curiosité
Évaluation Globale: Ceci est un article théorique de haute qualité fournissant pour la première fois une analyse rigoureuse de la convergence de l'algorithme Actor-Critic avec récompenses évolutives. Bien que présentant certaines limitations dans sa portée d'application, sa contribution théorique est significative et fournit une base théorique importante pour la compréhension et la conception d'algorithmes RL pratiques.