Convergence of actor-critic for entropy regularised MDPs in general action spaces
Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic
Convergence de l'actor-critic pour les MDPs régularisés par l'entropie dans les espaces d'action généraux
Cet article démontre la stabilité et la convergence globale des flots de gradient actor-critic couplés pour les processus de décision markoviens (MDPs) régularisés par l'entropie en horizon infini dans les espaces d'état et d'action continus, avec approximation linéaire des fonctions et conditions de réalisabilité de la fonction Q. L'étude considère une variante du flot de gradient actor-critic où le critique est mis à jour à l'aide de l'apprentissage par différences temporelles (TD), tandis que la politique est mise à jour à l'aide de la méthode de descente miroir de politique à des échelles de temps différentes. L'article démontre la stabilité et la convergence exponentielle du flot actor-critic vers la politique optimale, et analyse l'impact de l'interaction entre la séparation des échelles de temps et la régularisation par l'entropie sur la stabilité et la convergence.
Le problème central abordé par cet article est l'analyse de la stabilité et de la convergence des méthodes actor-critic dans les MDPs régularisés par l'entropie avec des espaces d'action généraux (continus ou infinis). Spécifiquement :
Problème de stabilité : Les mises à jour couplées de l'actor et du critic sous une dynamique en temps continu conduisent-elles à une instabilité du système ?
Problème de convergence : Le système converge-t-il vers la politique optimale, et quelle est la vitesse de convergence ?
Séparation des échelles de temps : Quel est l'impact des vitesses de mise à jour différentes sur la performance du système ?
Fondements théoriques : Fournir des garanties théoriques rigoureuses pour les algorithmes actor-critic largement utilisés dans les applications pratiques
Extension générale : Étendre les résultats de convergence existants des espaces d'action finis aux espaces d'action continus/infinis
Régularisation par l'entropie : Analyser le rôle de la régularisation par l'entropie dans la promotion de l'exploration et l'accélération de la convergence
Restriction de l'espace d'action : Les résultats de convergence existants pour les MDPs régularisés par l'entropie sont principalement limités aux espaces d'action finis
Défi de l'approximation de fonction : Absence de bornes a priori sur l'approximation de fonction dans les espaces d'état et d'action généraux
Complexité de l'analyse couplée : Nécessité de combiner des outils d'analyse convexe sur les espaces euclidiens et les espaces de mesures
Cadre de stabilité : Développement d'un cadre de stabilité basé sur Lyapunov qui capture l'interaction entre la régularisation par l'entropie et la séparation des échelles de temps
Preuve de convergence : Démonstration de la convergence de la dynamique actor-critic dans les MDPs régularisés par l'entropie avec espaces d'action infinis
Taux de convergence exponentielle : Établissement d'un taux de convergence exponentielle vers la politique optimale
Analyse en temps continu : Analyse des mises à jour couplées à la limite en temps continu, formant un semi-flot de gradient pour le critic et un flot de gradient Fisher-Rao approximatif pour l'actor
Modélisation de la mise à jour de la politique comme un flot de gradient Fisher-Rao sur l'espace des mesures de probabilité :
∂tlndμdπt(s,a)=−Aτπt(s,a)
Sous des conditions appropriées, il existe ηt=η0ek1t et une constante k2>0 telles que :
minr∈[0,t]Vτπr(ρ)−Vτπ∗(ρ)≤2(1−γ)(1−e−2τt)τe−2τt(∫SKL(π∗(⋅∣s)∣π0(⋅∣s))dρπ∗(ds)+2τk2)
Travaux classiques sur les méthodes actor-critic (Konda & Tsitsiklis, 1999)
MDPs régularisés par l'entropie (Kerimkulov et al., 2024)
Méthodes de gradient de politique (Schulman et al., 2015, 2017)
Théorie de l'approximation de fonction (Bhandari et al., 2021)
Évaluation globale : Cet article est un travail théorique de haute qualité qui fournit une analyse mathématique rigoureuse de la méthode actor-critic dans les MDPs régularisés par l'entropie. Bien qu'il présente des limitations en termes d'applications pratiques, ses contributions théoriques et sa valeur méthodologique sont significatives, posant les fondations importantes pour le développement futur du domaine.