2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

Convergence de l'actor-critic pour les MDPs régularisés par l'entropie dans les espaces d'action généraux

Informations de base

ID de l'article : 2510.14898
Titre : Convergence of actor-critic for entropy regularised MDPs in general action spaces
Auteurs : Denis Zorba, David Šiška, Lukasz Szpruch
Classification : math.OC (Optimisation et Contrôle)
Date de publication : 16 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.14898

Résumé

Cet article démontre la stabilité et la convergence globale des flots de gradient actor-critic couplés pour les processus de décision markoviens (MDPs) régularisés par l'entropie en horizon infini dans les espaces d'état et d'action continus, avec approximation linéaire des fonctions et conditions de réalisabilité de la fonction Q. L'étude considère une variante du flot de gradient actor-critic où le critique est mis à jour à l'aide de l'apprentissage par différences temporelles (TD), tandis que la politique est mise à jour à l'aide de la méthode de descente miroir de politique à des échelles de temps différentes. L'article démontre la stabilité et la convergence exponentielle du flot actor-critic vers la politique optimale, et analyse l'impact de l'interaction entre la séparation des échelles de temps et la régularisation par l'entropie sur la stabilité et la convergence.

Contexte et motivation de la recherche

Définition du problème

Le problème central abordé par cet article est l'analyse de la stabilité et de la convergence des méthodes actor-critic dans les MDPs régularisés par l'entropie avec des espaces d'action généraux (continus ou infinis). Spécifiquement :

Problème de stabilité : Les mises à jour couplées de l'actor et du critic sous une dynamique en temps continu conduisent-elles à une instabilité du système ?
Problème de convergence : Le système converge-t-il vers la politique optimale, et quelle est la vitesse de convergence ?
Séparation des échelles de temps : Quel est l'impact des vitesses de mise à jour différentes sur la performance du système ?

Importance de la recherche

Fondements théoriques : Fournir des garanties théoriques rigoureuses pour les algorithmes actor-critic largement utilisés dans les applications pratiques
Extension générale : Étendre les résultats de convergence existants des espaces d'action finis aux espaces d'action continus/infinis
Régularisation par l'entropie : Analyser le rôle de la régularisation par l'entropie dans la promotion de l'exploration et l'accélération de la convergence

Limitations des approches existantes

Restriction de l'espace d'action : Les résultats de convergence existants pour les MDPs régularisés par l'entropie sont principalement limités aux espaces d'action finis
Défi de l'approximation de fonction : Absence de bornes a priori sur l'approximation de fonction dans les espaces d'état et d'action généraux
Complexité de l'analyse couplée : Nécessité de combiner des outils d'analyse convexe sur les espaces euclidiens et les espaces de mesures

Contributions principales

Cadre de stabilité : Développement d'un cadre de stabilité basé sur Lyapunov qui capture l'interaction entre la régularisation par l'entropie et la séparation des échelles de temps
Preuve de convergence : Démonstration de la convergence de la dynamique actor-critic dans les MDPs régularisés par l'entropie avec espaces d'action infinis
Taux de convergence exponentielle : Établissement d'un taux de convergence exponentielle vers la politique optimale
Analyse en temps continu : Analyse des mises à jour couplées à la limite en temps continu, formant un semi-flot de gradient pour le critic et un flot de gradient Fisher-Rao approximatif pour l'actor

Explication détaillée de la méthode

Définition de la tâche

Considérons un MDP en horizon infini $(S,A,P,c,γ)$ , où :

$S$ , $A$ : espaces polonais (espaces d'état et d'action)
$P \in P(S|S \times A)$ : noyau de transition d'état
$c$ : fonction de coût bornée
$γ \in (0,1)$ : facteur d'actualisation
$τ > 0$ : paramètre de régularisation

La fonction de valeur régularisée par l'entropie est définie comme : $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

Architecture du modèle

1. Paramétrisation de la politique

La politique appartient à la classe de politiques admissibles $Π_μ$ : $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

2. Approximation linéaire de la fonction Q

Utilisation d'une application de caractéristiques $φ: S \times A → R^N$ : $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

3. Système dynamique couplé

Flot actor-critic en temps continu : $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

Où :

$g(θ,π)$ : semi-gradient de l'erreur quadratique de Bellman (MSBE)
$A_t(s,a)$ : fonction d'avantage soft approximée
$η_t$ : paramètre de séparation des échelles de temps

Points d'innovation technique

1. Flot de gradient Fisher-Rao

Modélisation de la mise à jour de la politique comme un flot de gradient Fisher-Rao sur l'espace des mesures de probabilité : $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

2. Analyse à deux échelles de temps

Le critic se met à jour à l'échelle de temps rapide (apprentissage TD)
L'actor se met à jour à l'échelle de temps lente (descente miroir de politique)

3. Analyse de stabilité de Lyapunov

Construction d'une fonction de Lyapunov pour analyser la stabilité du système, combinant :

L'analyse convexe sur les espaces euclidiens
L'analyse convexe sur les espaces de mesures

Analyse théorique

Hypothèses clés

Hypothèse 4.1 (Réalisabilité de $Q^π_τ$ ) : Pour tous $π ∈ Π_μ$ et $(s,a) ∈ S × A$ , il existe $θ^π ∈ R^N$ tel que : $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

Hypothèse 4.2 : $|φ(s,a)| ≤ 1$ pour tous $(s,a) ∈ S × A$

Hypothèse 4.3 : La valeur propre minimale de la matrice $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ est $λ_β > 0$

Résultats théoriques principaux

Théorème de stabilité (Théorème 5.1)

Soit $η_0 > \frac{τ}{Γ}$ , où $Γ = λ_β(1-γ)(1-\sqrt{γ})$ , alors il existe des constantes $a_1, a_2 > 0$ telles que : $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

Où $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ .

Théorème de convergence (Théorème 6.1)

Pour tous $t > 0$ : $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

Convergence exponentielle (Théorème 6.3)

Sous des conditions appropriées, il existe $η_t = η_0 e^{k_1 t}$ et une constante $k_2 > 0$ telles que : $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

Outils techniques clés

1. Lemme de différence de performance

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$

2. Application de l'inégalité de Gronwall

Utilisée pour contrôler la croissance de la divergence KL et de la norme des paramètres.

3. Propriétés de la mesure d'occupation état-action

Lemme 5.1 : $d^π_{Jπβ}(E) = J_π d^π_β(E)$ $d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)$

Travaux connexes

Cadre sans régularisation

Borkar & Konda (1997) : approximation stochastique à deux échelles de temps
Bhandari et al. (2021) : analyse en temps fini avec approximation linéaire de fonction
Zhang et al. (2021) : flots de Wasserstein et apprentissage de représentation

Cadre avec régularisation par l'entropie

Cayci et al. (2024) : gradient de politique naturelle pour espaces d'action finis
Cet article étend les résultats aux espaces d'action généraux

Comparaison des contributions techniques

Avantages de cet article par rapport aux travaux existants :

Traitement des espaces d'action continus/infinis
Preuves rigoureuses de stabilité et de convergence
Analyse de l'interaction entre la régularisation par l'entropie et la séparation des échelles de temps

Conclusion et discussion

Conclusions principales

Garanties de stabilité : Sous des conditions appropriées de séparation des échelles de temps, le système reste stable
Convergence exponentielle : Taux de convergence exponentielle vers la politique optimale
Effet de la régularisation par l'entropie : La régularisation par l'entropie assure une politique optimale unique et accélère la convergence

Limitations

Hypothèse de temps continu : Analyse uniquement de la dynamique en temps continu, plus réaliste en temps discret
Approximation linéaire de fonction : Les réseaux de neurones non linéaires sont plus courants en pratique
Hypothèse d'intégration exacte : En pratique, les estimations d'échantillonnage introduisent des erreurs de Monte-Carlo
Réalisabilité de la fonction Q : Hypothèse forte, potentiellement non satisfaite en pratique

Directions futures

Analyse rigoureuse des algorithmes en temps discret
Extension à l'approximation de fonction non linéaire
Traitement des erreurs d'échantillonnage
Conditions de réalisabilité plus faibles

Évaluation approfondie

Points forts

Rigueur théorique : Fournit des preuves complètes de stabilité et de convergence
Innovation technique : Combine ingénieusement la géométrie Fisher-Rao et l'analyse de Lyapunov
Généralité : Extension aux espaces d'action continus, comblant une lacune théorique
Exposition claire : Dérivations mathématiques détaillées et logique claire

Insuffisances

Limitations pratiques : Les conditions d'hypothèses fortes sont difficiles à satisfaire en pratique
Absence de validation expérimentale : Travail purement théorique, manque de vérification numérique
Complexité computationnelle : La complexité computationnelle de l'algorithme n'est pas discutée
Applicabilité limitée : L'hypothèse de temps continu limite les applications pratiques

Impact

Contribution théorique : Fournit une base théorique importante pour les MDPs régularisés par l'entropie
Valeur méthodologique : Les techniques d'analyse peuvent s'appliquer à d'autres algorithmes d'apprentissage par renforcement
Recherche ultérieure : Pose les fondations pour la recherche en temps discret et dans des cadres plus généraux

Scénarios d'application

Recherche théorique : Fournit des outils théoriques et des intuitions pour d'autres recherches
Conception d'algorithmes : Guide le choix des paramètres et l'analyse de convergence des algorithmes pratiques
Contrôle continu : Problèmes de contrôle dans les espaces d'état-action continus

Références

L'article cite 25 références importantes, couvrant :

Travaux classiques sur les méthodes actor-critic (Konda & Tsitsiklis, 1999)
MDPs régularisés par l'entropie (Kerimkulov et al., 2024)
Méthodes de gradient de politique (Schulman et al., 2015, 2017)
Théorie de l'approximation de fonction (Bhandari et al., 2021)

Évaluation globale : Cet article est un travail théorique de haute qualité qui fournit une analyse mathématique rigoureuse de la méthode actor-critic dans les MDPs régularisés par l'entropie. Bien qu'il présente des limitations en termes d'applications pratiques, ses contributions théoriques et sa valeur méthodologique sont significatives, posant les fondations importantes pour le développement futur du domaine.