2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

Convergence de l'actor-critic pour les MDPs régularisés par l'entropie dans les espaces d'action généraux

Informations de base

  • ID de l'article : 2510.14898
  • Titre : Convergence of actor-critic for entropy regularised MDPs in general action spaces
  • Auteurs : Denis Zorba, David Šiška, Lukasz Szpruch
  • Classification : math.OC (Optimisation et Contrôle)
  • Date de publication : 16 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.14898

Résumé

Cet article démontre la stabilité et la convergence globale des flots de gradient actor-critic couplés pour les processus de décision markoviens (MDPs) régularisés par l'entropie en horizon infini dans les espaces d'état et d'action continus, avec approximation linéaire des fonctions et conditions de réalisabilité de la fonction Q. L'étude considère une variante du flot de gradient actor-critic où le critique est mis à jour à l'aide de l'apprentissage par différences temporelles (TD), tandis que la politique est mise à jour à l'aide de la méthode de descente miroir de politique à des échelles de temps différentes. L'article démontre la stabilité et la convergence exponentielle du flot actor-critic vers la politique optimale, et analyse l'impact de l'interaction entre la séparation des échelles de temps et la régularisation par l'entropie sur la stabilité et la convergence.

Contexte et motivation de la recherche

Définition du problème

Le problème central abordé par cet article est l'analyse de la stabilité et de la convergence des méthodes actor-critic dans les MDPs régularisés par l'entropie avec des espaces d'action généraux (continus ou infinis). Spécifiquement :

  1. Problème de stabilité : Les mises à jour couplées de l'actor et du critic sous une dynamique en temps continu conduisent-elles à une instabilité du système ?
  2. Problème de convergence : Le système converge-t-il vers la politique optimale, et quelle est la vitesse de convergence ?
  3. Séparation des échelles de temps : Quel est l'impact des vitesses de mise à jour différentes sur la performance du système ?

Importance de la recherche

  1. Fondements théoriques : Fournir des garanties théoriques rigoureuses pour les algorithmes actor-critic largement utilisés dans les applications pratiques
  2. Extension générale : Étendre les résultats de convergence existants des espaces d'action finis aux espaces d'action continus/infinis
  3. Régularisation par l'entropie : Analyser le rôle de la régularisation par l'entropie dans la promotion de l'exploration et l'accélération de la convergence

Limitations des approches existantes

  1. Restriction de l'espace d'action : Les résultats de convergence existants pour les MDPs régularisés par l'entropie sont principalement limités aux espaces d'action finis
  2. Défi de l'approximation de fonction : Absence de bornes a priori sur l'approximation de fonction dans les espaces d'état et d'action généraux
  3. Complexité de l'analyse couplée : Nécessité de combiner des outils d'analyse convexe sur les espaces euclidiens et les espaces de mesures

Contributions principales

  1. Cadre de stabilité : Développement d'un cadre de stabilité basé sur Lyapunov qui capture l'interaction entre la régularisation par l'entropie et la séparation des échelles de temps
  2. Preuve de convergence : Démonstration de la convergence de la dynamique actor-critic dans les MDPs régularisés par l'entropie avec espaces d'action infinis
  3. Taux de convergence exponentielle : Établissement d'un taux de convergence exponentielle vers la politique optimale
  4. Analyse en temps continu : Analyse des mises à jour couplées à la limite en temps continu, formant un semi-flot de gradient pour le critic et un flot de gradient Fisher-Rao approximatif pour l'actor

Explication détaillée de la méthode

Définition de la tâche

Considérons un MDP en horizon infini (S,A,P,c,γ)(S,A,P,c,γ), où :

  • SS, AA : espaces polonais (espaces d'état et d'action)
  • PP(SS×A)P \in P(S|S \times A) : noyau de transition d'état
  • cc : fonction de coût bornée
  • γ(0,1)γ \in (0,1) : facteur d'actualisation
  • τ>0τ > 0 : paramètre de régularisation

La fonction de valeur régularisée par l'entropie est définie comme : Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

Architecture du modèle

1. Paramétrisation de la politique

La politique appartient à la classe de politiques admissibles ΠμΠ_μ : π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Approximation linéaire de la fonction Q

Utilisation d'une application de caractéristiques φ:S×ARNφ: S \times A → R^N : Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. Système dynamique couplé

Flot actor-critic en temps continu : dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

Où :

  • g(θ,π)g(θ,π) : semi-gradient de l'erreur quadratique de Bellman (MSBE)
  • At(s,a)A_t(s,a) : fonction d'avantage soft approximée
  • ηtη_t : paramètre de séparation des échelles de temps

Points d'innovation technique

1. Flot de gradient Fisher-Rao

Modélisation de la mise à jour de la politique comme un flot de gradient Fisher-Rao sur l'espace des mesures de probabilité : tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. Analyse à deux échelles de temps

  • Le critic se met à jour à l'échelle de temps rapide (apprentissage TD)
  • L'actor se met à jour à l'échelle de temps lente (descente miroir de politique)

3. Analyse de stabilité de Lyapunov

Construction d'une fonction de Lyapunov pour analyser la stabilité du système, combinant :

  • L'analyse convexe sur les espaces euclidiens
  • L'analyse convexe sur les espaces de mesures

Analyse théorique

Hypothèses clés

Hypothèse 4.1 (Réalisabilité de QτπQ^π_τ) : Pour tous πΠμπ ∈ Π_μ et (s,a)S×A(s,a) ∈ S × A, il existe θπRNθ^π ∈ R^N tel que : Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

Hypothèse 4.2 : φ(s,a)1|φ(s,a)| ≤ 1 pour tous (s,a)S×A(s,a) ∈ S × A

Hypothèse 4.3 : La valeur propre minimale de la matrice S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) est λβ>0λ_β > 0

Résultats théoriques principaux

Théorème de stabilité (Théorème 5.1)

Soit η0>τΓη_0 > \frac{τ}{Γ}, où Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ}), alors il existe des constantes a1,a2>0a_1, a_2 > 0 telles que : Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ).

Théorème de convergence (Théorème 6.1)

Pour tous t>0t > 0 : minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

Convergence exponentielle (Théorème 6.3)

Sous des conditions appropriées, il existe ηt=η0ek1tη_t = η_0 e^{k_1 t} et une constante k2>0k_2 > 0 telles que : minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

Outils techniques clés

1. Lemme de différence de performance

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Application de l'inégalité de Gronwall

Utilisée pour contrôler la croissance de la divergence KL et de la norme des paramètres.

3. Propriétés de la mesure d'occupation état-action

Lemme 5.1 : dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

Travaux connexes

Cadre sans régularisation

  • Borkar & Konda (1997) : approximation stochastique à deux échelles de temps
  • Bhandari et al. (2021) : analyse en temps fini avec approximation linéaire de fonction
  • Zhang et al. (2021) : flots de Wasserstein et apprentissage de représentation

Cadre avec régularisation par l'entropie

  • Cayci et al. (2024) : gradient de politique naturelle pour espaces d'action finis
  • Cet article étend les résultats aux espaces d'action généraux

Comparaison des contributions techniques

Avantages de cet article par rapport aux travaux existants :

  1. Traitement des espaces d'action continus/infinis
  2. Preuves rigoureuses de stabilité et de convergence
  3. Analyse de l'interaction entre la régularisation par l'entropie et la séparation des échelles de temps

Conclusion et discussion

Conclusions principales

  1. Garanties de stabilité : Sous des conditions appropriées de séparation des échelles de temps, le système reste stable
  2. Convergence exponentielle : Taux de convergence exponentielle vers la politique optimale
  3. Effet de la régularisation par l'entropie : La régularisation par l'entropie assure une politique optimale unique et accélère la convergence

Limitations

  1. Hypothèse de temps continu : Analyse uniquement de la dynamique en temps continu, plus réaliste en temps discret
  2. Approximation linéaire de fonction : Les réseaux de neurones non linéaires sont plus courants en pratique
  3. Hypothèse d'intégration exacte : En pratique, les estimations d'échantillonnage introduisent des erreurs de Monte-Carlo
  4. Réalisabilité de la fonction Q : Hypothèse forte, potentiellement non satisfaite en pratique

Directions futures

  1. Analyse rigoureuse des algorithmes en temps discret
  2. Extension à l'approximation de fonction non linéaire
  3. Traitement des erreurs d'échantillonnage
  4. Conditions de réalisabilité plus faibles

Évaluation approfondie

Points forts

  1. Rigueur théorique : Fournit des preuves complètes de stabilité et de convergence
  2. Innovation technique : Combine ingénieusement la géométrie Fisher-Rao et l'analyse de Lyapunov
  3. Généralité : Extension aux espaces d'action continus, comblant une lacune théorique
  4. Exposition claire : Dérivations mathématiques détaillées et logique claire

Insuffisances

  1. Limitations pratiques : Les conditions d'hypothèses fortes sont difficiles à satisfaire en pratique
  2. Absence de validation expérimentale : Travail purement théorique, manque de vérification numérique
  3. Complexité computationnelle : La complexité computationnelle de l'algorithme n'est pas discutée
  4. Applicabilité limitée : L'hypothèse de temps continu limite les applications pratiques

Impact

  1. Contribution théorique : Fournit une base théorique importante pour les MDPs régularisés par l'entropie
  2. Valeur méthodologique : Les techniques d'analyse peuvent s'appliquer à d'autres algorithmes d'apprentissage par renforcement
  3. Recherche ultérieure : Pose les fondations pour la recherche en temps discret et dans des cadres plus généraux

Scénarios d'application

  1. Recherche théorique : Fournit des outils théoriques et des intuitions pour d'autres recherches
  2. Conception d'algorithmes : Guide le choix des paramètres et l'analyse de convergence des algorithmes pratiques
  3. Contrôle continu : Problèmes de contrôle dans les espaces d'état-action continus

Références

L'article cite 25 références importantes, couvrant :

  • Travaux classiques sur les méthodes actor-critic (Konda & Tsitsiklis, 1999)
  • MDPs régularisés par l'entropie (Kerimkulov et al., 2024)
  • Méthodes de gradient de politique (Schulman et al., 2015, 2017)
  • Théorie de l'approximation de fonction (Bhandari et al., 2021)

Évaluation globale : Cet article est un travail théorique de haute qualité qui fournit une analyse mathématique rigoureuse de la méthode actor-critic dans les MDPs régularisés par l'entropie. Bien qu'il présente des limitations en termes d'applications pratiques, ses contributions théoriques et sa valeur méthodologique sont significatives, posant les fondations importantes pour le développement futur du domaine.