2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

Konvergenz von Actor-Critic für entropie-regularisierte MDPs in allgemeinen Aktionsräumen

Grundinformationen

  • Paper-ID: 2510.14898
  • Titel: Convergence of actor-critic for entropy regularised MDPs in general action spaces
  • Autoren: Denis Zorba, David Šiška, Lukasz Szpruch
  • Klassifikation: math.OC (Optimierung und Kontrolle)
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.14898

Zusammenfassung

Dieses Paper beweist die Stabilität und globale Konvergenz gekoppelter Actor-Critic-Gradientenflüsse für entropie-regularisierte Markov-Entscheidungsprozesse (MDPs) mit unendlichem Zeithorizont in kontinuierlichen Zustands- und Aktionsräumen unter linearer Funktionsapproximation und Q-Funktions-Realisierungsbedingungen. Die Forschung untersucht eine Actor-Critic-Gradientenfluss-Variante, bei der der Critic mittels Temporal-Difference (TD)-Lernen aktualisiert wird, während die Strategie mittels Strategie-Spiegeldescent-Methoden auf verschiedenen Zeitskalen aktualisiert wird. Das Paper beweist Stabilität und exponentielle Konvergenz des Actor-Critic-Flusses zur optimalen Strategie und analysiert die Auswirkungen der Wechselwirkung zwischen Zeitskalentrennung und Entropie-Regularisierung auf Stabilität und Konvergenz.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das dieses Paper adressiert, ist die Stabilitäts- und Konvergenzanalyse von Actor-Critic-Methoden in entropie-regularisierten MDPs mit allgemeinen Aktionsräumen (kontinuierlich oder unendlich). Konkret:

  1. Stabilitätsproblem: Führen gekoppelte Aktualisierungen von Actor und Critic unter kontinuierlicher Zeitmechanik zu Systeminstabilität?
  2. Konvergenzproblem: Konvergiert das System zur optimalen Strategie, und wie schnell ist die Konvergenzgeschwindigkeit?
  3. Zeitskalentrennung: Auswirkungen unterschiedlicher Aktualisierungsgeschwindigkeiten auf die Systemleistung

Forschungsrelevanz

  1. Theoretische Grundlagen: Bereitstellung strenger theoretischer Garantien für in praktischen Anwendungen weit verbreitete Actor-Critic-Algorithmen
  2. Allgemeine Erweiterung: Erweiterung bestehender Ergebnisse für endliche Aktionsräume auf kontinuierliche/unendliche Aktionsräume
  3. Entropie-Regularisierung: Analyse der Rolle der Entropie-Regularisierung bei der Förderung von Exploration und Beschleunigung der Konvergenz

Einschränkungen bestehender Methoden

  1. Aktionsraum-Beschränkungen: Bestehende Konvergenzergebnisse für entropie-regularisierte MDPs sind hauptsächlich auf endliche Aktionsräume beschränkt
  2. Funktionsapproximations-Herausforderungen: Mangel an vorherigen Grenzen für Funktionsapproximation in allgemeinen Zustands- und Aktionsräumen
  3. Komplexität der gekoppelten Analyse: Erfordert Kombination von konvexer Analyse auf euklidischen Räumen und Maßräumen

Kernbeiträge

  1. Stabilitätsrahmen: Entwicklung eines auf Lyapunov basierenden Stabilitätsrahmens, der die Wechselwirkung zwischen Entropie-Regularisierung und Zeitskalentrennung erfasst
  2. Konvergenzbeweis: Beweis der Konvergenz von Actor-Critic-Dynamiken in entropie-regularisierten MDPs mit unendlichen Aktionsräumen
  3. Exponentielle Konvergenzrate: Etablierung exponentieller Konvergenzraten zur optimalen Strategie
  4. Kontinuierliche Zeitanalyse: Analyse gekoppelter Aktualisierungen im kontinuierlichen Zeitleimit, was zu einem Semi-Gradient-Fluss des Critic und einem approximativen Fisher-Rao-Gradient-Fluss des Actor führt

Methodische Details

Aufgabendefinition

Betrachten Sie einen MDP mit unendlichem Zeithorizont (S,A,P,c,γ)(S,A,P,c,γ), wobei:

  • SS, AA: Polnische Räume (Zustands- und Aktionsräume)
  • PP(SS×A)P \in P(S|S \times A): Zustandsübergangskern
  • cc: beschränkte Kostenfunktion
  • γ(0,1)γ \in (0,1): Diskontfaktor
  • τ>0τ > 0: Regularisierungsparameter

Die entropie-regularisierte Wertfunktion ist definiert als: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

Modellarchitektur

1. Strategie-Parametrisierung

Die Strategie gehört zur zulässigen Strategieklasse ΠμΠ_μ: π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Lineare Q-Funktions-Approximation

Verwendung einer Merkmalabbildung φ:S×ARNφ: S \times A → R^N: Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. Gekoppeltes Dynamisches System

Kontinuierlicher Zeit-Actor-Critic-Fluss: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

Wobei:

  • g(θ,π)g(θ,π): Semi-Gradient des mittleren quadratischen Bellman-Fehlers (MSBE)
  • At(s,a)A_t(s,a): Approximative Soft-Advantage-Funktion
  • ηtη_t: Zeitskalentrennung-Parameter

Technische Innovationen

1. Fisher-Rao-Gradient-Fluss

Modellierung der Strategie-Aktualisierung als Fisher-Rao-Gradient-Fluss auf dem Raum der Wahrscheinlichkeitsmessungen: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. Zwei-Zeitskalen-Analyse

  • Critic aktualisiert sich auf schneller Zeitskala (TD-Lernen)
  • Actor aktualisiert sich auf langsamer Zeitskala (Strategie-Spiegeldescent)

3. Lyapunov-Stabilitätsanalyse

Konstruktion einer Lyapunov-Funktion zur Stabilitätsanalyse, kombiniert mit:

  • Konvexer Analyse auf euklidischen Räumen
  • Konvexer Analyse auf Maßräumen

Theoretische Analyse

Schlüsselannahmen

Annahme 4.1 (Q^π_τ-Realisierbarkeit): Für alle πΠμπ ∈ Π_μ und (s,a)S×A(s,a) ∈ S × A existiert θπRNθ^π ∈ R^N so dass: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

Annahme 4.2: φ(s,a)1|φ(s,a)| ≤ 1 für alle (s,a)S×A(s,a) ∈ S × A

Annahme 4.3: Der kleinste Eigenwert der Matrix S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) ist λβ>0λ_β > 0

Haupttheoretische Ergebnisse

Stabilitätssatz (Theorem 5.1)

Sei η0>τΓη_0 > \frac{τ}{Γ}, wobei Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ}), dann existieren Konstanten a1,a2>0a_1, a_2 > 0 so dass: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

wobei Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ).

Konvergenzsatz (Theorem 6.1)

Für alle t>0t > 0: minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

Exponentielle Konvergenz (Theorem 6.3)

Unter angemessenen Bedingungen existieren ηt=η0ek1tη_t = η_0 e^{k_1 t} und eine Konstante k2>0k_2 > 0 so dass: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

Wichtige technische Werkzeuge

1. Performance-Differenz-Lemma

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Anwendung der Gronwall-Ungleichung

Zur Kontrolle des Wachstums von KL-Divergenz und Parameternorm.

3. Eigenschaften der Zustands-Aktions-Besetzungsmessungen

Lemma 5.1: dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

Verwandte Arbeiten

Einstellung ohne Regularisierung

  • Borkar & Konda (1997): Doppelte Zeitskalen-stochastische Approximation
  • Bhandari et al. (2021): Endliche-Zeit-Analyse mit linearer Funktionsapproximation
  • Zhang et al. (2021): Wasserstein-Flüsse und Darstellungslernen

Einstellung mit Entropie-Regularisierung

  • Cayci et al. (2024): Natürliche Strategie-Gradienten für endliche Aktionsräume
  • Dieses Paper erweitert auf allgemeine Aktionsräume

Vergleich der technischen Beiträge

Vorteile dieses Papers gegenüber bestehenden Arbeiten:

  1. Behandlung kontinuierlicher/unendlicher Aktionsräume
  2. Strenge Stabilitäts- und Konvergenznachweise
  3. Analyse der Wechselwirkung zwischen Entropie-Regularisierung und Zeitskalentrennung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Stabilitätsgarantien: Unter angemessenen Zeitskalentrennung-Bedingungen bleibt das System stabil
  2. Exponentielle Konvergenz: Exponentielle Konvergenzraten zur optimalen Strategie
  3. Effekte der Entropie-Regularisierung: Entropie-Regularisierung sichert eindeutige optimale Strategie und beschleunigt Konvergenz

Einschränkungen

  1. Kontinuierliche-Zeit-Annahme: Analysiert nur kontinuierliche Zeitmechanik, diskrete Zeit ist praktischer
  2. Lineare Funktionsapproximation: In der Praxis werden häufig nichtlineare neuronale Netze verwendet
  3. Exakte Integrations-Annahme: In der Praxis erforderlich Sampling-Schätzung, führt zu Monte-Carlo-Fehlern
  4. Q-Funktions-Realisierbarkeit: Starke Annahme, möglicherweise nicht in der Praxis erfüllt

Zukünftige Richtungen

  1. Strenge Analyse diskreter Zeitalgorithmen
  2. Erweiterung auf nichtlineare Funktionsapproximation
  3. Behandlung von Sampling-Fehlern
  4. Schwächere Realisierungsbedingungen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige Stabilitäts- und Konvergenznachweise
  2. Technische Innovation: Geschickte Kombination von Fisher-Rao-Geometrie und Lyapunov-Analyse
  3. Allgemeinheit: Erweiterung auf kontinuierliche Aktionsräume, füllt theoretische Lücke
  4. Klare Darstellung: Detaillierte mathematische Ableitungen, logische Klarheit

Mängel

  1. Praktische Einschränkungen: Starke Annahmebedingungen sind in der Praxis schwer zu erfüllen
  2. Fehlende experimentelle Validierung: Rein theoretische Arbeit, mangelnde numerische Verifikation
  3. Rechenkomplexität: Rechenkomplexität des Algorithmus nicht diskutiert
  4. Begrenzte Anwendbarkeit: Kontinuierliche-Zeit-Annahme begrenzt praktische Anwendungen

Auswirkungen

  1. Theoretischer Beitrag: Wichtige theoretische Grundlagen für entropie-regularisierte MDPs
  2. Methodologischer Wert: Analysetechniken anwendbar auf andere Reinforcement-Learning-Algorithmen
  3. Nachfolgeforschung: Legt Grundlagen für Forschung in diskreter Zeit und allgemeineren Einstellungen

Anwendungsszenarien

  1. Theoretische Forschung: Bereitstellung theoretischer Werkzeuge und Einsichten für andere Forschung
  2. Algorithmisches Design: Anleitung zur Parameterwahl und Konvergenzanalyse praktischer Algorithmen
  3. Kontinuierliche Kontrolle: Kontrollprobleme in kontinuierlichen Zustands-Aktions-Räumen

Literaturverzeichnis

Das Paper zitiert 25 wichtige Referenzen, die abdecken:

  • Klassische Arbeiten zu Actor-Critic-Methoden (Konda & Tsitsiklis, 1999)
  • Entropie-regularisierte MDPs (Kerimkulov et al., 2024)
  • Strategie-Gradient-Methoden (Schulman et al., 2015, 2017)
  • Funktionsapproximationstheorie (Bhandari et al., 2021)

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Paper, das strenge mathematische Analyse für Actor-Critic-Methoden in entropie-regularisierten MDPs bereitstellt. Obwohl es praktische Anwendungsbeschränkungen gibt, sind seine theoretischen Beiträge und methodologischen Werte erheblich und legen wichtige Grundlagen für die weitere Entwicklung dieses Feldes.