Convergence of actor-critic for entropy regularised MDPs in general action spaces
Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic
Konvergenz von Actor-Critic für entropie-regularisierte MDPs in allgemeinen Aktionsräumen
Dieses Paper beweist die Stabilität und globale Konvergenz gekoppelter Actor-Critic-Gradientenflüsse für entropie-regularisierte Markov-Entscheidungsprozesse (MDPs) mit unendlichem Zeithorizont in kontinuierlichen Zustands- und Aktionsräumen unter linearer Funktionsapproximation und Q-Funktions-Realisierungsbedingungen. Die Forschung untersucht eine Actor-Critic-Gradientenfluss-Variante, bei der der Critic mittels Temporal-Difference (TD)-Lernen aktualisiert wird, während die Strategie mittels Strategie-Spiegeldescent-Methoden auf verschiedenen Zeitskalen aktualisiert wird. Das Paper beweist Stabilität und exponentielle Konvergenz des Actor-Critic-Flusses zur optimalen Strategie und analysiert die Auswirkungen der Wechselwirkung zwischen Zeitskalentrennung und Entropie-Regularisierung auf Stabilität und Konvergenz.
Das Kernproblem, das dieses Paper adressiert, ist die Stabilitäts- und Konvergenzanalyse von Actor-Critic-Methoden in entropie-regularisierten MDPs mit allgemeinen Aktionsräumen (kontinuierlich oder unendlich). Konkret:
Stabilitätsproblem: Führen gekoppelte Aktualisierungen von Actor und Critic unter kontinuierlicher Zeitmechanik zu Systeminstabilität?
Konvergenzproblem: Konvergiert das System zur optimalen Strategie, und wie schnell ist die Konvergenzgeschwindigkeit?
Zeitskalentrennung: Auswirkungen unterschiedlicher Aktualisierungsgeschwindigkeiten auf die Systemleistung
Stabilitätsrahmen: Entwicklung eines auf Lyapunov basierenden Stabilitätsrahmens, der die Wechselwirkung zwischen Entropie-Regularisierung und Zeitskalentrennung erfasst
Konvergenzbeweis: Beweis der Konvergenz von Actor-Critic-Dynamiken in entropie-regularisierten MDPs mit unendlichen Aktionsräumen
Exponentielle Konvergenzrate: Etablierung exponentieller Konvergenzraten zur optimalen Strategie
Kontinuierliche Zeitanalyse: Analyse gekoppelter Aktualisierungen im kontinuierlichen Zeitleimit, was zu einem Semi-Gradient-Fluss des Critic und einem approximativen Fisher-Rao-Gradient-Fluss des Actor führt
Unter angemessenen Bedingungen existieren ηt=η0ek1t und eine Konstante k2>0 so dass:
minr∈[0,t]Vτπr(ρ)−Vτπ∗(ρ)≤2(1−γ)(1−e−2τt)τe−2τt(∫SKL(π∗(⋅∣s)∣π0(⋅∣s))dρπ∗(ds)+2τk2)
Das Paper zitiert 25 wichtige Referenzen, die abdecken:
Klassische Arbeiten zu Actor-Critic-Methoden (Konda & Tsitsiklis, 1999)
Entropie-regularisierte MDPs (Kerimkulov et al., 2024)
Strategie-Gradient-Methoden (Schulman et al., 2015, 2017)
Funktionsapproximationstheorie (Bhandari et al., 2021)
Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Paper, das strenge mathematische Analyse für Actor-Critic-Methoden in entropie-regularisierten MDPs bereitstellt. Obwohl es praktische Anwendungsbeschränkungen gibt, sind seine theoretischen Beiträge und methodologischen Werte erheblich und legen wichtige Grundlagen für die weitere Entwicklung dieses Feldes.