Convergence of actor-critic for entropy regularised MDPs in general action spaces
Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic
Convergenza di actor-critic per MDPs regolarizzati per entropia in spazi di azione generali
Questo articolo dimostra la stabilità e la convergenza globale dei flussi di gradiente actor-critic accoppiati per processi decisionali di Markov (MDPs) regolarizzati per entropia a orizzonte infinito in spazi di stato e azione continui, con approssimazione lineare di funzioni e condizioni di realizzabilità della funzione Q. Lo studio considera una variante del flusso di gradiente actor-critic in cui il critic viene aggiornato utilizzando l'apprendimento per differenza temporale (TD), mentre la politica viene aggiornata utilizzando il metodo della discesa speculare di politica su scale temporali diverse. L'articolo dimostra la stabilità e la convergenza esponenziale del flusso actor-critic verso la politica ottimale, e analizza l'interazione tra la separazione delle scale temporali e la regolarizzazione per entropia sui loro effetti sulla stabilità e convergenza.
Il problema centrale affrontato in questo articolo è l'analisi della stabilità e convergenza del metodo actor-critic negli MDPs regolarizzati per entropia con spazi di azione generali (continui o infiniti). Nello specifico:
Problema di Stabilità: Se gli aggiornamenti accoppiati di actor e critic sotto dinamiche in tempo continuo causano instabilità del sistema
Problema di Convergenza: Se il sistema converge verso la politica ottimale e quale sia la velocità di convergenza
Separazione delle Scale Temporali: Come velocità di aggiornamento diverse influenzano le prestazioni del sistema
Fondamenti Teorici: Fornire garanzie teoriche rigorose per l'algoritmo actor-critic ampiamente utilizzato nelle applicazioni pratiche
Estensione Generale: Estendere i risultati di convergenza esistenti per spazi di azione finiti a spazi di azione continui/infiniti
Regolarizzazione per Entropia: Analizzare il ruolo della regolarizzazione per entropia nella promozione dell'esplorazione e nell'accelerazione della convergenza
Restrizioni dello Spazio di Azione: I risultati di convergenza esistenti per MDPs regolarizzati per entropia sono principalmente limitati a spazi di azione finiti
Sfide dell'Approssimazione di Funzioni: Mancanza di limiti a priori per l'approssimazione di funzioni in spazi di stato e azione generali
Complessità dell'Analisi Accoppiata: Necessità di combinare strumenti di analisi convessa su spazi euclidei e spazi di misure
Framework di Stabilità: Sviluppo di un framework di stabilità basato su Lyapunov che cattura l'interazione tra regolarizzazione per entropia e separazione delle scale temporali
Dimostrazione di Convergenza: Dimostrazione della convergenza della dinamica actor-critic negli MDPs regolarizzati per entropia con spazi di azione infiniti
Tasso di Convergenza Esponenziale: Stabilimento di un tasso di convergenza esponenziale verso la politica ottimale
Analisi in Tempo Continuo: Analisi degli aggiornamenti accoppiati nel limite di tempo continuo, formando un semi-flusso di gradiente per il critic e un flusso di gradiente Fisher-Rao approssimato per l'actor
Modellazione dell'aggiornamento di politica come flusso di gradiente Fisher-Rao nello spazio delle misure di probabilità:
∂tlndμdπt(s,a)=−Aτπt(s,a)
Sotto condizioni appropriate, esistono ηt=η0ek1t e una costante k2>0 tali che:
minr∈[0,t]Vτπr(ρ)−Vτπ∗(ρ)≤2(1−γ)(1−e−2τt)τe−2τt(∫SKL(π∗(⋅∣s)∣π0(⋅∣s))dρπ∗(ds)+2τk2)
L'articolo cita 25 importanti riferimenti bibliografici, che coprono:
Lavori classici sui metodi actor-critic (Konda & Tsitsiklis, 1999)
MDPs regolarizzati per entropia (Kerimkulov et al., 2024)
Metodi di gradiente di politica (Schulman et al., 2015, 2017)
Teoria dell'approssimazione di funzioni (Bhandari et al., 2021)
Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce un'analisi matematica rigorosa del metodo actor-critic negli MDPs regolarizzati per entropia. Sebbene presenti limitazioni nell'applicazione pratica, il suo contributo teorico e il suo valore metodologico sono significativi, ponendo le basi importanti per lo sviluppo futuro di questo campo.