2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

Convergenza di actor-critic per MDPs regolarizzati per entropia in spazi di azione generali

Informazioni Fondamentali

ID Articolo: 2510.14898
Titolo: Convergenza di actor-critic per MDPs regolarizzati per entropia in spazi di azione generali
Autori: Denis Zorba, David Šiška, Lukasz Szpruch
Classificazione: math.OC (Ottimizzazione e Controllo)
Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14898

Riassunto

Questo articolo dimostra la stabilità e la convergenza globale dei flussi di gradiente actor-critic accoppiati per processi decisionali di Markov (MDPs) regolarizzati per entropia a orizzonte infinito in spazi di stato e azione continui, con approssimazione lineare di funzioni e condizioni di realizzabilità della funzione Q. Lo studio considera una variante del flusso di gradiente actor-critic in cui il critic viene aggiornato utilizzando l'apprendimento per differenza temporale (TD), mentre la politica viene aggiornata utilizzando il metodo della discesa speculare di politica su scale temporali diverse. L'articolo dimostra la stabilità e la convergenza esponenziale del flusso actor-critic verso la politica ottimale, e analizza l'interazione tra la separazione delle scale temporali e la regolarizzazione per entropia sui loro effetti sulla stabilità e convergenza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato in questo articolo è l'analisi della stabilità e convergenza del metodo actor-critic negli MDPs regolarizzati per entropia con spazi di azione generali (continui o infiniti). Nello specifico:

Problema di Stabilità: Se gli aggiornamenti accoppiati di actor e critic sotto dinamiche in tempo continuo causano instabilità del sistema
Problema di Convergenza: Se il sistema converge verso la politica ottimale e quale sia la velocità di convergenza
Separazione delle Scale Temporali: Come velocità di aggiornamento diverse influenzano le prestazioni del sistema

Importanza della Ricerca

Fondamenti Teorici: Fornire garanzie teoriche rigorose per l'algoritmo actor-critic ampiamente utilizzato nelle applicazioni pratiche
Estensione Generale: Estendere i risultati di convergenza esistenti per spazi di azione finiti a spazi di azione continui/infiniti
Regolarizzazione per Entropia: Analizzare il ruolo della regolarizzazione per entropia nella promozione dell'esplorazione e nell'accelerazione della convergenza

Limitazioni dei Metodi Esistenti

Restrizioni dello Spazio di Azione: I risultati di convergenza esistenti per MDPs regolarizzati per entropia sono principalmente limitati a spazi di azione finiti
Sfide dell'Approssimazione di Funzioni: Mancanza di limiti a priori per l'approssimazione di funzioni in spazi di stato e azione generali
Complessità dell'Analisi Accoppiata: Necessità di combinare strumenti di analisi convessa su spazi euclidei e spazi di misure

Contributi Principali

Framework di Stabilità: Sviluppo di un framework di stabilità basato su Lyapunov che cattura l'interazione tra regolarizzazione per entropia e separazione delle scale temporali
Dimostrazione di Convergenza: Dimostrazione della convergenza della dinamica actor-critic negli MDPs regolarizzati per entropia con spazi di azione infiniti
Tasso di Convergenza Esponenziale: Stabilimento di un tasso di convergenza esponenziale verso la politica ottimale
Analisi in Tempo Continuo: Analisi degli aggiornamenti accoppiati nel limite di tempo continuo, formando un semi-flusso di gradiente per il critic e un flusso di gradiente Fisher-Rao approssimato per l'actor

Spiegazione Dettagliata del Metodo

Definizione del Compito

Considerare un MDP a orizzonte infinito $(S,A,P,c,γ)$ , dove:

$S$ , $A$ : spazi polacchi (spazi di stato e azione)
$P \in P(S|S \times A)$ : nucleo di transizione di stato
$c$ : funzione di costo limitata
$γ \in (0,1)$ : fattore di sconto
$τ > 0$ : parametro di regolarizzazione

La funzione di valore regolarizzata per entropia è definita come: $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

Architettura del Modello

1. Parametrizzazione della Politica

La politica appartiene alla classe di politiche ammissibili $Π_μ$ : $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

2. Approssimazione Lineare della Funzione Q

Utilizzo della mappa di caratteristiche $φ: S \times A → R^N$ : $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

3. Sistema Dinamico Accoppiato

Flusso actor-critic in tempo continuo: $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

Dove:

$g(θ,π)$ : semi-gradiente dell'errore quadratico medio di Bellman (MSBE)
$A_t(s,a)$ : funzione di vantaggio soft approssimata
$η_t$ : parametro di separazione delle scale temporali

Punti di Innovazione Tecnica

1. Flusso di Gradiente Fisher-Rao

Modellazione dell'aggiornamento di politica come flusso di gradiente Fisher-Rao nello spazio delle misure di probabilità: $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

2. Analisi a Due Scale Temporali

Critic si aggiorna sulla scala temporale veloce (apprendimento TD)
Actor si aggiorna sulla scala temporale lenta (discesa speculare di politica)

3. Analisi di Stabilità di Lyapunov

Costruzione di una funzione di Lyapunov per analizzare la stabilità del sistema, combinando:

Analisi convessa su spazi euclidei
Analisi convessa su spazi di misure

Analisi Teorica

Ipotesi Chiave

Ipotesi 4.1 (Realizzabilità di Q^π_τ): Per tutti $π ∈ Π_μ$ e $(s,a) ∈ S × A$ , esiste $θ^π ∈ R^N$ tale che: $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

Ipotesi 4.2: $|φ(s,a)| ≤ 1$ per tutti $(s,a) ∈ S × A$

Ipotesi 4.3: L'autovalore minimo della matrice $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ è $λ_β > 0$

Risultati Teorici Principali

Teorema di Stabilità (Teorema 5.1)

Sia $η_0 > \frac{τ}{Γ}$ , dove $Γ = λ_β(1-γ)(1-\sqrt{γ})$ , allora esistono costanti $a_1, a_2 > 0$ tali che: $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

Dove $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ .

Teorema di Convergenza (Teorema 6.1)

Per tutti $t > 0$ : $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

Convergenza Esponenziale (Teorema 6.3)

Sotto condizioni appropriate, esistono $η_t = η_0 e^{k_1 t}$ e una costante $k_2 > 0$ tali che: $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

Strumenti Tecnici Chiave

1. Lemma della Differenza di Prestazione

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$

2. Applicazione della Disuguaglianza di Gronwall

Utilizzata per controllare la crescita della divergenza KL e della norma dei parametri.

3. Proprietà della Misura di Occupazione Stato-Azione

Lemma 5.1: $d^π_{Jπβ}(E) = J_π d^π_β(E)$ $d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)$

Lavori Correlati

Impostazione Senza Regolarizzazione

Borkar & Konda (1997): Approssimazione stocastica a doppia scala temporale
Bhandari et al. (2021): Analisi a tempo finito con approssimazione lineare di funzioni
Zhang et al. (2021): Flussi di Wasserstein e apprendimento di rappresentazioni

Impostazione con Regolarizzazione per Entropia

Cayci et al. (2024): Gradiente di politica naturale per spazi di azione finiti
Questo articolo estende a spazi di azione generali

Confronto dei Contributi Tecnici

I vantaggi di questo articolo rispetto ai lavori esistenti:

Gestione di spazi di azione continui/infiniti
Dimostrazioni rigorose di stabilità e convergenza
Analisi dell'interazione tra regolarizzazione per entropia e separazione delle scale temporali

Conclusioni e Discussione

Conclusioni Principali

Garanzie di Stabilità: Sotto condizioni appropriate di separazione delle scale temporali, il sistema rimane stabile
Convergenza Esponenziale: Tasso di convergenza esponenziale verso la politica ottimale
Effetto della Regolarizzazione per Entropia: La regolarizzazione per entropia assicura un'unica politica ottimale e accelera la convergenza

Limitazioni

Ipotesi di Tempo Continuo: Analisi solo della dinamica in tempo continuo, mentre il tempo discreto è più pratico
Approssimazione Lineare di Funzioni: In pratica si utilizzano comunemente reti neurali non lineari
Ipotesi di Integrazione Esatta: In pratica è necessaria una stima per campionamento, introducendo errori di Monte Carlo
Realizzabilità della Funzione Q: Ipotesi forte, potrebbe non essere soddisfatta in pratica

Direzioni Future

Analisi rigorosa di algoritmi in tempo discreto
Estensione all'approssimazione di funzioni non lineari
Gestione degli errori di campionamento
Condizioni di realizzabilità più deboli

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Fornisce dimostrazioni complete di stabilità e convergenza
Innovazione Tecnica: Combinazione ingegnosa della geometria Fisher-Rao con l'analisi di Lyapunov
Generalità: Estensione a spazi di azione continui, colmando un vuoto teorico
Chiarezza Espositiva: Derivazioni matematiche dettagliate e logica chiara

Carenze

Limitazioni Pratiche: Condizioni di ipotesi forti difficili da soddisfare in pratica
Mancanza di Verifica Sperimentale: Lavoro puramente teorico, privo di validazione numerica
Complessità Computazionale: Non discussa la complessità computazionale dell'algoritmo
Applicabilità Limitata: L'ipotesi di tempo continuo limita l'applicazione pratica

Impatto

Contributo Teorico: Fornisce fondamenti teorici importanti per MDPs regolarizzati per entropia
Valore Metodologico: Le tecniche di analisi possono essere applicate ad altri algoritmi di apprendimento per rinforzo
Ricerca Successiva: Pone le basi per la ricerca in impostazioni a tempo discreto e più generali

Scenari Applicabili

Ricerca Teorica: Fornisce strumenti e intuizioni teoriche per altre ricerche
Progettazione di Algoritmi: Guida la scelta dei parametri e l'analisi di convergenza degli algoritmi pratici
Controllo Continuo: Problemi di controllo in spazi di stato e azione continui

Bibliografia

L'articolo cita 25 importanti riferimenti bibliografici, che coprono:

Lavori classici sui metodi actor-critic (Konda & Tsitsiklis, 1999)
MDPs regolarizzati per entropia (Kerimkulov et al., 2024)
Metodi di gradiente di politica (Schulman et al., 2015, 2017)
Teoria dell'approssimazione di funzioni (Bhandari et al., 2021)

Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce un'analisi matematica rigorosa del metodo actor-critic negli MDPs regolarizzati per entropia. Sebbene presenti limitazioni nell'applicazione pratica, il suo contributo teorico e il suo valore metodologico sono significativi, ponendo le basi importanti per lo sviluppo futuro di questo campo.