2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

Convergenza di actor-critic per MDPs regolarizzati per entropia in spazi di azione generali

Informazioni Fondamentali

  • ID Articolo: 2510.14898
  • Titolo: Convergenza di actor-critic per MDPs regolarizzati per entropia in spazi di azione generali
  • Autori: Denis Zorba, David Šiška, Lukasz Szpruch
  • Classificazione: math.OC (Ottimizzazione e Controllo)
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.14898

Riassunto

Questo articolo dimostra la stabilità e la convergenza globale dei flussi di gradiente actor-critic accoppiati per processi decisionali di Markov (MDPs) regolarizzati per entropia a orizzonte infinito in spazi di stato e azione continui, con approssimazione lineare di funzioni e condizioni di realizzabilità della funzione Q. Lo studio considera una variante del flusso di gradiente actor-critic in cui il critic viene aggiornato utilizzando l'apprendimento per differenza temporale (TD), mentre la politica viene aggiornata utilizzando il metodo della discesa speculare di politica su scale temporali diverse. L'articolo dimostra la stabilità e la convergenza esponenziale del flusso actor-critic verso la politica ottimale, e analizza l'interazione tra la separazione delle scale temporali e la regolarizzazione per entropia sui loro effetti sulla stabilità e convergenza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato in questo articolo è l'analisi della stabilità e convergenza del metodo actor-critic negli MDPs regolarizzati per entropia con spazi di azione generali (continui o infiniti). Nello specifico:

  1. Problema di Stabilità: Se gli aggiornamenti accoppiati di actor e critic sotto dinamiche in tempo continuo causano instabilità del sistema
  2. Problema di Convergenza: Se il sistema converge verso la politica ottimale e quale sia la velocità di convergenza
  3. Separazione delle Scale Temporali: Come velocità di aggiornamento diverse influenzano le prestazioni del sistema

Importanza della Ricerca

  1. Fondamenti Teorici: Fornire garanzie teoriche rigorose per l'algoritmo actor-critic ampiamente utilizzato nelle applicazioni pratiche
  2. Estensione Generale: Estendere i risultati di convergenza esistenti per spazi di azione finiti a spazi di azione continui/infiniti
  3. Regolarizzazione per Entropia: Analizzare il ruolo della regolarizzazione per entropia nella promozione dell'esplorazione e nell'accelerazione della convergenza

Limitazioni dei Metodi Esistenti

  1. Restrizioni dello Spazio di Azione: I risultati di convergenza esistenti per MDPs regolarizzati per entropia sono principalmente limitati a spazi di azione finiti
  2. Sfide dell'Approssimazione di Funzioni: Mancanza di limiti a priori per l'approssimazione di funzioni in spazi di stato e azione generali
  3. Complessità dell'Analisi Accoppiata: Necessità di combinare strumenti di analisi convessa su spazi euclidei e spazi di misure

Contributi Principali

  1. Framework di Stabilità: Sviluppo di un framework di stabilità basato su Lyapunov che cattura l'interazione tra regolarizzazione per entropia e separazione delle scale temporali
  2. Dimostrazione di Convergenza: Dimostrazione della convergenza della dinamica actor-critic negli MDPs regolarizzati per entropia con spazi di azione infiniti
  3. Tasso di Convergenza Esponenziale: Stabilimento di un tasso di convergenza esponenziale verso la politica ottimale
  4. Analisi in Tempo Continuo: Analisi degli aggiornamenti accoppiati nel limite di tempo continuo, formando un semi-flusso di gradiente per il critic e un flusso di gradiente Fisher-Rao approssimato per l'actor

Spiegazione Dettagliata del Metodo

Definizione del Compito

Considerare un MDP a orizzonte infinito (S,A,P,c,γ)(S,A,P,c,γ), dove:

  • SS, AA: spazi polacchi (spazi di stato e azione)
  • PP(SS×A)P \in P(S|S \times A): nucleo di transizione di stato
  • cc: funzione di costo limitata
  • γ(0,1)γ \in (0,1): fattore di sconto
  • τ>0τ > 0: parametro di regolarizzazione

La funzione di valore regolarizzata per entropia è definita come: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

Architettura del Modello

1. Parametrizzazione della Politica

La politica appartiene alla classe di politiche ammissibili ΠμΠ_μ: π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

2. Approssimazione Lineare della Funzione Q

Utilizzo della mappa di caratteristiche φ:S×ARNφ: S \times A → R^N: Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

3. Sistema Dinamico Accoppiato

Flusso actor-critic in tempo continuo: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

Dove:

  • g(θ,π)g(θ,π): semi-gradiente dell'errore quadratico medio di Bellman (MSBE)
  • At(s,a)A_t(s,a): funzione di vantaggio soft approssimata
  • ηtη_t: parametro di separazione delle scale temporali

Punti di Innovazione Tecnica

1. Flusso di Gradiente Fisher-Rao

Modellazione dell'aggiornamento di politica come flusso di gradiente Fisher-Rao nello spazio delle misure di probabilità: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

2. Analisi a Due Scale Temporali

  • Critic si aggiorna sulla scala temporale veloce (apprendimento TD)
  • Actor si aggiorna sulla scala temporale lenta (discesa speculare di politica)

3. Analisi di Stabilità di Lyapunov

Costruzione di una funzione di Lyapunov per analizzare la stabilità del sistema, combinando:

  • Analisi convessa su spazi euclidei
  • Analisi convessa su spazi di misure

Analisi Teorica

Ipotesi Chiave

Ipotesi 4.1 (Realizzabilità di Q^π_τ): Per tutti πΠμπ ∈ Π_μ e (s,a)S×A(s,a) ∈ S × A, esiste θπRNθ^π ∈ R^N tale che: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

Ipotesi 4.2: φ(s,a)1|φ(s,a)| ≤ 1 per tutti (s,a)S×A(s,a) ∈ S × A

Ipotesi 4.3: L'autovalore minimo della matrice S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) è λβ>0λ_β > 0

Risultati Teorici Principali

Teorema di Stabilità (Teorema 5.1)

Sia η0>τΓη_0 > \frac{τ}{Γ}, dove Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ}), allora esistono costanti a1,a2>0a_1, a_2 > 0 tali che: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

Dove Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ).

Teorema di Convergenza (Teorema 6.1)

Per tutti t>0t > 0: minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

Convergenza Esponenziale (Teorema 6.3)

Sotto condizioni appropriate, esistono ηt=η0ek1tη_t = η_0 e^{k_1 t} e una costante k2>0k_2 > 0 tali che: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

Strumenti Tecnici Chiave

1. Lemma della Differenza di Prestazione

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

2. Applicazione della Disuguaglianza di Gronwall

Utilizzata per controllare la crescita della divergenza KL e della norma dei parametri.

3. Proprietà della Misura di Occupazione Stato-Azione

Lemma 5.1: dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

Lavori Correlati

Impostazione Senza Regolarizzazione

  • Borkar & Konda (1997): Approssimazione stocastica a doppia scala temporale
  • Bhandari et al. (2021): Analisi a tempo finito con approssimazione lineare di funzioni
  • Zhang et al. (2021): Flussi di Wasserstein e apprendimento di rappresentazioni

Impostazione con Regolarizzazione per Entropia

  • Cayci et al. (2024): Gradiente di politica naturale per spazi di azione finiti
  • Questo articolo estende a spazi di azione generali

Confronto dei Contributi Tecnici

I vantaggi di questo articolo rispetto ai lavori esistenti:

  1. Gestione di spazi di azione continui/infiniti
  2. Dimostrazioni rigorose di stabilità e convergenza
  3. Analisi dell'interazione tra regolarizzazione per entropia e separazione delle scale temporali

Conclusioni e Discussione

Conclusioni Principali

  1. Garanzie di Stabilità: Sotto condizioni appropriate di separazione delle scale temporali, il sistema rimane stabile
  2. Convergenza Esponenziale: Tasso di convergenza esponenziale verso la politica ottimale
  3. Effetto della Regolarizzazione per Entropia: La regolarizzazione per entropia assicura un'unica politica ottimale e accelera la convergenza

Limitazioni

  1. Ipotesi di Tempo Continuo: Analisi solo della dinamica in tempo continuo, mentre il tempo discreto è più pratico
  2. Approssimazione Lineare di Funzioni: In pratica si utilizzano comunemente reti neurali non lineari
  3. Ipotesi di Integrazione Esatta: In pratica è necessaria una stima per campionamento, introducendo errori di Monte Carlo
  4. Realizzabilità della Funzione Q: Ipotesi forte, potrebbe non essere soddisfatta in pratica

Direzioni Future

  1. Analisi rigorosa di algoritmi in tempo discreto
  2. Estensione all'approssimazione di funzioni non lineari
  3. Gestione degli errori di campionamento
  4. Condizioni di realizzabilità più deboli

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornisce dimostrazioni complete di stabilità e convergenza
  2. Innovazione Tecnica: Combinazione ingegnosa della geometria Fisher-Rao con l'analisi di Lyapunov
  3. Generalità: Estensione a spazi di azione continui, colmando un vuoto teorico
  4. Chiarezza Espositiva: Derivazioni matematiche dettagliate e logica chiara

Carenze

  1. Limitazioni Pratiche: Condizioni di ipotesi forti difficili da soddisfare in pratica
  2. Mancanza di Verifica Sperimentale: Lavoro puramente teorico, privo di validazione numerica
  3. Complessità Computazionale: Non discussa la complessità computazionale dell'algoritmo
  4. Applicabilità Limitata: L'ipotesi di tempo continuo limita l'applicazione pratica

Impatto

  1. Contributo Teorico: Fornisce fondamenti teorici importanti per MDPs regolarizzati per entropia
  2. Valore Metodologico: Le tecniche di analisi possono essere applicate ad altri algoritmi di apprendimento per rinforzo
  3. Ricerca Successiva: Pone le basi per la ricerca in impostazioni a tempo discreto e più generali

Scenari Applicabili

  1. Ricerca Teorica: Fornisce strumenti e intuizioni teoriche per altre ricerche
  2. Progettazione di Algoritmi: Guida la scelta dei parametri e l'analisi di convergenza degli algoritmi pratici
  3. Controllo Continuo: Problemi di controllo in spazi di stato e azione continui

Bibliografia

L'articolo cita 25 importanti riferimenti bibliografici, che coprono:

  • Lavori classici sui metodi actor-critic (Konda & Tsitsiklis, 1999)
  • MDPs regolarizzati per entropia (Kerimkulov et al., 2024)
  • Metodi di gradiente di politica (Schulman et al., 2015, 2017)
  • Teoria dell'approssimazione di funzioni (Bhandari et al., 2021)

Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce un'analisi matematica rigorosa del metodo actor-critic negli MDPs regolarizzati per entropia. Sebbene presenti limitazioni nell'applicazione pratica, il suo contributo teorico e il suo valore metodologico sono significativi, ponendo le basi importanti per lo sviluppo futuro di questo campo.