2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang
Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.
academic

Analisi della Convergenza in Tempo Finito di Actor-Critic con Ricompensa Evolutiva

Informazioni Fondamentali

  • ID Articolo: 2510.12334
  • Titolo: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
  • Autori: Rui Hu, Yu Chen, Longbo Huang (IIIS, Università Tsinghua)
  • Classificazione: cs.LG (Apprendimento Automatico), cs.AI (Intelligenza Artificiale)
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.12334v1

Riassunto

Molti algoritmi popolari di apprendimento per rinforzo utilizzano funzioni di ricompensa evolutive — attraverso tecniche di reward shaping, regolarizzazione dell'entropia o apprendimento curricolare — ma le loro fondamenta teoriche rimangono incomplete. Questo articolo fornisce per la prima volta un'analisi della convergenza in tempo finito per algoritmi Actor-Critic a singola scala temporale con funzioni di ricompensa evolutive sotto campionamento markoviano. Lo studio considera l'impostazione in cui i parametri di ricompensa possono variare ad ogni passo temporale, influenzando simultaneamente l'ottimizzazione della politica e la stima del valore. Sotto ipotesi standard, vengono derivati limiti non asintotici per gli errori di Actor e Critic. I risultati dimostrano che, quando l'evoluzione dei parametri di ricompensa è sufficientemente lenta, è possibile ottenere un tasso di convergenza di O(1/T)O(1/\sqrt{T}), corrispondente al miglior tasso noto per ricompense statiche. Questo tasso di convergenza viene mantenuto quando la ricompensa viene aggiornata tramite regole basate su gradienti con gradienti limitati sulla stessa scala temporale di Actor e Critic, fornendo fondamenta teoriche per molte tecniche di apprendimento per rinforzo popolari.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Divario tra teoria e pratica: La teoria dell'apprendimento per rinforzo è tipicamente costruita su processi decisionali markoviani (MDP) con funzioni di ricompensa statiche, mentre le applicazioni pratiche utilizzano ampiamente tecniche di ricompensa evolutiva
  2. Ubiquità delle ricompense evolutive: Gli algoritmi RL pratici adottano comunemente reward shaping, regolarizzazione dell'entropia, apprendimento curricolare e altre tecniche per migliorare l'efficienza dell'apprendimento
  3. Sfide di progettazione: La progettazione di funzioni di ricompensa che siano sia apprendibili che allineate con i compiti desiderati presenta difficoltà significative in scenari reali

Problema Centrale

Con quale velocità può variare la funzione di ricompensa mantenendo comunque la convergenza dell'algoritmo RL?

Limitazioni degli Approcci Esistenti

  1. L'analisi teorica esistente si concentra principalmente su impostazioni con ricompense statiche
  2. Mancano garanzie teoriche sulla convergenza degli algoritmi Actor-Critic sotto ricompense evolutive
  3. L'analisi del disallineamento distributivo sotto campionamento markoviano necessita di miglioramenti

Contributi Principali

  1. Analisi teorica innovativa: Fornisce la prima analisi della convergenza in tempo finito per algoritmi Actor-Critic a singola scala temporale con ricompense evolutive
  2. Garanzie sul tasso di convergenza: Dimostra che sotto condizioni di evoluzione sufficientemente lenta dei parametri di ricompensa è possibile ottenere un tasso di convergenza di O(1/T)O(1/\sqrt{T}), corrispondente al caso di ricompensa statica
  3. Validazione pratica: Dimostra che regole di aggiornamento della ricompensa basate su gradienti soddisfano le condizioni di convergenza, fornendo supporto teorico per tecniche RL pratiche
  4. Miglioramenti tecnici: Introduce una nuova analisi del disallineamento distributivo sotto campionamento markoviano, migliorando il tasso di convergenza del caso di ricompensa statica di un fattore log2T\log^2 T

Dettagli del Metodo

Definizione del Compito

Lo studio analizza processi decisionali markoviani a orizzonte infinito con sconto M=(S,A,P,r,γ)M = (S,A,P,r,\gamma), dove la funzione di ricompensa rr può evolvere nel tempo. L'obiettivo è analizzare la convergenza dell'algoritmo Actor-Critic nell'impostazione di ricompensa evolutiva.

Architettura del Modello

1. Framework di Ricompensa Evolutiva

Introduce parametri di ricompensa generici ϕ\phi che comprendono tutti i fattori che determinano la ricompensa regolarizzata r~ϕ,θ(s,a)\tilde{r}_{\phi,\theta}(s,a): r~ϕ,θ(s,a)=r(s,a)αlogπθ(as)\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)

dove α0\alpha \geq 0 è il parametro di regolarizzazione dell'entropia.

2. Regole di Aggiornamento Actor-Critic

Aggiornamento Actor: θt+1θt+ηtθδ^tθlogπθ(atst)\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)

Aggiornamento Critic: ωt+1ProjCω(ωt+ηtωδ^tϕ(st))\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))

dove l'errore di differenza temporale è: δ^t=r~ϕt,θt(st,at)+(γϕ(st)ϕ(st))ωt\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t

3. Strategia di Campionamento Markoviano

Utilizza il kernel di campionamento P^(s,a)=γP(s,a)+(1γ)ρ()\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot) per garantire l'ergodicità.

Punti di Innovazione Tecnica

1. Analisi della Continuità Lipschitz della Ricompensa Evolutiva

Stabilisce la continuità Lipschitz dell'obiettivo della politica Jϕ(θ)J_\phi(\theta) e dei parametri Critic ottimali ω(ϕ,θ)\omega^*(\phi,\theta) rispetto ai parametri di ricompensa ϕ\phi:

  • Jϕ(θ)J_\phi(\theta) è DJD_J-Lipschitz rispetto a ϕ\phi
  • ω(ϕ,θ)\omega^*(\phi,\theta) è DωD_\omega-Lipschitz rispetto a ϕ\phi

2. Analisi Innovativa del Disallineamento Distributivo

Propone la Proposizione 4.8 chiave, che sfrutta direttamente la proprietà di contrazione dell'operatore indotto sulla distribuzione degli stati: Eν^tνρπθt1LCδLνk=0t1γt1kηkθ+γtρνρπθ01E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1

3. Risoluzione di Disuguaglianze Sistematiche

Disaccoppia gli errori di Actor e Critic attraverso la disuguaglianza algebrica 2GTWT1γ2LGT+2L1γWT2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T.

Impostazione Sperimentale

Framework di Analisi Teorica

Questo articolo conduce principalmente analisi teoriche, adottando le seguenti impostazioni:

Metriche di Valutazione

  • Errore di Actor: GT=1T/2t=T/2T1EθJϕt(θt)22G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2
  • Errore di Critic: WT=1T/2t=T/2T1Eωtωt22W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2
  • Variazione di Ricompensa: FT=1T/2t=T/2T1Eϕt+1ϕt22F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2

Ipotesi Chiave

  1. Esplorazione Sufficiente (Ipotesi 4.1): Per ogni θΩ(θ)\theta \in \Omega(\theta), AθA_\theta è definito negativo con valore singolare superiore limitato da λ-\lambda
  2. Continuità Lipschitz della Politica (Ipotesi 4.3): θlogπθ(as)2L\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L
  3. Continuità Lipschitz della Ricompensa Regolarizzata (Ipotesi 4.5): Costante Lipschitz rispetto a ϕ\phi pari a DD

Risultati Sperimentali

Risultati Teorici Principali

Teorema 4.6 (Teorema Principale di Convergenza)

Con lunghezze di passo ηtθ=cθt\eta_t^\theta = \frac{c_\theta}{\sqrt{t}} e ηtω=cωt\eta_t^\omega = \frac{c_\omega}{\sqrt{t}} e cθcωλLSω116LLω\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}:

GT=O(1T)+O(FTT)+O(FTT)+O(ϵ)G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

WT=O(1T)+O(FTT)+O(FTT)+O(ϵ)W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)

Corollario 4.7 (Regola di Aggiornamento Basata su Gradienti)

Quando i parametri di ricompensa utilizzano la regola di aggiornamento basata su gradienti ϕt+1ϕt+ηtϕhϕ(t)\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t), con Ehϕ(t)22Cϕ2E\|h_\phi(t)\|_2^2 \leq C_\phi^2, ηtϕ=cϕt\eta_t^\phi = \frac{c_\phi}{t}:

FT=O(1T)GT=O(1T)+O(ϵ),WT=O(1T)+O(ϵ)F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)

Scoperte Chiave

1. Condizioni di Convergenza

  • Convergenza asintotica: Richiede FT=o(1/T)F_T = o(1/\sqrt{T})
  • Mantenimento del tasso di convergenza O(1/T)O(1/\sqrt{T}): Richiede FT=O(1/T)F_T = O(1/T)

2. Miglioramento nel Caso di Ricompensa Statica

Quando FT0F_T \equiv 0, l'algoritmo raggiunge il tasso di convergenza standard O(1/T)O(1/\sqrt{T}), eliminando il fattore log2T\log^2 T rispetto ai lavori precedenti.

3. Validazione Pratica

Dimostra che un'ampia gamma di tecniche pratiche, incluso reward shaping guidato dalla curiosità, distillazione di reti stocastiche e regolazione automatica dell'entropia in Soft Actor-Critic, soddisfa le condizioni di garanzia teorica.

Lavori Correlati

Analisi in Tempo Finito dei Metodi di Gradiente di Politica

  • Agarwal et al. (2021), Mei et al. (2020): Garanzie di convergenza sotto ipotesi di oracle a gradiente esatto
  • Liu et al. (2020), Ding et al. (2022): Complessità campionaria in caso stocastico

Analisi in Tempo Finito dei Metodi Actor-Critic

  • Impostazione a doppio ciclo: Yang et al. (2019), Kumar et al. (2023)
  • Doppia scala temporale: Wu et al. (2020), Xu et al. (2020b)
  • Singola scala temporale: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

Tecniche di Ricompensa Evolutiva

  • Reward Shaping: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
  • Regolarizzazione dell'Entropia/KL: Haarnoja et al. (2018a,b), Jaques et al. (2019)
  • Apprendimento Curricolare: Narvekar et al. (2020)

Conclusioni e Discussione

Conclusioni Principali

  1. L'algoritmo Actor-Critic a singola scala temporale mostra robustezza significativa rispetto alla non-stazionarietà della ricompensa
  2. Sotto controllo della velocità di evoluzione dei parametri di ricompensa, è possibile mantenere il tasso di convergenza standard O(1/T)O(1/\sqrt{T})
  3. Gli aggiornamenti della ricompensa basati su gradienti soddisfano le condizioni di garanzia teorica, fornendo fondamenta teoriche per il successo pratico

Limitazioni

  1. L'analisi è limitata all'approssimazione lineare di funzioni per il Critic
  2. Richiede il soddisfacimento di ipotesi standard come la continuità Lipschitz
  3. La velocità di variazione della ricompensa deve essere strettamente controllata

Direzioni Future

  1. Estensione all'approssimazione non lineare di funzioni, in particolare reti neurali
  2. Esplorazione delle implicazioni dei risultati teorici per la progettazione di algoritmi di reward shaping più efficienti e provabilmente stabili
  3. Analisi dell'apprendimento per rinforzo sotto obiettivi dinamici (ricompense evolutive, distribuzioni iniziali variabili o probabilità di transizione)

Valutazione Approfondita

Punti di Forza

  1. Contributo innovativo: Fornisce per la prima volta analisi teorica per algoritmi Actor-Critic con ricompense evolutive
  2. Rigore tecnico: Prove complete, ipotesi ragionevoli, analisi approfondita
  3. Valore pratico: Fornisce supporto teorico per tecniche RL ampiamente utilizzate
  4. Innovazione metodologica: I miglioramenti nell'analisi del disallineamento distributivo hanno valore indipendente

Carenze

  1. Ambito di applicabilità: Limitato all'approssimazione lineare di funzioni, mentre le applicazioni pratiche utilizzano principalmente reti neurali profonde
  2. Limitazioni delle ipotesi: Ipotesi come la continuità Lipschitz potrebbero essere difficili da verificare nella pratica
  3. Validazione sperimentale: Mancano esperimenti numerici per validare i risultati teorici

Impatto

  1. Contributo teorico: Colma il vuoto nell'analisi teorica dell'RL con ricompense evolutive
  2. Guida pratica: Fornisce principi guida teorici per la progettazione di algoritmi
  3. Ricerca successiva: Pone le basi per l'estensione a impostazioni più complesse

Scenari Applicabili

  1. Progettazione di algoritmi RL che richiedono garanzie teoriche
  2. Analisi teorica del reward shaping e dell'apprendimento curricolare
  3. Ricerca sulla convergenza di algoritmi di regolarizzazione dell'entropia adattiva

Riferimenti Bibliografici

L'articolo cita importanti lavori nel campo dell'analisi teorica dell'apprendimento per rinforzo, inclusi:

  • Sutton & Barto (1998): Teoria fondamentale dell'apprendimento per rinforzo
  • Chen et al. (2021), Olshevsky & Gharesifard (2023): Analisi Actor-Critic a singola scala temporale
  • Haarnoja et al. (2018): Algoritmo Soft Actor-Critic
  • Pathak et al. (2017): Esplorazione guidata dalla curiosità

Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce per la prima volta un'analisi rigorosa della convergenza per algoritmi Actor-Critic con ricompense evolutive. Sebbene presenti alcune limitazioni nell'ambito di applicabilità, il suo contributo teorico è significativo e fornisce fondamenta teoriche importanti per la comprensione e la progettazione di algoritmi RL pratici.