2025-11-10T02:30:58.102691

Finite-time Convergence Analysis of Actor-Critic with Evolving Reward

Hu, Chen, Huang

Many popular practical reinforcement learning (RL) algorithms employ evolving reward functions-through techniques such as reward shaping, entropy regularization, or curriculum learning-yet their theoretical foundations remain underdeveloped. This paper provides the first finite-time convergence analysis of a single-timescale actor-critic algorithm in the presence of an evolving reward function under Markovian sampling. We consider a setting where the reward parameters may change at each time step, affecting both policy optimization and value estimation. Under standard assumptions, we derive non-asymptotic bounds for both actor and critic errors. Our result shows that an $O(1/\sqrt{T})$ convergence rate is achievable, matching the best-known rate for static rewards, provided the reward parameters evolve slowly enough. This rate is preserved when the reward is updated via a gradient-based rule with bounded gradient and on the same timescale as the actor and critic, offering a theoretical foundation for many popular RL techniques. As a secondary contribution, we introduce a novel analysis of distribution mismatch under Markovian sampling, improving the best-known rate by a factor of $\log^2T$ in the static-reward case.

academic

Analisi della Convergenza in Tempo Finito di Actor-Critic con Ricompensa Evolutiva

Informazioni Fondamentali

ID Articolo: 2510.12334
Titolo: Finite-time Convergence Analysis of Actor-Critic with Evolving Reward
Autori: Rui Hu, Yu Chen, Longbo Huang (IIIS, Università Tsinghua)
Classificazione: cs.LG (Apprendimento Automatico), cs.AI (Intelligenza Artificiale)
Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.12334v1

Riassunto

Molti algoritmi popolari di apprendimento per rinforzo utilizzano funzioni di ricompensa evolutive — attraverso tecniche di reward shaping, regolarizzazione dell'entropia o apprendimento curricolare — ma le loro fondamenta teoriche rimangono incomplete. Questo articolo fornisce per la prima volta un'analisi della convergenza in tempo finito per algoritmi Actor-Critic a singola scala temporale con funzioni di ricompensa evolutive sotto campionamento markoviano. Lo studio considera l'impostazione in cui i parametri di ricompensa possono variare ad ogni passo temporale, influenzando simultaneamente l'ottimizzazione della politica e la stima del valore. Sotto ipotesi standard, vengono derivati limiti non asintotici per gli errori di Actor e Critic. I risultati dimostrano che, quando l'evoluzione dei parametri di ricompensa è sufficientemente lenta, è possibile ottenere un tasso di convergenza di $O(1/\sqrt{T})$ , corrispondente al miglior tasso noto per ricompense statiche. Questo tasso di convergenza viene mantenuto quando la ricompensa viene aggiornata tramite regole basate su gradienti con gradienti limitati sulla stessa scala temporale di Actor e Critic, fornendo fondamenta teoriche per molte tecniche di apprendimento per rinforzo popolari.

Contesto di Ricerca e Motivazione

Contesto del Problema

Divario tra teoria e pratica: La teoria dell'apprendimento per rinforzo è tipicamente costruita su processi decisionali markoviani (MDP) con funzioni di ricompensa statiche, mentre le applicazioni pratiche utilizzano ampiamente tecniche di ricompensa evolutiva
Ubiquità delle ricompense evolutive: Gli algoritmi RL pratici adottano comunemente reward shaping, regolarizzazione dell'entropia, apprendimento curricolare e altre tecniche per migliorare l'efficienza dell'apprendimento
Sfide di progettazione: La progettazione di funzioni di ricompensa che siano sia apprendibili che allineate con i compiti desiderati presenta difficoltà significative in scenari reali

Problema Centrale

Con quale velocità può variare la funzione di ricompensa mantenendo comunque la convergenza dell'algoritmo RL?

Limitazioni degli Approcci Esistenti

L'analisi teorica esistente si concentra principalmente su impostazioni con ricompense statiche
Mancano garanzie teoriche sulla convergenza degli algoritmi Actor-Critic sotto ricompense evolutive
L'analisi del disallineamento distributivo sotto campionamento markoviano necessita di miglioramenti

Contributi Principali

Analisi teorica innovativa: Fornisce la prima analisi della convergenza in tempo finito per algoritmi Actor-Critic a singola scala temporale con ricompense evolutive
Garanzie sul tasso di convergenza: Dimostra che sotto condizioni di evoluzione sufficientemente lenta dei parametri di ricompensa è possibile ottenere un tasso di convergenza di $O(1/\sqrt{T})$ , corrispondente al caso di ricompensa statica
Validazione pratica: Dimostra che regole di aggiornamento della ricompensa basate su gradienti soddisfano le condizioni di convergenza, fornendo supporto teorico per tecniche RL pratiche
Miglioramenti tecnici: Introduce una nuova analisi del disallineamento distributivo sotto campionamento markoviano, migliorando il tasso di convergenza del caso di ricompensa statica di un fattore $\log^2 T$

Dettagli del Metodo

Definizione del Compito

Lo studio analizza processi decisionali markoviani a orizzonte infinito con sconto $M = (S,A,P,r,\gamma)$ , dove la funzione di ricompensa $r$ può evolvere nel tempo. L'obiettivo è analizzare la convergenza dell'algoritmo Actor-Critic nell'impostazione di ricompensa evolutiva.

Architettura del Modello

1. Framework di Ricompensa Evolutiva

Introduce parametri di ricompensa generici $\phi$ che comprendono tutti i fattori che determinano la ricompensa regolarizzata $\tilde{r}_{\phi,\theta}(s,a)$ : $\tilde{r}_{\phi,\theta}(s,a) = r(s,a) - \alpha \log \pi_\theta(a|s)$

dove $\alpha \geq 0$ è il parametro di regolarizzazione dell'entropia.

2. Regole di Aggiornamento Actor-Critic

Aggiornamento Actor: $\theta_{t+1} \leftarrow \theta_t + \eta_t^\theta \hat{\delta}_t \nabla_\theta \log \pi_\theta(a_t|s_t)$

Aggiornamento Critic: $\omega_{t+1} \leftarrow \text{Proj}_{C_\omega}(\omega_t + \eta_t^\omega \hat{\delta}_t \phi(s_t))$

dove l'errore di differenza temporale è: $\hat{\delta}_t = \tilde{r}_{\phi_t,\theta_t}(s_t,a_t) + (\gamma\phi(s'_t) - \phi(s_t))^\top \omega_t$

3. Strategia di Campionamento Markoviano

Utilizza il kernel di campionamento $\hat{P}(\cdot|s,a) = \gamma P(\cdot|s,a) + (1-\gamma)\rho(\cdot)$ per garantire l'ergodicità.

Punti di Innovazione Tecnica

1. Analisi della Continuità Lipschitz della Ricompensa Evolutiva

Stabilisce la continuità Lipschitz dell'obiettivo della politica $J_\phi(\theta)$ e dei parametri Critic ottimali $\omega^*(\phi,\theta)$ rispetto ai parametri di ricompensa $\phi$ :

$J_\phi(\theta)$ è $D_J$ -Lipschitz rispetto a $\phi$
$\omega^*(\phi,\theta)$ è $D_\omega$ -Lipschitz rispetto a $\phi$

2. Analisi Innovativa del Disallineamento Distributivo

Propone la Proposizione 4.8 chiave, che sfrutta direttamente la proprietà di contrazione dell'operatore indotto sulla distribuzione degli stati: $E\|\hat{\nu}_t - \nu_\rho^{\pi_{\theta_t}}\|_1 \leq LC_\delta L_\nu \sum_{k=0}^{t-1} \gamma^{t-1-k}\eta_k^\theta + \gamma^t\|\rho - \nu_\rho^{\pi_{\theta_0}}\|_1$

3. Risoluzione di Disuguaglianze Sistematiche

Disaccoppia gli errori di Actor e Critic attraverso la disuguaglianza algebrica $2\sqrt{G_T W_T} \leq \frac{1-\gamma}{2L}G_T + \frac{2L}{1-\gamma}W_T$ .

Impostazione Sperimentale

Framework di Analisi Teorica

Questo articolo conduce principalmente analisi teoriche, adottando le seguenti impostazioni:

Metriche di Valutazione

Errore di Actor: $G_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\nabla_\theta J_{\phi_t}(\theta_t)\|_2^2$
Errore di Critic: $W_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\omega_t - \omega_t^*\|_2^2$
Variazione di Ricompensa: $F_T = \frac{1}{T/2}\sum_{t=T/2}^{T-1} E\|\phi_{t+1} - \phi_t\|_2^2$

Ipotesi Chiave

Esplorazione Sufficiente (Ipotesi 4.1): Per ogni $\theta \in \Omega(\theta)$ , $A_\theta$ è definito negativo con valore singolare superiore limitato da $-\lambda$
Continuità Lipschitz della Politica (Ipotesi 4.3): $\|\nabla_\theta \log \pi_\theta(a|s)\|_2 \leq L$
Continuità Lipschitz della Ricompensa Regolarizzata (Ipotesi 4.5): Costante Lipschitz rispetto a $\phi$ pari a $D$

Risultati Sperimentali

Risultati Teorici Principali

Teorema 4.6 (Teorema Principale di Convergenza)

Con lunghezze di passo $\eta_t^\theta = \frac{c_\theta}{\sqrt{t}}$ e $\eta_t^\omega = \frac{c_\omega}{\sqrt{t}}$ e $\frac{c_\theta}{c_\omega} \leq \frac{\lambda}{LS_\omega} \wedge \frac{1}{16LL_\omega}$ :

$G_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

$W_T = O\left(\frac{1}{\sqrt{T}}\right) + O\left(F_T\sqrt{T}\right) + O\left(\sqrt{\frac{F_T}{T}}\right) + O(\epsilon)$

Corollario 4.7 (Regola di Aggiornamento Basata su Gradienti)

Quando i parametri di ricompensa utilizzano la regola di aggiornamento basata su gradienti $\phi_{t+1} \leftarrow \phi_t + \eta_t^\phi h_\phi(t)$ , con $E\|h_\phi(t)\|_2^2 \leq C_\phi^2$ , $\eta_t^\phi = \frac{c_\phi}{t}$ :

$F_T = O\left(\frac{1}{T}\right) \Rightarrow G_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon), \quad W_T = O\left(\frac{1}{\sqrt{T}}\right) + O(\epsilon)$

Scoperte Chiave

1. Condizioni di Convergenza

Convergenza asintotica: Richiede $F_T = o(1/\sqrt{T})$
Mantenimento del tasso di convergenza $O(1/\sqrt{T})$ : Richiede $F_T = O(1/T)$

2. Miglioramento nel Caso di Ricompensa Statica

Quando $F_T \equiv 0$ , l'algoritmo raggiunge il tasso di convergenza standard $O(1/\sqrt{T})$ , eliminando il fattore $\log^2 T$ rispetto ai lavori precedenti.

3. Validazione Pratica

Dimostra che un'ampia gamma di tecniche pratiche, incluso reward shaping guidato dalla curiosità, distillazione di reti stocastiche e regolazione automatica dell'entropia in Soft Actor-Critic, soddisfa le condizioni di garanzia teorica.

Lavori Correlati

Analisi in Tempo Finito dei Metodi di Gradiente di Politica

Agarwal et al. (2021), Mei et al. (2020): Garanzie di convergenza sotto ipotesi di oracle a gradiente esatto
Liu et al. (2020), Ding et al. (2022): Complessità campionaria in caso stocastico

Analisi in Tempo Finito dei Metodi Actor-Critic

Impostazione a doppio ciclo: Yang et al. (2019), Kumar et al. (2023)
Doppia scala temporale: Wu et al. (2020), Xu et al. (2020b)
Singola scala temporale: Chen et al. (2021), Olshevsky & Gharesifard (2023), Chen & Zhao (2025)

Tecniche di Ricompensa Evolutiva

Reward Shaping: Ng et al. (1999), Pathak et al. (2017), Burda et al. (2019)
Regolarizzazione dell'Entropia/KL: Haarnoja et al. (2018a,b), Jaques et al. (2019)
Apprendimento Curricolare: Narvekar et al. (2020)

Conclusioni e Discussione

Conclusioni Principali

L'algoritmo Actor-Critic a singola scala temporale mostra robustezza significativa rispetto alla non-stazionarietà della ricompensa
Sotto controllo della velocità di evoluzione dei parametri di ricompensa, è possibile mantenere il tasso di convergenza standard $O(1/\sqrt{T})$
Gli aggiornamenti della ricompensa basati su gradienti soddisfano le condizioni di garanzia teorica, fornendo fondamenta teoriche per il successo pratico

Limitazioni

L'analisi è limitata all'approssimazione lineare di funzioni per il Critic
Richiede il soddisfacimento di ipotesi standard come la continuità Lipschitz
La velocità di variazione della ricompensa deve essere strettamente controllata

Direzioni Future

Estensione all'approssimazione non lineare di funzioni, in particolare reti neurali
Esplorazione delle implicazioni dei risultati teorici per la progettazione di algoritmi di reward shaping più efficienti e provabilmente stabili
Analisi dell'apprendimento per rinforzo sotto obiettivi dinamici (ricompense evolutive, distribuzioni iniziali variabili o probabilità di transizione)

Valutazione Approfondita

Punti di Forza

Contributo innovativo: Fornisce per la prima volta analisi teorica per algoritmi Actor-Critic con ricompense evolutive
Rigore tecnico: Prove complete, ipotesi ragionevoli, analisi approfondita
Valore pratico: Fornisce supporto teorico per tecniche RL ampiamente utilizzate
Innovazione metodologica: I miglioramenti nell'analisi del disallineamento distributivo hanno valore indipendente

Carenze

Ambito di applicabilità: Limitato all'approssimazione lineare di funzioni, mentre le applicazioni pratiche utilizzano principalmente reti neurali profonde
Limitazioni delle ipotesi: Ipotesi come la continuità Lipschitz potrebbero essere difficili da verificare nella pratica
Validazione sperimentale: Mancano esperimenti numerici per validare i risultati teorici

Impatto

Contributo teorico: Colma il vuoto nell'analisi teorica dell'RL con ricompense evolutive
Guida pratica: Fornisce principi guida teorici per la progettazione di algoritmi
Ricerca successiva: Pone le basi per l'estensione a impostazioni più complesse

Scenari Applicabili

Progettazione di algoritmi RL che richiedono garanzie teoriche
Analisi teorica del reward shaping e dell'apprendimento curricolare
Ricerca sulla convergenza di algoritmi di regolarizzazione dell'entropia adattiva

Riferimenti Bibliografici

L'articolo cita importanti lavori nel campo dell'analisi teorica dell'apprendimento per rinforzo, inclusi:

Sutton & Barto (1998): Teoria fondamentale dell'apprendimento per rinforzo
Chen et al. (2021), Olshevsky & Gharesifard (2023): Analisi Actor-Critic a singola scala temporale
Haarnoja et al. (2018): Algoritmo Soft Actor-Critic
Pathak et al. (2017): Esplorazione guidata dalla curiosità

Valutazione Complessiva: Questo è un articolo teorico di alta qualità che fornisce per la prima volta un'analisi rigorosa della convergenza per algoritmi Actor-Critic con ricompense evolutive. Sebbene presenti alcune limitazioni nell'ambito di applicabilità, il suo contributo teorico è significativo e fornisce fondamenta teoriche importanti per la comprensione e la progettazione di algoritmi RL pratici.