2025-11-10T02:47:02.164832

Central Limit Theorems for Asynchronous Averaged Q-Learning

Liu
This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
academic

Teoremi del Limite Centrale per Q-Learning Asincrono Mediato

Informazioni Fondamentali

  • ID Articolo: 2509.18964
  • Titolo: Central Limit Theorems for Asynchronous Averaged Q-Learning
  • Autore: Xingtu Liu (Simon Fraser University)
  • Classificazione: cs.LG math.OC stat.ML
  • Conferenza di Pubblicazione: OPT2025: 17th Annual Workshop on Optimization for Machine Learning
  • Link Articolo: https://arxiv.org/abs/2509.18964

Riassunto

Il presente articolo stabilisce teoremi del limite centrale per il Q-learning mediato secondo Polyak-Ruppert con aggiornamenti asincroni. L'articolo dimostra un teorema del limite centrale non-asintotico, la cui velocità di convergenza nella distanza di Wasserstein riflette esplicitamente la dipendenza dal numero di iterazioni, dalla dimensione dello spazio stato-azione, dal fattore di sconto e dalla qualità dell'esplorazione. Inoltre, viene derivato un teorema del limite centrale funzionale, che dimostra la convergenza debole del processo delle somme parziali a un moto browniano.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Importanza del Q-Learning: Il Q-learning è uno degli algoritmi più ampiamente utilizzati nell'apprendimento per rinforzo, che apprende direttamente dalle traiettorie empiriche la funzione di valore dell'azione ottimale, ottenendo enormi successi in giochi Atari, Go, manipolazione robotica e allineamento di modelli linguistici di grandi dimensioni.
  2. Sfide nell'Analisi Teorica:
    • Il Q-learning può essere interpretato come un'istanza di approssimazione stocastica (SA), ma il Q-learning asincrono è un problema SA non lineare con rumore markoviano
    • Rispetto all'SA lineare e all'apprendimento TD, l'analisi del Q-learning è più impegnativa a causa della sua natura non lineare, degli operatori non lisci e dei processi non stazionari
    • Gli aggiornamenti asincroni introducono ulteriormente rumore markoviano, aumentando la complessità dell'analisi
  3. Limitazioni dei Lavori Esistenti:
    • I lavori precedenti hanno stabilito il CLT funzionale per il Q-learning sincrono, ma il Q-learning sincrono considera solo il rumore martingala
    • Zhang e Xie (2024) hanno stabilito il CLT funzionale per il Q-learning asincrono con passo costante, ma il passo costante non soddisfa le condizioni necessarie per stabilire un CLT non-asintotico
    • Attualmente non esiste un CLT non-asintotico per il Q-learning, nemmeno nell'impostazione sincrona

Motivazione della Ricerca

Stabilire teoremi del limite centrale è cruciale per comprendere le proprietà statistiche degli algoritmi; questa normalità asintotica ha un'importanza significativa per la quantificazione dell'incertezza e l'inferenza statistica nell'apprendimento per rinforzo.

Contributi Fondamentali

  1. Primo CLT Non-Asintotico per Q-Learning: Dimostra il teorema del limite centrale non-asintotico per il Q-learning mediato asincrono, con velocità di convergenza O~((SA)1/2K1/6ρ2(1γ)3)\tilde{O}((|S||A|)^{1/2}K^{-1/6}\rho^{-2}(1-\gamma)^{-3})
  2. Teorema del Limite Centrale Funzionale: Stabilisce il CLT funzionale per il Q-learning asincrono con passo decrescente, mostrando la convergenza debole del processo delle somme parziali a un moto browniano
  3. Dipendenze Esplicite: La velocità di convergenza riflette esplicitamente la dipendenza dal numero di iterazioni K, dalla dimensione dello spazio stato-azione |S||A|, dal fattore di sconto γ e dalla qualità dell'esplorazione ρ
  4. Innovazioni Tecniche: Risolve le sfide analitiche derivanti dalla non linearità, dal rumore markoviano e dagli operatori non lisci

Dettagli del Metodo

Definizione del Compito

Si consideri un processo decisionale markoviano (MDP) a orizzonte infinito con sconto M=S,A,P,r,γM = \langle S, A, P, r, \gamma \rangle, dove:

  • SS: insieme degli stati
  • AA: insieme delle azioni
  • P:S×AΔSP: S \times A \rightarrow \Delta_S: funzione di probabilità di transizione
  • γ[0,1)\gamma \in [0,1): fattore di sconto

L'obiettivo è imparare la funzione Q ottimale Q=maxπQπQ^* = \max_\pi Q^\pi.

Algoritmo Q-Learning Asincrono

Il Q-learning asincrono mantiene uno stimatore della funzione Q QkQ_k, con regola di aggiornamento: Qk+1=Qk+αk(FkQk)Q_{k+1} = Q_k + \alpha_k(F_k - Q_k)

dove:

  • Fk=F(Qk,yk)F_k = F(Q_k, y_k), yk=(sk,ak,sk+1)y_k = (s_k, a_k, s_{k+1})
  • [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)[F(Q_k, s_k, a_k, s_{k+1})](s,a) = \mathbf{1}_{\{(s_k,a_k)=(s,a)\}}\Gamma(Q_k, s_k, a_k, s_{k+1}) + Q_k(s,a)
  • Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)Qk(sk,ak)\Gamma(Q_k, s_k, a_k, s_{k+1}) = r_k(s_k, a_k) + \gamma\max_a Q_k(s_{k+1}, a) - Q_k(s_k, a_k)

Ipotesi Chiave

Ipotesi 1: Esiste una politica ottimale π\pi^* tale che per QRS×AQ \in \mathbb{R}^{|S|\times|A|}: (PπPπ)(QQ)LQQ2\|(P^\pi - P^{\pi^*})(Q-Q^*)\|_\infty \leq L\|Q-Q^*\|_2^\infty

Ipotesi 2: {yk}k0\{y_k\}_{k \geq 0} è una catena di Markov a stati finiti irriducibile e aperiodica.

Scelta del Passo

Si sceglie il passo polinomiale αk=α(k+b)β\alpha_k = \alpha(k+b)^{-\beta}, dove α,b>0\alpha, b > 0, β(0.5,1)\beta \in (0.5, 1).

Le ragioni di questa scelta:

  1. Soddisfa le condizioni chiave dello schema di media di Polyak-Juditsky
  2. Il passo costante viola le condizioni (i) e (iii), il passo lineare viola la condizione (ii)
  3. Il passo polinomiale soddisfa tutte le condizioni necessarie

Risultati Teorici Principali

Teorema del Limite Centrale Non-Asintotico

Teorema 4: Sotto le ipotesi 1 e 2, si ha: W1(K1/2k=1KΔk,N~)(SA)1/2ρ(1γ)2K1/2O~((ρ(1γ))β21β+Kβ/2ρ1(1γ)1+K1β+K1β2ρ1β(1γ)β)W_1\left(K^{-1/2}\sum_{k=1}^K \Delta_k, \tilde{N}\right) \leq \frac{(|S||A|)^{1/2}}{\rho(1-\gamma)^2K^{1/2}} \cdot \tilde{O}\left((\rho(1-\gamma))^{\frac{\beta-2}{1-\beta}} + K^{\beta/2}\rho^{-1}(1-\gamma)^{-1} + K^{1-\beta} + K^{\frac{1-\beta}{2}}\rho^{-1-\beta}(1-\gamma)^{-\beta}\right)

dove Δk=QkQ\Delta_k = Q_k - Q^*, N~=(A1ΣA)1/2N(0,I)\tilde{N} = (A^{-1}\Sigma A^{-\top})^{1/2}N(0,I).

Corollario 5: Quando β=2/3\beta = 2/3, la velocità di convergenza si semplifica a: W1(K1/2k=1KΔk,(A1ΣA)1/2N(0,I))O~((SA)1/2K1/6ρ2(1γ)3)W_1\left(K^{-1/2}\sum_{k=1}^K \Delta_k, (A^{-1}\Sigma A^{-\top})^{1/2}N(0,I)\right) \leq \tilde{O}\left(\frac{(|S||A|)^{1/2}}{K^{1/6}\rho^2(1-\gamma)^3}\right)

Teorema del Limite Centrale Funzionale

Teorema 6: Nell'impostazione del Teorema 4, il processo delle somme parziali ΦK(ζ)=K1/2k=1ζKΔk\Phi_K(\zeta) = K^{-1/2}\sum_{k=1}^{\lfloor\zeta K\rfloor}\Delta_k converge debolmente in D[0,1]D[0,1] a (A1ΣA)1/2B()(A^{-1}\Sigma A^{-\top})^{1/2}B(\cdot), dove B()B(\cdot) è un moto browniano standard.

Innovazioni Tecniche e Strategia di Dimostrazione

Sfide Tecniche Principali

  1. Non Linearità: Il Q-learning è un SA non lineare, più complesso dell'SA lineare
  2. Rumore Markoviano: Gli aggiornamenti asincroni introducono rumore markoviano non indipendente e identicamente distribuito
  3. Operatori Non Lisci: L'operatore di Bellman empirico nel Q-learning asincrono è non liscio

Strategia di Dimostrazione

  1. Tecnica dei Limiti Superiori e Inferiori: Mediante l'introduzione di sequenze limite superiore Δk\Delta_k^{\uparrow} e limite inferiore Δk\Delta_k^{\downarrow}, utilizzando il teorema del confronto
  2. Decomposizione dei Termini: Decomposizione di k=1KΔk\sum_{k=1}^K \Delta_k in sei termini:
    • Termine (1): termine di errore iniziale
    • Termine (2): termine di errore non lineare
    • Termine (3): termine di rumore markoviano
    • Termini (4-5): termini di correzione di ordine superiore
    • Termine (6): sequenza di differenze martingala
  3. Tecnica dell'Equazione di Poisson: Trasformazione del rumore markoviano in sequenza di differenze martingala
  4. Teorema del Limite Centrale Martingala: Applicazione del CLT martingala non-asintotico di Srikant (2024)

Lavori Correlati

Teoria dell'Approssimazione Stocastica

  • Polyak-Juditsky (1992): Tecnica classica di riduzione della varianza mediante media
  • Anastasiou et al. (2019): CLT non-asintotico per SGD mediato secondo Polyak-Ruppert
  • Mou et al. (2020): CLT non-asintotico per SA lineare

CLT nell'Apprendimento per Rinforzo

  • Xie e Zhang (2022), Li et al. (2023): CLT funzionale per Q-learning sincrono
  • Zhang e Xie (2024): CLT funzionale per Q-learning asincrono con passo costante
  • Srikant (2024), Samsonov et al. (2024): CLT non-asintotico per apprendimento TD

Conclusioni e Discussione

Conclusioni Principali

  1. Stabilisce il primo CLT non-asintotico per il Q-learning, con velocità di convergenza esplicitamente dipendente dai parametri del problema
  2. Dimostra la convergenza debole del processo delle somme parziali del Q-learning asincrono
  3. Fornisce fondamenti teorici per la quantificazione dell'incertezza nell'apprendimento per rinforzo

Limitazioni

  1. Richiede ipotesi di Lipschitz relativamente forti (Ipotesi 1)
  2. Considera solo spazi stato-azione finiti
  3. La velocità di convergenza potrebbe non essere ottimale

Direzioni Future

  1. Miglioramento della velocità di convergenza
  2. Estensione oltre la distanza 1-Wasserstein ad altre metriche
  3. Considerazione dell'impostazione con approssimazione di funzioni

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Primo stabilimento del CLT non-asintotico per il Q-learning, colmando un importante vuoto teorico
  2. Innovazione Tecnica: Combinazione abile di tecniche di limiti superiori e inferiori, equazione di Poisson e CLT martingala per risolvere difficoltà tecniche
  3. Risultati Completi: Fornisce simultaneamente CLT non-asintotico e funzionale
  4. Dipendenze Esplicite: La velocità di convergenza riflette esplicitamente l'influenza di ciascun parametro

Carenze

  1. Ipotesi Forti: L'ipotesi di Lipschitz potrebbe essere difficile da verificare nella pratica
  2. Velocità di Convergenza: La velocità di convergenza K1/6K^{-1/6} è relativamente lenta
  3. Spazi Finiti: Non considera spazi di stato continui o approssimazione di funzioni

Impatto

  1. Valore Teorico: Fornisce nuovi strumenti e prospettive per l'analisi teorica del Q-learning
  2. Significato Pratico: Pone le fondamenta teoriche per la quantificazione dell'incertezza negli algoritmi di apprendimento per rinforzo
  3. Metodologia: Le tecniche di dimostrazione possono essere generalizzate ad altri problemi SA non lineari

Scenari Applicabili

  1. Analisi teorica di problemi di apprendimento per rinforzo tabulare
  2. Ricerca sulla convergenza di algoritmi con aggiornamenti asincroni
  3. Inferenza statistica e costruzione di intervalli di confidenza nell'apprendimento per rinforzo

Bibliografia

  • Polyak, B. T. and Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
  • Xie, C. and Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
  • Zhang, Y. and Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.