This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- ID Articolo: 2509.18964
- Titolo: Central Limit Theorems for Asynchronous Averaged Q-Learning
- Autore: Xingtu Liu (Simon Fraser University)
- Classificazione: cs.LG math.OC stat.ML
- Conferenza di Pubblicazione: OPT2025: 17th Annual Workshop on Optimization for Machine Learning
- Link Articolo: https://arxiv.org/abs/2509.18964
Il presente articolo stabilisce teoremi del limite centrale per il Q-learning mediato secondo Polyak-Ruppert con aggiornamenti asincroni. L'articolo dimostra un teorema del limite centrale non-asintotico, la cui velocità di convergenza nella distanza di Wasserstein riflette esplicitamente la dipendenza dal numero di iterazioni, dalla dimensione dello spazio stato-azione, dal fattore di sconto e dalla qualità dell'esplorazione. Inoltre, viene derivato un teorema del limite centrale funzionale, che dimostra la convergenza debole del processo delle somme parziali a un moto browniano.
- Importanza del Q-Learning: Il Q-learning è uno degli algoritmi più ampiamente utilizzati nell'apprendimento per rinforzo, che apprende direttamente dalle traiettorie empiriche la funzione di valore dell'azione ottimale, ottenendo enormi successi in giochi Atari, Go, manipolazione robotica e allineamento di modelli linguistici di grandi dimensioni.
- Sfide nell'Analisi Teorica:
- Il Q-learning può essere interpretato come un'istanza di approssimazione stocastica (SA), ma il Q-learning asincrono è un problema SA non lineare con rumore markoviano
- Rispetto all'SA lineare e all'apprendimento TD, l'analisi del Q-learning è più impegnativa a causa della sua natura non lineare, degli operatori non lisci e dei processi non stazionari
- Gli aggiornamenti asincroni introducono ulteriormente rumore markoviano, aumentando la complessità dell'analisi
- Limitazioni dei Lavori Esistenti:
- I lavori precedenti hanno stabilito il CLT funzionale per il Q-learning sincrono, ma il Q-learning sincrono considera solo il rumore martingala
- Zhang e Xie (2024) hanno stabilito il CLT funzionale per il Q-learning asincrono con passo costante, ma il passo costante non soddisfa le condizioni necessarie per stabilire un CLT non-asintotico
- Attualmente non esiste un CLT non-asintotico per il Q-learning, nemmeno nell'impostazione sincrona
Stabilire teoremi del limite centrale è cruciale per comprendere le proprietà statistiche degli algoritmi; questa normalità asintotica ha un'importanza significativa per la quantificazione dell'incertezza e l'inferenza statistica nell'apprendimento per rinforzo.
- Primo CLT Non-Asintotico per Q-Learning: Dimostra il teorema del limite centrale non-asintotico per il Q-learning mediato asincrono, con velocità di convergenza O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)
- Teorema del Limite Centrale Funzionale: Stabilisce il CLT funzionale per il Q-learning asincrono con passo decrescente, mostrando la convergenza debole del processo delle somme parziali a un moto browniano
- Dipendenze Esplicite: La velocità di convergenza riflette esplicitamente la dipendenza dal numero di iterazioni K, dalla dimensione dello spazio stato-azione |S||A|, dal fattore di sconto γ e dalla qualità dell'esplorazione ρ
- Innovazioni Tecniche: Risolve le sfide analitiche derivanti dalla non linearità, dal rumore markoviano e dagli operatori non lisci
Si consideri un processo decisionale markoviano (MDP) a orizzonte infinito con sconto M=⟨S,A,P,r,γ⟩, dove:
- S: insieme degli stati
- A: insieme delle azioni
- P:S×A→ΔS: funzione di probabilità di transizione
- γ∈[0,1): fattore di sconto
L'obiettivo è imparare la funzione Q ottimale Q∗=maxπQπ.
Il Q-learning asincrono mantiene uno stimatore della funzione Q Qk, con regola di aggiornamento:
Qk+1=Qk+αk(Fk−Qk)
dove:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
Ipotesi 1: Esiste una politica ottimale π∗ tale che per Q∈R∣S∣×∣A∣:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
Ipotesi 2: {yk}k≥0 è una catena di Markov a stati finiti irriducibile e aperiodica.
Si sceglie il passo polinomiale αk=α(k+b)−β, dove α,b>0, β∈(0.5,1).
Le ragioni di questa scelta:
- Soddisfa le condizioni chiave dello schema di media di Polyak-Juditsky
- Il passo costante viola le condizioni (i) e (iii), il passo lineare viola la condizione (ii)
- Il passo polinomiale soddisfa tutte le condizioni necessarie
Teorema 4: Sotto le ipotesi 1 e 2, si ha:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
dove Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I).
Corollario 5: Quando β=2/3, la velocità di convergenza si semplifica a:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
Teorema 6: Nell'impostazione del Teorema 4, il processo delle somme parziali ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk converge debolmente in D[0,1] a (A−1ΣA−⊤)1/2B(⋅), dove B(⋅) è un moto browniano standard.
- Non Linearità: Il Q-learning è un SA non lineare, più complesso dell'SA lineare
- Rumore Markoviano: Gli aggiornamenti asincroni introducono rumore markoviano non indipendente e identicamente distribuito
- Operatori Non Lisci: L'operatore di Bellman empirico nel Q-learning asincrono è non liscio
- Tecnica dei Limiti Superiori e Inferiori: Mediante l'introduzione di sequenze limite superiore Δk↑ e limite inferiore Δk↓, utilizzando il teorema del confronto
- Decomposizione dei Termini: Decomposizione di ∑k=1KΔk in sei termini:
- Termine (1): termine di errore iniziale
- Termine (2): termine di errore non lineare
- Termine (3): termine di rumore markoviano
- Termini (4-5): termini di correzione di ordine superiore
- Termine (6): sequenza di differenze martingala
- Tecnica dell'Equazione di Poisson: Trasformazione del rumore markoviano in sequenza di differenze martingala
- Teorema del Limite Centrale Martingala: Applicazione del CLT martingala non-asintotico di Srikant (2024)
- Polyak-Juditsky (1992): Tecnica classica di riduzione della varianza mediante media
- Anastasiou et al. (2019): CLT non-asintotico per SGD mediato secondo Polyak-Ruppert
- Mou et al. (2020): CLT non-asintotico per SA lineare
- Xie e Zhang (2022), Li et al. (2023): CLT funzionale per Q-learning sincrono
- Zhang e Xie (2024): CLT funzionale per Q-learning asincrono con passo costante
- Srikant (2024), Samsonov et al. (2024): CLT non-asintotico per apprendimento TD
- Stabilisce il primo CLT non-asintotico per il Q-learning, con velocità di convergenza esplicitamente dipendente dai parametri del problema
- Dimostra la convergenza debole del processo delle somme parziali del Q-learning asincrono
- Fornisce fondamenti teorici per la quantificazione dell'incertezza nell'apprendimento per rinforzo
- Richiede ipotesi di Lipschitz relativamente forti (Ipotesi 1)
- Considera solo spazi stato-azione finiti
- La velocità di convergenza potrebbe non essere ottimale
- Miglioramento della velocità di convergenza
- Estensione oltre la distanza 1-Wasserstein ad altre metriche
- Considerazione dell'impostazione con approssimazione di funzioni
- Contributo Teorico Significativo: Primo stabilimento del CLT non-asintotico per il Q-learning, colmando un importante vuoto teorico
- Innovazione Tecnica: Combinazione abile di tecniche di limiti superiori e inferiori, equazione di Poisson e CLT martingala per risolvere difficoltà tecniche
- Risultati Completi: Fornisce simultaneamente CLT non-asintotico e funzionale
- Dipendenze Esplicite: La velocità di convergenza riflette esplicitamente l'influenza di ciascun parametro
- Ipotesi Forti: L'ipotesi di Lipschitz potrebbe essere difficile da verificare nella pratica
- Velocità di Convergenza: La velocità di convergenza K−1/6 è relativamente lenta
- Spazi Finiti: Non considera spazi di stato continui o approssimazione di funzioni
- Valore Teorico: Fornisce nuovi strumenti e prospettive per l'analisi teorica del Q-learning
- Significato Pratico: Pone le fondamenta teoriche per la quantificazione dell'incertezza negli algoritmi di apprendimento per rinforzo
- Metodologia: Le tecniche di dimostrazione possono essere generalizzate ad altri problemi SA non lineari
- Analisi teorica di problemi di apprendimento per rinforzo tabulare
- Ricerca sulla convergenza di algoritmi con aggiornamenti asincroni
- Inferenza statistica e costruzione di intervalli di confidenza nell'apprendimento per rinforzo
- Polyak, B. T. and Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
- Xie, C. and Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
- Zhang, Y. and Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.