This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- ID de l'article: 2509.18964
- Titre: Central Limit Theorems for Asynchronous Averaged Q-Learning
- Auteur: Xingtu Liu (Université Simon Fraser)
- Classification: cs.LG math.OC stat.ML
- Conférence de publication: OPT2025: 17e Atelier annuel sur l'optimisation pour l'apprentissage automatique
- Lien de l'article: https://arxiv.org/abs/2509.18964
Cet article établit des théorèmes de la limite centrale pour l'apprentissage Q moyenné de Polyak-Ruppert sous des mises à jour asynchrones. L'article démontre un théorème de la limite centrale non-asymptotique dont le taux de convergence en distance de Wasserstein reflète explicitement la dépendance au nombre d'itérations, à la taille de l'espace état-action, au facteur d'actualisation et à la qualité de l'exploration. De plus, un théorème de la limite centrale fonctionnel est dérivé, montrant que le processus des sommes partielles converge faiblement vers un mouvement brownien.
- Importance de l'apprentissage Q: L'apprentissage Q est l'un des algorithmes les plus largement utilisés en apprentissage par renforcement, apprenant directement les fonctions de valeur d'action optimales à partir de trajectoires empiriques, avec des succès remarquables dans les jeux Atari, le jeu de Go, la manipulation robotique et l'alignement des modèles de langage de grande taille.
- Défis de l'analyse théorique:
- L'apprentissage Q peut être interprété comme une instance d'approximation stochastique (SA), mais l'apprentissage Q asynchrone est un problème SA non-linéaire avec bruit markovien
- Comparée à l'SA linéaire et à l'apprentissage TD, l'analyse de l'apprentissage Q est plus difficile en raison de sa non-linéarité, ses opérateurs non-lisses et ses processus non-stationnaires
- Les mises à jour asynchrones introduisent davantage de bruit markovien, augmentant la complexité analytique
- Limitations des travaux existants:
- Des travaux antérieurs ont établi le TLC fonctionnel pour l'apprentissage Q synchrone, mais l'apprentissage Q synchrone ne considère que le bruit de martingale
- Zhang et Xie (2024) ont établi un TLC fonctionnel pour l'apprentissage Q asynchrone à pas constant, mais le pas constant ne satisfait pas les conditions nécessaires pour établir un TLC non-asymptotique
- Actuellement, aucun TLC non-asymptotique pour l'apprentissage Q n'existe, même dans le cadre synchrone
L'établissement de théorèmes de la limite centrale est crucial pour comprendre les propriétés statistiques des algorithmes. Cette normalité asymptotique est d'une importance capitale pour la quantification de l'incertitude et l'inférence statistique en apprentissage par renforcement.
- Premier TLC non-asymptotique pour l'apprentissage Q: Démonstration d'un théorème de la limite centrale non-asymptotique pour l'apprentissage Q asynchrone moyenné, avec un taux de convergence de O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)
- Théorème de la limite centrale fonctionnel: Établissement du TLC fonctionnel pour l'apprentissage Q asynchrone à pas décroissant, montrant la convergence faible du processus des sommes partielles vers un mouvement brownien
- Dépendances explicites: Le taux de convergence reflète explicitement la dépendance au nombre d'itérations K, à la taille de l'espace état-action |S||A|, au facteur d'actualisation γ et à la qualité de l'exploration ρ
- Innovations techniques: Résolution des défis analytiques posés par la non-linéarité, le bruit markovien et les opérateurs non-lisses
Considérons un processus de décision markovien (MDP) à horizon infini actualisé M=⟨S,A,P,r,γ⟩, où:
- S: ensemble des états
- A: ensemble des actions
- P:S×A→ΔS: fonction de probabilité de transition
- γ∈[0,1): facteur d'actualisation
L'objectif est d'apprendre la fonction Q optimale Q∗=maxπQπ.
L'apprentissage Q asynchrone maintient un estimateur de fonction Q Qk, avec la règle de mise à jour:
Qk+1=Qk+αk(Fk−Qk)
où:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
Hypothèse 1: Il existe une politique optimale π∗ telle que pour Q∈R∣S∣×∣A∣:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
Hypothèse 2: {yk}k≥0 est une chaîne de Markov sur un espace d'états fini, irréductible et apériodique.
Sélection d'un pas polynomial αk=α(k+b)−β, où α,b>0, β∈(0.5,1).
Raisons de ce choix:
- Satisfaction des conditions clés du schéma de moyenne de Polyak-Juditsky
- Le pas constant viole les conditions (i) et (iii), le pas linéaire viole la condition (ii)
- Le pas polynomial satisfait toutes les conditions nécessaires
Théorème 4: Sous les hypothèses 1 et 2, on a:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
où Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I).
Corollaire 5: Lorsque β=2/3, le taux de convergence se simplifie en:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
Théorème 6: Sous les conditions du théorème 4, le processus des sommes partielles ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk converge faiblement sur D[0,1] vers (A−1ΣA−⊤)1/2B(⋅), où B(⋅) est un mouvement brownien standard.
- Non-linéarité: L'apprentissage Q est une SA non-linéaire, plus complexe que l'SA linéaire
- Bruit markovien: Les mises à jour asynchrones introduisent un bruit markovien non-indépendant et identiquement distribué
- Opérateurs non-lisses: L'opérateur empirique de Bellman dans l'apprentissage Q asynchrone est non-lisse
- Technique des bornes supérieures et inférieures: Introduction de séquences de bornes supérieures Δk↑ et inférieures Δk↓, utilisation du théorème d'encadrement
- Décomposition des termes: Décomposition de ∑k=1KΔk en six termes:
- Terme (1): Terme d'erreur initiale
- Terme (2): Terme d'erreur non-linéaire
- Terme (3): Terme de bruit markovien
- Termes (4-5): Termes de correction d'ordre supérieur
- Terme (6): Séquence de différences de martingale
- Technique de l'équation de Poisson: Transformation du bruit markovien en séquence de différences de martingale
- Théorème de la limite centrale pour martingales: Application du TLC non-asymptotique pour martingales de Srikant (2024)
- Polyak, Juditsky (1992): Technique classique de réduction de variance par moyennage
- Anastasiou et al. (2019): TLC non-asymptotique pour SGD moyenné de Polyak-Ruppert
- Mou et al. (2020): TLC non-asymptotique pour l'SA linéaire
- Xie et Zhang (2022), Li et al. (2023): TLC fonctionnel pour l'apprentissage Q synchrone
- Zhang et Xie (2024): TLC fonctionnel pour l'apprentissage Q asynchrone à pas constant
- Srikant (2024), Samsonov et al. (2024): TLC non-asymptotique pour l'apprentissage TD
- Établissement du premier TLC non-asymptotique pour l'apprentissage Q, avec un taux de convergence explicitement dépendant des paramètres du problème
- Démonstration de la convergence faible du processus des sommes partielles de l'apprentissage Q asynchrone
- Fourniture d'une base théorique pour la quantification de l'incertitude en apprentissage par renforcement
- Nécessité d'hypothèses Lipschitz relativement fortes (Hypothèse 1)
- Considération uniquement d'espaces état-action finis
- Le taux de convergence peut ne pas être optimal
- Amélioration du taux de convergence
- Extension au-delà de la distance de Wasserstein 1
- Considération du cadre d'approximation fonctionnelle
- Contribution théorique majeure: Premier établissement d'un TLC non-asymptotique pour l'apprentissage Q, comblant un vide théorique important
- Innovations techniques: Combinaison ingénieuse de techniques de bornes supérieures/inférieures, d'équation de Poisson et de TLC pour martingales résolvant les difficultés techniques
- Résultats complets: Fourniture simultanée de TLC non-asymptotique et fonctionnel
- Dépendances explicites: Le taux de convergence reflète explicitement l'influence de chaque paramètre
- Hypothèses fortes: L'hypothèse Lipschitz peut être difficile à vérifier en pratique
- Taux de convergence: Le taux de convergence K−1/6 est relativement lent
- Espaces finis: Non-considération d'espaces d'états continus ou d'approximation fonctionnelle
- Valeur théorique: Fourniture de nouveaux outils et perspectives pour l'analyse théorique de l'apprentissage Q
- Pertinence pratique: Établissement d'une base théorique pour la quantification de l'incertitude dans les algorithmes d'apprentissage par renforcement
- Méthodologie: Les techniques de preuve peuvent être généralisées à d'autres problèmes d'SA non-linéaires
- Analyse théorique de problèmes d'apprentissage par renforcement tabulaire
- Étude de la convergence d'algorithmes à mises à jour asynchrones
- Inférence statistique et construction d'intervalles de confiance en apprentissage par renforcement
- Polyak, B. T. et Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
- Xie, C. et Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
- Zhang, Y. et Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.