This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- ID del Artículo: 2509.18964
- Título: Central Limit Theorems for Asynchronous Averaged Q-Learning
- Autor: Xingtu Liu (Simon Fraser University)
- Clasificación: cs.LG math.OC stat.ML
- Conferencia de Publicación: OPT2025: 17th Annual Workshop on Optimization for Machine Learning
- Enlace del Artículo: https://arxiv.org/abs/2509.18964
Este artículo establece teoremas del límite central para el Q-learning promediado de Polyak-Ruppert bajo actualizaciones asincrónicas. El artículo demuestra un teorema del límite central no asintótico, cuya tasa de convergencia en la distancia de Wasserstein refleja explícitamente la dependencia del número de iteraciones, el tamaño del espacio de estados-acciones, el factor de descuento y la calidad de exploración. Además, se deriva un teorema del límite central funcional, demostrando que el proceso de sumas parciales converge débilmente a un movimiento browniano.
- Importancia del Q-Learning: El Q-learning es uno de los algoritmos más ampliamente utilizados en aprendizaje por refuerzo, aprendiendo directamente de trayectorias empíricas la función de valor de acción óptima, logrando éxitos significativos en juegos de Atari, Go, manipulación robótica y alineación de modelos de lenguaje grande.
- Desafíos en el Análisis Teórico:
- El Q-learning puede interpretarse como una instancia de aproximación estocástica (SA), pero el Q-learning asincrónico es un problema de SA no lineal con ruido markoviano
- En comparación con SA lineal y aprendizaje TD, el análisis del Q-learning es más desafiante debido a sus características no lineales, operadores no suaves y procesos no estacionarios
- Las actualizaciones asincrónicas introducen además ruido markoviano, aumentando la complejidad del análisis
- Limitaciones del Trabajo Existente:
- Trabajos previos han establecido el TLC funcional para Q-learning sincrónico, pero el Q-learning sincrónico solo considera ruido de martingala
- Zhang y Xie (2024) establecieron un TLC funcional para Q-learning asincrónico con tamaño de paso constante, pero el tamaño de paso constante no satisface las condiciones necesarias para establecer un TLC no asintótico
- Actualmente no existe un TLC no asintótico para Q-learning, incluso en configuraciones sincrónicas
Establecer teoremas del límite central es crucial para comprender las propiedades estadísticas de los algoritmos. Esta normalidad asintótica tiene importancia significativa para la cuantificación de incertidumbre e inferencia estadística en aprendizaje por refuerzo.
- Primer TLC No Asintótico para Q-Learning: Se demuestra el teorema del límite central no asintótico para Q-learning promediado asincrónico, con tasa de convergencia O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)
- Teorema del Límite Central Funcional: Se establece el TLC funcional para Q-learning asincrónico con tamaño de paso decreciente, mostrando que el proceso de sumas parciales converge débilmente a un movimiento browniano
- Dependencias Explícitas: La tasa de convergencia refleja explícitamente la dependencia del número de iteraciones K, el tamaño del espacio de estados-acciones |S||A|, el factor de descuento γ y la calidad de exploración ρ
- Innovación Técnica: Se resuelven los desafíos analíticos derivados de la no linealidad, ruido markoviano y operadores no suaves
Se considera un proceso de decisión de Markov (MDP) de horizonte infinito con descuento M=⟨S,A,P,r,γ⟩, donde:
- S: conjunto de estados
- A: conjunto de acciones
- P:S×A→ΔS: función de probabilidad de transición
- γ∈[0,1): factor de descuento
El objetivo es aprender la función Q óptima Q∗=maxπQπ.
El Q-learning asincrónico mantiene un estimador de función Q Qk, con regla de actualización:
Qk+1=Qk+αk(Fk−Qk)
donde:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
Supuesto 1: Existe una política óptima π∗ tal que para Q∈R∣S∣×∣A∣:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
Supuesto 2: {yk}k≥0 es una cadena de Markov de estado finito irreducible y aperiódica.
Se elige un tamaño de paso polinomial αk=α(k+b)−β, donde α,b>0, β∈(0.5,1).
Las razones para esta selección:
- Satisface las condiciones clave del esquema de promediado de Polyak-Juditsky
- El tamaño de paso constante viola las condiciones (i) y (iii), el tamaño de paso lineal viola la condición (ii)
- El tamaño de paso polinomial satisface todas las condiciones necesarias
Teorema 4: Bajo los Supuestos 1 y 2, se tiene:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
donde Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I).
Corolario 5: Cuando β=2/3, la tasa de convergencia se simplifica a:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
Teorema 6: Bajo la configuración del Teorema 4, el proceso de sumas parciales ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk converge débilmente en D[0,1] a (A−1ΣA−⊤)1/2B(⋅), donde B(⋅) es un movimiento browniano estándar.
- No Linealidad: El Q-learning es SA no lineal, más complejo que SA lineal
- Ruido Markoviano: Las actualizaciones asincrónicas introducen ruido markoviano no independiente e idénticamente distribuido
- Operadores No Suaves: El operador de Bellman empírico en Q-learning asincrónico es no suave
- Técnica de Cotas Superior e Inferior: Se introducen secuencias de cota superior Δk↑ y cota inferior Δk↓, utilizando el teorema del sándwich
- Descomposición de Términos: Se descompone ∑k=1KΔk en 6 términos:
- Término (1): término de error inicial
- Término (2): término de error no lineal
- Término (3): término de ruido markoviano
- Términos (4-5): términos de corrección de orden superior
- Término (6): secuencia de diferencias de martingala
- Técnica de Ecuación de Poisson: Se transforma el ruido markoviano en una secuencia de diferencias de martingala
- Teorema del Límite Central de Martingala: Se aplica el TLC de martingala no asintótico de Srikant (2024)
- Polyak y Juditsky (1992): Técnica clásica de reducción de varianza mediante promediado
- Anastasiou et al. (2019): TLC no asintótico para SGD promediado de Polyak-Ruppert
- Mou et al. (2020): TLC no asintótico para SA lineal
- Xie y Zhang (2022), Li et al. (2023): TLC funcional para Q-learning sincrónico
- Zhang y Xie (2024): TLC funcional para Q-learning asincrónico con tamaño de paso constante
- Srikant (2024), Samsonov et al. (2024): TLC no asintótico para aprendizaje TD
- Se establece el primer TLC no asintótico para Q-learning, con tasa de convergencia que depende explícitamente de parámetros del problema
- Se demuestra la convergencia débil del proceso de sumas parciales de Q-learning asincrónico
- Se proporciona una base teórica para la cuantificación de incertidumbre en aprendizaje por refuerzo
- Se requieren supuestos de Lipschitz relativamente fuertes (Supuesto 1)
- Solo se considera espacio de estados-acciones finito
- La tasa de convergencia podría no ser óptima
- Mejorar la tasa de convergencia
- Extender a otras métricas más allá de la distancia 1-Wasserstein
- Considerar configuraciones con aproximación de funciones
- Contribución Teórica Significativa: Primer TLC no asintótico para Q-learning, llenando un vacío teórico importante
- Innovación Técnica: Combinación ingeniosa de técnicas de cotas superior e inferior, ecuación de Poisson y TLC de martingala para resolver desafíos técnicos
- Resultados Completos: Se proporcionan tanto TLC no asintótico como funcional
- Dependencias Explícitas: La tasa de convergencia refleja explícitamente el impacto de cada parámetro
- Supuestos Fuertes: El supuesto de Lipschitz puede ser difícil de verificar en la práctica
- Tasa de Convergencia: La tasa de convergencia K−1/6 es relativamente lenta
- Estado Finito: No se consideran espacios de estado continuo o aproximación de funciones
- Valor Teórico: Proporciona nuevas herramientas y perspectivas para el análisis teórico del Q-learning
- Significado Práctico: Sienta las bases teóricas para la cuantificación de incertidumbre en algoritmos de aprendizaje por refuerzo
- Metodología: Las técnicas de demostración pueden generalizarse a otros problemas de SA no lineal
- Análisis teórico de problemas de aprendizaje por refuerzo tabular
- Investigación de convergencia de algoritmos con actualizaciones asincrónicas
- Inferencia estadística y construcción de intervalos de confianza en aprendizaje por refuerzo
- Polyak, B. T. and Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
- Xie, C. and Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
- Zhang, Y. and Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.