2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.

In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).

academic

Teorema del Límite Central Mejorado y Aproximaciones Bootstrap para Aproximación Estocástica Lineal

Información Básica

ID del Artículo: 2510.12375
Título: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
Autores: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
Clasificación: stat.ML cs.LG math.OC math.PR math.ST stat.TH
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12375

Resumen

Este artículo mejora los límites de Berry-Esseen para la aproximación normal multivariada de iteraciones promediadas de Polyak-Ruppert en algoritmos de aproximación estocástica lineal (LSA). El estudio considera la aproximación normal gaussiana de la matriz de covarianza predicha por el teorema del límite central de Polyak-Juditsky, estableciendo una tasa de convergencia de orden $n^{-1/3}$ en el sentido de distancia convexa, donde $n$ es el número de muestras utilizadas por el algoritmo. Simultáneamente, se demuestra la validez no asintótica del procedimiento bootstrap multiplicativo para la aproximación de la distribución de errores reescalados del estimador LSA promediado, estableciendo una tasa de aproximación de orden $1/\sqrt{n}$ , mejorando significativamente los resultados previos de Samsonov et al. (2024).

Antecedentes y Motivación de la Investigación

Contexto del Problema

El algoritmo de aproximación estocástica lineal (LSA) es un método fundamental en estadística y aprendizaje automático, utilizado para aproximar la solución única de la ecuación lineal $\bar{A}\theta^* = \bar{b}$ , donde $\bar{A} \in \mathbb{R}^{d \times d}$ es una matriz no degenerada. El algoritmo realiza actualizaciones iterativas basadas en la secuencia de observaciones $\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}$ .

Desafíos Centrales

Precisión de la Aproximación de Distribuciones: Los resultados existentes de aproximación normal tienen tasas de convergencia lentas, limitando la precisión en la construcción de intervalos de confianza en aplicaciones prácticas
Estimación de Matrices de Covarianza: La matriz de covarianza asintótica $\Sigma_\infty$ es desconocida en la práctica, requiriendo métodos efectivos de estimación y aproximación
Validez del Bootstrap: Los métodos bootstrap tradicionales enfrentan desafíos teóricos y prácticos en algoritmos de aprendizaje en línea

Motivación de la Investigación

Mejorar el análisis de tasas de convergencia del teorema del límite central en algoritmos LSA
Desarrollar métodos más precisos para la construcción de intervalos de confianza bootstrap
Proporcionar apoyo teórico para aplicaciones como el aprendizaje por diferencia temporal (TD) en aprendizaje por refuerzo

Contribuciones Principales

Límites de Momentos Mejorados: Se establecen límites de momentos de orden superior para $\sqrt{n}(\bar{\theta}_n - \theta^*)$ , obteniendo para $p \geq 2$ : $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}$
Mejora de los Límites de Berry-Esseen: Se establece una tasa de aproximación normal de orden $n^{-1/3}$ en el sentido de distancia convexa, mejorando el resultado previo de $n^{-1/4}$
Análisis No Asintótico del Bootstrap Multiplicativo: Se demuestra la validez del procedimiento bootstrap, alcanzando una tasa de aproximación de $n^{-1/2}$ , significativamente superior a los resultados existentes
Innovación Técnica: Mediante la selección de una matriz de covarianza apropiada $\Sigma_n$ en lugar de $\Sigma_\infty$ para la aproximación, se evita el paso directo de comparación gaussiana

Explicación Detallada de los Métodos

Definición de la Tarea

Considérese la iteración LSA: $\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1$ $\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1$

El objetivo es analizar las propiedades de aproximación de distribuciones de $\sqrt{n}(\bar{\theta}_n - \theta^*)$ .

Marco Técnico Principal

1. Técnica de Descomposición de Errores

Se descompone el error LSA en términos transitorios y fluctuantes: $\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)}$ donde:

$\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*)$ (término transitorio)
$\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell$ (término fluctuante)

2. Método de Expansión Perturbativa

Se descompone aún más el término fluctuante: $\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)}$ donde $J_k^{(0)}$ es el término principal lineal y $H_k^{(0)}$ es el término residual de orden superior.

3. Desigualdades de Concentración Aleatorizadas

Se aplica el marco de Shao-Zhang, expresando el estadístico como: $\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D$ donde $W$ es un estadístico lineal y $D$ es un término residual no lineal.

Estrategia de Selección del Tamaño de Paso

Se adopta un tamaño de paso con decaimiento polinomial: $\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)$

Hallazgo clave: La tasa de convergencia óptima se alcanza cuando $\gamma = 2/3$ .

Configuración Experimental

Marco de Verificación Teórica

El artículo es principalmente un análisis teórico, verificando resultados mediante:

Condiciones de Supuesto:
- A1: Secuencia de observaciones independientes e idénticamente distribuidas
- A2: Condición de matriz de Hurwitz y ruido acotado
- A3: Condiciones de tamaño de paso
- A4-A5: Tamaño de muestra y condiciones técnicas
Escenarios de Aplicación: El algoritmo de aprendizaje por diferencia temporal (TD) como caso especial importante

Métricas de Evaluación

Distancia Convexa: $\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|$
Tasa de Convergencia: Precisión de aproximación expresada como potencias de $n$

Resultados Experimentales

Resultados Teóricos Principales

Teorema 1: Límites de Momentos

Bajo supuestos apropiados, para $p \geq 2$ : $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}$

Teorema 2: Aproximación Gaussiana

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}$

Teorema 3: Aproximación Asintótica

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}$

Teorema 4: Aproximación Bootstrap

Con probabilidad $1-1/n$ : $\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}$

Comparación de Tasas de Convergencia

Método	Tasa de Convergencia	Referencias
Este artículo (Berry-Esseen)	$n^{-1/3}$	-
Samsonov et al. (2024)	$n^{-1/4}$	41
Este artículo (Bootstrap)	$n^{-1/2}$	-
Wu et al. (2024) TD	$n^{-1/3}$	54

Trabajo Relacionado

Desarrollo de la Teoría LSA

Teoría Asintótica: Polyak & Juditsky (1992) establecieron la normalidad asintótica fundamental
Análisis No Asintótico: Durmus et al. (2021, 2025) y otros proporcionaron límites de muestra finita
Aproximación Normal: Anastasiou et al. (2019) utilizaron el método de Stein

Métodos Bootstrap

Bootstrap Clásico: Trabajo pionero de Efron (1992)
Bootstrap Multiplicativo: Fang et al. (2018) para bootstrap en línea en SGD
Análisis Teórico: Teoría de alta dimensión de Chernozhukov et al. (2013, 2017)

Herramientas Técnicas

Productos de Matrices Aleatorias: Desigualdades de concentración de Huang et al. (2021)
Estadísticos No Lineales: Método de concentración aleatorizado de Shao & Zhang (2022)

Conclusiones y Discusión

Conclusiones Principales

Tasa de Convergencia Óptima: Se alcanza un límite de Berry-Esseen de $n^{-1/3}$ en distancia convexa, que es óptimo en el contexto LSA
Mejora del Bootstrap: La tasa de aproximación bootstrap alcanza $n^{-1/2}$ , significativamente superior al resultado existente de $n^{-1/4}$
Avance Técnico: Mediante la selección de $\Sigma_n$ en lugar de $\Sigma_\infty$ como covarianza de aproximación, se evitan obstáculos técnicos

Limitaciones

Supuesto de Independencia: Solo se consideran ruidos i.i.d., dejando el caso de ruido Markov para trabajo futuro
Restricciones de Tamaño de Paso: Se requiere una forma específica de tamaño de paso con decaimiento polinomial
Dependencia de Dimensión: Las constantes incluyen términos dependientes de la dimensión, que pueden ser grandes en casos de alta dimensión

Direcciones Futuras

Extensión Markov: Generalizar resultados a configuraciones con ruido Markov
Límites Coincidentes: Establecer límites inferiores coincidentes en el intervalo $\gamma \in (1/2, 2/3)$
Aplicaciones Prácticas: Verificar predicciones teóricas en problemas específicos de aprendizaje por refuerzo y optimización

Evaluación Profunda

Fortalezas

Profundidad Teórica: Proporciona el análisis de tasa de convergencia más preciso en el campo LSA, con alta dificultad técnica
Innovación Metodológica: Selección ingeniosa de la matriz de covarianza de aproximación, superando limitaciones de métodos existentes
Resultados Óptimos: Múltiples resultados alcanzan o se acercan a límites teóricamente óptimos
Técnicas de Prueba: Combina múltiples herramientas avanzadas de teoría de probabilidad, con una ruta técnica clara

Deficiencias

Verificación Experimental: Como artículo puramente teórico, carece de experimentos numéricos que verifiquen predicciones teóricas
Practicidad: Las constantes tienen dependencias complejas, requiriendo investigación adicional sobre el desempeño en aplicaciones reales
Alcance de Aplicabilidad: Las condiciones de supuesto son relativamente fuertes, limitando la aplicabilidad en problemas prácticos

Impacto Potencial

Valor Académico: Proporciona avances importantes en teoría de aproximación estocástica, con expectativa de amplia citación
Perspectivas de Aplicación: Proporciona fundamentos teóricos para aprendizaje por refuerzo, optimización en línea y otros campos
Contribución Metodológica: Las técnicas metodológicas pueden inspirar investigación en otros problemas de estadística no lineal

Escenarios de Aplicabilidad

Evaluación de políticas en aprendizaje por refuerzo (aprendizaje TD)
Análisis de algoritmos de optimización convexa en línea
Problemas de inferencia estadística que requieren intervalos de confianza precisos
Análisis teórico en aprendizaje automático a gran escala

Referencias

Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.