2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.
In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
academic

Teorema del Límite Central Mejorado y Aproximaciones Bootstrap para Aproximación Estocástica Lineal

Información Básica

  • ID del Artículo: 2510.12375
  • Título: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
  • Autores: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
  • Clasificación: stat.ML cs.LG math.OC math.PR math.ST stat.TH
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12375

Resumen

Este artículo mejora los límites de Berry-Esseen para la aproximación normal multivariada de iteraciones promediadas de Polyak-Ruppert en algoritmos de aproximación estocástica lineal (LSA). El estudio considera la aproximación normal gaussiana de la matriz de covarianza predicha por el teorema del límite central de Polyak-Juditsky, estableciendo una tasa de convergencia de orden n1/3n^{-1/3} en el sentido de distancia convexa, donde nn es el número de muestras utilizadas por el algoritmo. Simultáneamente, se demuestra la validez no asintótica del procedimiento bootstrap multiplicativo para la aproximación de la distribución de errores reescalados del estimador LSA promediado, estableciendo una tasa de aproximación de orden 1/n1/\sqrt{n}, mejorando significativamente los resultados previos de Samsonov et al. (2024).

Antecedentes y Motivación de la Investigación

Contexto del Problema

El algoritmo de aproximación estocástica lineal (LSA) es un método fundamental en estadística y aprendizaje automático, utilizado para aproximar la solución única de la ecuación lineal Aˉθ=bˉ\bar{A}\theta^* = \bar{b}, donde AˉRd×d\bar{A} \in \mathbb{R}^{d \times d} es una matriz no degenerada. El algoritmo realiza actualizaciones iterativas basadas en la secuencia de observaciones {(A(Zk),b(Zk))}kN\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}.

Desafíos Centrales

  1. Precisión de la Aproximación de Distribuciones: Los resultados existentes de aproximación normal tienen tasas de convergencia lentas, limitando la precisión en la construcción de intervalos de confianza en aplicaciones prácticas
  2. Estimación de Matrices de Covarianza: La matriz de covarianza asintótica Σ\Sigma_\infty es desconocida en la práctica, requiriendo métodos efectivos de estimación y aproximación
  3. Validez del Bootstrap: Los métodos bootstrap tradicionales enfrentan desafíos teóricos y prácticos en algoritmos de aprendizaje en línea

Motivación de la Investigación

  • Mejorar el análisis de tasas de convergencia del teorema del límite central en algoritmos LSA
  • Desarrollar métodos más precisos para la construcción de intervalos de confianza bootstrap
  • Proporcionar apoyo teórico para aplicaciones como el aprendizaje por diferencia temporal (TD) en aprendizaje por refuerzo

Contribuciones Principales

  1. Límites de Momentos Mejorados: Se establecen límites de momentos de orden superior para n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*), obteniendo para p2p \geq 2: E1/p[θˉnθp]pTrΣn+p3/2n5/6E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}
  2. Mejora de los Límites de Berry-Esseen: Se establece una tasa de aproximación normal de orden n1/3n^{-1/3} en el sentido de distancia convexa, mejorando el resultado previo de n1/4n^{-1/4}
  3. Análisis No Asintótico del Bootstrap Multiplicativo: Se demuestra la validez del procedimiento bootstrap, alcanzando una tasa de aproximación de n1/2n^{-1/2}, significativamente superior a los resultados existentes
  4. Innovación Técnica: Mediante la selección de una matriz de covarianza apropiada Σn\Sigma_n en lugar de Σ\Sigma_\infty para la aproximación, se evita el paso directo de comparación gaussiana

Explicación Detallada de los Métodos

Definición de la Tarea

Considérese la iteración LSA: θk=θk1αk(A(Zk)θk1b(Zk)),k1\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1θˉn=n1k=0n1θk,n1\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1

El objetivo es analizar las propiedades de aproximación de distribuciones de n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*).

Marco Técnico Principal

1. Técnica de Descomposición de Errores

Se descompone el error LSA en términos transitorios y fluctuantes: θkθ=θ~k(tr)+θ~k(fl)\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} donde:

  • θ~k(tr)=Γ1:k(θ0θ)\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) (término transitorio)
  • θ~k(fl)==1kαΓ+1:kε\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell (término fluctuante)

2. Método de Expansión Perturbativa

Se descompone aún más el término fluctuante: θ~k(fl)=Jk(0)+Hk(0)\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} donde Jk(0)J_k^{(0)} es el término principal lineal y Hk(0)H_k^{(0)} es el término residual de orden superior.

3. Desigualdades de Concentración Aleatorizadas

Se aplica el marco de Shao-Zhang, expresando el estadístico como: nΣn1/2(θˉnθ)=W+D\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D donde WW es un estadístico lineal y DD es un término residual no lineal.

Estrategia de Selección del Tamaño de Paso

Se adopta un tamaño de paso con decaimiento polinomial: αk=c0(k+k0)γ,γ(1/2,1)\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)

Hallazgo clave: La tasa de convergencia óptima se alcanza cuando γ=2/3\gamma = 2/3.

Configuración Experimental

Marco de Verificación Teórica

El artículo es principalmente un análisis teórico, verificando resultados mediante:

  1. Condiciones de Supuesto:
    • A1: Secuencia de observaciones independientes e idénticamente distribuidas
    • A2: Condición de matriz de Hurwitz y ruido acotado
    • A3: Condiciones de tamaño de paso
    • A4-A5: Tamaño de muestra y condiciones técnicas
  2. Escenarios de Aplicación: El algoritmo de aprendizaje por diferencia temporal (TD) como caso especial importante

Métricas de Evaluación

  • Distancia Convexa: ρConv(μ,ν)=supBConv(Rd)μ(B)ν(B)\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|
  • Tasa de Convergencia: Precisión de aproximación expresada como potencias de nn

Resultados Experimentales

Resultados Teóricos Principales

Teorema 1: Límites de Momentos

Bajo supuestos apropiados, para p2p \geq 2: E1/p[θˉnθp]C1,1pTrΣnn+Δ(fl)(n,p,γ)+C1,5θ0θnE^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}

Teorema 2: Aproximación Gaussiana

ρConv(n(θˉnθ),Σn1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}

Teorema 3: Aproximación Asintótica

ρConv(n(θˉnθ),Σ1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn+C3n1γ\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}

Teorema 4: Aproximación Bootstrap

Con probabilidad 11/n1-1/n: supBConv(Rd)Pb(n(θˉnbθˉn)B)P(n(θˉnθ)B)C4θ0θ+Δ4,1n+Δ4,2nγ/2+Δ4,3ϕn+Δ4,4n\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}

Comparación de Tasas de Convergencia

MétodoTasa de ConvergenciaReferencias
Este artículo (Berry-Esseen)n1/3n^{-1/3}-
Samsonov et al. (2024)n1/4n^{-1/4}41
Este artículo (Bootstrap)n1/2n^{-1/2}-
Wu et al. (2024) TDn1/3n^{-1/3}54

Trabajo Relacionado

Desarrollo de la Teoría LSA

  • Teoría Asintótica: Polyak & Juditsky (1992) establecieron la normalidad asintótica fundamental
  • Análisis No Asintótico: Durmus et al. (2021, 2025) y otros proporcionaron límites de muestra finita
  • Aproximación Normal: Anastasiou et al. (2019) utilizaron el método de Stein

Métodos Bootstrap

  • Bootstrap Clásico: Trabajo pionero de Efron (1992)
  • Bootstrap Multiplicativo: Fang et al. (2018) para bootstrap en línea en SGD
  • Análisis Teórico: Teoría de alta dimensión de Chernozhukov et al. (2013, 2017)

Herramientas Técnicas

  • Productos de Matrices Aleatorias: Desigualdades de concentración de Huang et al. (2021)
  • Estadísticos No Lineales: Método de concentración aleatorizado de Shao & Zhang (2022)

Conclusiones y Discusión

Conclusiones Principales

  1. Tasa de Convergencia Óptima: Se alcanza un límite de Berry-Esseen de n1/3n^{-1/3} en distancia convexa, que es óptimo en el contexto LSA
  2. Mejora del Bootstrap: La tasa de aproximación bootstrap alcanza n1/2n^{-1/2}, significativamente superior al resultado existente de n1/4n^{-1/4}
  3. Avance Técnico: Mediante la selección de Σn\Sigma_n en lugar de Σ\Sigma_\infty como covarianza de aproximación, se evitan obstáculos técnicos

Limitaciones

  1. Supuesto de Independencia: Solo se consideran ruidos i.i.d., dejando el caso de ruido Markov para trabajo futuro
  2. Restricciones de Tamaño de Paso: Se requiere una forma específica de tamaño de paso con decaimiento polinomial
  3. Dependencia de Dimensión: Las constantes incluyen términos dependientes de la dimensión, que pueden ser grandes en casos de alta dimensión

Direcciones Futuras

  1. Extensión Markov: Generalizar resultados a configuraciones con ruido Markov
  2. Límites Coincidentes: Establecer límites inferiores coincidentes en el intervalo γ(1/2,2/3)\gamma \in (1/2, 2/3)
  3. Aplicaciones Prácticas: Verificar predicciones teóricas en problemas específicos de aprendizaje por refuerzo y optimización

Evaluación Profunda

Fortalezas

  1. Profundidad Teórica: Proporciona el análisis de tasa de convergencia más preciso en el campo LSA, con alta dificultad técnica
  2. Innovación Metodológica: Selección ingeniosa de la matriz de covarianza de aproximación, superando limitaciones de métodos existentes
  3. Resultados Óptimos: Múltiples resultados alcanzan o se acercan a límites teóricamente óptimos
  4. Técnicas de Prueba: Combina múltiples herramientas avanzadas de teoría de probabilidad, con una ruta técnica clara

Deficiencias

  1. Verificación Experimental: Como artículo puramente teórico, carece de experimentos numéricos que verifiquen predicciones teóricas
  2. Practicidad: Las constantes tienen dependencias complejas, requiriendo investigación adicional sobre el desempeño en aplicaciones reales
  3. Alcance de Aplicabilidad: Las condiciones de supuesto son relativamente fuertes, limitando la aplicabilidad en problemas prácticos

Impacto Potencial

  1. Valor Académico: Proporciona avances importantes en teoría de aproximación estocástica, con expectativa de amplia citación
  2. Perspectivas de Aplicación: Proporciona fundamentos teóricos para aprendizaje por refuerzo, optimización en línea y otros campos
  3. Contribución Metodológica: Las técnicas metodológicas pueden inspirar investigación en otros problemas de estadística no lineal

Escenarios de Aplicabilidad

  • Evaluación de políticas en aprendizaje por refuerzo (aprendizaje TD)
  • Análisis de algoritmos de optimización convexa en línea
  • Problemas de inferencia estadística que requieren intervalos de confianza precisos
  • Análisis teórico en aprendizaje automático a gran escala

Referencias

  1. Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
  2. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
  3. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
  4. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.