2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.

In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).

academic

Théorème Central Limite Amélioré et Approximations Bootstrap pour l'Approximation Stochastique Linéaire

Informations Fondamentales

ID de l'article: 2510.12375
Titre: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
Auteurs: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
Classification: stat.ML cs.LG math.OC math.PR math.ST stat.TH
Date de publication: 15 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.12375

Résumé

Cet article améliore les bornes de Berry-Esseen pour l'approximation normale multivariée des itérées moyennées de Polyak-Ruppert dans les algorithmes d'approximation stochastique linéaire (ASL). L'étude considère l'approximation normale gaussienne de la matrice de covariance prédite par le théorème central limite de Polyak-Juditsky et établit un taux de convergence d'ordre $n^{-1/3}$ au sens de la distance convexe, où $n$ est le nombre d'échantillons utilisés par l'algorithme. Simultanément, l'article démontre la validité non-asymptotique de la procédure bootstrap multiplicatif pour l'approximation de la distribution des erreurs recentrées de l'estimateur ASL moyenné, établissant un taux d'approximation d'ordre $1/\sqrt{n}$ , améliorant considérablement les résultats antérieurs de Samsonov et al. (2024).

Contexte et Motivation de la Recherche

Contexte du Problème

L'algorithme d'approximation stochastique linéaire (ASL) est une méthode fondamentale en statistique et apprentissage automatique, utilisée pour approximer la solution unique de l'équation linéaire $\bar{A}\theta^* = \bar{b}$ , où $\bar{A} \in \mathbb{R}^{d \times d}$ est une matrice non-dégénérée. L'algorithme procède par mise à jour itérative basée sur la séquence d'observations $\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}$ .

Défis Fondamentaux

Précision de l'approximation distributionnelle: Les résultats d'approximation normale existants présentent des taux de convergence lents, limitant la précision de la construction d'intervalles de confiance dans les applications pratiques
Estimation de la matrice de covariance: La matrice de covariance asymptotique $\Sigma_\infty$ est inconnue en pratique, nécessitant des méthodes d'estimation et d'approximation efficaces
Validité du bootstrap: Les méthodes bootstrap traditionnelles font face à des défis théoriques et pratiques dans les algorithmes d'apprentissage en ligne

Motivation de la Recherche

Améliorer l'analyse du taux de convergence du théorème central limite dans les algorithmes ASL
Développer des méthodes plus précises pour la construction d'intervalles de confiance bootstrap
Fournir un support théorique pour les applications telles que l'apprentissage par différence temporelle (TD) en apprentissage par renforcement

Contributions Principales

Bornes de Moments Améliorées: Établissement de bornes de moments d'ordre supérieur pour $\sqrt{n}(\bar{\theta}_n - \theta^*)$ , obtenant pour $p \geq 2$ : $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}$
Amélioration des Bornes de Berry-Esseen: Établissement d'un taux d'approximation normale d'ordre $n^{-1/3}$ au sens de la distance convexe, améliorant le résultat antérieur d'ordre $n^{-1/4}$
Analyse Non-Asymptotique du Bootstrap Multiplicatif: Démonstration de la validité de la procédure bootstrap avec un taux d'approximation atteignant $n^{-1/2}$ , considérablement supérieur aux résultats existants
Innovation Technique: Contournement de l'étape de comparaison gaussienne directe par le choix d'une matrice de covariance appropriée $\Sigma_n$ plutôt que $\Sigma_\infty$

Détails Méthodologiques

Définition de la Tâche

Considérons l'itération ASL: $\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1$ $\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1$

L'objectif est d'analyser les propriétés d'approximation distributionnelle de $\sqrt{n}(\bar{\theta}_n - \theta^*)$ .

Cadre Technique Principal

1. Technique de Décomposition d'Erreur

Décomposition de l'erreur ASL en termes transitoires et fluctuants: $\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)}$ où:

$\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*)$ (terme transitoire)
$\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell$ (terme fluctuant)

2. Méthode d'Expansion Perturbative

Décomposition supplémentaire du terme fluctuant: $\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)}$ où $J_k^{(0)}$ est le terme linéaire dominant et $H_k^{(0)}$ est le reste d'ordre supérieur.

3. Inégalités de Concentration Aléatoire

Application du cadre Shao-Zhang, exprimant la statistique comme: $\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D$ où $W$ est une statistique linéaire et $D$ est un reste non-linéaire.

Stratégie de Sélection du Pas

Adoption d'un pas décroissant polynomialement: $\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)$

Découverte clé: Le taux de convergence optimal est atteint pour $\gamma = 2/3$ .

Configuration Expérimentale

Cadre de Vérification Théorique

L'article est principalement une analyse théorique, vérifiée par:

Conditions d'Hypothèse:
- A1: Séquence d'observations indépendantes et identiquement distribuées
- A2: Condition de matrice de Hurwitz et bruit borné
- A3: Conditions sur le pas
- A4-A5: Conditions de taille d'échantillon et techniques
Scénarios d'Application: L'algorithme d'apprentissage par différence temporelle (TD) comme cas particulier important

Indicateurs d'Évaluation

Distance Convexe: $\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|$
Taux de Convergence: Précision d'approximation exprimée en puissances de $n$

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 1: Bornes de Moments

Sous les hypothèses appropriées, pour $p \geq 2$ : $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}$

Théorème 2: Approximation Gaussienne

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}$

Théorème 3: Approximation Asymptotique

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}$

Théorème 4: Approximation Bootstrap

Avec probabilité $1-1/n$ : $\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}$

Comparaison des Taux de Convergence

Méthode	Taux de Convergence	Références
Cet article (Berry-Esseen)	$n^{-1/3}$	-
Samsonov et al. (2024)	$n^{-1/4}$	41
Cet article (Bootstrap)	$n^{-1/2}$	-
Wu et al. (2024) TD	$n^{-1/3}$	54

Travaux Connexes

Développement de la Théorie ASL

Théorie Asymptotique: Polyak & Juditsky (1992) ont établi la normalité asymptotique fondamentale
Analyse Non-Asymptotique: Durmus et al. (2021, 2025) et autres fournissent des bornes à échantillon fini
Approximation Normale: Anastasiou et al. (2019) utilisant la méthode de Stein

Méthodes Bootstrap

Bootstrap Classique: Travail fondateur d'Efron (1992)
Bootstrap Multiplicatif: Fang et al. (2018) pour le bootstrap en ligne sur SGD
Analyse Théorique: Théorie haute-dimensionnelle de Chernozhukov et al. (2013, 2017)

Outils Techniques

Produits de Matrices Aléatoires: Inégalités de concentration de Huang et al. (2021)
Statistiques Non-Linéaires: Méthode de concentration aléatoire de Shao & Zhang (2022)

Conclusions et Discussion

Conclusions Principales

Taux de Convergence Optimal: Atteinte d'une borne de Berry-Esseen d'ordre $n^{-1/3}$ au sens de la distance convexe, ce qui est optimal dans le cadre ASL
Amélioration du Bootstrap: Taux d'approximation bootstrap atteignant $n^{-1/2}$ , considérablement supérieur au résultat existant d'ordre $n^{-1/4}$
Percée Technique: Contournement des obstacles techniques par le choix de $\Sigma_n$ plutôt que $\Sigma_\infty$ comme covariance d'approximation

Limitations

Hypothèse d'Indépendance: Considération uniquement du bruit i.i.d., le cas du bruit Markovien étant laissé pour des travaux futurs
Contraintes sur le Pas: Nécessité d'une forme spécifique de pas décroissant polynomialement
Dépendance Dimensionnelle: Les constantes contiennent des termes dépendant de la dimension, potentiellement importants en haute dimension

Directions Futures

Extension Markovienne: Généralisation des résultats au cadre du bruit Markovien
Bornes Inférieures Correspondantes: Établissement de bornes inférieures correspondantes dans l'intervalle $\gamma \in (1/2, 2/3)$
Applications Pratiques: Vérification des prédictions théoriques dans des problèmes concrets d'apprentissage par renforcement et d'optimisation

Évaluation Approfondie

Avantages

Profondeur Théorique: Fourniture de l'analyse de taux de convergence la plus précise dans le domaine ASL, avec une difficulté technique élevée
Innovation Méthodologique: Choix ingénieux de la matrice de covariance d'approximation, dépassant les limitations des méthodes existantes
Optimalité des Résultats: Plusieurs résultats atteignent ou s'approchent des bornes théoriques optimales
Techniques de Preuve: Combinaison de plusieurs outils probabilistes avancés, avec une trajectoire technique claire

Insuffisances

Vérification Expérimentale: En tant qu'article purement théorique, absence d'expériences numériques vérifiant les prédictions théoriques
Applicabilité Pratique: Dépendance complexe des constantes, nécessitant une recherche supplémentaire sur les performances en applications réelles
Portée d'Application: Conditions d'hypothèse relativement fortes, applicabilité limitée aux problèmes pratiques

Impact Potentiel

Valeur Académique: Contribution importante au progrès de la théorie de l'approximation stochastique, prévisiblement largement citée
Perspectives d'Application: Fourniture de fondations théoriques pour l'apprentissage par renforcement, l'optimisation en ligne et autres domaines
Contribution Méthodologique: Les techniques méthodologiques pourraient inspirer la recherche sur d'autres problèmes statistiques non-linéaires

Scénarios d'Application

Évaluation de politique en apprentissage par renforcement (apprentissage TD)
Analyse d'algorithmes d'optimisation convexe en ligne
Problèmes d'inférence statistique nécessitant des intervalles de confiance précis
Analyse théorique de l'apprentissage automatique à grande échelle

Références

Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.