2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.
In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
academic

Théorème Central Limite Amélioré et Approximations Bootstrap pour l'Approximation Stochastique Linéaire

Informations Fondamentales

  • ID de l'article: 2510.12375
  • Titre: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
  • Auteurs: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
  • Classification: stat.ML cs.LG math.OC math.PR math.ST stat.TH
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.12375

Résumé

Cet article améliore les bornes de Berry-Esseen pour l'approximation normale multivariée des itérées moyennées de Polyak-Ruppert dans les algorithmes d'approximation stochastique linéaire (ASL). L'étude considère l'approximation normale gaussienne de la matrice de covariance prédite par le théorème central limite de Polyak-Juditsky et établit un taux de convergence d'ordre n1/3n^{-1/3} au sens de la distance convexe, où nn est le nombre d'échantillons utilisés par l'algorithme. Simultanément, l'article démontre la validité non-asymptotique de la procédure bootstrap multiplicatif pour l'approximation de la distribution des erreurs recentrées de l'estimateur ASL moyenné, établissant un taux d'approximation d'ordre 1/n1/\sqrt{n}, améliorant considérablement les résultats antérieurs de Samsonov et al. (2024).

Contexte et Motivation de la Recherche

Contexte du Problème

L'algorithme d'approximation stochastique linéaire (ASL) est une méthode fondamentale en statistique et apprentissage automatique, utilisée pour approximer la solution unique de l'équation linéaire Aˉθ=bˉ\bar{A}\theta^* = \bar{b}, où AˉRd×d\bar{A} \in \mathbb{R}^{d \times d} est une matrice non-dégénérée. L'algorithme procède par mise à jour itérative basée sur la séquence d'observations {(A(Zk),b(Zk))}kN\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}.

Défis Fondamentaux

  1. Précision de l'approximation distributionnelle: Les résultats d'approximation normale existants présentent des taux de convergence lents, limitant la précision de la construction d'intervalles de confiance dans les applications pratiques
  2. Estimation de la matrice de covariance: La matrice de covariance asymptotique Σ\Sigma_\infty est inconnue en pratique, nécessitant des méthodes d'estimation et d'approximation efficaces
  3. Validité du bootstrap: Les méthodes bootstrap traditionnelles font face à des défis théoriques et pratiques dans les algorithmes d'apprentissage en ligne

Motivation de la Recherche

  • Améliorer l'analyse du taux de convergence du théorème central limite dans les algorithmes ASL
  • Développer des méthodes plus précises pour la construction d'intervalles de confiance bootstrap
  • Fournir un support théorique pour les applications telles que l'apprentissage par différence temporelle (TD) en apprentissage par renforcement

Contributions Principales

  1. Bornes de Moments Améliorées: Établissement de bornes de moments d'ordre supérieur pour n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*), obtenant pour p2p \geq 2: E1/p[θˉnθp]pTrΣn+p3/2n5/6E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}
  2. Amélioration des Bornes de Berry-Esseen: Établissement d'un taux d'approximation normale d'ordre n1/3n^{-1/3} au sens de la distance convexe, améliorant le résultat antérieur d'ordre n1/4n^{-1/4}
  3. Analyse Non-Asymptotique du Bootstrap Multiplicatif: Démonstration de la validité de la procédure bootstrap avec un taux d'approximation atteignant n1/2n^{-1/2}, considérablement supérieur aux résultats existants
  4. Innovation Technique: Contournement de l'étape de comparaison gaussienne directe par le choix d'une matrice de covariance appropriée Σn\Sigma_n plutôt que Σ\Sigma_\infty

Détails Méthodologiques

Définition de la Tâche

Considérons l'itération ASL: θk=θk1αk(A(Zk)θk1b(Zk)),k1\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1θˉn=n1k=0n1θk,n1\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1

L'objectif est d'analyser les propriétés d'approximation distributionnelle de n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*).

Cadre Technique Principal

1. Technique de Décomposition d'Erreur

Décomposition de l'erreur ASL en termes transitoires et fluctuants: θkθ=θ~k(tr)+θ~k(fl)\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} où:

  • θ~k(tr)=Γ1:k(θ0θ)\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) (terme transitoire)
  • θ~k(fl)==1kαΓ+1:kε\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell (terme fluctuant)

2. Méthode d'Expansion Perturbative

Décomposition supplémentaire du terme fluctuant: θ~k(fl)=Jk(0)+Hk(0)\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)}Jk(0)J_k^{(0)} est le terme linéaire dominant et Hk(0)H_k^{(0)} est le reste d'ordre supérieur.

3. Inégalités de Concentration Aléatoire

Application du cadre Shao-Zhang, exprimant la statistique comme: nΣn1/2(θˉnθ)=W+D\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + DWW est une statistique linéaire et DD est un reste non-linéaire.

Stratégie de Sélection du Pas

Adoption d'un pas décroissant polynomialement: αk=c0(k+k0)γ,γ(1/2,1)\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)

Découverte clé: Le taux de convergence optimal est atteint pour γ=2/3\gamma = 2/3.

Configuration Expérimentale

Cadre de Vérification Théorique

L'article est principalement une analyse théorique, vérifiée par:

  1. Conditions d'Hypothèse:
    • A1: Séquence d'observations indépendantes et identiquement distribuées
    • A2: Condition de matrice de Hurwitz et bruit borné
    • A3: Conditions sur le pas
    • A4-A5: Conditions de taille d'échantillon et techniques
  2. Scénarios d'Application: L'algorithme d'apprentissage par différence temporelle (TD) comme cas particulier important

Indicateurs d'Évaluation

  • Distance Convexe: ρConv(μ,ν)=supBConv(Rd)μ(B)ν(B)\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|
  • Taux de Convergence: Précision d'approximation exprimée en puissances de nn

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 1: Bornes de Moments

Sous les hypothèses appropriées, pour p2p \geq 2: E1/p[θˉnθp]C1,1pTrΣnn+Δ(fl)(n,p,γ)+C1,5θ0θnE^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}

Théorème 2: Approximation Gaussienne

ρConv(n(θˉnθ),Σn1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}

Théorème 3: Approximation Asymptotique

ρConv(n(θˉnθ),Σ1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn+C3n1γ\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}

Théorème 4: Approximation Bootstrap

Avec probabilité 11/n1-1/n: supBConv(Rd)Pb(n(θˉnbθˉn)B)P(n(θˉnθ)B)C4θ0θ+Δ4,1n+Δ4,2nγ/2+Δ4,3ϕn+Δ4,4n\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}

Comparaison des Taux de Convergence

MéthodeTaux de ConvergenceRéférences
Cet article (Berry-Esseen)n1/3n^{-1/3}-
Samsonov et al. (2024)n1/4n^{-1/4}41
Cet article (Bootstrap)n1/2n^{-1/2}-
Wu et al. (2024) TDn1/3n^{-1/3}54

Travaux Connexes

Développement de la Théorie ASL

  • Théorie Asymptotique: Polyak & Juditsky (1992) ont établi la normalité asymptotique fondamentale
  • Analyse Non-Asymptotique: Durmus et al. (2021, 2025) et autres fournissent des bornes à échantillon fini
  • Approximation Normale: Anastasiou et al. (2019) utilisant la méthode de Stein

Méthodes Bootstrap

  • Bootstrap Classique: Travail fondateur d'Efron (1992)
  • Bootstrap Multiplicatif: Fang et al. (2018) pour le bootstrap en ligne sur SGD
  • Analyse Théorique: Théorie haute-dimensionnelle de Chernozhukov et al. (2013, 2017)

Outils Techniques

  • Produits de Matrices Aléatoires: Inégalités de concentration de Huang et al. (2021)
  • Statistiques Non-Linéaires: Méthode de concentration aléatoire de Shao & Zhang (2022)

Conclusions et Discussion

Conclusions Principales

  1. Taux de Convergence Optimal: Atteinte d'une borne de Berry-Esseen d'ordre n1/3n^{-1/3} au sens de la distance convexe, ce qui est optimal dans le cadre ASL
  2. Amélioration du Bootstrap: Taux d'approximation bootstrap atteignant n1/2n^{-1/2}, considérablement supérieur au résultat existant d'ordre n1/4n^{-1/4}
  3. Percée Technique: Contournement des obstacles techniques par le choix de Σn\Sigma_n plutôt que Σ\Sigma_\infty comme covariance d'approximation

Limitations

  1. Hypothèse d'Indépendance: Considération uniquement du bruit i.i.d., le cas du bruit Markovien étant laissé pour des travaux futurs
  2. Contraintes sur le Pas: Nécessité d'une forme spécifique de pas décroissant polynomialement
  3. Dépendance Dimensionnelle: Les constantes contiennent des termes dépendant de la dimension, potentiellement importants en haute dimension

Directions Futures

  1. Extension Markovienne: Généralisation des résultats au cadre du bruit Markovien
  2. Bornes Inférieures Correspondantes: Établissement de bornes inférieures correspondantes dans l'intervalle γ(1/2,2/3)\gamma \in (1/2, 2/3)
  3. Applications Pratiques: Vérification des prédictions théoriques dans des problèmes concrets d'apprentissage par renforcement et d'optimisation

Évaluation Approfondie

Avantages

  1. Profondeur Théorique: Fourniture de l'analyse de taux de convergence la plus précise dans le domaine ASL, avec une difficulté technique élevée
  2. Innovation Méthodologique: Choix ingénieux de la matrice de covariance d'approximation, dépassant les limitations des méthodes existantes
  3. Optimalité des Résultats: Plusieurs résultats atteignent ou s'approchent des bornes théoriques optimales
  4. Techniques de Preuve: Combinaison de plusieurs outils probabilistes avancés, avec une trajectoire technique claire

Insuffisances

  1. Vérification Expérimentale: En tant qu'article purement théorique, absence d'expériences numériques vérifiant les prédictions théoriques
  2. Applicabilité Pratique: Dépendance complexe des constantes, nécessitant une recherche supplémentaire sur les performances en applications réelles
  3. Portée d'Application: Conditions d'hypothèse relativement fortes, applicabilité limitée aux problèmes pratiques

Impact Potentiel

  1. Valeur Académique: Contribution importante au progrès de la théorie de l'approximation stochastique, prévisiblement largement citée
  2. Perspectives d'Application: Fourniture de fondations théoriques pour l'apprentissage par renforcement, l'optimisation en ligne et autres domaines
  3. Contribution Méthodologique: Les techniques méthodologiques pourraient inspirer la recherche sur d'autres problèmes statistiques non-linéaires

Scénarios d'Application

  • Évaluation de politique en apprentissage par renforcement (apprentissage TD)
  • Analyse d'algorithmes d'optimisation convexe en ligne
  • Problèmes d'inférence statistique nécessitant des intervalles de confiance précis
  • Analyse théorique de l'apprentissage automatique à grande échelle

Références

  1. Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
  2. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
  3. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
  4. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.