Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
Butyrin, Moulines, Naumov et al.
In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
academic
Teorema del Limite Centrale Migliorato e Approssimazioni Bootstrap per l'Approssimazione Stocastica Lineare
Questo articolo migliora i limiti di Berry-Esseen per l'approssimazione normale multivariata delle iterazioni mediate di Polyak-Ruppert negli algoritmi di approssimazione stocastica lineare (LSA). Lo studio considera l'approssimazione normale della distribuzione gaussiana della matrice di covarianza prevista dal teorema del limite centrale di Polyak-Juditsky, stabilendo un tasso di convergenza di ordine n−1/3 nel senso della distanza convessa, dove n è il numero di campioni utilizzati dall'algoritmo. Viene inoltre provata l'efficacia non asintotica della procedura bootstrap moltiplicativa per l'approssimazione della distribuzione dell'errore riscalato dello stimatore LSA mediato, stabilendo un tasso di approssimazione di ordine 1/n, migliorando significativamente i risultati precedenti di Samsonov et al. (2024).
L'approssimazione stocastica lineare (LSA) è un metodo fondamentale in statistica e apprendimento automatico, utilizzato per approssimare la soluzione unica dell'equazione lineare Aˉθ∗=bˉ, dove Aˉ∈Rd×d è una matrice non singolare. L'algoritmo si basa su aggiornamenti iterativi effettuati sulla sequenza di osservazioni {(A(Zk),b(Zk))}k∈N.
Precisione dell'Approssimazione Distributiva: I risultati attuali di approssimazione normale hanno tassi di convergenza lenti, limitando la precisione della costruzione di intervalli di confidenza nelle applicazioni pratiche
Stima della Matrice di Covarianza: La matrice di covarianza asintotica Σ∞ è sconosciuta nella pratica e richiede metodi di stima e approssimazione efficaci
Validità del Bootstrap: I metodi bootstrap tradizionali affrontano sfide teoriche e pratiche negli algoritmi di apprendimento online
Limiti di Momento Migliorati: Stabilisce limiti di momento di ordine superiore per n(θˉn−θ∗), ottenendo per p≥2:
E1/p[∥θˉn−θ∗∥p]≲npTrΣ∞+n5/6p3/2
Miglioramento del Limite di Berry-Esseen: Stabilisce un tasso di approssimazione normale di ordine n−1/3 nel senso della distanza convessa, migliorando il risultato precedente di ordine n−1/4
Analisi Non Asintotica del Bootstrap Moltiplicativo: Prova l'efficacia della procedura bootstrap con un tasso di approssimazione di n−1/2, significativamente superiore ai risultati esistenti
Innovazione Tecnica: Attraverso la scelta di una matrice di covarianza appropriata Σn piuttosto che Σ∞ per l'approssimazione, evita il confronto gaussiano diretto
Ulteriore decomposizione del termine fluttuante:
θ~k(fl)=Jk(0)+Hk(0)
dove Jk(0) è il termine lineare dominante e Hk(0) è il resto di ordine superiore.
Assunzione di Indipendenza: Considera solo rumore i.i.d., il caso di rumore Markoviano rimane per lavori futuri
Vincoli sulla Lunghezza del Passo: Richiede una forma specifica di lunghezza del passo con decadimento polinomiale
Dipendenza dalla Dimensionalità: Le costanti contengono termini dipendenti dalla dimensione, che potrebbero essere significativi in casi ad alta dimensione
Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.