2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.

In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).

academic

Teorema del Limite Centrale Migliorato e Approssimazioni Bootstrap per l'Approssimazione Stocastica Lineare

Informazioni Fondamentali

ID Articolo: 2510.12375
Titolo: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
Autori: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
Classificazione: stat.ML cs.LG math.OC math.PR math.ST stat.TH
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.12375

Riassunto

Questo articolo migliora i limiti di Berry-Esseen per l'approssimazione normale multivariata delle iterazioni mediate di Polyak-Ruppert negli algoritmi di approssimazione stocastica lineare (LSA). Lo studio considera l'approssimazione normale della distribuzione gaussiana della matrice di covarianza prevista dal teorema del limite centrale di Polyak-Juditsky, stabilendo un tasso di convergenza di ordine $n^{-1/3}$ nel senso della distanza convessa, dove $n$ è il numero di campioni utilizzati dall'algoritmo. Viene inoltre provata l'efficacia non asintotica della procedura bootstrap moltiplicativa per l'approssimazione della distribuzione dell'errore riscalato dello stimatore LSA mediato, stabilendo un tasso di approssimazione di ordine $1/\sqrt{n}$ , migliorando significativamente i risultati precedenti di Samsonov et al. (2024).

Contesto di Ricerca e Motivazione

Contesto del Problema

L'approssimazione stocastica lineare (LSA) è un metodo fondamentale in statistica e apprendimento automatico, utilizzato per approssimare la soluzione unica dell'equazione lineare $\bar{A}\theta^* = \bar{b}$ , dove $\bar{A} \in \mathbb{R}^{d \times d}$ è una matrice non singolare. L'algoritmo si basa su aggiornamenti iterativi effettuati sulla sequenza di osservazioni $\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}$ .

Sfide Fondamentali

Precisione dell'Approssimazione Distributiva: I risultati attuali di approssimazione normale hanno tassi di convergenza lenti, limitando la precisione della costruzione di intervalli di confidenza nelle applicazioni pratiche
Stima della Matrice di Covarianza: La matrice di covarianza asintotica $\Sigma_\infty$ è sconosciuta nella pratica e richiede metodi di stima e approssimazione efficaci
Validità del Bootstrap: I metodi bootstrap tradizionali affrontano sfide teoriche e pratiche negli algoritmi di apprendimento online

Motivazione della Ricerca

Migliorare l'analisi del tasso di convergenza del teorema del limite centrale negli algoritmi LSA
Sviluppare metodi più precisi per la costruzione di intervalli di confidenza bootstrap
Fornire supporto teorico per applicazioni come l'apprendimento con differenza temporale (TD) nell'apprendimento per rinforzo

Contributi Fondamentali

Limiti di Momento Migliorati: Stabilisce limiti di momento di ordine superiore per $\sqrt{n}(\bar{\theta}_n - \theta^*)$ , ottenendo per $p \geq 2$ : $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}$
Miglioramento del Limite di Berry-Esseen: Stabilisce un tasso di approssimazione normale di ordine $n^{-1/3}$ nel senso della distanza convessa, migliorando il risultato precedente di ordine $n^{-1/4}$
Analisi Non Asintotica del Bootstrap Moltiplicativo: Prova l'efficacia della procedura bootstrap con un tasso di approssimazione di $n^{-1/2}$ , significativamente superiore ai risultati esistenti
Innovazione Tecnica: Attraverso la scelta di una matrice di covarianza appropriata $\Sigma_n$ piuttosto che $\Sigma_\infty$ per l'approssimazione, evita il confronto gaussiano diretto

Dettagli Metodologici

Definizione del Compito

Considerare l'iterazione LSA: $\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1$ $\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1$

L'obiettivo è analizzare le proprietà di approssimazione distributiva di $\sqrt{n}(\bar{\theta}_n - \theta^*)$ .

Quadro Tecnico Fondamentale

1. Tecnica di Decomposizione dell'Errore

Decompone l'errore LSA in termini transienti e fluttuanti: $\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)}$ dove:

$\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*)$ (termine transitorio)
$\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell$ (termine fluttuante)

2. Metodo di Espansione Perturbativa

Ulteriore decomposizione del termine fluttuante: $\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)}$ dove $J_k^{(0)}$ è il termine lineare dominante e $H_k^{(0)}$ è il resto di ordine superiore.

3. Disuguaglianze di Concentrazione Randomizzate

Applica il quadro Shao-Zhang, rappresentando la statistica come: $\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D$ dove $W$ è una statistica lineare e $D$ è un resto non lineare.

Strategia di Scelta della Lunghezza del Passo

Adotta lunghezze di passo con decadimento polinomiale: $\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)$

Scoperta chiave: il tasso di convergenza ottimale è raggiunto quando $\gamma = 2/3$ .

Configurazione Sperimentale

Quadro di Verifica Teorica

L'articolo è principalmente un'analisi teorica, verificata attraverso:

Condizioni di Assunzione:
- A1: Sequenza di osservazioni indipendenti e identicamente distribuite
- A2: Condizione di matrice di Hurwitz e rumore limitato
- A3: Condizioni sulla lunghezza del passo
- A4-A5: Dimensione del campione e condizioni tecniche
Scenari di Applicazione: L'algoritmo di apprendimento con differenza temporale (TD) come caso particolare importante

Metriche di Valutazione

Distanza Convessa: $\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|$
Tasso di Convergenza: Precisione di approssimazione espressa come potenza di $n$

Risultati Sperimentali

Risultati Teorici Principali

Teorema 1: Limiti di Momento

Sotto assunzioni appropriate, per $p \geq 2$ : $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}$

Teorema 2: Approssimazione Gaussiana

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}$

Teorema 3: Approssimazione Asintotica

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}$

Teorema 4: Approssimazione Bootstrap

Con probabilità $1-1/n$ : $\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}$

Confronto dei Tassi di Convergenza

Metodo	Tasso di Convergenza	Riferimento
Questo articolo (Berry-Esseen)	$n^{-1/3}$	-
Samsonov et al. (2024)	$n^{-1/4}$	41
Questo articolo (Bootstrap)	$n^{-1/2}$	-
Wu et al. (2024) TD	$n^{-1/3}$	54

Lavori Correlati

Sviluppo della Teoria LSA

Teoria Asintotica: Polyak & Juditsky (1992) hanno stabilito la normalità asintotica fondamentale
Analisi Non Asintotica: Durmus et al. (2021, 2025) e altri forniscono limiti a campione finito
Approssimazione Normale: Anastasiou et al. (2019) utilizzano il metodo di Stein

Metodi Bootstrap

Bootstrap Classico: Lavoro pioneristico di Efron (1992)
Bootstrap Moltiplicativo: Fang et al. (2018) per bootstrap online su SGD
Analisi Teorica: Teoria ad alta dimensione di Chernozhukov et al. (2013, 2017)

Strumenti Tecnici

Prodotti di Matrici Casuali: Disuguaglianze di concentrazione di Huang et al. (2021)
Statistiche Non Lineari: Metodo di concentrazione randomizzato di Shao & Zhang (2022)

Conclusioni e Discussione

Conclusioni Principali

Tasso di Convergenza Ottimale: Raggiunge il limite di Berry-Esseen di $n^{-1/3}$ nella distanza convessa, che è ottimale nell'impostazione LSA
Miglioramento Bootstrap: Il tasso di approssimazione bootstrap raggiunge $n^{-1/2}$ , significativamente superiore al risultato precedente di $n^{-1/4}$
Scoperta Tecnica: Attraverso la scelta di $\Sigma_n$ piuttosto che $\Sigma_\infty$ come covarianza di approssimazione, evita gli ostacoli tecnici

Limitazioni

Assunzione di Indipendenza: Considera solo rumore i.i.d., il caso di rumore Markoviano rimane per lavori futuri
Vincoli sulla Lunghezza del Passo: Richiede una forma specifica di lunghezza del passo con decadimento polinomiale
Dipendenza dalla Dimensionalità: Le costanti contengono termini dipendenti dalla dimensione, che potrebbero essere significativi in casi ad alta dimensione

Direzioni Future

Estensione Markoviana: Generalizzare i risultati all'impostazione con rumore Markoviano
Limiti Inferiori Corrispondenti: Stabilire limiti inferiori corrispondenti nell'intervallo $\gamma \in (1/2, 2/3)$
Applicazioni Pratiche: Verificare le previsioni teoriche in problemi specifici di apprendimento per rinforzo e ottimizzazione

Valutazione Approfondita

Punti di Forza

Profondità Teorica: Fornisce l'analisi del tasso di convergenza più precisa nel campo LSA, con elevata difficoltà tecnica
Innovazione Metodologica: Scelta ingegnosa della matrice di covarianza di approssimazione, superando i limiti dei metodi esistenti
Risultati Ottimali: Molteplici risultati raggiungono o si avvicinano ai limiti teorici ottimali
Tecniche di Prova: Combina diversi strumenti probabilistici avanzati con una linea tecnica chiara

Insufficienze

Verifica Sperimentale: Come articolo puramente teorico, mancano esperimenti numerici per verificare le previsioni teoriche
Praticità: Le costanti dipendono da espressioni complesse, le prestazioni in applicazioni pratiche richiedono ulteriori ricerche
Ambito di Applicabilità: Le condizioni di assunzione sono piuttosto forti, l'applicabilità a problemi reali è limitata

Impatto

Valore Accademico: Fornisce progressi importanti nella teoria dell'approssimazione stocastica, previsto di essere ampiamente citato
Prospettive di Applicazione: Fornisce fondamenti teorici per l'apprendimento per rinforzo, l'ottimizzazione online e altri campi
Contributo Metodologico: Le tecniche metodologiche potrebbero ispirare la ricerca su altri problemi statistici non lineari

Scenari di Applicabilità

Valutazione della politica nell'apprendimento per rinforzo (apprendimento TD)
Analisi di algoritmi di ottimizzazione convessa online
Problemi di inferenza statistica che richiedono intervalli di confidenza precisi
Analisi teorica dell'apprendimento automatico su larga scala

Bibliografia

Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.