2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.
In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
academic

Teorema del Limite Centrale Migliorato e Approssimazioni Bootstrap per l'Approssimazione Stocastica Lineare

Informazioni Fondamentali

  • ID Articolo: 2510.12375
  • Titolo: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
  • Autori: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
  • Classificazione: stat.ML cs.LG math.OC math.PR math.ST stat.TH
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.12375

Riassunto

Questo articolo migliora i limiti di Berry-Esseen per l'approssimazione normale multivariata delle iterazioni mediate di Polyak-Ruppert negli algoritmi di approssimazione stocastica lineare (LSA). Lo studio considera l'approssimazione normale della distribuzione gaussiana della matrice di covarianza prevista dal teorema del limite centrale di Polyak-Juditsky, stabilendo un tasso di convergenza di ordine n1/3n^{-1/3} nel senso della distanza convessa, dove nn è il numero di campioni utilizzati dall'algoritmo. Viene inoltre provata l'efficacia non asintotica della procedura bootstrap moltiplicativa per l'approssimazione della distribuzione dell'errore riscalato dello stimatore LSA mediato, stabilendo un tasso di approssimazione di ordine 1/n1/\sqrt{n}, migliorando significativamente i risultati precedenti di Samsonov et al. (2024).

Contesto di Ricerca e Motivazione

Contesto del Problema

L'approssimazione stocastica lineare (LSA) è un metodo fondamentale in statistica e apprendimento automatico, utilizzato per approssimare la soluzione unica dell'equazione lineare Aˉθ=bˉ\bar{A}\theta^* = \bar{b}, dove AˉRd×d\bar{A} \in \mathbb{R}^{d \times d} è una matrice non singolare. L'algoritmo si basa su aggiornamenti iterativi effettuati sulla sequenza di osservazioni {(A(Zk),b(Zk))}kN\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}.

Sfide Fondamentali

  1. Precisione dell'Approssimazione Distributiva: I risultati attuali di approssimazione normale hanno tassi di convergenza lenti, limitando la precisione della costruzione di intervalli di confidenza nelle applicazioni pratiche
  2. Stima della Matrice di Covarianza: La matrice di covarianza asintotica Σ\Sigma_\infty è sconosciuta nella pratica e richiede metodi di stima e approssimazione efficaci
  3. Validità del Bootstrap: I metodi bootstrap tradizionali affrontano sfide teoriche e pratiche negli algoritmi di apprendimento online

Motivazione della Ricerca

  • Migliorare l'analisi del tasso di convergenza del teorema del limite centrale negli algoritmi LSA
  • Sviluppare metodi più precisi per la costruzione di intervalli di confidenza bootstrap
  • Fornire supporto teorico per applicazioni come l'apprendimento con differenza temporale (TD) nell'apprendimento per rinforzo

Contributi Fondamentali

  1. Limiti di Momento Migliorati: Stabilisce limiti di momento di ordine superiore per n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*), ottenendo per p2p \geq 2: E1/p[θˉnθp]pTrΣn+p3/2n5/6E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}
  2. Miglioramento del Limite di Berry-Esseen: Stabilisce un tasso di approssimazione normale di ordine n1/3n^{-1/3} nel senso della distanza convessa, migliorando il risultato precedente di ordine n1/4n^{-1/4}
  3. Analisi Non Asintotica del Bootstrap Moltiplicativo: Prova l'efficacia della procedura bootstrap con un tasso di approssimazione di n1/2n^{-1/2}, significativamente superiore ai risultati esistenti
  4. Innovazione Tecnica: Attraverso la scelta di una matrice di covarianza appropriata Σn\Sigma_n piuttosto che Σ\Sigma_\infty per l'approssimazione, evita il confronto gaussiano diretto

Dettagli Metodologici

Definizione del Compito

Considerare l'iterazione LSA: θk=θk1αk(A(Zk)θk1b(Zk)),k1\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1θˉn=n1k=0n1θk,n1\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1

L'obiettivo è analizzare le proprietà di approssimazione distributiva di n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*).

Quadro Tecnico Fondamentale

1. Tecnica di Decomposizione dell'Errore

Decompone l'errore LSA in termini transienti e fluttuanti: θkθ=θ~k(tr)+θ~k(fl)\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} dove:

  • θ~k(tr)=Γ1:k(θ0θ)\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) (termine transitorio)
  • θ~k(fl)==1kαΓ+1:kε\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell (termine fluttuante)

2. Metodo di Espansione Perturbativa

Ulteriore decomposizione del termine fluttuante: θ~k(fl)=Jk(0)+Hk(0)\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} dove Jk(0)J_k^{(0)} è il termine lineare dominante e Hk(0)H_k^{(0)} è il resto di ordine superiore.

3. Disuguaglianze di Concentrazione Randomizzate

Applica il quadro Shao-Zhang, rappresentando la statistica come: nΣn1/2(θˉnθ)=W+D\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D dove WW è una statistica lineare e DD è un resto non lineare.

Strategia di Scelta della Lunghezza del Passo

Adotta lunghezze di passo con decadimento polinomiale: αk=c0(k+k0)γ,γ(1/2,1)\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)

Scoperta chiave: il tasso di convergenza ottimale è raggiunto quando γ=2/3\gamma = 2/3.

Configurazione Sperimentale

Quadro di Verifica Teorica

L'articolo è principalmente un'analisi teorica, verificata attraverso:

  1. Condizioni di Assunzione:
    • A1: Sequenza di osservazioni indipendenti e identicamente distribuite
    • A2: Condizione di matrice di Hurwitz e rumore limitato
    • A3: Condizioni sulla lunghezza del passo
    • A4-A5: Dimensione del campione e condizioni tecniche
  2. Scenari di Applicazione: L'algoritmo di apprendimento con differenza temporale (TD) come caso particolare importante

Metriche di Valutazione

  • Distanza Convessa: ρConv(μ,ν)=supBConv(Rd)μ(B)ν(B)\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|
  • Tasso di Convergenza: Precisione di approssimazione espressa come potenza di nn

Risultati Sperimentali

Risultati Teorici Principali

Teorema 1: Limiti di Momento

Sotto assunzioni appropriate, per p2p \geq 2: E1/p[θˉnθp]C1,1pTrΣnn+Δ(fl)(n,p,γ)+C1,5θ0θnE^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}

Teorema 2: Approssimazione Gaussiana

ρConv(n(θˉnθ),Σn1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}

Teorema 3: Approssimazione Asintotica

ρConv(n(θˉnθ),Σ1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn+C3n1γ\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}

Teorema 4: Approssimazione Bootstrap

Con probabilità 11/n1-1/n: supBConv(Rd)Pb(n(θˉnbθˉn)B)P(n(θˉnθ)B)C4θ0θ+Δ4,1n+Δ4,2nγ/2+Δ4,3ϕn+Δ4,4n\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}

Confronto dei Tassi di Convergenza

MetodoTasso di ConvergenzaRiferimento
Questo articolo (Berry-Esseen)n1/3n^{-1/3}-
Samsonov et al. (2024)n1/4n^{-1/4}41
Questo articolo (Bootstrap)n1/2n^{-1/2}-
Wu et al. (2024) TDn1/3n^{-1/3}54

Lavori Correlati

Sviluppo della Teoria LSA

  • Teoria Asintotica: Polyak & Juditsky (1992) hanno stabilito la normalità asintotica fondamentale
  • Analisi Non Asintotica: Durmus et al. (2021, 2025) e altri forniscono limiti a campione finito
  • Approssimazione Normale: Anastasiou et al. (2019) utilizzano il metodo di Stein

Metodi Bootstrap

  • Bootstrap Classico: Lavoro pioneristico di Efron (1992)
  • Bootstrap Moltiplicativo: Fang et al. (2018) per bootstrap online su SGD
  • Analisi Teorica: Teoria ad alta dimensione di Chernozhukov et al. (2013, 2017)

Strumenti Tecnici

  • Prodotti di Matrici Casuali: Disuguaglianze di concentrazione di Huang et al. (2021)
  • Statistiche Non Lineari: Metodo di concentrazione randomizzato di Shao & Zhang (2022)

Conclusioni e Discussione

Conclusioni Principali

  1. Tasso di Convergenza Ottimale: Raggiunge il limite di Berry-Esseen di n1/3n^{-1/3} nella distanza convessa, che è ottimale nell'impostazione LSA
  2. Miglioramento Bootstrap: Il tasso di approssimazione bootstrap raggiunge n1/2n^{-1/2}, significativamente superiore al risultato precedente di n1/4n^{-1/4}
  3. Scoperta Tecnica: Attraverso la scelta di Σn\Sigma_n piuttosto che Σ\Sigma_\infty come covarianza di approssimazione, evita gli ostacoli tecnici

Limitazioni

  1. Assunzione di Indipendenza: Considera solo rumore i.i.d., il caso di rumore Markoviano rimane per lavori futuri
  2. Vincoli sulla Lunghezza del Passo: Richiede una forma specifica di lunghezza del passo con decadimento polinomiale
  3. Dipendenza dalla Dimensionalità: Le costanti contengono termini dipendenti dalla dimensione, che potrebbero essere significativi in casi ad alta dimensione

Direzioni Future

  1. Estensione Markoviana: Generalizzare i risultati all'impostazione con rumore Markoviano
  2. Limiti Inferiori Corrispondenti: Stabilire limiti inferiori corrispondenti nell'intervallo γ(1/2,2/3)\gamma \in (1/2, 2/3)
  3. Applicazioni Pratiche: Verificare le previsioni teoriche in problemi specifici di apprendimento per rinforzo e ottimizzazione

Valutazione Approfondita

Punti di Forza

  1. Profondità Teorica: Fornisce l'analisi del tasso di convergenza più precisa nel campo LSA, con elevata difficoltà tecnica
  2. Innovazione Metodologica: Scelta ingegnosa della matrice di covarianza di approssimazione, superando i limiti dei metodi esistenti
  3. Risultati Ottimali: Molteplici risultati raggiungono o si avvicinano ai limiti teorici ottimali
  4. Tecniche di Prova: Combina diversi strumenti probabilistici avanzati con una linea tecnica chiara

Insufficienze

  1. Verifica Sperimentale: Come articolo puramente teorico, mancano esperimenti numerici per verificare le previsioni teoriche
  2. Praticità: Le costanti dipendono da espressioni complesse, le prestazioni in applicazioni pratiche richiedono ulteriori ricerche
  3. Ambito di Applicabilità: Le condizioni di assunzione sono piuttosto forti, l'applicabilità a problemi reali è limitata

Impatto

  1. Valore Accademico: Fornisce progressi importanti nella teoria dell'approssimazione stocastica, previsto di essere ampiamente citato
  2. Prospettive di Applicazione: Fornisce fondamenti teorici per l'apprendimento per rinforzo, l'ottimizzazione online e altri campi
  3. Contributo Metodologico: Le tecniche metodologiche potrebbero ispirare la ricerca su altri problemi statistici non lineari

Scenari di Applicabilità

  • Valutazione della politica nell'apprendimento per rinforzo (apprendimento TD)
  • Analisi di algoritmi di ottimizzazione convessa online
  • Problemi di inferenza statistica che richiedono intervalli di confidenza precisi
  • Analisi teorica dell'apprendimento automatico su larga scala

Bibliografia

  1. Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
  2. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
  3. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
  4. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.