In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
論文ID : 2510.12375タイトル : Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation著者 : Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang分類 : stat.ML cs.LG math.OC math.PR math.ST stat.TH発表日時 : 2025年10月15日(arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.12375 本論文は、線形確率近似(LSA)アルゴリズムにおけるPolyak-Ruppert平均化反復の多変量正規近似に対するBerry-Esseen界を改善している。本研究はPolyak-Juditsky中心極限定理により予測される共分散行列のガウス分布正規近似を考察し、凸距離の意味でn − 1 / 3 n^{-1/3} n − 1/3 次の収束率を確立している。ここでn n n はアルゴリズムが使用するサンプル数である。同時に、乗法ブートストラップ手順が平均LSA推定量の再標準化誤差分布近似に対する非漸近有効性を証明し、1 / n 1/\sqrt{n} 1/ n 次の近似率を確立している。これはSamsonov等(2024)の先行結果を大幅に改善している。
線形確率近似(LSA)アルゴリズムは統計学と機械学習における基礎的手法であり、線形方程式系A ˉ θ ∗ = b ˉ \bar{A}\theta^* = \bar{b} A ˉ θ ∗ = b ˉ の唯一解を近似するために用いられる。ここでA ˉ ∈ R d × d \bar{A} \in \mathbb{R}^{d \times d} A ˉ ∈ R d × d は非特異行列である。本アルゴリズムは観測列{ ( A ( Z k ) , b ( Z k ) ) } k ∈ N \{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}} {( A ( Z k ) , b ( Z k )) } k ∈ N に基づいて反復更新を行う。
分布近似精度 :既存の正規近似結果の収束率が遅く、実際の応用における信頼区間構成の精度を制限している共分散行列推定 :漸近共分散行列Σ ∞ \Sigma_\infty Σ ∞ は実践では未知であり、効果的な推定と近似方法が必要であるブートストラップ有効性 :従来のブートストラップ法はオンライン学習アルゴリズムにおいて理論的および実践的課題に直面しているLSAアルゴリズムの中心極限定理の収束率分析を向上させる より精密なブートストラップ信頼区間構成方法を開発する 強化学習における時間差分(TD)学習などの応用に対する理論的支援を提供する 改善された矩界 :n ( θ ˉ n − θ ∗ ) \sqrt{n}(\bar{\theta}_n - \theta^*) n ( θ ˉ n − θ ∗ ) に対する高次矩界を確立し、p ≥ 2 p \geq 2 p ≥ 2 に対して以下を得た:
E 1 / p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≲ p Tr Σ ∞ n + p 3 / 2 n 5 / 6 E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}} E 1/ p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≲ n p Tr Σ ∞ + n 5/6 p 3/2 Berry-Esseen界の改善 :凸距離の意味でn − 1 / 3 n^{-1/3} n − 1/3 次の正規近似率を確立し、先行するn − 1 / 4 n^{-1/4} n − 1/4 の結果を改善した乗法ブートストラップの非漸近分析 :ブートストラップ手順の有効性を証明し、n − 1 / 2 n^{-1/2} n − 1/2 の近似率を達成し、既存結果を大幅に上回った技術的革新 :Σ ∞ \Sigma_\infty Σ ∞ ではなく適切な共分散行列Σ n \Sigma_n Σ n を選択して近似することにより、直接的なガウス比較ステップを回避したLSA反復を考察する:
θ k = θ k − 1 − α k ( A ( Z k ) θ k − 1 − b ( Z k ) ) , k ≥ 1 \theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1 θ k = θ k − 1 − α k ( A ( Z k ) θ k − 1 − b ( Z k )) , k ≥ 1 θ ˉ n = n − 1 ∑ k = 0 n − 1 θ k , n ≥ 1 \bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1 θ ˉ n = n − 1 ∑ k = 0 n − 1 θ k , n ≥ 1
目標はn ( θ ˉ n − θ ∗ ) \sqrt{n}(\bar{\theta}_n - \theta^*) n ( θ ˉ n − θ ∗ ) の分布近似特性を分析することである。
LSA誤差を過渡項と変動項に分解する:
θ k − θ ∗ = θ ~ k ( t r ) + θ ~ k ( f l ) \theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} θ k − θ ∗ = θ ~ k ( t r ) + θ ~ k ( f l )
ここで:
θ ~ k ( t r ) = Γ 1 : k ( θ 0 − θ ∗ ) \tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) θ ~ k ( t r ) = Γ 1 : k ( θ 0 − θ ∗ ) (過渡項)θ ~ k ( f l ) = − ∑ ℓ = 1 k α ℓ Γ ℓ + 1 : k ε ℓ \tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell θ ~ k ( f l ) = − ∑ ℓ = 1 k α ℓ Γ ℓ + 1 : k ε ℓ (変動項)変動項をさらに分解する:
θ ~ k ( f l ) = J k ( 0 ) + H k ( 0 ) \tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} θ ~ k ( f l ) = J k ( 0 ) + H k ( 0 )
ここでJ k ( 0 ) J_k^{(0)} J k ( 0 ) は線形主導項、H k ( 0 ) H_k^{(0)} H k ( 0 ) は高次剰余項である。
Shao-Zhangフレームワークを適用し、統計量を以下のように表現する:
n Σ n − 1 / 2 ( θ ˉ n − θ ∗ ) = W + D \sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D n Σ n − 1/2 ( θ ˉ n − θ ∗ ) = W + D
ここでW W W は線形統計量、D D D は非線形剰余項である。
多項式減衰ステップサイズを採用する:
α k = c 0 ( k + k 0 ) γ , γ ∈ ( 1 / 2 , 1 ) \alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1) α k = ( k + k 0 ) γ c 0 , γ ∈ ( 1/2 , 1 )
重要な発見:最適収束率はγ = 2 / 3 \gamma = 2/3 γ = 2/3 で達成される。
本論文は主に理論分析であり、以下の方法で結果を検証している:
仮定条件 :A1: 独立同分布観測列 A2: Hurwitz行列条件と有界ノイズ A3: ステップサイズ条件 A4-A5: サンプルサイズと技術的条件 応用シナリオ :時間差分(TD)学習アルゴリズムを重要な特例として扱う凸距離 :ρ C o n v ( μ , ν ) = sup B ∈ C o n v ( R d ) ∣ μ ( B ) − ν ( B ) ∣ \rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)| ρ C o n v ( μ , ν ) = sup B ∈ C o n v ( R d ) ∣ μ ( B ) − ν ( B ) ∣ 収束率 :n n n の累乗で表現される近似精度適切な仮定の下で、p ≥ 2 p \geq 2 p ≥ 2 に対して:
E 1 / p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≤ C 1 , 1 p Tr Σ n n + Δ ( f l ) ( n , p , γ ) + C 1 , 5 ∥ θ 0 − θ ∗ ∥ n E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n} E 1/ p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≤ n C 1 , 1 p Tr Σ n + Δ ( f l ) ( n , p , γ ) + n C 1 , 5 ∥ θ 0 − θ ∗ ∥
ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ n 1 / 2 η ) ≤ C 2 , 1 n + C 2 , 2 n γ / 2 + C 2 , 3 ϕ n + C 2 , 4 ∥ θ 0 − θ ∗ ∥ n \rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ n 1/2 η ) ≤ n C 2 , 1 + n γ /2 C 2 , 2 + C 2 , 3 ϕ n + n C 2 , 4 ∥ θ 0 − θ ∗ ∥
ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ ∞ 1 / 2 η ) ≤ C 2 , 1 n + C 2 , 2 n γ / 2 + C 2 , 3 ϕ n + C 2 , 4 ∥ θ 0 − θ ∗ ∥ n + C 3 n 1 − γ \rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}} ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ ∞ 1/2 η ) ≤ n C 2 , 1 + n γ /2 C 2 , 2 + C 2 , 3 ϕ n + n C 2 , 4 ∥ θ 0 − θ ∗ ∥ + n 1 − γ C 3
確率1 − 1 / n 1-1/n 1 − 1/ n で:
sup B ∈ C o n v ( R d ) ∣ P b ( n ( θ ˉ n b − θ ˉ n ) ∈ B ) − P ( n ( θ ˉ n − θ ∗ ) ∈ B ) ∣ ≤ C 4 ∥ θ 0 − θ ∗ ∥ + Δ 4 , 1 n + Δ 4 , 2 n γ / 2 + Δ 4 , 3 ϕ n + Δ 4 , 4 n \sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n} sup B ∈ C o n v ( R d ) ∣ P b ( n ( θ ˉ n b − θ ˉ n ) ∈ B ) − P ( n ( θ ˉ n − θ ∗ ) ∈ B ) ∣ ≤ n C 4 ∥ θ 0 − θ ∗ ∥ + Δ 4 , 1 + n γ /2 Δ 4 , 2 + Δ 4 , 3 ϕ n + n Δ 4 , 4
方法 収束率 参考文献 本論文(Berry-Esseen) n − 1 / 3 n^{-1/3} n − 1/3 - Samsonov et al. (2024) n − 1 / 4 n^{-1/4} n − 1/4 41 本論文(ブートストラップ) n − 1 / 2 n^{-1/2} n − 1/2 - Wu et al. (2024) TD n − 1 / 3 n^{-1/3} n − 1/3 54
漸近理論 :Polyak & Juditsky (1992)による基礎的漸近正規性の確立非漸近分析 :Durmus et al. (2021, 2025)等による有限サンプル界の提供正規近似 :Anastasiou et al. (2019)によるStein法の使用古典的ブートストラップ :Efron (1992)の先駆的研究乗法ブートストラップ :Fang et al. (2018)によるSGDのためのオンラインブートストラップ理論分析 :Chernozhukov et al. (2013, 2017)の高次元理論確率行列積 :Huang et al. (2021)の濃度不等式非線形統計 :Shao & Zhang (2022)のランダム化濃度法最適収束率 :凸距離下でn − 1 / 3 n^{-1/3} n − 1/3 のBerry-Esseen界に達し、LSA設定では最適であるブートストラップ改善 :ブートストラップ近似率がn − 1 / 2 n^{-1/2} n − 1/2 に達し、既存のn − 1 / 4 n^{-1/4} n − 1/4 の結果を大幅に上回った技術的突破 :Σ ∞ \Sigma_\infty Σ ∞ ではなくΣ n \Sigma_n Σ n を逼近共分散として選択することにより、技術的障害を回避した独立性仮定 :i.i.d.ノイズのみを考察し、Markovノイズの場合は将来の研究に残されているステップサイズ制約 :特定形式の多項式減衰ステップサイズが必要である次元依存性 :定数に次元依存項が含まれ、高次元の場合は較大である可能性があるMarkov拡張 :結果をMarkovノイズ設定に一般化する下界の一致 :γ ∈ ( 1 / 2 , 2 / 3 ) \gamma \in (1/2, 2/3) γ ∈ ( 1/2 , 2/3 ) 区間で一致する下界を確立する実際の応用 :具体的な強化学習と最適化問題において理論予測を検証する理論的深さ :LSA領域における最も精密な収束率分析を提供し、技術難度が高い方法的革新 :逼近共分散行列の巧妙な選択により、既存方法の制限を突破した結果の最適性 :複数の結果が理論的最適界に達するか接近している証明技法 :複数の先進的確率論ツールを組み合わせ、技術的経路が明確である実験検証 :純粋な理論論文として、理論予測を検証する数値実験が不足している実用性 :定数が複雑に依存し、実際の応用における性能は更なる研究が必要である適用範囲 :仮定条件が較強く、実際の問題への適用性が限定的である学術的価値 :確率近似理論に重要な進展をもたらし、広く引用されることが予想される応用前景 :強化学習、オンライン最適化等の領域に理論的基礎を提供する方法論的貢献 :技術方法は他の非線形統計問題の研究を啓発する可能性がある強化学習における政策評価(TD学習) オンライン凸最適化アルゴリズム分析 精密な信頼区間が必要な統計推論問題 大規模機械学習における理論分析 Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.