In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation 论文ID : 2510.12375标题 : Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation作者 : Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang分类 : stat.ML cs.LG math.OC math.PR math.ST stat.TH发表时间 : October 15, 2025 (arXiv preprint)论文链接 : https://arxiv.org/abs/2510.12375 本文改进了线性随机逼近(LSA)算法中Polyak-Ruppert平均迭代的多元正态逼近的Berry-Esseen界。研究考虑了由Polyak-Juditsky中心极限定理预测的协方差矩阵的高斯分布正态逼近,在凸距离意义下建立了n − 1 / 3 n^{-1/3} n − 1/3 阶的收敛率,其中n n n 是算法使用的样本数。同时证明了乘子bootstrap程序对平均LSA估计器重标误差分布逼近的非渐近有效性,建立了1 / n 1/\sqrt{n} 1/ n 阶的逼近率,显著改进了Samsonov等人(2024)的先前结果。
线性随机逼近(LSA)算法是统计学和机器学习中的基础方法,用于逼近线性方程组A ˉ θ ∗ = b ˉ \bar{A}\theta^* = \bar{b} A ˉ θ ∗ = b ˉ 的唯一解,其中A ˉ ∈ R d × d \bar{A} \in \mathbb{R}^{d \times d} A ˉ ∈ R d × d 是非退化矩阵。该算法基于观测序列{ ( A ( Z k ) , b ( Z k ) ) } k ∈ N \{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}} {( A ( Z k ) , b ( Z k )) } k ∈ N 进行迭代更新。
分布逼近精度 :现有的正态逼近结果收敛率较慢,限制了实际应用中置信区间的构造精度协方差矩阵估计 :渐近协方差矩阵Σ ∞ \Sigma_\infty Σ ∞ 在实践中未知,需要有效的估计和逼近方法Bootstrap有效性 :传统bootstrap方法在在线学习算法中面临理论和实践挑战提高LSA算法中心极限定理的收敛率分析 发展更精确的bootstrap置信区间构造方法 为强化学习中的时序差分(TD)学习等应用提供理论支撑 改进的矩界 :建立了n ( θ ˉ n − θ ∗ ) \sqrt{n}(\bar{\theta}_n - \theta^*) n ( θ ˉ n − θ ∗ ) 的高阶矩界,对于p ≥ 2 p \geq 2 p ≥ 2 得到:
E 1 / p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≲ p Tr Σ ∞ n + p 3 / 2 n 5 / 6 E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}} E 1/ p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≲ n p Tr Σ ∞ + n 5/6 p 3/2 Berry-Esseen界的改进 :在凸距离意义下建立了n − 1 / 3 n^{-1/3} n − 1/3 阶的正态逼近率,改进了先前n − 1 / 4 n^{-1/4} n − 1/4 的结果乘子Bootstrap的非渐近分析 :证明了bootstrap程序的有效性,逼近率达到n − 1 / 2 n^{-1/2} n − 1/2 ,显著优于现有结果技术创新 :通过选择合适的协方差矩阵Σ n \Sigma_n Σ n 而非Σ ∞ \Sigma_\infty Σ ∞ 进行逼近,避免了直接的高斯比较步骤考虑LSA迭代:
θ k = θ k − 1 − α k ( A ( Z k ) θ k − 1 − b ( Z k ) ) , k ≥ 1 \theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1 θ k = θ k − 1 − α k ( A ( Z k ) θ k − 1 − b ( Z k )) , k ≥ 1 θ ˉ n = n − 1 ∑ k = 0 n − 1 θ k , n ≥ 1 \bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1 θ ˉ n = n − 1 ∑ k = 0 n − 1 θ k , n ≥ 1
目标是分析n ( θ ˉ n − θ ∗ ) \sqrt{n}(\bar{\theta}_n - \theta^*) n ( θ ˉ n − θ ∗ ) 的分布逼近性质。
将LSA误差分解为瞬态项和波动项:
θ k − θ ∗ = θ ~ k ( t r ) + θ ~ k ( f l ) \theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} θ k − θ ∗ = θ ~ k ( t r ) + θ ~ k ( f l )
其中:
θ ~ k ( t r ) = Γ 1 : k ( θ 0 − θ ∗ ) \tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) θ ~ k ( t r ) = Γ 1 : k ( θ 0 − θ ∗ ) (瞬态项)θ ~ k ( f l ) = − ∑ ℓ = 1 k α ℓ Γ ℓ + 1 : k ε ℓ \tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell θ ~ k ( f l ) = − ∑ ℓ = 1 k α ℓ Γ ℓ + 1 : k ε ℓ (波动项)进一步分解波动项:
θ ~ k ( f l ) = J k ( 0 ) + H k ( 0 ) \tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} θ ~ k ( f l ) = J k ( 0 ) + H k ( 0 )
其中J k ( 0 ) J_k^{(0)} J k ( 0 ) 是线性主导项,H k ( 0 ) H_k^{(0)} H k ( 0 ) 是高阶余项。
应用Shao-Zhang框架,将统计量表示为:
n Σ n − 1 / 2 ( θ ˉ n − θ ∗ ) = W + D \sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D n Σ n − 1/2 ( θ ˉ n − θ ∗ ) = W + D
其中W W W 是线性统计量,D D D 是非线性余项。
采用多项式衰减步长:
α k = c 0 ( k + k 0 ) γ , γ ∈ ( 1 / 2 , 1 ) \alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1) α k = ( k + k 0 ) γ c 0 , γ ∈ ( 1/2 , 1 )
关键发现:最优收敛率在γ = 2 / 3 \gamma = 2/3 γ = 2/3 时达到。
论文主要是理论分析,通过以下方式验证结果:
假设条件 :A1: 独立同分布观测序列 A2: Hurwitz矩阵条件和有界噪声 A3: 步长条件 A4-A5: 样本大小和技术条件 应用场景 :时序差分(TD)学习算法作为重要特例凸距离 :ρ C o n v ( μ , ν ) = sup B ∈ C o n v ( R d ) ∣ μ ( B ) − ν ( B ) ∣ \rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)| ρ C o n v ( μ , ν ) = sup B ∈ C o n v ( R d ) ∣ μ ( B ) − ν ( B ) ∣ 收敛率 :以n n n 的幂次表示的逼近精度在适当假设下,对于p ≥ 2 p \geq 2 p ≥ 2 :
E 1 / p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≤ C 1 , 1 p Tr Σ n n + Δ ( f l ) ( n , p , γ ) + C 1 , 5 ∥ θ 0 − θ ∗ ∥ n E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n} E 1/ p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≤ n C 1 , 1 p Tr Σ n + Δ ( f l ) ( n , p , γ ) + n C 1 , 5 ∥ θ 0 − θ ∗ ∥
ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ n 1 / 2 η ) ≤ C 2 , 1 n + C 2 , 2 n γ / 2 + C 2 , 3 ϕ n + C 2 , 4 ∥ θ 0 − θ ∗ ∥ n \rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ n 1/2 η ) ≤ n C 2 , 1 + n γ /2 C 2 , 2 + C 2 , 3 ϕ n + n C 2 , 4 ∥ θ 0 − θ ∗ ∥
ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ ∞ 1 / 2 η ) ≤ C 2 , 1 n + C 2 , 2 n γ / 2 + C 2 , 3 ϕ n + C 2 , 4 ∥ θ 0 − θ ∗ ∥ n + C 3 n 1 − γ \rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}} ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ ∞ 1/2 η ) ≤ n C 2 , 1 + n γ /2 C 2 , 2 + C 2 , 3 ϕ n + n C 2 , 4 ∥ θ 0 − θ ∗ ∥ + n 1 − γ C 3
以1 − 1 / n 1-1/n 1 − 1/ n 的概率:
sup B ∈ C o n v ( R d ) ∣ P b ( n ( θ ˉ n b − θ ˉ n ) ∈ B ) − P ( n ( θ ˉ n − θ ∗ ) ∈ B ) ∣ ≤ C 4 ∥ θ 0 − θ ∗ ∥ + Δ 4 , 1 n + Δ 4 , 2 n γ / 2 + Δ 4 , 3 ϕ n + Δ 4 , 4 n \sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n} sup B ∈ C o n v ( R d ) ∣ P b ( n ( θ ˉ n b − θ ˉ n ) ∈ B ) − P ( n ( θ ˉ n − θ ∗ ) ∈ B ) ∣ ≤ n C 4 ∥ θ 0 − θ ∗ ∥ + Δ 4 , 1 + n γ /2 Δ 4 , 2 + Δ 4 , 3 ϕ n + n Δ 4 , 4
方法 收敛率 参考文献 本文(Berry-Esseen) n − 1 / 3 n^{-1/3} n − 1/3 - Samsonov et al. (2024) n − 1 / 4 n^{-1/4} n − 1/4 41 本文(Bootstrap) n − 1 / 2 n^{-1/2} n − 1/2 - Wu et al. (2024) TD n − 1 / 3 n^{-1/3} n − 1/3 54
渐近理论 :Polyak & Juditsky (1992)建立了基础的渐近正态性非渐近分析 :Durmus et al. (2021, 2025)等提供了有限样本界正态逼近 :Anastasiou et al. (2019)使用Stein方法经典Bootstrap :Efron (1992)的开创性工作乘子Bootstrap :Fang et al. (2018)针对SGD的在线bootstrap理论分析 :Chernozhukov et al. (2013, 2017)的高维理论随机矩阵乘积 :Huang et al. (2021)的浓度不等式非线性统计 :Shao & Zhang (2022)的随机化浓度方法最优收敛率 :在凸距离下达到n − 1 / 3 n^{-1/3} n − 1/3 的Berry-Esseen界,这在LSA设置下是最优的Bootstrap改进 :bootstrap逼近率达到n − 1 / 2 n^{-1/2} n − 1/2 ,显著优于现有n − 1 / 4 n^{-1/4} n − 1/4 的结果技术突破 :通过选择Σ n \Sigma_n Σ n 而非Σ ∞ \Sigma_\infty Σ ∞ 作为逼近协方差,避免了技术障碍独立性假设 :仅考虑i.i.d.噪声,Markov噪声情况留作未来工作步长约束 :需要特定形式的多项式衰减步长维数依赖 :常数中包含维数依赖项,高维情况下可能较大Markov扩展 :将结果推广到Markov噪声设置下界匹配 :在γ ∈ ( 1 / 2 , 2 / 3 ) \gamma \in (1/2, 2/3) γ ∈ ( 1/2 , 2/3 ) 区间建立匹配的下界实际应用 :在具体的强化学习和优化问题中验证理论预测理论深度 :提供了LSA领域最精确的收敛率分析,技术难度高方法创新 :巧妙地选择逼近协方差矩阵,突破了现有方法的局限结果最优 :多个结果达到或接近理论最优界证明技巧 :结合了多种先进的概率论工具,技术路线清晰实验验证 :作为纯理论论文,缺少数值实验验证理论预测实用性 :常数依赖复杂,实际应用中的表现需要进一步研究适用范围 :假设条件较强,实际问题中的适用性有限学术价值 :为随机逼近理论提供了重要进展,预期会被广泛引用应用前景 :为强化学习、在线优化等领域提供了理论基础方法论贡献 :技术方法可能启发其他非线性统计问题的研究强化学习中的策略评估(TD学习) 在线凸优化算法分析 需要精确置信区间的统计推断问题 大规模机器学习中的理论分析 Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.