2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.
In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
academic

선형 확률적 근사에 대한 개선된 중심극한정리 및 부트스트랩 근사

기본 정보

  • 논문 ID: 2510.12375
  • 제목: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
  • 저자: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
  • 분류: stat.ML cs.LG math.OC math.PR math.ST stat.TH
  • 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄)
  • 논문 링크: https://arxiv.org/abs/2510.12375

초록

본 논문은 선형 확률적 근사(LSA) 알고리즘에서 Polyak-Ruppert 평균 반복의 다변량 정규 근사에 대한 Berry-Esseen 부등식을 개선한다. 본 연구는 Polyak-Juditsky 중심극한정리에 의해 예측된 공분산 행렬의 가우스 분포 정규 근사를 고려하며, 볼록 거리 의미에서 n1/3n^{-1/3} 차수의 수렴률을 확립한다. 여기서 nn은 알고리즘이 사용하는 표본 수이다. 동시에 승수 부트스트랩 절차가 평균 LSA 추정량의 재표준화 오차 분포 근사에 대한 비점근적 유효성을 증명하며, 1/n1/\sqrt{n} 차수의 근사율을 확립하여 Samsonov 등(2024)의 이전 결과를 크게 개선한다.

연구 배경 및 동기

문제 배경

선형 확률적 근사(LSA) 알고리즘은 통계학 및 기계학습의 기초 방법으로, 선형 방정식계 Aˉθ=bˉ\bar{A}\theta^* = \bar{b}의 유일한 해를 근사하는 데 사용된다. 여기서 AˉRd×d\bar{A} \in \mathbb{R}^{d \times d}는 비퇴화 행렬이다. 이 알고리즘은 관측 수열 {(A(Zk),b(Zk))}kN\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}을 기반으로 반복적으로 업데이트된다.

핵심 과제

  1. 분포 근사 정확도: 기존의 정규 근사 결과는 수렴률이 느려 실제 응용에서 신뢰 구간 구성의 정확도를 제한한다
  2. 공분산 행렬 추정: 점근 공분산 행렬 Σ\Sigma_\infty는 실제로 미지수이며, 효과적인 추정 및 근사 방법이 필요하다
  3. 부트스트랩 유효성: 전통적인 부트스트랩 방법은 온라인 학습 알고리즘에서 이론적 및 실제적 과제에 직면한다

연구 동기

  • LSA 알고리즘의 중심극한정리 수렴률 분석 개선
  • 더 정확한 부트스트랩 신뢰 구간 구성 방법 개발
  • 강화학습의 시간차 학습(TD) 등 응용 분야에 이론적 지원 제공

핵심 기여

  1. 개선된 모멘트 부등식: n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*)의 고차 모멘트 부등식을 확립하며, p2p \geq 2에 대해: E1/p[θˉnθp]pTrΣn+p3/2n5/6E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}
  2. Berry-Esseen 부등식의 개선: 볼록 거리 의미에서 n1/3n^{-1/3} 차수의 정규 근사율을 확립하여 이전의 n1/4n^{-1/4} 결과를 개선한다
  3. 승수 부트스트랩의 비점근적 분석: 부트스트랩 절차의 유효성을 증명하며, 근사율은 n1/2n^{-1/2}에 도달하여 기존 결과를 크게 능가한다
  4. 기술적 혁신: Σ\Sigma_\infty 대신 적절한 공분산 행렬 Σn\Sigma_n을 선택하여 근사함으로써 직접적인 가우스 비교 단계를 회피한다

방법론 상세 설명

작업 정의

LSA 반복을 고려한다: θk=θk1αk(A(Zk)θk1b(Zk)),k1\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1θˉn=n1k=0n1θk,n1\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1

목표는 n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*)의 분포 근사 성질을 분석하는 것이다.

핵심 기술 프레임워크

1. 오차 분해 기법

LSA 오차를 과도 항과 변동 항으로 분해한다: θkθ=θ~k(tr)+θ~k(fl)\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} 여기서:

  • θ~k(tr)=Γ1:k(θ0θ)\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) (과도 항)
  • θ~k(fl)==1kαΓ+1:kε\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell (변동 항)

2. 섭동 전개 방법

변동 항을 추가로 분해한다: θ~k(fl)=Jk(0)+Hk(0)\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} 여기서 Jk(0)J_k^{(0)}는 선형 주도 항이고, Hk(0)H_k^{(0)}는 고차 나머지 항이다.

3. 확률화 농도 부등식

Shao-Zhang 프레임워크를 적용하여 통계량을 다음과 같이 표현한다: nΣn1/2(θˉnθ)=W+D\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D 여기서 WW는 선형 통계량이고, DD는 비선형 나머지 항이다.

단계 크기 선택 전략

다항식 감소 단계 크기를 채택한다: αk=c0(k+k0)γ,γ(1/2,1)\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)

핵심 발견: 최적 수렴률은 γ=2/3\gamma = 2/3일 때 달성된다.

실험 설정

이론 검증 프레임워크

본 논문은 주로 이론 분석이며 다음 방식으로 결과를 검증한다:

  1. 가정 조건:
    • A1: 독립동일분포 관측 수열
    • A2: Hurwitz 행렬 조건 및 유계 잡음
    • A3: 단계 크기 조건
    • A4-A5: 표본 크기 및 기술적 조건
  2. 응용 시나리오: 시간차 학습(TD) 알고리즘을 중요한 특수 경우로 제시

평가 지표

  • 볼록 거리: ρConv(μ,ν)=supBConv(Rd)μ(B)ν(B)\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|
  • 수렴률: nn의 거듭제곱으로 표현된 근사 정확도

실험 결과

주요 이론 결과

정리 1: 모멘트 부등식

적절한 가정 하에서, p2p \geq 2에 대해: E1/p[θˉnθp]C1,1pTrΣnn+Δ(fl)(n,p,γ)+C1,5θ0θnE^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}

정리 2: 가우스 근사

ρConv(n(θˉnθ),Σn1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}

정리 3: 점근 근사

ρConv(n(θˉnθ),Σ1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn+C3n1γ\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}

정리 4: 부트스트랩 근사

11/n1-1/n의 확률로: supBConv(Rd)Pb(n(θˉnbθˉn)B)P(n(θˉnθ)B)C4θ0θ+Δ4,1n+Δ4,2nγ/2+Δ4,3ϕn+Δ4,4n\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}

수렴률 비교

방법수렴률참고문헌
본 논문(Berry-Esseen)n1/3n^{-1/3}-
Samsonov et al. (2024)n1/4n^{-1/4}41
본 논문(부트스트랩)n1/2n^{-1/2}-
Wu et al. (2024) TDn1/3n^{-1/3}54

관련 연구

LSA 이론 발전

  • 점근 이론: Polyak & Juditsky (1992)는 기초적인 점근 정규성을 확립했다
  • 비점근 분석: Durmus et al. (2021, 2025) 등은 유한 표본 부등식을 제공했다
  • 정규 근사: Anastasiou et al. (2019)는 Stein 방법을 사용했다

부트스트랩 방법

  • 고전적 부트스트랩: Efron (1992)의 획기적 연구
  • 승수 부트스트랩: Fang et al. (2018)의 SGD에 대한 온라인 부트스트랩
  • 이론 분석: Chernozhukov et al. (2013, 2017)의 고차원 이론

기술적 도구

  • 확률 행렬 곱: Huang et al. (2021)의 농도 부등식
  • 비선형 통계: Shao & Zhang (2022)의 확률화 농도 방법

결론 및 논의

주요 결론

  1. 최적 수렴률: 볼록 거리에서 n1/3n^{-1/3}의 Berry-Esseen 부등식에 도달하며, 이는 LSA 설정에서 최적이다
  2. 부트스트랩 개선: 부트스트랩 근사율은 n1/2n^{-1/2}에 도달하여 기존의 n1/4n^{-1/4} 결과를 크게 능가한다
  3. 기술적 돌파: Σ\Sigma_\infty 대신 Σn\Sigma_n을 근사 공분산으로 선택함으로써 기술적 장애물을 회피한다

한계

  1. 독립성 가정: i.i.d. 잡음만 고려하며, Markov 잡음 경우는 향후 연구로 남겨진다
  2. 단계 크기 제약: 특정 형태의 다항식 감소 단계 크기가 필요하다
  3. 차원 의존성: 상수에 차원 의존 항이 포함되어 고차원 경우 더 클 수 있다

향후 방향

  1. Markov 확장: 결과를 Markov 잡음 설정으로 일반화
  2. 하한 일치: γ(1/2,2/3)\gamma \in (1/2, 2/3) 구간에서 일치하는 하한 확립
  3. 실제 응용: 구체적인 강화학습 및 최적화 문제에서 이론 예측 검증

심층 평가

장점

  1. 이론적 깊이: LSA 분야에서 가장 정확한 수렴률 분석을 제공하며 기술적 난이도가 높다
  2. 방법론 혁신: 근사 공분산 행렬을 교묘하게 선택하여 기존 방법의 한계를 돌파한다
  3. 결과 최적성: 여러 결과가 이론적 최적 부등식에 도달하거나 근접한다
  4. 증명 기법: 여러 고급 확률론 도구를 결합하여 기술 경로가 명확하다

부족한 점

  1. 실험 검증: 순수 이론 논문으로서 이론 예측을 검증하는 수치 실험이 부족하다
  2. 실용성: 상수가 복잡하게 의존하여 실제 응용에서의 성능을 추가 연구가 필요하다
  3. 적용 범위: 가정 조건이 강하여 실제 문제에서의 적용 가능성이 제한적이다

영향력

  1. 학술적 가치: 확률적 근사 이론에 중요한 진전을 제공하며 광범위한 인용이 예상된다
  2. 응용 전망: 강화학습, 온라인 최적화 등 분야에 이론적 기초를 제공한다
  3. 방법론 기여: 기술 방법이 다른 비선형 통계 문제 연구에 영감을 줄 수 있다

적용 시나리오

  • 강화학습의 정책 평가(TD 학습)
  • 온라인 볼록 최적화 알고리즘 분석
  • 정확한 신뢰 구간이 필요한 통계 추론 문제
  • 대규모 기계학습의 이론 분석

참고문헌

  1. Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
  2. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
  3. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
  4. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.