2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.

In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).

academic

선형 확률적 근사에 대한 개선된 중심극한정리 및 부트스트랩 근사

기본 정보

논문 ID: 2510.12375
제목: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
저자: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
분류: stat.ML cs.LG math.OC math.PR math.ST stat.TH
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄)
논문 링크: https://arxiv.org/abs/2510.12375

초록

본 논문은 선형 확률적 근사(LSA) 알고리즘에서 Polyak-Ruppert 평균 반복의 다변량 정규 근사에 대한 Berry-Esseen 부등식을 개선한다. 본 연구는 Polyak-Juditsky 중심극한정리에 의해 예측된 공분산 행렬의 가우스 분포 정규 근사를 고려하며, 볼록 거리 의미에서 $n^{-1/3}$ 차수의 수렴률을 확립한다. 여기서 $n$ 은 알고리즘이 사용하는 표본 수이다. 동시에 승수 부트스트랩 절차가 평균 LSA 추정량의 재표준화 오차 분포 근사에 대한 비점근적 유효성을 증명하며, $1/\sqrt{n}$ 차수의 근사율을 확립하여 Samsonov 등(2024)의 이전 결과를 크게 개선한다.

연구 배경 및 동기

문제 배경

선형 확률적 근사(LSA) 알고리즘은 통계학 및 기계학습의 기초 방법으로, 선형 방정식계 $\bar{A}\theta^* = \bar{b}$ 의 유일한 해를 근사하는 데 사용된다. 여기서 $\bar{A} \in \mathbb{R}^{d \times d}$ 는 비퇴화 행렬이다. 이 알고리즘은 관측 수열 $\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}}$ 을 기반으로 반복적으로 업데이트된다.

핵심 과제

분포 근사 정확도: 기존의 정규 근사 결과는 수렴률이 느려 실제 응용에서 신뢰 구간 구성의 정확도를 제한한다
공분산 행렬 추정: 점근 공분산 행렬 $\Sigma_\infty$ 는 실제로 미지수이며, 효과적인 추정 및 근사 방법이 필요하다
부트스트랩 유효성: 전통적인 부트스트랩 방법은 온라인 학습 알고리즘에서 이론적 및 실제적 과제에 직면한다

연구 동기

LSA 알고리즘의 중심극한정리 수렴률 분석 개선
더 정확한 부트스트랩 신뢰 구간 구성 방법 개발
강화학습의 시간차 학습(TD) 등 응용 분야에 이론적 지원 제공

핵심 기여

개선된 모멘트 부등식: $\sqrt{n}(\bar{\theta}_n - \theta^*)$ 의 고차 모멘트 부등식을 확립하며, $p \geq 2$ 에 대해: $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}$
Berry-Esseen 부등식의 개선: 볼록 거리 의미에서 $n^{-1/3}$ 차수의 정규 근사율을 확립하여 이전의 $n^{-1/4}$ 결과를 개선한다
승수 부트스트랩의 비점근적 분석: 부트스트랩 절차의 유효성을 증명하며, 근사율은 $n^{-1/2}$ 에 도달하여 기존 결과를 크게 능가한다
기술적 혁신: $\Sigma_\infty$ 대신 적절한 공분산 행렬 $\Sigma_n$ 을 선택하여 근사함으로써 직접적인 가우스 비교 단계를 회피한다

방법론 상세 설명

작업 정의

LSA 반복을 고려한다: $\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1$ $\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1$

목표는 $\sqrt{n}(\bar{\theta}_n - \theta^*)$ 의 분포 근사 성질을 분석하는 것이다.

핵심 기술 프레임워크

1. 오차 분해 기법

LSA 오차를 과도 항과 변동 항으로 분해한다: $\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)}$ 여기서:

$\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*)$ (과도 항)
$\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell$ (변동 항)

2. 섭동 전개 방법

변동 항을 추가로 분해한다: $\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)}$ 여기서 $J_k^{(0)}$ 는 선형 주도 항이고, $H_k^{(0)}$ 는 고차 나머지 항이다.

3. 확률화 농도 부등식

Shao-Zhang 프레임워크를 적용하여 통계량을 다음과 같이 표현한다: $\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D$ 여기서 $W$ 는 선형 통계량이고, $D$ 는 비선형 나머지 항이다.

단계 크기 선택 전략

다항식 감소 단계 크기를 채택한다: $\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)$

핵심 발견: 최적 수렴률은 $\gamma = 2/3$ 일 때 달성된다.

실험 설정

이론 검증 프레임워크

본 논문은 주로 이론 분석이며 다음 방식으로 결과를 검증한다:

가정 조건:
- A1: 독립동일분포 관측 수열
- A2: Hurwitz 행렬 조건 및 유계 잡음
- A3: 단계 크기 조건
- A4-A5: 표본 크기 및 기술적 조건
응용 시나리오: 시간차 학습(TD) 알고리즘을 중요한 특수 경우로 제시

평가 지표

볼록 거리: $\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|$
수렴률: $n$ 의 거듭제곱으로 표현된 근사 정확도

실험 결과

주요 이론 결과

정리 1: 모멘트 부등식

적절한 가정 하에서, $p \geq 2$ 에 대해: $E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}$

정리 2: 가우스 근사

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}$

정리 3: 점근 근사

$\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}$

정리 4: 부트스트랩 근사

$1-1/n$ 의 확률로: $\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}$

수렴률 비교

방법	수렴률	참고문헌
본 논문(Berry-Esseen)	$n^{-1/3}$	-
Samsonov et al. (2024)	$n^{-1/4}$	41
본 논문(부트스트랩)	$n^{-1/2}$	-
Wu et al. (2024) TD	$n^{-1/3}$	54

결론 및 논의

주요 결론

최적 수렴률: 볼록 거리에서 $n^{-1/3}$ 의 Berry-Esseen 부등식에 도달하며, 이는 LSA 설정에서 최적이다
부트스트랩 개선: 부트스트랩 근사율은 $n^{-1/2}$ 에 도달하여 기존의 $n^{-1/4}$ 결과를 크게 능가한다
기술적 돌파: $\Sigma_\infty$ 대신 $\Sigma_n$ 을 근사 공분산으로 선택함으로써 기술적 장애물을 회피한다

한계

독립성 가정: i.i.d. 잡음만 고려하며, Markov 잡음 경우는 향후 연구로 남겨진다
단계 크기 제약: 특정 형태의 다항식 감소 단계 크기가 필요하다
차원 의존성: 상수에 차원 의존 항이 포함되어 고차원 경우 더 클 수 있다

향후 방향

Markov 확장: 결과를 Markov 잡음 설정으로 일반화
하한 일치: $\gamma \in (1/2, 2/3)$ 구간에서 일치하는 하한 확립
실제 응용: 구체적인 강화학습 및 최적화 문제에서 이론 예측 검증

심층 평가

장점

이론적 깊이: LSA 분야에서 가장 정확한 수렴률 분석을 제공하며 기술적 난이도가 높다
방법론 혁신: 근사 공분산 행렬을 교묘하게 선택하여 기존 방법의 한계를 돌파한다
결과 최적성: 여러 결과가 이론적 최적 부등식에 도달하거나 근접한다
증명 기법: 여러 고급 확률론 도구를 결합하여 기술 경로가 명확하다

부족한 점

실험 검증: 순수 이론 논문으로서 이론 예측을 검증하는 수치 실험이 부족하다
실용성: 상수가 복잡하게 의존하여 실제 응용에서의 성능을 추가 연구가 필요하다
적용 범위: 가정 조건이 강하여 실제 문제에서의 적용 가능성이 제한적이다

영향력

학술적 가치: 확률적 근사 이론에 중요한 진전을 제공하며 광범위한 인용이 예상된다
응용 전망: 강화학습, 온라인 최적화 등 분야에 이론적 기초를 제공한다
방법론 기여: 기술 방법이 다른 비선형 통계 문제 연구에 영감을 줄 수 있다

적용 시나리오

강화학습의 정책 평가(TD 학습)
온라인 볼록 최적화 알고리즘 분석
정확한 신뢰 구간이 필요한 통계 추론 문제
대규모 기계학습의 이론 분석

참고문헌

Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.