This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- 논문ID: 2509.18964
- 제목: Central Limit Theorems for Asynchronous Averaged Q-Learning
- 저자: Xingtu Liu (Simon Fraser University)
- 분류: cs.LG math.OC stat.ML
- 발표 학회: OPT2025: 17th Annual Workshop on Optimization for Machine Learning
- 논문 링크: https://arxiv.org/abs/2509.18964
본 논문은 비동기 업데이트 하에서 Polyak-Ruppert 평균화 Q-러닝에 대한 중심극한정리를 수립한다. 본 논문은 Wasserstein 거리에서의 수렴률이 반복 횟수, 상태-동작 공간 크기, 할인 인자 및 탐색 품질에 대한 의존성을 명시적으로 반영하는 비점근 중심극한정리를 증명한다. 또한 부분합 과정이 브라운 운동으로 약수렴함을 보이는 함수 중심극한정리를 도출한다.
- Q-러닝의 중요성: Q-러닝은 강화학습에서 가장 널리 사용되는 알고리즘 중 하나로, 경험적 궤적으로부터 최적 동작 가치 함수를 직접 학습하며, Atari 게임, 바둑, 로봇 조작 및 대규모 언어 모델 정렬 등의 분야에서 큰 성공을 거두었다.
- 이론적 분석의 도전:
- Q-러닝은 확률적 근사(SA)의 사례로 해석될 수 있으나, 비동기 Q-러닝은 마르코프 잡음을 가진 비선형 SA 문제이다
- 선형 SA 및 TD 러닝과 비교하여 Q-러닝의 분석은 비선형성, 비매끄러운 연산자 및 비정상 과정의 특성으로 인해 더욱 도전적이다
- 비동기 업데이트는 마르코프 잡음을 추가로 도입하여 분석 복잡도를 증가시킨다
- 기존 연구의 한계:
- 기존 연구는 동기식 Q-러닝의 함수 CLT를 수립했으나, 동기식 Q-러닝은 마팅게일 잡음만 고려한다
- Zhang과 Xie (2024)는 상수 스텝 크기의 비동기 Q-러닝에 대한 함수 CLT를 수립했으나, 상수 스텝 크기는 비점근 CLT 수립에 필요한 조건을 만족하지 않는다
- 현재까지 동기식 설정에서도 Q-러닝의 비점근 CLT가 존재하지 않는다
중심극한정리 수립은 알고리즘의 통계적 성질을 이해하는 데 필수적이며, 이러한 점근 정규성은 강화학습에서의 불확실성 정량화 및 통계적 추론에 중요한 의미를 갖는다.
- Q-러닝의 첫 번째 비점근 CLT: 비동기 평균화 Q-러닝의 비점근 중심극한정리를 증명하며, 수렴률은 O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)이다
- 함수 중심극한정리: 감소 스텝 크기 하에서 비동기 Q-러닝의 함수 CLT를 수립하여 부분합 과정이 브라운 운동으로 약수렴함을 보인다
- 명시적 의존성: 수렴률이 반복 횟수 K, 상태-동작 공간 크기 |S||A|, 할인 인자 γ 및 탐색 품질 ρ에 대한 의존성을 명시적으로 반영한다
- 기술적 혁신: 비선형성, 마르코프 잡음 및 비매끄러운 연산자로 인한 분석 도전을 해결한다
무한 지평 할인 마르코프 결정 과정(MDP) M=⟨S,A,P,r,γ⟩을 고려하며, 여기서:
- S: 상태 집합
- A: 동작 집합
- P:S×A→ΔS: 전이 확률 함수
- γ∈[0,1): 할인 인자
목표는 최적 Q 함수 Q∗=maxπQπ를 학습하는 것이다.
비동기 Q-러닝은 Q 함수 추정기 Qk를 유지하며, 업데이트 규칙은 다음과 같다:
Qk+1=Qk+αk(Fk−Qk)
여기서:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
가정 1: 최적 정책 π∗이 존재하여 모든 Q∈R∣S∣×∣A∣에 대해:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
가정 2: {yk}k≥0는 기약이고 비주기적인 유한 상태 마르코프 연쇄이다.
다항식 스텝 크기 αk=α(k+b)−β를 선택하며, 여기서 α,b>0, β∈(0.5,1)이다.
이러한 선택의 이유:
- Polyak-Juditsky 평균화 방식의 핵심 조건을 만족한다
- 상수 스텝 크기는 조건 (i)과 (iii)을 위반하고, 선형 스텝 크기는 조건 (ii)를 위반한다
- 다항식 스텝 크기는 모든 필요 조건을 만족한다
정리 4: 가정 1과 2 하에서:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
여기서 Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I)이다.
따름정리 5: β=2/3일 때, 수렴률은 다음과 같이 단순화된다:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
정리 6: 정리 4의 설정 하에서, 부분합 과정 ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk는 D[0,1]에서 (A−1ΣA−⊤)1/2B(⋅)로 약수렴하며, 여기서 B(⋅)는 표준 브라운 운동이다.
- 비선형성: Q-러닝은 비선형 SA로서 선형 SA보다 복잡하다
- 마르코프 잡음: 비동기 업데이트는 독립동일분포가 아닌 마르코프 잡음을 도입한다
- 비매끄러운 연산자: 비동기 Q-러닝의 경험적 Bellman 연산자는 비매끄럽다
- 상하한 기법: 상한 수열 Δk↑과 하한 수열 Δk↓를 도입하여 조임 정리를 활용한다
- 항 분해: ∑k=1KΔk를 6개 항으로 분해한다:
- 항 (1): 초기 오차 항
- 항 (2): 비선형 오차 항
- 항 (3): 마르코프 잡음 항
- 항 (4-5): 고차 수정 항
- 항 (6): 마팅게일 차분 수열
- Poisson 방정식 기법: 마르코프 잡음을 마팅게일 차분 수열로 변환한다
- 마팅게일 중심극한정리: Srikant (2024)의 비점근 마팅게일 CLT를 적용한다
- Polyak, Juditsky (1992): 고전적인 평균화 분산 감소 기법
- Anastasiou 등 (2019): Polyak-Ruppert 평균화 SGD의 비점근 CLT
- Mou 등 (2020): 선형 SA의 비점근 CLT
- Xie, Zhang (2022), Li 등 (2023): 동기식 Q-러닝의 함수 CLT
- Zhang, Xie (2024): 상수 스텝 크기 비동기 Q-러닝의 함수 CLT
- Srikant (2024), Samsonov 등 (2024): TD 러닝의 비점근 CLT
- Q-러닝의 첫 번째 비점근 CLT를 수립하며, 수렴률은 문제 매개변수에 명시적으로 의존한다
- 비동기 Q-러닝 부분합 과정의 약수렴성을 증명한다
- 강화학습에서의 불확실성 정량화를 위한 이론적 기초를 제공한다
- 강한 Lipschitz 가정(가정 1)이 필요하다
- 유한 상태-동작 공간만 고려한다
- 수렴률이 최적이 아닐 수 있다
- 수렴률 개선
- 1-Wasserstein 거리 이외의 다른 메트릭으로 확장
- 함수 근사 설정 고려
- 중대한 이론적 기여: Q-러닝의 비점근 CLT를 최초로 수립하여 중요한 이론적 공백을 메운다
- 기술적 혁신: 상하한 기법, Poisson 방정식 및 마팅게일 CLT를 교묘하게 결합하여 기술적 어려움을 해결한다
- 완전한 결과: 비점근 및 함수 CLT를 동시에 제시한다
- 명시적 의존성: 수렴률이 각 매개변수의 영향을 명시적으로 반영한다
- 강한 가정: Lipschitz 가정은 실제로 검증하기 어려울 수 있다
- 수렴률: K−1/6의 수렴률은 상대적으로 느리다
- 유한 상태: 연속 상태 공간 또는 함수 근사를 고려하지 않는다
- 이론적 가치: Q-러닝 이론 분석에 새로운 도구와 관점을 제공한다
- 실용적 의의: 강화학습 알고리즘의 불확실성 정량화를 위한 이론적 기초를 마련한다
- 방법론: 증명 기법은 다른 비선형 SA 문제로 일반화될 수 있다
- 표 형식 강화학습 문제의 이론적 분석
- 비동기 업데이트 알고리즘의 수렴성 연구
- 강화학습에서의 통계적 추론 및 신뢰 구간 구성
- Polyak, B. T. and Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging.
- Xie, C. and Zhang, Z. (2022). A statistical online inference approach in averaged stochastic approximation.
- Zhang, Y. and Xie, Q. (2024). Constant stepsize q-learning: Distributional convergence, bias and extrapolation.