We consider adaptive increasingly rare Markov chain Monte Carlo (MCMC) algorithms, which are adaptive MCMC methods, where the adaptation concerning the "past'' happens less and less frequently over time. Under a contraction assumption with respect to a Wasserstein-like function we deduce upper bounds of the convergence rate of Monte Carlo sums taking a renormalisation factor into account that is "almost'' the one that appears in a law of the iterated logarithm. We demonstrate the applicability of our results by considering different settings, among which are those of simultaneous geometric and uniform ergodicity. All proofs are carried out on an augmented state space, including the classical non-augmented setting as a special case. In contrast to other adaptive MCMC limit theory, some technical assumptions, like diminishing adaptation, are not needed.
논문 ID : 2402.12122제목 : Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo저자 : Julian Hofstadler (University of Bath), Krzysztof Latuszyński (University of Warwick), Gareth O. Roberts (University of Warwick), Daniel Rudolf (University of Passau)분류 : math.NA cs.NA math.PR math.ST stat.TH발표 시간 : 2025년 10월 14일 (arXiv 버전)논문 링크 : https://arxiv.org/abs/2402.12122 본 논문은 적응형 점점 희소 마르코프 연쇄 몬테카를로(AIR MCMC) 알고리즘을 연구한다. 이는 "과거"에 대한 적응이 시간이 지남에 따라 점점 희소해지는 적응형 MCMC 방법의 한 종류이다. Wasserstein 유사 함수에 대한 축약 가정 하에서, 저자들은 반복 로그 법칙에서 거의 나타나는 재정규화 인수를 고려한 몬테카를로 합의 수렴 속도 상한을 도출한다. 논문은 동시 기하 에르고딕성과 균일 에르고딕성 등 다양한 설정을 고려하여 결과의 적용 가능성을 입증한다. 모든 증명은 확대된 상태 공간에서 수행되며, 고전적 비확대 설정을 특수한 경우로 포함한다. 다른 적응형 MCMC 극한 이론과 비교하여, 감소하는 적응과 같은 일부 기술적 가정이 필요하지 않다.
계산 통계학에서 널리 존재하는 과제는 기댓값을 근사하는 것이다:
ν ( f ) = ∫ X f ( x ) ν ( d x ) \nu(f) = \int_X f(x)\nu(dx) ν ( f ) = ∫ X f ( x ) ν ( d x )
여기서 ν \nu ν 는 목표 분포이고, f : X → R f: X \to \mathbb{R} f : X → R 는 관심 있는 적분 가능한 함수이다.
직접 표본 추출의 어려움 : ν \nu ν 에서 직접 표본 추출이 불가능하거나 계산상 실행 불가능할 때(예: 밀도가 미지의 정규화 상수를 포함), 대체 방법이 필요하다.적응형 MCMC의 과제 : 전통적 적응형 MCMC 방법은 전체 이력을 고려하여 단계 전이 메커니즘을 업데이트하므로, 비마르코프 과정이 되어 수학적 분석이 복잡해진다.기술적 가정 단순화의 필요성 : 기존 적응형 MCMC 이론은 일반적으로 기술적 가정(예: 감소하는 적응)을 필요로 하며, 이는 방법의 적용 가능성을 제한한다.적응형 MCMC의 비마르코프 특성으로 인한 복잡한 증명 기법 수렴성을 보장하기 위한 엄격한 기술적 조건 필요 재정규화 몬테카를로 합의 수렴성에 관한 결과 부족 AIR MCMC 이론 프레임워크 제시 : Wasserstein 축약 가정 하에서 AIR 알고리즘에 대한 거의 확실한 수렴 속도 이론을 확립한다.개선된 수렴 속도 : r ( n ) = n ( log n ) 1 / 2 + ε r(n) = \sqrt{n}(\log n)^{1/2+\varepsilon} r ( n ) = n ( log n ) 1/2 + ε 또는 r ( n ) = n 1 / 2 + ε r(n) = n^{1/2+\varepsilon} r ( n ) = n 1/2 + ε 형태의 수렴 속도를 획득하며, 이는 반복 로그 법칙의 최적 속도에 근접한다.기술적 가정 단순화 : 감소하는 적응 등 전통적 기술적 가정이 필요하지 않으며, 방법의 적용 범위를 확대한다.확대된 상태 공간 분석 : Y = X × Φ Y = X \times \Phi Y = X × Φ 설정을 통해 확대된 상태 공간에서 분석을 수행하며, 고전적 비확대 설정을 특수한 경우로 포함한다.광범위한 적용 가능성 : 동시 기하 에르고딕성과 균일 에르고딕성 등 다양한 설정에 적용 가능한 결과를 제공한다.매개변수 β > 0 \beta > 0 β > 0 이 주어졌을 때, k j = ⌈ j β ⌉ k_j = \lceil j^\beta \rceil k j = ⌈ j β ⌉ 로 설정하고 특정 시점에서만 적응을 수행한다:
T m = ∑ j = 1 m k j T_m = \sum_{j=1}^m k_j T m = ∑ j = 1 m k j
핵심 관찰: 임의의 β > 0 \beta > 0 β > 0 에 대해, 다음을 만족하는 상수 c β , C β c_\beta, C_\beta c β , C β 가 존재한다:
c β m 1 + β ≤ T m ≤ C β m 1 + β c_\beta m^{1+\beta} \leq T_m \leq C_\beta m^{1+\beta} c β m 1 + β ≤ T m ≤ C β m 1 + β
이는 적응 빈도가 감소함을 의미한다.
거리 유사 함수 d : Y × Y → R + d: Y \times Y \to \mathbb{R}_+ d : Y × Y → R + 에 대해, 다음과 같이 정의한다:
W ( μ 1 , μ 2 ) : = inf ξ ∈ C ( μ 1 , μ 2 ) ∫ Y 2 d ( x , y ) ξ ( d x , d y ) W(\mu_1, \mu_2) := \inf_{\xi \in C(\mu_1,\mu_2)} \int_{Y^2} d(x,y)\xi(dx,dy) W ( μ 1 , μ 2 ) := inf ξ ∈ C ( μ 1 , μ 2 ) ∫ Y 2 d ( x , y ) ξ ( d x , d y )
각 γ ∈ I \gamma \in I γ ∈ I 에 대해, 다음을 가정한다:
π γ \pi_\gamma π γ 는 P γ P_\gamma P γ 의 불변 분포τ ( P γ ) ≤ M \tau(P_\gamma) \leq M τ ( P γ ) ≤ M 이고 τ ( P γ k 0 ) ≤ τ \tau(P_\gamma^{k_0}) \leq \tau τ ( P γ k 0 ) ≤ τ
여기서 M ∈ [ 1 , ∞ ) M \in [1,\infty) M ∈ [ 1 , ∞ ) , τ ∈ [ 0 , 1 ) \tau \in [0,1) τ ∈ [ 0 , 1 ) , k 0 ∈ N k_0 \in \mathbb{N} k 0 ∈ N 는 γ \gamma γ 와 무관하다.함수 h : Y → R h: Y \to \mathbb{R} h : Y → R 과 γ ∈ I \gamma \in I γ ∈ I 에 대해, 포아송 방정식의 해는:
u γ ( y ) = ∑ ℓ = 0 ∞ ( P γ ℓ f ( y ) − π γ ( f ) ) u_\gamma(y) = \sum_{\ell=0}^{\infty}(P_\gamma^\ell f(y) - \pi_\gamma(f)) u γ ( y ) = ∑ ℓ = 0 ∞ ( P γ ℓ f ( y ) − π γ ( f ))
포아송 방정식 분해를 이용하여 몬테카를로 합을 분해한다:
∑ j = 1 n ( h ( Y j ) − π Γ j − 1 ( h ) ) = M n + R m + 유계항 \sum_{j=1}^n (h(Y_j) - \pi_{\Gamma_{j-1}}(h)) = M_n + R_m + \text{유계항} ∑ j = 1 n ( h ( Y j ) − π Γ j − 1 ( h )) = M n + R m + 유계항
여기서:
M n M_n M n : 마팅게일 항R m R_m R m : 나머지 항, AIR 알고리즘에서 크게 단순화됨유계 편심도 가정 하에서, 임의의 ε > 0 \varepsilon > 0 ε > 0 에 대해:
lim n → ∞ 1 n ( log n ) 1 / 2 + ε ∑ j = 1 n ( f ( X j ) − ν ( f ) ) = 0 a.s. \lim_{n \to \infty} \frac{1}{\sqrt{n}(\log n)^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{a.s.} lim n → ∞ n ( l o g n ) 1/2 + ε 1 ∑ j = 1 n ( f ( X j ) − ν ( f )) = 0 a.s.
ε > 1 1 + β − 1 2 \varepsilon > \frac{1}{1+\beta} - \frac{1}{2} ε > 1 + β 1 − 2 1 에 대해:
lim n → ∞ 1 n 1 / 2 + ε ∑ j = 1 n ( f ( X j ) − ν ( f ) ) = 0 a.s. \lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{a.s.} lim n → ∞ n 1/2 + ε 1 ∑ j = 1 n ( f ( X j ) − ν ( f )) = 0 a.s.
리아푸노프 함수의 존재 가정 하에서, ε > max { 0 , 1 1 + β + 1 p − 1 2 } \varepsilon > \max\{0, \frac{1}{1+\beta} + \frac{1}{p} - \frac{1}{2}\} ε > max { 0 , 1 + β 1 + p 1 − 2 1 } 에 대해:
lim n → ∞ 1 n 1 / 2 + ε ∑ j = 1 n ( f ( X j ) − ν ( f ) ) = 0 a.s. \lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{a.s.} lim n → ∞ n 1/2 + ε 1 ∑ j = 1 n ( f ( X j ) − ν ( f )) = 0 a.s.
자명한 거리 d ( y 1 , y 2 ) = 1 { y 1 ≠ y 2 } d(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}} d ( y 1 , y 2 ) = 1 { y 1 = y 2 } 를 사용하면, W W W 는 전체 변동 거리에 해당한다.
추론 4.5 : 유계 함수 f f f 에 대해, β ≥ 1 \beta \geq 1 β ≥ 1 과 ε > 0 \varepsilon > 0 ε > 0 하에서:
∣ 1 n ∑ j = 1 n ( f ( X j ( ω ) ) − ν ( f ) ) ∣ ≤ ( log n ) 1 / 2 + ε n C ( ω ) \left|\frac{1}{n}\sum_{j=1}^n (f(X_j(\omega)) - \nu(f))\right| \leq \frac{(\log n)^{1/2+\varepsilon}}{\sqrt{n}} C(\omega) n 1 ∑ j = 1 n ( f ( X j ( ω )) − ν ( f )) ≤ n ( l o g n ) 1/2 + ε C ( ω )
표류-소집합 조건(가정 4.7)을 고려하고, 가중 거리를 사용한다:
d q ( y 1 , y 2 ) = 1 { y 1 ≠ y 2 } ( V q ( y 1 ) + V q ( y 2 ) ) d_q(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}(V^q(y_1) + V^q(y_2)) d q ( y 1 , y 2 ) = 1 { y 1 = y 2 } ( V q ( y 1 ) + V q ( y 2 ))
거리 유사 함수를 사용한다:
d ~ q ( y 1 , y 2 ) = d ( y 1 , y 2 ) ( 1 + V q ( y 1 ) + V q ( y 2 ) ) \tilde{d}_q(y_1, y_2) = \sqrt{d(y_1, y_2)(1 + V^q(y_1) + V^q(y_2))} d ~ q ( y 1 , y 2 ) = d ( y 1 , y 2 ) ( 1 + V q ( y 1 ) + V q ( y 2 ))
AIR 알고리즘의 핵심 장점은 나머지 항 R m R_m R m 에서 대부분의 어려운 항이 상쇄되어:
∣ R m ∣ ≤ n 1 / ( 1 + β ) ⋅ 상수 |R_m| \leq n^{1/(1+\beta)} \cdot \text{상수} ∣ R m ∣ ≤ n 1/ ( 1 + β ) ⋅ 상수
전통적 방법과 달리, ∥ Γ n − Γ n − 1 ∥ → 0 \|\Gamma_n - \Gamma_{n-1}\| \to 0 ∥ Γ n − Γ n − 1 ∥ → 0 의 가정이 필요하지 않다.
Y = X × Φ Y = X \times \Phi Y = X × Φ 설정을 통해 다중 모드 분포 등 복잡한 경우를 통일적으로 처리한다.
논문은 주로 이론 분석이며, 다음과 같은 방식으로 결과를 검증한다:
적응형 무작위 보행 메트로폴리스 알고리즘 적응형 입체 투영 MCMC 알고리즘 사전조건화 Crank-Nicolson (pCN) 알고리즘 CLR18 의 수치 실험을 인용하며, AIR 알고리즘이 β ∈ [ 1 , 2 ] \beta \in [1,2] β ∈ [ 1 , 2 ] 일 때 순수 적응형 방법과 유사한 성능을 보임을 나타낸다.
대수의 법칙 : HST01, AR05, AM06, RR07, SV10, FMP11, PHL20 중심극한정리 : AM06, SV10 올바른 목표 측도로의 수렴 : RR07, FMP11 AA07, AW15 : ∥ P ( X n ∈ ⋅ ) − ν ∥ t v ≤ C / n \|P(X_n \in \cdot) - \nu\|_{tv} \leq C/n ∥ P ( X n ∈ ⋅ ) − ν ∥ t v ≤ C / n 을 보임AW15, CLR18 : 평균제곱 오차 경계, 1 / n 1/n 1/ n 차수 수렴 속도를 보임경로 수렴 경계 : 기존의 기댓값 오차 경계와 달리, 거의 확실한 경로 수렴을 제공Wasserstein 축약 설정 : 전통적 균일/기하 에르고딕성 프레임워크 확장거의 최적 속도 : 수렴 속도가 반복 로그 법칙의 이론적 최적값에 근접AIR MCMC 알고리즘은 Wasserstein 축약 가정 하에서 양호한 거의 확실한 수렴 특성을 가진다. 수렴 속도는 이론적 최적에 근접하며, n ( log n ) 1 / 2 + ε \sqrt{n}(\log n)^{1/2+\varepsilon} n ( log n ) 1/2 + ε 형태이다. 기술적 가정이 전통적 방법에 비해 현저히 단순화되었다. 일관성 요구 : 가정 3.1은 모든 경계가 γ \gamma γ 에 대해 일관되기를 요구하며, 제한적이다.작은 β \beta β 체제 : β ∈ ( 0 , 1 ) \beta \in (0,1) β ∈ ( 0 , 1 ) 일 때 수렴 속도가 악화되며, 개선을 위해 추가 가정이 필요하다.순수 적응형 알고리즘 : β = 0 \beta = 0 β = 0 의 순수 적응형 경우는 여전히 추가 연구가 필요하다.일관성 가정 약화 : 확률적 근사 알고리즘 프레임워크에서 가정 3.1을 완화할 수 있다.순수 적응형으로 확장 : SV10 의 기법을 이용하여 β = 0 \beta = 0 β = 0 경우를 처리한다.작은 β \beta β 체제 개선 : 추가 가정 없이 β ∈ ( 0 , 1 ) \beta \in (0,1) β ∈ ( 0 , 1 ) 을 처리하는 기법을 개발한다.이론적 깊이 : Wasserstein 축약 프레임워크에서 완전한 AIR MCMC 이론을 확립한다.기술적 혁신 : AIR 구조를 교묘하게 활용하여 마팅게일 근사의 나머지 항 제어를 단순화한다.광범위한 적용 가능성 : 균일, 기하, 약한 Harris 에르고딕성 등 다양한 설정을 포함한다.실용적 가치 : 경로 수렴 경계를 제공하여 단일 시뮬레이션에 실질적 지침을 준다.가정의 제한성 : 일관성 가정이 실제 응용에서 검증하기 어려울 수 있다.작은 β \beta β 처리 : 추가 립시츠 및 감소 적응 조건이 필요하다.수치 검증 제한 : 주로 이론 분석이며, 충분한 수치 실험이 부족하다.이론적 기여 : AIR MCMC에 견고한 이론적 기초를 제공한다.방법론적 가치 : Wasserstein 축약 방법이 다른 알고리즘 분석에 영감을 줄 수 있다.실용적 전망 : 경로 수렴 경계가 MCMC 진단 및 정지 기준에 중요한 의미를 가진다.고차원 통계 추론 : 복잡한 사후 분포 표본 추출에 적용 가능하다.다중 모드 분포 : 확대된 상태 공간을 통해 다중 모드 문제를 처리한다.계산 자원 제약 : AIR 알고리즘이 적응 빈도를 줄여 계산 비용을 절감한다.논문은 34개의 중요 참고문헌을 포함하며, 적응형 MCMC 이론의 주요 발전을 포괄한다. 특히:
CLR18 : AIR 알고리즘의 원래 제안AM06, SV10 : 고전적 적응형 MCMC 이론HMS11 : Wasserstein 축약 방법의 이론적 기초PHL20 : 확대된 상태 공간 방법