We consider adaptive increasingly rare Markov chain Monte Carlo (MCMC) algorithms, which are adaptive MCMC methods, where the adaptation concerning the "past'' happens less and less frequently over time. Under a contraction assumption with respect to a Wasserstein-like function we deduce upper bounds of the convergence rate of Monte Carlo sums taking a renormalisation factor into account that is "almost'' the one that appears in a law of the iterated logarithm. We demonstrate the applicability of our results by considering different settings, among which are those of simultaneous geometric and uniform ergodicity. All proofs are carried out on an augmented state space, including the classical non-augmented setting as a special case. In contrast to other adaptive MCMC limit theory, some technical assumptions, like diminishing adaptation, are not needed.
論文ID : 2402.12122タイトル : Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo著者 : Julian Hofstadler (University of Bath), Krzysztof Latuszyński (University of Warwick), Gareth O. Roberts (University of Warwick), Daniel Rudolf (University of Passau)分類 : math.NA cs.NA math.PR math.ST stat.TH発表日 : 2025年10月14日 (arXiv版)論文リンク : https://arxiv.org/abs/2402.12122 本論文は、適応的にますます稀なマルコフ連鎖モンテカルロ(AIR MCMC)アルゴリズムを研究している。これは適応型MCMC法の一種であり、「過去」への適応が時間とともにますます稀になる。Wasserstein型関数に関する縮約仮定の下で、著者らはモンテカルロ和の収束速度の上界を導出した。この上界は、反復対数法則にほぼ現れる再正規化因子を考慮している。論文は、同時幾何遍歴性と一様遍歴性などの異なる設定を考慮することで、結果の適用可能性を実証している。すべての証明は拡張状態空間上で行われ、古典的な非拡張設定を特殊ケースとして含む。他の適応型MCMC極限理論と比較して、減少適応などの技術的仮定の一部が不要である。
計算統計学における普遍的な課題は、期待値を近似することである:
ν ( f ) = ∫ X f ( x ) ν ( d x ) \nu(f) = \int_X f(x)\nu(dx) ν ( f ) = ∫ X f ( x ) ν ( d x )
ここでν \nu ν は目標分布であり、f : X → R f: X \to \mathbb{R} f : X → R は関心のある積分可能関数である。
直接サンプリングの困難性 :ν \nu ν から直接サンプリングが不可能または計算上実行不可能な場合(例えば、密度が未知の正規化定数を含む場合)、代替方法が必要である。適応型MCMCの課題 :従来の適応型MCMC法は全履歴を考慮して単一ステップ遷移機構を更新するため、非マルコフ過程となり、数学的分析が複雑化する。技術的仮定の簡素化の必要性 :既存の適応型MCMC理論は通常、技術的仮定(減少適応など)を必要とし、方法の適用可能性を制限している。適応型MCMCの非マルコフ性質は複雑な証明技法をもたらす 収束性を保証するために厳密な技術条件が必要である 再正規化モンテカルロ和の収束性に関する結果が不足している AIR MCMC理論フレームワークの提案 :Wasserstein縮約仮定の下で、AIRアルゴリズムのほぼ確実な収束速度理論を確立した。改善された収束速度 :r ( n ) = n ( log n ) 1 / 2 + ε r(n) = \sqrt{n}(\log n)^{1/2+\varepsilon} r ( n ) = n ( log n ) 1/2 + ε またはr ( n ) = n 1 / 2 + ε r(n) = n^{1/2+\varepsilon} r ( n ) = n 1/2 + ε の形式の収束速度を得た。これは反復対数法則の最適速度に近い。技術的仮定の簡素化 :減少適応などの従来の技術的仮定が不要であり、方法の適用範囲を拡大した。拡張状態空間分析 :Y = X × Φ Y = X \times \Phi Y = X × Φ の設定で分析を行い、古典的な非拡張設定を特殊ケースとして含む。広範な適用可能性 :同時幾何遍歴性と一様遍歴性などの複数の設定に結果が適用可能である。パラメータβ > 0 \beta > 0 β > 0 が与えられたとき、k j = ⌈ j β ⌉ k_j = \lceil j^\beta \rceil k j = ⌈ j β ⌉ と設定し、特定の時点でのみ適応を行う:
T m = ∑ j = 1 m k j T_m = \sum_{j=1}^m k_j T m = ∑ j = 1 m k j
重要な観察:任意のβ > 0 \beta > 0 β > 0 に対して、定数c β , C β c_\beta, C_\beta c β , C β が存在して:
c β m 1 + β ≤ T m ≤ C β m 1 + β c_\beta m^{1+\beta} \leq T_m \leq C_\beta m^{1+\beta} c β m 1 + β ≤ T m ≤ C β m 1 + β
これは適応頻度が減少することを意味する。
距離型関数d : Y × Y → R + d: Y \times Y \to \mathbb{R}_+ d : Y × Y → R + に対して、以下のように定義する:
W ( μ 1 , μ 2 ) : = inf ξ ∈ C ( μ 1 , μ 2 ) ∫ Y 2 d ( x , y ) ξ ( d x , d y ) W(\mu_1, \mu_2) := \inf_{\xi \in C(\mu_1,\mu_2)} \int_{Y^2} d(x,y)\xi(dx,dy) W ( μ 1 , μ 2 ) := inf ξ ∈ C ( μ 1 , μ 2 ) ∫ Y 2 d ( x , y ) ξ ( d x , d y )
各γ ∈ I \gamma \in I γ ∈ I に対して、以下を仮定する:
π γ \pi_\gamma π γ はP γ P_\gamma P γ の不変分布であるτ ( P γ ) ≤ M \tau(P_\gamma) \leq M τ ( P γ ) ≤ M かつτ ( P γ k 0 ) ≤ τ \tau(P_\gamma^{k_0}) \leq \tau τ ( P γ k 0 ) ≤ τ
ここでM ∈ [ 1 , ∞ ) M \in [1,\infty) M ∈ [ 1 , ∞ ) 、τ ∈ [ 0 , 1 ) \tau \in [0,1) τ ∈ [ 0 , 1 ) 、k 0 ∈ N k_0 \in \mathbb{N} k 0 ∈ N はγ \gamma γ に無関係である。関数h : Y → R h: Y \to \mathbb{R} h : Y → R とγ ∈ I \gamma \in I γ ∈ I に対して、Poisson方程式の解は:
u γ ( y ) = ∑ ℓ = 0 ∞ ( P γ ℓ f ( y ) − π γ ( f ) ) u_\gamma(y) = \sum_{\ell=0}^{\infty}(P_\gamma^\ell f(y) - \pi_\gamma(f)) u γ ( y ) = ∑ ℓ = 0 ∞ ( P γ ℓ f ( y ) − π γ ( f ))
Poisson方程式分解を利用してモンテカルロ和を分解する:
∑ j = 1 n ( h ( Y j ) − π Γ j − 1 ( h ) ) = M n + R m + 有界項 \sum_{j=1}^n (h(Y_j) - \pi_{\Gamma_{j-1}}(h)) = M_n + R_m + \text{有界項} ∑ j = 1 n ( h ( Y j ) − π Γ j − 1 ( h )) = M n + R m + 有界項
ここで:
M n M_n M n :マルチンゲール項R m R_m R m :剰余項、AIRアルゴリズムで大幅に簡素化される有界偏心率仮定の下で、任意のε > 0 \varepsilon > 0 ε > 0 に対して:
lim n → ∞ 1 n ( log n ) 1 / 2 + ε ∑ j = 1 n ( f ( X j ) − ν ( f ) ) = 0 a.s. \lim_{n \to \infty} \frac{1}{\sqrt{n}(\log n)^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{a.s.} lim n → ∞ n ( l o g n ) 1/2 + ε 1 ∑ j = 1 n ( f ( X j ) − ν ( f )) = 0 a.s.
ε > 1 1 + β − 1 2 \varepsilon > \frac{1}{1+\beta} - \frac{1}{2} ε > 1 + β 1 − 2 1 に対して:
lim n → ∞ 1 n 1 / 2 + ε ∑ j = 1 n ( f ( X j ) − ν ( f ) ) = 0 a.s. \lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{a.s.} lim n → ∞ n 1/2 + ε 1 ∑ j = 1 n ( f ( X j ) − ν ( f )) = 0 a.s.
Lyapunov関数の存在仮定の下で、ε > max { 0 , 1 1 + β + 1 p − 1 2 } \varepsilon > \max\{0, \frac{1}{1+\beta} + \frac{1}{p} - \frac{1}{2}\} ε > max { 0 , 1 + β 1 + p 1 − 2 1 } に対して:
lim n → ∞ 1 n 1 / 2 + ε ∑ j = 1 n ( f ( X j ) − ν ( f ) ) = 0 a.s. \lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{a.s.} lim n → ∞ n 1/2 + ε 1 ∑ j = 1 n ( f ( X j ) − ν ( f )) = 0 a.s.
自明な距離d ( y 1 , y 2 ) = 1 { y 1 ≠ y 2 } d(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}} d ( y 1 , y 2 ) = 1 { y 1 = y 2 } を使用する。この場合、W W W は全変動距離に対応する。
系4.5 :有界関数f f f に対して、β ≥ 1 \beta \geq 1 β ≥ 1 とε > 0 \varepsilon > 0 ε > 0 の下で:
∣ 1 n ∑ j = 1 n ( f ( X j ( ω ) ) − ν ( f ) ) ∣ ≤ ( log n ) 1 / 2 + ε n C ( ω ) \left|\frac{1}{n}\sum_{j=1}^n (f(X_j(\omega)) - \nu(f))\right| \leq \frac{(\log n)^{1/2+\varepsilon}}{\sqrt{n}} C(\omega) n 1 ∑ j = 1 n ( f ( X j ( ω )) − ν ( f )) ≤ n ( l o g n ) 1/2 + ε C ( ω )
ドリフト-小集合条件(仮定4.7)を考慮し、重み付き距離を使用する:
d q ( y 1 , y 2 ) = 1 { y 1 ≠ y 2 } ( V q ( y 1 ) + V q ( y 2 ) ) d_q(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}(V^q(y_1) + V^q(y_2)) d q ( y 1 , y 2 ) = 1 { y 1 = y 2 } ( V q ( y 1 ) + V q ( y 2 ))
距離型関数を使用する:
d ~ q ( y 1 , y 2 ) = d ( y 1 , y 2 ) ( 1 + V q ( y 1 ) + V q ( y 2 ) ) \tilde{d}_q(y_1, y_2) = \sqrt{d(y_1, y_2)(1 + V^q(y_1) + V^q(y_2))} d ~ q ( y 1 , y 2 ) = d ( y 1 , y 2 ) ( 1 + V q ( y 1 ) + V q ( y 2 ))
AIRアルゴリズムの主要な利点は、剰余項R m R_m R m の困難な項の大部分が相殺されることであり、以下を得る:
∣ R m ∣ ≤ n 1 / ( 1 + β ) ⋅ 定数 |R_m| \leq n^{1/(1+\beta)} \cdot \text{定数} ∣ R m ∣ ≤ n 1/ ( 1 + β ) ⋅ 定数
従来の方法と異なり、∥ Γ n − Γ n − 1 ∥ → 0 \|\Gamma_n - \Gamma_{n-1}\| \to 0 ∥ Γ n − Γ n − 1 ∥ → 0 の仮定が不要である。
Y = X × Φ Y = X \times \Phi Y = X × Φ の設定を通じて、多峰分布などの複雑な場合を統一的に処理する。
論文は主に理論分析であり、以下の方法で結果を検証している:
適応的ランダムウォークMetropolisアルゴリズム 適応的立体投影MCMCアルゴリズム 前処理Crank-Nicolson (pCN)アルゴリズム CLR18 の数値実験を引用し、AIRアルゴリズムがβ ∈ [ 1 , 2 ] \beta \in [1,2] β ∈ [ 1 , 2 ] のとき純適応型方法と同等の性能を示すことを示している。
大数の法則 :HST01, AR05, AM06, RR07, SV10, FMP11, PHL20 中心極限定理 :AM06, SV10 正しい目標測度への収束 :RR07, FMP11 AA07, AW15 :∥ P ( X n ∈ ⋅ ) − ν ∥ t v ≤ C / n \|P(X_n \in \cdot) - \nu\|_{tv} \leq C/n ∥ P ( X n ∈ ⋅ ) − ν ∥ t v ≤ C / n を示すAW15, CLR18 :二乗平均誤差界、1 / n 1/n 1/ n 次の収束速度を示す経路収束界 :既存の期待誤差界と異なり、ほぼ確実な経路収束を提供するWasserstein縮約設定 :従来の一様/幾何遍歴性フレームワークを拡張するほぼ最適速度 :収束速度は反復対数法則の理論的最適値に近いAIR MCMCアルゴリズムはWasserstein縮約仮定の下で良好なほぼ確実な収束性質を有する 収束速度は理論的に最適に近く、n ( log n ) 1 / 2 + ε \sqrt{n}(\log n)^{1/2+\varepsilon} n ( log n ) 1/2 + ε の形式である 技術的仮定は従来の方法と比較して著しく簡素化されている 一様性要件 :仮定3.1はγ \gamma γ に関して一様な境界を要求し、やや制限的である小β \beta β 領域 :β ∈ ( 0 , 1 ) \beta \in (0,1) β ∈ ( 0 , 1 ) のとき収束速度が悪化し、改善には追加仮定が必要である純適応型アルゴリズム :β = 0 \beta = 0 β = 0 の純適応型の場合はさらなる研究が必要である一様性仮定の緩和 :確率的近似型アルゴリズムフレームワークの下で仮定3.1を緩和できる可能性がある純適応型への拡張 :SV10 の技法を利用してβ = 0 \beta = 0 β = 0 の場合を処理する小β \beta β 領域の改善 :追加仮定を必要としない技法を開発してβ ∈ ( 0 , 1 ) \beta \in (0,1) β ∈ ( 0 , 1 ) を処理する理論的深さ :Wasserstein縮約フレームワークの下でAIR MCMC理論を完全に確立した技術的革新 :マルチンゲール近似における剰余項制御を巧妙に簡素化するためにAIR構造を利用した広範な適用可能性 :一様、幾何、弱Harris遍歴性などの複数の設定を網羅する実用的価値 :経路収束界は単一シミュレーションに対して実用的な指導を提供する仮定の制限性 :一様性仮定は実際の応用では検証が困難な可能性がある小β \beta β 処理 :Lipschitz性と衰減適応条件が追加で必要である数値検証の限定 :主に理論分析であり、十分な数値実験が不足している理論的貢献 :AIR MCMCに堅実な理論的基礎を提供した方法論的価値 :Wasserstein縮約法は他のアルゴリズム分析にインスピレーションを与える可能性がある実用的展望 :経路収束界はMCMC診断と停止基準に重要な意義を持つ高次元統計推論 :複雑な事後分布のサンプリングに適用可能である多峰分布 :拡張状態空間を通じて多峰問題を処理する計算資源の制限 :AIRアルゴリズムは適応頻度を削減し、計算コストを節約する論文は34篇の重要な参考文献を含み、適応型MCMC理論の主要な発展を網羅している。特に:
CLR18 :AIRアルゴリズムの原始的提案AM06, SV10 :古典的適応型MCMC理論HMS11 :Wasserstein縮約法の理論的基礎PHL20 :拡張状態空間法