2025-11-16T12:28:12.323029

Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo

Hofstadler, Latuszynski, Roberts et al.
We consider adaptive increasingly rare Markov chain Monte Carlo (MCMC) algorithms, which are adaptive MCMC methods, where the adaptation concerning the "past'' happens less and less frequently over time. Under a contraction assumption with respect to a Wasserstein-like function we deduce upper bounds of the convergence rate of Monte Carlo sums taking a renormalisation factor into account that is "almost'' the one that appears in a law of the iterated logarithm. We demonstrate the applicability of our results by considering different settings, among which are those of simultaneous geometric and uniform ergodicity. All proofs are carried out on an augmented state space, including the classical non-augmented setting as a special case. In contrast to other adaptive MCMC limit theory, some technical assumptions, like diminishing adaptation, are not needed.
academic

Fast sichere Konvergenzraten von adaptiven zunehmend seltenen Markov-Ketten-Monte-Carlo

Grundinformationen

  • Papier-ID: 2402.12122
  • Titel: Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo
  • Autoren: Julian Hofstadler (University of Bath), Krzysztof Latuszyński (University of Warwick), Gareth O. Roberts (University of Warwick), Daniel Rudolf (University of Passau)
  • Klassifizierung: math.NA cs.NA math.PR math.ST stat.TH
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Version)
  • Papier-Link: https://arxiv.org/abs/2402.12122

Zusammenfassung

Dieses Papier untersucht den adaptiven zunehmend seltenen Markov-Ketten-Monte-Carlo-Algorithmus (AIR MCMC), eine Klasse adaptiver MCMC-Methoden, bei denen die Anpassungen an die „Vergangenheit" mit der Zeit zunehmend seltener werden. Unter Kontraktionsannahmen bezüglich Wasserstein-ähnlicher Funktionen leiten die Autoren obere Schranken für die Konvergenzrate von Monte-Carlo-Summen ab, die einen „fast" im iterierten Logarithmusgesetz auftretenden Renormalisierungsfaktor berücksichtigen. Das Papier demonstriert die Anwendbarkeit der Ergebnisse durch die Betrachtung verschiedener Einstellungen wie gleichzeitige geometrische Ergodizität und gleichmäßige Ergodizität. Alle Beweise werden im erweiterten Zustandsraum durchgeführt und beinhalten klassische nicht-erweiterte Einstellungen als Spezialfälle. Im Vergleich zu anderen Grenzwerttheorien für adaptive MCMC werden einige technische Annahmen wie abnehmende Anpassung nicht benötigt.

Forschungshintergrund und Motivation

Problemdefinition

Eine weit verbreitete Herausforderung in der Computationalstatistik besteht darin, Erwartungswerte zu approximieren: ν(f)=Xf(x)ν(dx)\nu(f) = \int_X f(x)\nu(dx) wobei ν\nu die Zielverteilung ist und f:XRf: X \to \mathbb{R} eine interessierende integrierbare Funktion.

Forschungsmotivation

  1. Schwierigkeiten beim direkten Sampling: Wenn direktes Sampling aus ν\nu unmöglich oder rechnerisch nicht durchführbar ist (z.B. wenn die Dichte eine unbekannte Normalisierungskonstante enthält), sind alternative Methoden erforderlich.
  2. Herausforderungen bei adaptiven MCMC-Methoden: Traditionelle adaptive MCMC-Methoden aktualisieren den Einschritt-Übergangsmechanismus durch Berücksichtigung der gesamten Historie, was zu nicht-Markov-Prozessen führt und die mathematische Analyse erschwert.
  3. Bedarf zur Vereinfachung technischer Annahmen: Bestehende Theorien für adaptive MCMC erfordern typischerweise technische Annahmen (wie abnehmende Anpassung), die die Anwendbarkeit der Methoden einschränken.

Einschränkungen bestehender Methoden

  • Die Nicht-Markov-Eigenschaft adaptiver MCMC führt zu komplexen Beweistechniken
  • Strenge technische Bedingungen sind erforderlich, um Konvergenz zu garantieren
  • Es fehlen Ergebnisse zur Konvergenz renormalisierter Monte-Carlo-Summen

Kernbeiträge

  1. Theoretischer Rahmen für AIR MCMC: Etablierung einer Theorie fast sicherer Konvergenzraten für AIR-Algorithmen unter Wasserstein-Kontraktionsannahmen.
  2. Verbesserte Konvergenzraten: Erreichung von Konvergenzraten der Form r(n)=n(logn)1/2+εr(n) = \sqrt{n}(\log n)^{1/2+\varepsilon} oder r(n)=n1/2+εr(n) = n^{1/2+\varepsilon}, die sich der optimalen Rate des iterierten Logarithmusgesetzes nähern.
  3. Vereinfachung technischer Annahmen: Keine Notwendigkeit für traditionelle technische Annahmen wie abnehmende Anpassung, was den Anwendungsbereich der Methode erweitert.
  4. Analyse im erweiterten Zustandsraum: Durchführung der Analyse im erweiterten Zustandsraum Y=X×ΦY = X \times \Phi, wobei klassische nicht-erweiterte Einstellungen als Spezialfälle enthalten sind.
  5. Breite Anwendbarkeit: Ergebnisse gelten für verschiedene Einstellungen wie gleichzeitige geometrische Ergodizität und gleichmäßige Ergodizität.

Methodische Details

Definition des AIR MCMC-Algorithmus

Gegeben ein Parameter β>0\beta > 0, setze kj=jβk_j = \lceil j^\beta \rceil und führe Anpassungen nur zu bestimmten Zeitpunkten durch: Tm=j=1mkjT_m = \sum_{j=1}^m k_j

Schlüsselbeobachtung: Für jedes β>0\beta > 0 existieren Konstanten cβ,Cβc_\beta, C_\beta, so dass: cβm1+βTmCβm1+βc_\beta m^{1+\beta} \leq T_m \leq C_\beta m^{1+\beta}

Dies bedeutet, dass die Anpassungshäufigkeit abnimmt.

Zentraler technischer Rahmen

1. Wasserstein-ähnliche Funktionen

Für eine Distanzfunktion d:Y×YR+d: Y \times Y \to \mathbb{R}_+ definiere: W(μ1,μ2):=infξC(μ1,μ2)Y2d(x,y)ξ(dx,dy)W(\mu_1, \mu_2) := \inf_{\xi \in C(\mu_1,\mu_2)} \int_{Y^2} d(x,y)\xi(dx,dy)

2. Hauptannahmen (Assumption 3.1)

Für jedes γI\gamma \in I nehme an:

  • πγ\pi_\gamma ist die invariante Verteilung von PγP_\gamma
  • τ(Pγ)M\tau(P_\gamma) \leq M und τ(Pγk0)τ\tau(P_\gamma^{k_0}) \leq \tau wobei M[1,)M \in [1,\infty), τ[0,1)\tau \in [0,1), k0Nk_0 \in \mathbb{N} unabhängig von γ\gamma sind.

3. Lösung der Poisson-Gleichung

Für eine Funktion h:YRh: Y \to \mathbb{R} und γI\gamma \in I ist die Lösung der Poisson-Gleichung: uγ(y)==0(Pγf(y)πγ(f))u_\gamma(y) = \sum_{\ell=0}^{\infty}(P_\gamma^\ell f(y) - \pi_\gamma(f))

Martingal-Approximationstechnik

Zerlegung der Monte-Carlo-Summe mit der Poisson-Gleichung: j=1n(h(Yj)πΓj1(h))=Mn+Rm+beschra¨nkte Terme\sum_{j=1}^n (h(Y_j) - \pi_{\Gamma_{j-1}}(h)) = M_n + R_m + \text{beschränkte Terme}

wobei:

  • MnM_n: Martingal-Term
  • RmR_m: Restterm, für AIR-Algorithmen stark vereinfacht

Haupttheoretische Ergebnisse

Theorem 3.5 (Fall β1\beta \geq 1)

Unter der Annahme beschränkter Exzentrizität gilt für jedes ε>0\varepsilon > 0: limn1n(logn)1/2+εj=1n(f(Xj)ν(f))=0f.s.\lim_{n \to \infty} \frac{1}{\sqrt{n}(\log n)^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{f.s.}

Theorem 3.6 (Fall β(0,1)\beta \in (0,1))

Für ε>11+β12\varepsilon > \frac{1}{1+\beta} - \frac{1}{2} gilt: limn1n1/2+εj=1n(f(Xj)ν(f))=0f.s.\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{f.s.}

Theorem 3.11 (Lyapunov-Bedingung)

Unter der Annahme der Existenz einer Lyapunov-Funktion gilt für ε>max{0,11+β+1p12}\varepsilon > \max\{0, \frac{1}{1+\beta} + \frac{1}{p} - \frac{1}{2}\}: limn1n1/2+εj=1n(f(Xj)ν(f))=0f.s.\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{f.s.}

Anwendungsbeispiele

1. Gleichmäßige Ergodizität

Verwendung der trivialen Metrik d(y1,y2)=1{y1y2}d(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}, wobei WW der Totalvariationsdistanz entspricht.

Korollar 4.5: Für beschränkte Funktionen ff unter β1\beta \geq 1 und ε>0\varepsilon > 0 gilt: 1nj=1n(f(Xj(ω))ν(f))(logn)1/2+εnC(ω)\left|\frac{1}{n}\sum_{j=1}^n (f(X_j(\omega)) - \nu(f))\right| \leq \frac{(\log n)^{1/2+\varepsilon}}{\sqrt{n}} C(\omega)

2. Geometrische Ergodizität

Betrachtung der Drift-Small-Set-Bedingung (Assumption 4.7) mit gewichteter Metrik: dq(y1,y2)=1{y1y2}(Vq(y1)+Vq(y2))d_q(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}(V^q(y_1) + V^q(y_2))

3. Schwache Harris-Ergodizität

Verwendung einer Distanzfunktion: d~q(y1,y2)=d(y1,y2)(1+Vq(y1)+Vq(y2))\tilde{d}_q(y_1, y_2) = \sqrt{d(y_1, y_2)(1 + V^q(y_1) + V^q(y_2))}

Technische Innovationen

1. Vereinfachte Restterm-Kontrolle

Der Schlüsselvorteil des AIR-Algorithmus ist, dass sich die meisten schwierigen Terme im Restterm RmR_m aufheben, so dass: Rmn1/(1+β)Konstante|R_m| \leq n^{1/(1+\beta)} \cdot \text{Konstante}

2. Keine abnehmende Anpassung erforderlich

Im Gegensatz zu traditionellen Methoden ist die Annahme ΓnΓn10\|\Gamma_n - \Gamma_{n-1}\| \to 0 nicht erforderlich.

3. Behandlung des erweiterten Zustandsraums

Durch die Einstellung Y=X×ΦY = X \times \Phi wird eine einheitliche Behandlung komplexer Fälle wie multimodaler Verteilungen ermöglicht.

Experimentelle Validierung

Das Papier ist hauptsächlich eine theoretische Analyse, validiert die Ergebnisse jedoch durch:

1. Konkrete Algorithmusbeispiele

  • Adaptiver Random-Walk-Metropolis-Algorithmus
  • Adaptiver Stereographischer MCMC-Algorithmus
  • Preconditioned Crank-Nicolson (pCN)-Algorithmus

2. Numerische Vergleichsreferenzen

Verweis auf numerische Experimente aus CLR18, die zeigen, dass der AIR-Algorithmus bei β[1,2]\beta \in [1,2] eine ähnliche Leistung wie rein adaptive Methoden aufweist.

Verwandte Arbeiten

Klassische Theorie adaptiver MCMC

  • Gesetze der großen Zahlen: HST01, AR05, AM06, RR07, SV10, FMP11, PHL20
  • Zentraler Grenzwertsatz: AM06, SV10
  • Konvergenz zum korrekten Zielmaß: RR07, FMP11

Quantitative Ergodentheorie-Ergebnisse

  • AA07, AW15: Zeigen P(Xn)νtvC/n\|P(X_n \in \cdot) - \nu\|_{tv} \leq C/n
  • AW15, CLR18: Mittlere quadratische Fehlerschranken, zeigen 1/n1/n-Konvergenzrate

Einzigartigkeit des Beitrags dieses Papiers

  1. Pfadkonvergenzschranken: Im Gegensatz zu bestehenden Erwartungsfehlerschranken werden fast sichere Pfadkonvergenzen bereitgestellt
  2. Wasserstein-Kontraktionseinstellung: Erweiterung des traditionellen Rahmens der gleichmäßigen/geometrischen Ergodizität
  3. Nahezu optimale Geschwindigkeit: Konvergenzrate nähert sich dem theoretischen Optimum des iterierten Logarithmusgesetzes

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der AIR MCMC-Algorithmus zeigt unter Wasserstein-Kontraktionsannahmen gute fast sichere Konvergenzeigenschaften
  2. Die Konvergenzrate nähert sich dem theoretischen Optimum mit der Form n(logn)1/2+ε\sqrt{n}(\log n)^{1/2+\varepsilon}
  3. Technische Annahmen sind im Vergleich zu traditionellen Methoden erheblich vereinfacht

Einschränkungen

  1. Gleichmäßigkeitsanforderungen: Assumption 3.1 erfordert, dass alle Schranken bezüglich γ\gamma gleichmäßig sind, was ziemlich restriktiv ist
  2. Kleines β\beta-Regime: Wenn β(0,1)\beta \in (0,1), verschlechtert sich die Konvergenzrate und erfordert zusätzliche Annahmen zur Verbesserung
  3. Rein adaptive Algorithmen: Der Fall reiner Anpassung mit β=0\beta = 0 erfordert weitere Untersuchungen

Zukünftige Richtungen

  1. Abschwächung von Gleichmäßigkeitsannahmen: Unter dem Rahmen stochastischer Approximationsalgorithmen könnte Assumption 3.1 möglicherweise gelockert werden
  2. Erweiterung auf reine Anpassung: Verwendung von Techniken aus SV10 zur Behandlung des Falls β=0\beta = 0
  3. Verbesserung des kleinen β\beta-Regimes: Entwicklung von Techniken zur Behandlung von β(0,1)\beta \in (0,1) ohne zusätzliche Annahmen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Tiefe: Etablierung einer vollständigen Theorie für AIR MCMC im Wasserstein-Kontraktionsrahmen
  2. Technische Innovation: Geschickte Nutzung der AIR-Struktur zur Vereinfachung der Restterm-Kontrolle in der Martingal-Approximation
  3. Breite Anwendbarkeit: Abdeckung verschiedener Einstellungen wie gleichmäßige, geometrische und schwache Harris-Ergodizität
  4. Praktischer Wert: Bereitstellung von Pfadkonvergenzschranken mit praktischer Bedeutung für einzelne Simulationen

Schwächen

  1. Restriktive Annahmen: Gleichmäßigkeitsannahmen könnten in praktischen Anwendungen schwer zu verifizieren sein
  2. Behandlung des kleinen β\beta: Erfordert zusätzliche Lipschitz- und Decay-Anpassungsbedingungen
  3. Begrenzte numerische Validierung: Hauptsächlich theoretische Analyse mit unzureichenden numerischen Experimenten

Auswirkungen

  1. Theoretischer Beitrag: Bereitstellung einer soliden theoretischen Grundlage für AIR MCMC
  2. Methodologischer Wert: Die Wasserstein-Kontraktionsmethode könnte die Analyse anderer Algorithmen inspirieren
  3. Praktische Aussichten: Pfadkonvergenzschranken sind für MCMC-Diagnose und Stoppkriterien von Bedeutung

Anwendungsszenarien

  1. Hochdimensionale statistische Inferenz: Anwendbar auf Sampling komplexer posteriorer Verteilungen
  2. Multimodale Verteilungen: Behandlung multimodaler Probleme durch Erweiterung des Zustandsraums
  3. Begrenzte Rechenressourcen: Der AIR-Algorithmus reduziert die Anpassungshäufigkeit und spart Rechenkosten

Literaturverzeichnis

Das Papier enthält 34 wichtige Referenzen, die die Hauptentwicklungen der Theorie adaptiver MCMC abdecken, insbesondere:

  • CLR18: Ursprüngliche Einführung des AIR-Algorithmus
  • AM06, SV10: Klassische Theorie adaptiver MCMC
  • HMS11: Theoretische Grundlagen der Wasserstein-Kontraktionsmethode
  • PHL20: Methoden des erweiterten Zustandsraums