2025-11-16T12:28:12.323029

Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo

Hofstadler, Latuszynski, Roberts et al.

We consider adaptive increasingly rare Markov chain Monte Carlo (MCMC) algorithms, which are adaptive MCMC methods, where the adaptation concerning the "past'' happens less and less frequently over time. Under a contraction assumption with respect to a Wasserstein-like function we deduce upper bounds of the convergence rate of Monte Carlo sums taking a renormalisation factor into account that is "almost'' the one that appears in a law of the iterated logarithm. We demonstrate the applicability of our results by considering different settings, among which are those of simultaneous geometric and uniform ergodicity. All proofs are carried out on an augmented state space, including the classical non-augmented setting as a special case. In contrast to other adaptive MCMC limit theory, some technical assumptions, like diminishing adaptation, are not needed.

academic

Fast sichere Konvergenzraten von adaptiven zunehmend seltenen Markov-Ketten-Monte-Carlo

Grundinformationen

Papier-ID: 2402.12122
Titel: Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo
Autoren: Julian Hofstadler (University of Bath), Krzysztof Latuszyński (University of Warwick), Gareth O. Roberts (University of Warwick), Daniel Rudolf (University of Passau)
Klassifizierung: math.NA cs.NA math.PR math.ST stat.TH
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Version)
Papier-Link: https://arxiv.org/abs/2402.12122

Zusammenfassung

Dieses Papier untersucht den adaptiven zunehmend seltenen Markov-Ketten-Monte-Carlo-Algorithmus (AIR MCMC), eine Klasse adaptiver MCMC-Methoden, bei denen die Anpassungen an die „Vergangenheit" mit der Zeit zunehmend seltener werden. Unter Kontraktionsannahmen bezüglich Wasserstein-ähnlicher Funktionen leiten die Autoren obere Schranken für die Konvergenzrate von Monte-Carlo-Summen ab, die einen „fast" im iterierten Logarithmusgesetz auftretenden Renormalisierungsfaktor berücksichtigen. Das Papier demonstriert die Anwendbarkeit der Ergebnisse durch die Betrachtung verschiedener Einstellungen wie gleichzeitige geometrische Ergodizität und gleichmäßige Ergodizität. Alle Beweise werden im erweiterten Zustandsraum durchgeführt und beinhalten klassische nicht-erweiterte Einstellungen als Spezialfälle. Im Vergleich zu anderen Grenzwerttheorien für adaptive MCMC werden einige technische Annahmen wie abnehmende Anpassung nicht benötigt.

Forschungshintergrund und Motivation

Problemdefinition

Eine weit verbreitete Herausforderung in der Computationalstatistik besteht darin, Erwartungswerte zu approximieren: $\nu(f) = \int_X f(x)\nu(dx)$ wobei $\nu$ die Zielverteilung ist und $f: X \to \mathbb{R}$ eine interessierende integrierbare Funktion.

Forschungsmotivation

Schwierigkeiten beim direkten Sampling: Wenn direktes Sampling aus $\nu$ unmöglich oder rechnerisch nicht durchführbar ist (z.B. wenn die Dichte eine unbekannte Normalisierungskonstante enthält), sind alternative Methoden erforderlich.
Herausforderungen bei adaptiven MCMC-Methoden: Traditionelle adaptive MCMC-Methoden aktualisieren den Einschritt-Übergangsmechanismus durch Berücksichtigung der gesamten Historie, was zu nicht-Markov-Prozessen führt und die mathematische Analyse erschwert.
Bedarf zur Vereinfachung technischer Annahmen: Bestehende Theorien für adaptive MCMC erfordern typischerweise technische Annahmen (wie abnehmende Anpassung), die die Anwendbarkeit der Methoden einschränken.

Einschränkungen bestehender Methoden

Die Nicht-Markov-Eigenschaft adaptiver MCMC führt zu komplexen Beweistechniken
Strenge technische Bedingungen sind erforderlich, um Konvergenz zu garantieren
Es fehlen Ergebnisse zur Konvergenz renormalisierter Monte-Carlo-Summen

Kernbeiträge

Theoretischer Rahmen für AIR MCMC: Etablierung einer Theorie fast sicherer Konvergenzraten für AIR-Algorithmen unter Wasserstein-Kontraktionsannahmen.
Verbesserte Konvergenzraten: Erreichung von Konvergenzraten der Form $r(n) = \sqrt{n}(\log n)^{1/2+\varepsilon}$ oder $r(n) = n^{1/2+\varepsilon}$ , die sich der optimalen Rate des iterierten Logarithmusgesetzes nähern.
Vereinfachung technischer Annahmen: Keine Notwendigkeit für traditionelle technische Annahmen wie abnehmende Anpassung, was den Anwendungsbereich der Methode erweitert.
Analyse im erweiterten Zustandsraum: Durchführung der Analyse im erweiterten Zustandsraum $Y = X \times \Phi$ , wobei klassische nicht-erweiterte Einstellungen als Spezialfälle enthalten sind.
Breite Anwendbarkeit: Ergebnisse gelten für verschiedene Einstellungen wie gleichzeitige geometrische Ergodizität und gleichmäßige Ergodizität.

Methodische Details

Definition des AIR MCMC-Algorithmus

Gegeben ein Parameter $\beta > 0$ , setze $k_j = \lceil j^\beta \rceil$ und führe Anpassungen nur zu bestimmten Zeitpunkten durch: $T_m = \sum_{j=1}^m k_j$

Schlüsselbeobachtung: Für jedes $\beta > 0$ existieren Konstanten $c_\beta, C_\beta$ , so dass: $c_\beta m^{1+\beta} \leq T_m \leq C_\beta m^{1+\beta}$

Dies bedeutet, dass die Anpassungshäufigkeit abnimmt.

Zentraler technischer Rahmen

1. Wasserstein-ähnliche Funktionen

Für eine Distanzfunktion $d: Y \times Y \to \mathbb{R}_+$ definiere: $W(\mu_1, \mu_2) := \inf_{\xi \in C(\mu_1,\mu_2)} \int_{Y^2} d(x,y)\xi(dx,dy)$

2. Hauptannahmen (Assumption 3.1)

Für jedes $\gamma \in I$ nehme an:

$\pi_\gamma$ ist die invariante Verteilung von $P_\gamma$
$\tau(P_\gamma) \leq M$ und $\tau(P_\gamma^{k_0}) \leq \tau$ wobei $M \in [1,\infty)$ , $\tau \in [0,1)$ , $k_0 \in \mathbb{N}$ unabhängig von $\gamma$ sind.

3. Lösung der Poisson-Gleichung

Für eine Funktion $h: Y \to \mathbb{R}$ und $\gamma \in I$ ist die Lösung der Poisson-Gleichung: $u_\gamma(y) = \sum_{\ell=0}^{\infty}(P_\gamma^\ell f(y) - \pi_\gamma(f))$

Martingal-Approximationstechnik

Zerlegung der Monte-Carlo-Summe mit der Poisson-Gleichung: $\sum_{j=1}^n (h(Y_j) - \pi_{\Gamma_{j-1}}(h)) = M_n + R_m + \text{beschränkte Terme}$

wobei:

$M_n$ : Martingal-Term
$R_m$ : Restterm, für AIR-Algorithmen stark vereinfacht

Haupttheoretische Ergebnisse

Theorem 3.5 (Fall $\beta \geq 1$ )

Unter der Annahme beschränkter Exzentrizität gilt für jedes $\varepsilon > 0$ : $\lim_{n \to \infty} \frac{1}{\sqrt{n}(\log n)^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{f.s.}$

Theorem 3.6 (Fall $\beta \in (0,1)$ )

Für $\varepsilon > \frac{1}{1+\beta} - \frac{1}{2}$ gilt: $\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{f.s.}$

Theorem 3.11 (Lyapunov-Bedingung)

Unter der Annahme der Existenz einer Lyapunov-Funktion gilt für $\varepsilon > \max\{0, \frac{1}{1+\beta} + \frac{1}{p} - \frac{1}{2}\}$ : $\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{f.s.}$

Anwendungsbeispiele

1. Gleichmäßige Ergodizität

Verwendung der trivialen Metrik $d(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}$ , wobei $W$ der Totalvariationsdistanz entspricht.

Korollar 4.5: Für beschränkte Funktionen $f$ unter $\beta \geq 1$ und $\varepsilon > 0$ gilt: $\left|\frac{1}{n}\sum_{j=1}^n (f(X_j(\omega)) - \nu(f))\right| \leq \frac{(\log n)^{1/2+\varepsilon}}{\sqrt{n}} C(\omega)$

2. Geometrische Ergodizität

Betrachtung der Drift-Small-Set-Bedingung (Assumption 4.7) mit gewichteter Metrik: $d_q(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}(V^q(y_1) + V^q(y_2))$

3. Schwache Harris-Ergodizität

Verwendung einer Distanzfunktion: $\tilde{d}_q(y_1, y_2) = \sqrt{d(y_1, y_2)(1 + V^q(y_1) + V^q(y_2))}$

Technische Innovationen

1. Vereinfachte Restterm-Kontrolle

Der Schlüsselvorteil des AIR-Algorithmus ist, dass sich die meisten schwierigen Terme im Restterm $R_m$ aufheben, so dass: $|R_m| \leq n^{1/(1+\beta)} \cdot \text{Konstante}$

2. Keine abnehmende Anpassung erforderlich

Im Gegensatz zu traditionellen Methoden ist die Annahme $\|\Gamma_n - \Gamma_{n-1}\| \to 0$ nicht erforderlich.

3. Behandlung des erweiterten Zustandsraums

Durch die Einstellung $Y = X \times \Phi$ wird eine einheitliche Behandlung komplexer Fälle wie multimodaler Verteilungen ermöglicht.

Experimentelle Validierung

Das Papier ist hauptsächlich eine theoretische Analyse, validiert die Ergebnisse jedoch durch:

1. Konkrete Algorithmusbeispiele

Adaptiver Random-Walk-Metropolis-Algorithmus
Adaptiver Stereographischer MCMC-Algorithmus
Preconditioned Crank-Nicolson (pCN)-Algorithmus

Der AIR MCMC-Algorithmus zeigt unter Wasserstein-Kontraktionsannahmen gute fast sichere Konvergenzeigenschaften
Die Konvergenzrate nähert sich dem theoretischen Optimum mit der Form $\sqrt{n}(\log n)^{1/2+\varepsilon}$
Technische Annahmen sind im Vergleich zu traditionellen Methoden erheblich vereinfacht

Einschränkungen

Gleichmäßigkeitsanforderungen: Assumption 3.1 erfordert, dass alle Schranken bezüglich $\gamma$ gleichmäßig sind, was ziemlich restriktiv ist
Kleines $\beta$ -Regime: Wenn $\beta \in (0,1)$ , verschlechtert sich die Konvergenzrate und erfordert zusätzliche Annahmen zur Verbesserung
Rein adaptive Algorithmen: Der Fall reiner Anpassung mit $\beta = 0$ erfordert weitere Untersuchungen

Zukünftige Richtungen

Abschwächung von Gleichmäßigkeitsannahmen: Unter dem Rahmen stochastischer Approximationsalgorithmen könnte Assumption 3.1 möglicherweise gelockert werden
Erweiterung auf reine Anpassung: Verwendung von Techniken aus SV10 zur Behandlung des Falls $\beta = 0$
Verbesserung des kleinen $\beta$ -Regimes: Entwicklung von Techniken zur Behandlung von $\beta \in (0,1)$ ohne zusätzliche Annahmen

Tiefgreifende Bewertung

Stärken

Theoretische Tiefe: Etablierung einer vollständigen Theorie für AIR MCMC im Wasserstein-Kontraktionsrahmen
Technische Innovation: Geschickte Nutzung der AIR-Struktur zur Vereinfachung der Restterm-Kontrolle in der Martingal-Approximation
Breite Anwendbarkeit: Abdeckung verschiedener Einstellungen wie gleichmäßige, geometrische und schwache Harris-Ergodizität
Praktischer Wert: Bereitstellung von Pfadkonvergenzschranken mit praktischer Bedeutung für einzelne Simulationen

Schwächen

Restriktive Annahmen: Gleichmäßigkeitsannahmen könnten in praktischen Anwendungen schwer zu verifizieren sein
Behandlung des kleinen $\beta$ : Erfordert zusätzliche Lipschitz- und Decay-Anpassungsbedingungen
Begrenzte numerische Validierung: Hauptsächlich theoretische Analyse mit unzureichenden numerischen Experimenten

Auswirkungen

Theoretischer Beitrag: Bereitstellung einer soliden theoretischen Grundlage für AIR MCMC
Methodologischer Wert: Die Wasserstein-Kontraktionsmethode könnte die Analyse anderer Algorithmen inspirieren
Praktische Aussichten: Pfadkonvergenzschranken sind für MCMC-Diagnose und Stoppkriterien von Bedeutung

Anwendungsszenarien

Hochdimensionale statistische Inferenz: Anwendbar auf Sampling komplexer posteriorer Verteilungen
Multimodale Verteilungen: Behandlung multimodaler Probleme durch Erweiterung des Zustandsraums
Begrenzte Rechenressourcen: Der AIR-Algorithmus reduziert die Anpassungshäufigkeit und spart Rechenkosten

Literaturverzeichnis

Das Papier enthält 34 wichtige Referenzen, die die Hauptentwicklungen der Theorie adaptiver MCMC abdecken, insbesondere:

CLR18: Ursprüngliche Einführung des AIR-Algorithmus
AM06, SV10: Klassische Theorie adaptiver MCMC
HMS11: Theoretische Grundlagen der Wasserstein-Kontraktionsmethode
PHL20: Methoden des erweiterten Zustandsraums