2025-11-16T12:28:12.323029

Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo

Hofstadler, Latuszynski, Roberts et al.
We consider adaptive increasingly rare Markov chain Monte Carlo (MCMC) algorithms, which are adaptive MCMC methods, where the adaptation concerning the "past'' happens less and less frequently over time. Under a contraction assumption with respect to a Wasserstein-like function we deduce upper bounds of the convergence rate of Monte Carlo sums taking a renormalisation factor into account that is "almost'' the one that appears in a law of the iterated logarithm. We demonstrate the applicability of our results by considering different settings, among which are those of simultaneous geometric and uniform ergodicity. All proofs are carried out on an augmented state space, including the classical non-augmented setting as a special case. In contrast to other adaptive MCMC limit theory, some technical assumptions, like diminishing adaptation, are not needed.
academic

Vitesses de convergence presque sûre de la chaîne de Markov Monte Carlo adaptative de plus en plus rare

Informations de base

  • ID de l'article: 2402.12122
  • Titre: Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo
  • Auteurs: Julian Hofstadler (University of Bath), Krzysztof Latuszyński (University of Warwick), Gareth O. Roberts (University of Warwick), Daniel Rudolf (University of Passau)
  • Classification: math.NA cs.NA math.PR math.ST stat.TH
  • Date de publication: 14 octobre 2025 (version arXiv)
  • Lien de l'article: https://arxiv.org/abs/2402.12122

Résumé

Cet article étudie l'algorithme de chaîne de Markov Monte Carlo adaptative de plus en plus rare (AIR MCMC), une classe de méthodes MCMC adaptatives où les adaptations au « passé » deviennent progressivement plus rares au fil du temps. Sous des hypothèses de contraction concernant des fonctions de type Wasserstein, les auteurs déduisent des bornes de vitesse de convergence pour les sommes Monte Carlo, lesquelles tiennent compte de facteurs de renormalisation apparaissant « presque » dans la loi du logarithme itéré. L'article démontre l'applicabilité des résultats en considérant différents cadres, notamment l'ergodicité géométrique et l'ergodicité uniforme simultanées. Toutes les preuves sont menées sur l'espace d'état augmenté, incluant le cadre classique non augmenté comme cas particulier. Comparativement à d'autres théories limites MCMC adaptatives, certaines hypothèses techniques, telles que l'adaptation décroissante, ne sont pas requises.

Contexte et motivation de la recherche

Définition du problème

En statistique computationnelle, un défi omniprésent consiste à approximer les espérances: ν(f)=Xf(x)ν(dx)\nu(f) = \int_X f(x)\nu(dx)ν\nu est la distribution cible et f:XRf: X \to \mathbb{R} est une fonction intégrable d'intérêt.

Motivation de la recherche

  1. Difficultés d'échantillonnage direct: Lorsque l'échantillonnage direct de ν\nu est impossible ou numériquement infaisable (par exemple, lorsque la densité contient une constante de normalisation inconnue), des méthodes alternatives sont nécessaires.
  2. Défis des MCMC adaptatifs: Les méthodes MCMC adaptatives traditionnelles mettent à jour le mécanisme de transition d'une étape en considérant l'historique complet, ce qui produit un processus non-Markovien et complique l'analyse mathématique.
  3. Besoin de simplification des hypothèses techniques: La théorie MCMC adaptative existante nécessite généralement des hypothèses techniques (telles que l'adaptation décroissante), limitant l'applicabilité des méthodes.

Limitations des approches existantes

  • La nature non-Markovienne des MCMC adaptatifs entraîne des techniques de preuve complexes
  • Des conditions techniques strictes sont requises pour garantir la convergence
  • Absence de résultats concernant la convergence des sommes Monte Carlo renormalisées

Contributions principales

  1. Cadre théorique AIR MCMC proposé: Établissement d'une théorie de vitesse de convergence presque sûre pour les algorithmes AIR sous des hypothèses de contraction Wasserstein.
  2. Vitesses de convergence améliorées: Obtention de vitesses de convergence de la forme r(n)=n(logn)1/2+εr(n) = \sqrt{n}(\log n)^{1/2+\varepsilon} ou r(n)=n1/2+εr(n) = n^{1/2+\varepsilon}, approchant les vitesses optimales de la loi du logarithme itéré.
  3. Simplification des hypothèses techniques: Pas besoin d'adaptation décroissante ou d'autres hypothèses techniques traditionnelles, élargissant le champ d'application des méthodes.
  4. Analyse sur l'espace d'état augmenté: Analyse menée sur Y=X×ΦY = X \times \Phi, englobant le cadre classique non augmenté comme cas particulier.
  5. Applicabilité générale: Les résultats s'appliquent à plusieurs cadres, notamment l'ergodicité géométrique et l'ergodicité uniforme.

Détails de la méthodologie

Définition de l'algorithme AIR MCMC

Étant donné un paramètre β>0\beta > 0, on définit kj=jβk_j = \lceil j^\beta \rceil et on effectue l'adaptation uniquement à des instants spécifiques: Tm=j=1mkjT_m = \sum_{j=1}^m k_j

Observation clé: Pour tout β>0\beta > 0, il existe des constantes cβ,Cβc_\beta, C_\beta telles que: cβm1+βTmCβm1+βc_\beta m^{1+\beta} \leq T_m \leq C_\beta m^{1+\beta}

Cela signifie que la fréquence d'adaptation décroît.

Cadre technique principal

1. Fonctions de type Wasserstein

Pour une fonction de distance d:Y×YR+d: Y \times Y \to \mathbb{R}_+, on définit: W(μ1,μ2):=infξC(μ1,μ2)Y2d(x,y)ξ(dx,dy)W(\mu_1, \mu_2) := \inf_{\xi \in C(\mu_1,\mu_2)} \int_{Y^2} d(x,y)\xi(dx,dy)

2. Hypothèse principale (Hypothèse 3.1)

Pour chaque γI\gamma \in I, on suppose:

  • πγ\pi_\gamma est la distribution invariante de PγP_\gamma
  • τ(Pγ)M\tau(P_\gamma) \leq M et τ(Pγk0)τ\tau(P_\gamma^{k_0}) \leq \tauM[1,)M \in [1,\infty), τ[0,1)\tau \in [0,1), k0Nk_0 \in \mathbb{N} sont indépendants de γ\gamma.

3. Résolution de l'équation de Poisson

Pour une fonction h:YRh: Y \to \mathbb{R} et γI\gamma \in I, la solution de l'équation de Poisson est: uγ(y)==0(Pγf(y)πγ(f))u_\gamma(y) = \sum_{\ell=0}^{\infty}(P_\gamma^\ell f(y) - \pi_\gamma(f))

Technique d'approximation par martingale

Utilisant la décomposition par équation de Poisson pour les sommes Monte Carlo: j=1n(h(Yj)πΓj1(h))=Mn+Rm+termes borneˊs\sum_{j=1}^n (h(Y_j) - \pi_{\Gamma_{j-1}}(h)) = M_n + R_m + \text{termes bornés}

où:

  • MnM_n: terme de martingale
  • RmR_m: terme résiduel, considérablement simplifié pour l'algorithme AIR

Résultats théoriques principaux

Théorème 3.5 (cas β1\beta \geq 1)

Sous l'hypothèse d'excentricité bornée, pour tout ε>0\varepsilon > 0: limn1n(logn)1/2+εj=1n(f(Xj)ν(f))=0p.s.\lim_{n \to \infty} \frac{1}{\sqrt{n}(\log n)^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{p.s.}

Théorème 3.6 (cas β(0,1)\beta \in (0,1))

Pour ε>11+β12\varepsilon > \frac{1}{1+\beta} - \frac{1}{2}: limn1n1/2+εj=1n(f(Xj)ν(f))=0p.s.\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{p.s.}

Théorème 3.11 (condition de Lyapunov)

Sous l'hypothèse d'existence d'une fonction de Lyapunov, pour ε>max{0,11+β+1p12}\varepsilon > \max\{0, \frac{1}{1+\beta} + \frac{1}{p} - \frac{1}{2}\}: limn1n1/2+εj=1n(f(Xj)ν(f))=0p.s.\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{p.s.}

Exemples d'application

1. Cadre d'ergodicité uniforme

Utilisant la métrique triviale d(y1,y2)=1{y1y2}d(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}, où WW correspond à la distance en variation totale.

Corollaire 4.5: Pour une fonction bornée ff, sous β1\beta \geq 1 et ε>0\varepsilon > 0: 1nj=1n(f(Xj(ω))ν(f))(logn)1/2+εnC(ω)\left|\frac{1}{n}\sum_{j=1}^n (f(X_j(\omega)) - \nu(f))\right| \leq \frac{(\log n)^{1/2+\varepsilon}}{\sqrt{n}} C(\omega)

2. Cadre d'ergodicité géométrique

Considérant la condition de dérive-petit ensemble (Hypothèse 4.7), utilisant une métrique pondérée: dq(y1,y2)=1{y1y2}(Vq(y1)+Vq(y2))d_q(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}(V^q(y_1) + V^q(y_2))

3. Ergodicité faible de Harris

Utilisant une fonction de distance: d~q(y1,y2)=d(y1,y2)(1+Vq(y1)+Vq(y2))\tilde{d}_q(y_1, y_2) = \sqrt{d(y_1, y_2)(1 + V^q(y_1) + V^q(y_2))}

Points d'innovation technique

1. Contrôle simplifié du terme résiduel

L'avantage clé de l'algorithme AIR est que la plupart des termes difficiles dans le terme résiduel RmR_m s'annulent, de sorte que: Rmn1/(1+β)constante|R_m| \leq n^{1/(1+\beta)} \cdot \text{constante}

2. Pas besoin d'adaptation décroissante

Contrairement aux méthodes traditionnelles, l'hypothèse ΓnΓn10\|\Gamma_n - \Gamma_{n-1}\| \to 0 n'est pas requise.

3. Traitement de l'espace d'état augmenté

Par le biais de la configuration Y=X×ΦY = X \times \Phi, traitement unifié de cas complexes tels que les distributions multimodales.

Vérification expérimentale

L'article est principalement une analyse théorique, vérifiée par:

1. Exemples d'algorithmes concrets

  • Algorithme de Metropolis à marche aléatoire adaptative
  • Algorithme MCMC à projection stéréographique adaptative
  • Algorithme preconditioned Crank-Nicolson (pCN)

2. Références de comparaison numérique

Citation des expériences numériques de CLR18, montrant que l'algorithme AIR fonctionne de manière comparable aux méthodes purement adaptatives pour β[1,2]\beta \in [1,2].

Travaux connexes

Théorie classique des MCMC adaptatifs

  • Lois des grands nombres: HST01, AR05, AM06, RR07, SV10, FMP11, PHL20
  • Théorèmes limites centraux: AM06, SV10
  • Convergence vers la mesure cible correcte: RR07, FMP11

Résultats d'ergodicité quantitative

  • AA07, AW15: Montrant P(Xn)νtvC/n\|P(X_n \in \cdot) - \nu\|_{tv} \leq C/n
  • AW15, CLR18: Bornes d'erreur quadratique moyenne, montrant une convergence d'ordre 1/n1/n

Unicité de la contribution de cet article

  1. Bornes de convergence en trajectoire: Contrairement aux bornes d'erreur en espérance existantes, fournissant une convergence presque sûre en trajectoire
  2. Cadre de contraction Wasserstein: Extension du cadre traditionnel d'ergodicité uniforme/géométrique
  3. Vitesse proche de l'optimum: Vitesse de convergence approchant la valeur théoriquement optimale de la loi du logarithme itéré

Conclusions et discussion

Conclusions principales

  1. L'algorithme AIR MCMC possède de bonnes propriétés de convergence presque sûre sous des hypothèses de contraction Wasserstein
  2. La vitesse de convergence approche l'optimum théorique, de la forme n(logn)1/2+ε\sqrt{n}(\log n)^{1/2+\varepsilon}
  3. Les hypothèses techniques sont considérablement simplifiées par rapport aux méthodes traditionnelles

Limitations

  1. Exigence d'uniformité: L'Hypothèse 3.1 exige que toutes les bornes soient uniformes en γ\gamma, ce qui est assez restrictif
  2. Régime petit β\beta: Lorsque β(0,1)\beta \in (0,1), la vitesse de convergence se détériore, nécessitant des hypothèses supplémentaires pour l'amélioration
  3. Algorithmes purement adaptatifs: Le cas purement adaptatif β=0\beta = 0 nécessite une étude plus approfondie

Directions futures

  1. Affaiblissement des hypothèses d'uniformité: Relâchement possible de l'Hypothèse 3.1 dans le cadre des algorithmes d'approximation stochastique
  2. Extension à l'adaptation pure: Utilisation des techniques de SV10 pour traiter le cas β=0\beta = 0
  3. Amélioration du régime petit β\beta: Développement de techniques traitant β(0,1)\beta \in (0,1) sans hypothèses supplémentaires

Évaluation approfondie

Points forts

  1. Profondeur théorique: Établissement d'une théorie complète d'AIR MCMC dans le cadre de contraction Wasserstein
  2. Innovation technique: Utilisation astucieuse de la structure AIR pour simplifier le contrôle du terme résiduel dans l'approximation par martingale
  3. Applicabilité générale: Couverture de plusieurs cadres incluant l'ergodicité uniforme, géométrique et faible de Harris
  4. Valeur pratique: Fourniture de bornes de convergence en trajectoire, ayant une signification pratique pour les simulations individuelles

Insuffisances

  1. Restrictivité des hypothèses: L'hypothèse d'uniformité peut être difficile à vérifier dans les applications pratiques
  2. Traitement du régime petit β\beta: Nécessité de conditions supplémentaires de Lipschitz et d'adaptation décroissante
  3. Vérification numérique limitée: Principalement une analyse théorique, manquant d'expériences numériques suffisantes

Impact potentiel

  1. Contribution théorique: Fourniture d'une base théorique solide pour AIR MCMC
  2. Valeur méthodologique: La méthode de contraction Wasserstein peut inspirer l'analyse d'autres algorithmes
  3. Perspectives pratiques: Les bornes de convergence en trajectoire ont une importance significative pour le diagnostic MCMC et les critères d'arrêt

Scénarios d'application

  1. Inférence statistique haute-dimensionnelle: Applicable à l'échantillonnage de distributions a posteriori complexes
  2. Distributions multimodales: Traitement des problèmes multimodaux par l'espace d'état augmenté
  3. Ressources computationnelles limitées: L'algorithme AIR réduit la fréquence d'adaptation, économisant les coûts computationnels

Références bibliographiques

L'article contient 34 références importantes couvrant le développement majeur de la théorie MCMC adaptative, notamment:

  • CLR18: Proposition originale de l'algorithme AIR
  • AM06, SV10: Théorie classique des MCMC adaptatifs
  • HMS11: Fondements théoriques de la méthode de contraction Wasserstein
  • PHL20: Méthode de l'espace d'état augmenté