2025-11-16T12:28:12.323029

Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo

Hofstadler, Latuszynski, Roberts et al.
We consider adaptive increasingly rare Markov chain Monte Carlo (MCMC) algorithms, which are adaptive MCMC methods, where the adaptation concerning the "past'' happens less and less frequently over time. Under a contraction assumption with respect to a Wasserstein-like function we deduce upper bounds of the convergence rate of Monte Carlo sums taking a renormalisation factor into account that is "almost'' the one that appears in a law of the iterated logarithm. We demonstrate the applicability of our results by considering different settings, among which are those of simultaneous geometric and uniform ergodicity. All proofs are carried out on an augmented state space, including the classical non-augmented setting as a special case. In contrast to other adaptive MCMC limit theory, some technical assumptions, like diminishing adaptation, are not needed.
academic

Почти достоверные скорости сходимости адаптивного всё более редкого Марковского цепного метода Монте-Карло

Основная информация

  • ID статьи: 2402.12122
  • Название: Almost sure convergence rates of adaptive increasingly rare Markov chain Monte Carlo
  • Авторы: Julian Hofstadler (University of Bath), Krzysztof Latuszyński (University of Warwick), Gareth O. Roberts (University of Warwick), Daniel Rudolf (University of Passau)
  • Классификация: math.NA cs.NA math.PR math.ST stat.TH
  • Дата публикации: 14 октября 2025 г. (версия arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2402.12122

Аннотация

В данной работе исследуется алгоритм адаптивного всё более редкого Марковского цепного метода Монте-Карло (AIR MCMC), представляющий собой класс адаптивных методов MCMC, в которых адаптация к «прошлому» становится всё более редкой с течением времени. При предположениях о сжатии относительно функций типа Вассерштейна авторы выводят верхние границы скорости сходимости для сумм Монте-Карло, которые учитывают нормирующие множители, «почти» появляющиеся в законе повторного логарифма. Статья демонстрирует применимость результатов, рассматривая различные условия, такие как одновременная геометрическая эргодичность и равномерная эргодичность. Все доказательства проводятся в расширенном пространстве состояний, включая классическую неасширенную постановку как частный случай. По сравнению с другими предельными теориями адаптивного MCMC не требуются некоторые технические предположения, такие как убывающая адаптация.

Исследовательский контекст и мотивация

Определение проблемы

В вычислительной статистике повсеместной задачей является аппроксимация математических ожиданий: ν(f)=Xf(x)ν(dx)\nu(f) = \int_X f(x)\nu(dx) где ν\nu — целевое распределение, f:XRf: X \to \mathbb{R} — интегрируемая функция интереса.

Исследовательская мотивация

  1. Сложность прямого семплирования: Когда прямое семплирование из ν\nu невозможно или вычислительно неосуществимо (например, плотность содержит неизвестную нормирующую константу), требуются альтернативные методы.
  2. Вызовы адаптивного MCMC: Традиционные методы адаптивного MCMC обновляют механизм переходов одного шага, рассматривая всю историю, что приводит к немарковским процессам и усложняет математический анализ.
  3. Необходимость упрощения технических предположений: Существующая теория адаптивного MCMC обычно требует технических условий (таких как убывающая адаптация), ограничивающих применимость методов.

Ограничения существующих подходов

  • Немарковская природа адаптивного MCMC приводит к сложным техникам доказательства
  • Требуются строгие технические условия для гарантии сходимости
  • Отсутствуют результаты о сходимости нормированных сумм Монте-Карло

Основные вклады

  1. Предложение теоретической базы AIR MCMC: Установлена теория почти достоверных скоростей сходимости для алгоритмов AIR при предположениях о сжатии Вассерштейна.
  2. Улучшенные скорости сходимости: Получены скорости сходимости вида r(n)=n(logn)1/2+εr(n) = \sqrt{n}(\log n)^{1/2+\varepsilon} или r(n)=n1/2+εr(n) = n^{1/2+\varepsilon}, близкие к оптимальным скоростям закона повторного логарифма.
  3. Упрощение технических предположений: Не требуется убывающая адаптация и другие традиционные технические предположения, расширяя область применения метода.
  4. Анализ в расширенном пространстве состояний: Анализ проводится в расширенном пространстве состояний Y=X×ΦY = X \times \Phi, включая классическую неасширенную постановку как частный случай.
  5. Широкая применимость: Результаты применимы к различным условиям, включая одновременную геометрическую эргодичность и равномерную эргодичность.

Подробное описание методов

Определение алгоритма AIR MCMC

Для параметра β>0\beta > 0 установим kj=jβk_j = \lceil j^\beta \rceil и проводим адаптацию только в определённые моменты времени: Tm=j=1mkjT_m = \sum_{j=1}^m k_j

Ключевое наблюдение: для любого β>0\beta > 0 существуют константы cβ,Cβc_\beta, C_\beta такие, что: cβm1+βTmCβm1+βc_\beta m^{1+\beta} \leq T_m \leq C_\beta m^{1+\beta}

Это означает, что частота адаптации убывает.

Основная техническая база

1. Функции типа Вассерштейна

Для функции расстояния d:Y×YR+d: Y \times Y \to \mathbb{R}_+ определим: W(μ1,μ2):=infξC(μ1,μ2)Y2d(x,y)ξ(dx,dy)W(\mu_1, \mu_2) := \inf_{\xi \in C(\mu_1,\mu_2)} \int_{Y^2} d(x,y)\xi(dx,dy)

2. Главные предположения (Assumption 3.1)

Для каждого γI\gamma \in I предположим:

  • πγ\pi_\gamma — инвариантное распределение для PγP_\gamma
  • τ(Pγ)M\tau(P_\gamma) \leq M и τ(Pγk0)τ\tau(P_\gamma^{k_0}) \leq \tau

где M[1,)M \in [1,\infty), τ[0,1)\tau \in [0,1), k0Nk_0 \in \mathbb{N} независимы от γ\gamma.

3. Решение уравнения Пуассона

Для функции h:YRh: Y \to \mathbb{R} и γI\gamma \in I решение уравнения Пуассона имеет вид: uγ(y)==0(Pγf(y)πγ(f))u_\gamma(y) = \sum_{\ell=0}^{\infty}(P_\gamma^\ell f(y) - \pi_\gamma(f))

Техника мартингальной аппроксимации

Используя разложение уравнения Пуассона, разложим сумму Монте-Карло: j=1n(h(Yj)πΓj1(h))=Mn+Rm+ограниченные члены\sum_{j=1}^n (h(Y_j) - \pi_{\Gamma_{j-1}}(h)) = M_n + R_m + \text{ограниченные члены}

где:

  • MnM_n — мартингальный член
  • RmR_m — остаточный член, значительно упрощённый для алгоритма AIR

Основные теоретические результаты

Теорема 3.5 (случай β1\beta \geq 1)

При предположении об ограниченной эксцентричности для любого ε>0\varepsilon > 0: limn1n(logn)1/2+εj=1n(f(Xj)ν(f))=0п.н.\lim_{n \to \infty} \frac{1}{\sqrt{n}(\log n)^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{п.н.}

Теорема 3.6 (случай β(0,1)\beta \in (0,1))

Для ε>11+β12\varepsilon > \frac{1}{1+\beta} - \frac{1}{2}: limn1n1/2+εj=1n(f(Xj)ν(f))=0п.н.\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{п.н.}

Теорема 3.11 (условие Ляпунова)

При предположении о существовании функции Ляпунова для ε>max{0,11+β+1p12}\varepsilon > \max\{0, \frac{1}{1+\beta} + \frac{1}{p} - \frac{1}{2}\}: limn1n1/2+εj=1n(f(Xj)ν(f))=0п.н.\lim_{n \to \infty} \frac{1}{n^{1/2+\varepsilon}} \sum_{j=1}^n (f(X_j) - \nu(f)) = 0 \quad \text{п.н.}

Примеры применения

1. Условие равномерной эргодичности

Используя тривиальную метрику d(y1,y2)=1{y1y2}d(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}, где WW соответствует полной вариации расстояния.

Следствие 4.5: Для ограниченной функции ff при β1\beta \geq 1 и ε>0\varepsilon > 0: 1nj=1n(f(Xj(ω))ν(f))(logn)1/2+εnC(ω)\left|\frac{1}{n}\sum_{j=1}^n (f(X_j(\omega)) - \nu(f))\right| \leq \frac{(\log n)^{1/2+\varepsilon}}{\sqrt{n}} C(\omega)

2. Условие геометрической эргодичности

Рассмотрим условие дрейфа-малого множества (Assumption 4.7), используя взвешенную метрику: dq(y1,y2)=1{y1y2}(Vq(y1)+Vq(y2))d_q(y_1, y_2) = \mathbf{1}_{\{y_1 \neq y_2\}}(V^q(y_1) + V^q(y_2))

3. Слабая эргодичность Харриса

Используя функцию расстояния: d~q(y1,y2)=d(y1,y2)(1+Vq(y1)+Vq(y2))\tilde{d}_q(y_1, y_2) = \sqrt{d(y_1, y_2)(1 + V^q(y_1) + V^q(y_2))}

Технические инновации

1. Упрощённый контроль остаточного члена

Ключевое преимущество алгоритма AIR состоит в том, что большинство сложных членов в остаточном члене RmR_m взаимно сокращаются, обеспечивая: Rmn1/(1+β)константа|R_m| \leq n^{1/(1+\beta)} \cdot \text{константа}

2. Отсутствие необходимости в убывающей адаптации

В отличие от традиционных методов, не требуется предположение ΓnΓn10\|\Gamma_n - \Gamma_{n-1}\| \to 0.

3. Обработка расширенного пространства состояний

Через установку Y=X×ΦY = X \times \Phi унифицированно обрабатываются сложные случаи, такие как многомодальные распределения.

Экспериментальная проверка

Статья в основном представляет теоретический анализ, проверяя результаты следующим образом:

1. Конкретные примеры алгоритмов

  • Адаптивный алгоритм случайного блуждания Метрополиса
  • Адаптивный алгоритм сферического проектирования MCMC
  • Предобусловленный алгоритм Крэнка-Николсона (pCN)

2. Численные ссылки для сравнения

Ссылка на численные эксперименты из CLR18, демонстрирующие, что алгоритм AIR при β[1,2]\beta \in [1,2] показывает производительность, сравнимую с чистыми адаптивными методами.

Связанные работы

Классическая теория адаптивного MCMC

  • Законы больших чисел: HST01, AR05, AM06, RR07, SV10, FMP11, PHL20
  • Центральные предельные теоремы: AM06, SV10
  • Сходимость к правильной целевой мере: RR07, FMP11

Результаты количественной эргодичности

  • AA07, AW15: показывают P(Xn)νtvC/n\|P(X_n \in \cdot) - \nu\|_{tv} \leq C/n
  • AW15, CLR18: границы среднеквадратичной ошибки, показывающие сходимость порядка 1/n1/n

Уникальность вклада данной работы

  1. Границы сходимости по траекториям: В отличие от существующих границ ожидаемой ошибки, предоставляют почти достоверную сходимость по траекториям
  2. Условие сжатия Вассерштейна: Расширяют традиционную базу равномерной/геометрической эргодичности
  3. Близкие к оптимальным скорости: Скорости сходимости близки к теоретически оптимальным значениям закона повторного логарифма

Заключение и обсуждение

Основные выводы

  1. Алгоритм AIR MCMC обладает хорошими свойствами почти достоверной сходимости при условиях сжатия Вассерштейна
  2. Скорости сходимости близки к теоретически оптимальным, имеют вид n(logn)1/2+ε\sqrt{n}(\log n)^{1/2+\varepsilon}
  3. Технические предположения значительно упрощены по сравнению с традиционными методами

Ограничения

  1. Требование равномерности: Assumption 3.1 требует, чтобы все границы были равномерны относительно γ\gamma, что является довольно ограничивающим
  2. Режим малых β\beta: При β(0,1)\beta \in (0,1) скорость сходимости ухудшается, требуя дополнительных предположений для улучшения
  3. Чистая адаптация: Случай чистой адаптации β=0\beta = 0 требует дальнейшего исследования

Направления будущих исследований

  1. Ослабление условий равномерности: В рамках методов стохастической аппроксимации можно ослабить Assumption 3.1
  2. Расширение на чистую адаптацию: Использование техник из SV10 для обработки случая β=0\beta = 0
  3. Улучшение режима малых β\beta: Разработка методов для обработки β(0,1)\beta \in (0,1) без дополнительных предположений

Глубокая оценка

Преимущества

  1. Теоретическая глубина: Установлена полная теория AIR MCMC в рамках условия сжатия Вассерштейна
  2. Технические инновации: Умелое использование структуры AIR для упрощения контроля остаточного члена в мартингальной аппроксимации
  3. Широкая применимость: Охватывает условия равномерной, геометрической и слабой эргодичности Харриса
  4. Практическая ценность: Границы сходимости по траекториям имеют практическое значение для отдельных симуляций

Недостатки

  1. Ограничивающие предположения: Условие равномерности может быть сложно проверить в практических приложениях
  2. Обработка малых β\beta: Требуются дополнительные условия Липшица и убывающей адаптации
  3. Ограниченная численная проверка: В основном теоретический анализ, недостаточно численных экспериментов

Влияние

  1. Теоретический вклад: Обеспечивает прочную теоретическую базу для AIR MCMC
  2. Методологическая ценность: Метод сжатия Вассерштейна может вдохновить анализ других алгоритмов
  3. Практические перспективы: Границы сходимости по траекториям имеют важное значение для диагностики MCMC и критериев остановки

Сценарии применения

  1. Высокомерный статистический вывод: Применимо к семплированию из сложных апостериорных распределений
  2. Многомодальные распределения: Обработка многомодальных задач через расширенное пространство состояний
  3. Ограниченные вычислительные ресурсы: Алгоритм AIR снижает частоту адаптации, экономя вычислительные ресурсы

Библиография

Статья содержит 34 важные ссылки, охватывающие основные разработки в теории адаптивного MCMC, в частности:

  • CLR18: Первоначальное предложение алгоритма AIR
  • AM06, SV10: Классическая теория адаптивного MCMC
  • HMS11: Теоретическая база методов сжатия Вассерштейна
  • PHL20: Методы расширенного пространства состояний