2025-11-14T09:04:13.401384

Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods

Yang, Xiong, He
There is a growing interest in studying sequential neural posterior estimation (SNPE) techniques due to their advantages for simulation-based models with intractable likelihoods. The methods aim to learn the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As an SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs well and scales to high-dimensional data. However, the APT method requires computing the expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic proposals were used to render an analytical normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we reformulate APT as a nested estimation problem. Building on this, we construct several multilevel Monte Carlo (MLMC) estimators for the loss function and its gradients to accommodate different scenarios, including two unbiased estimators, and a biased estimator that trades a small bias for reduced variance and controlled runtime and memory usage. We also provide convergence results of stochastic gradient descent to quantify the interaction of the bias and variance of the gradient estimator. Numerical experiments for approximating complex posteriors with multimodality in moderate dimensions are provided to examine the effectiveness of the proposed methods.
academic

Использование вложенного MLMC для последовательной нейронной апостериорной оценки с неразрешимыми правдоподобиями

Основная информация

  • ID статьи: 2401.16776
  • Название: Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
  • Авторы: Xiliang Yang (Южнокитайский технологический университет), Yifei Xiong (Университет Пердью), Zhijian He (Южнокитайский технологический университет, автор для корреспонденции)
  • Классификация: stat.CO cs.LG stat.ML
  • Дата публикации: январь 2024, препринт arXiv
  • Ссылка на статью: https://arxiv.org/abs/2401.16776

Аннотация

В данной работе исследуется применение методов последовательной нейронной апостериорной оценки (SNPE) для обработки моделей моделирования с неразрешимыми функциями правдоподобия. Для решения проблемы вложенного математического ожидания, возникающей при вычислении логарифма математического ожидания нормализующей константы в методе автоматического апостериорного преобразования (APT), авторы переформулируют APT как задачу вложенной оценки и конструируют несколько многоуровневых оценок Монте-Карло (MLMC), включая два несмещенных и один смещенный оценатель. Смещенный оценатель обменивает небольшое смещение на уменьшение дисперсии и контроль времени выполнения и использования памяти. Работа также содержит результаты сходимости для стохастического градиентного спуска, количественно определяющие взаимодействие между смещением и дисперсией оценки градиента.

Исследовательский контекст и мотивация

Постановка проблемы

  1. Вызовы моделирования: В нейронауке, физике, биологии и других областях широко используются модели моделирования, но традиционный байесовский вывод сталкивается с трудностями вычисления функции правдоподобия и дорогостоящих симуляторов.
  2. Потребность в методах SNPE: Методы последовательной нейронной апостериорной оценки избегают прямого вычисления функции правдоподобия, используя оценители условной плотности на основе нейронных сетей, обученные на адаптивно предложенных симуляциях.
  3. Ограничения метода APT: Хотя метод автоматического апостериорного преобразования (APT), предложенный Greenberg и др., показывает хорошие результаты и масштабируется на высокомерные данные, он требует вычисления логарифма математического ожидания неразрешимой нормализующей константы, создавая проблему вложенного ожидания.

Недостатки существующих методов

  • Ограничения атомарных предложений: Хотя использование атомарных предложений позволяет получить аналитическую нормализующую константу, это затрудняет анализ сходимости
  • Отсутствие теоретического анализа: Существующие методы не объясняют низкую производительность APT в некоторых задачах
  • Проблемы вычислительной сложности: Одноуровневый вложенный оценатель имеет вычислительную сложность O(ε^-3), что неэффективно

Основные вклады

  1. Переформулировка задачи APT: Переформулирование метода APT как задачи вложенной оценки, обеспечивающее основу для строгого анализа сходимости
  2. Конструирование оценателей MLMC: Разработка трех оценателей MLMC:
    • RU-MLMC: случайный несмещенный многоуровневый метод Монте-Карло
    • GRR-MLMC: метод обобщенной русской рулетки
    • TGRR-MLMC: метод усеченной обобщенной русской рулетки
  3. Теоретический анализ: Предоставление теоретических верхних границ для смещения, дисперсии и среднего стоимости, доказывающих, что методы MLMC достигают оптимальной сложности O(ε^-2)
  4. Гарантии сходимости: Установление теорем сходимости для стохастического градиентного спуска, количественно определяющих влияние смещения и дисперсии на оптимизацию
  5. Экспериментальная проверка: Проверка эффективности метода на нескольких эталонных задачах

Подробное описание методов

Определение задачи

Учитывая априорное распределение p(θ) и наблюдаемые данные x_o, целью является аппроксимация апостериорного распределения p(θ|x_o) ∝ p(θ)p(x_o|θ), где функция правдоподобия p(x|θ) трудно вычислить напрямую, но можно получить путем моделирования.

Переформулировка вложенного APT

Переформулировка функции потерь

Переписывание функции потерь APT как:

L(φ) = -E_p̃(θ,x)[log g_φ(x,θ)] + E_p̃(x)[log E_p̃(θ')[g_φ(x,θ')]]

где g_φ(x,θ) = q_F(x,φ)(θ)/p(θ) — вес важности.

Выражение градиента

Градиент выражается как:

∇_φL(φ) = -E_p̃(θ,x)[∇_φ log g_φ(x,θ)] + E_p̃(x)[∇_φ log E_p̃(θ')[g_φ(x,θ')]]

Проектирование оценателей MLMC

1. RU-MLMC (случайный несмещенный MLMC)

Использование геометрического распределения Ge(p) для случайного выбора уровня L, запрос:

V_RU = ω_L^{-1}Δρ_{φ,L}

2. GRR-MLMC (обобщенная русская рулетка)

Введение базового уровня m, обеспечивающего всегда вычисление первых m уровней:

V_GRR = ρ_{φ,M_m} + Σ_{j=m+1}^L (Δρ_{φ,j}/p_j)

3. TGRR-MLMC (усеченная GRR)

Контроль вычислительных затрат и использования памяти путем усечения распределения:

V_TGRR = ρ_{φ,M_m} + Σ_{j=m+1}^L (Δρ_{φ,j}/p_j)

где значение L ограничено диапазоном m,m̄.

Конструирование обратной связи

Использование техники обратной связи для конструирования оценателя разностей:

Δρ_{φ,ℓ} = ρ_{φ,M_ℓ} - (1/2)(ρ_{φ,M_{ℓ-1}}^{(a)} + ρ_{φ,M_{ℓ-1}}^{(b)})

Теоретический анализ

Анализ сложности

Теоремы 3.1 и 3.2: При надлежащих условиях оценатели разностей удовлетворяют:

  • Скорость смещения: α = 1
  • Скорость дисперсии: r ∈ (1,2]
  • Скорость стоимости: γ = 1

Поскольку r > γ, MLMC достигает оптимальной сложности O(ε^{-2}), что является значительным улучшением по сравнению с O(ε^{-3}) одноуровневого вложенного оценателя.

Анализ сходимости

Теорема 4.2: При условиях липшицевой непрерывности и строгой выпуклости оптимальный разрыв SGD удовлетворяет:

G_T ≤ (1-γμ)^T G_0 + (1/2μ)(U_b + U_η)

где U_b и U_η — верхние границы смещения и дисперсии соответственно.

Экспериментальная установка

Наборы данных

  1. Модель Two-Moon: игрушечная модель с 2D пространством параметров и мультимодальным апостериором
  2. Модель Lotka-Volterra: модель динамики хищник-жертва с 4D пространством параметров
  3. Модель очереди M/G/1: система одноканальной очереди с 3D пространством параметров
  4. Модель нейрона Ходжкина-Хаксли: высокомерная модель нейрона с 8D пространством параметров

Метрики оценки

  • MMD (Maximum Mean Discrepancy): измерение различия между распределениями
  • C2ST (Classifier Two-Sample Test): двоичный тест классификатора
  • LMD (Logarithmic Median Distance): логарифмическое медианное расстояние
  • NLOG (Negative Log-density): отрицательная логарифмическая плотность в истинных параметрах

Детали реализации

  • Нейронные сплайновые потоки (NSF) как оценитель условной плотности, 8 слоев, 50 единиц на слой
  • Оптимизатор Adam, скорость обучения 1×10^{-4}, размер пакета 100
  • N=1000 образцов моделирования за раунд, всего R=20 раундов
  • M_0 = 8, усеченный уровень m̄ = 4, базовый уровень m = 2

Результаты экспериментов

Основные результаты

  1. Сравнение производительности: TGRR-MLMC показывает лучшие результаты на сложных задачах (например, Lotka-Volterra), с превосходством над методом SNSE по среднему значению C2ST на трех задачах
  2. Вычислительная эффективность: Хотя методы MLMC требуют в 1,2-1,5 раза больше времени вычисления, использование памяти GPU составляет только 1/12 от SNSE (5 ГБ против 60 ГБ)
  3. Руководство по выбору метода:
    • Простые задачи: RU-MLMC
    • Средняя сложность: GRR-MLMC
    • Сложные задачи: TGRR-MLMC

Абляционные исследования

  • Выбор гиперпараметра α: Определение оптимального значения α путем минимизации асимптотической неэффективности
  • Влияние усеченного уровня: Надлежащее усечение может значительно снизить дисперсию и повысить стабильность обучения

Высокомерные эксперименты

На 8-мерной модели Ходжкина-Хаксли TGRR-MLMC показывает улучшения по сравнению с атомарным APT по метрикам LMD и NLOG, подтверждая масштабируемость метода.

Связанные работы

Байесовские вычисления без правдоподобия

  • Методы ABC: приближенные байесовские вычисления
  • Синтетическое правдоподобие: методы на основе сводной статистики
  • Оценка отношений: вывод через отношение правдоподобия

Нейронная апостериорная оценка

  • NPE: базовый метод нейронной апостериорной оценки
  • SNPE: основа последовательной нейронной апостериорной оценки
  • APT: метод автоматического апостериорного преобразования

Методы MLMC

  • Вложенное моделирование: применение в байесовском экспериментальном проектировании
  • Несмещенная оценка: методы русской рулетки и случайного усечения

Выводы и обсуждение

Основные выводы

  1. Методы вложенного MLMC обеспечивают теоретически анализируемую альтернативу APT
  2. Три варианта MLMC предоставляют гибкий выбор в компромиссе между смещением, дисперсией и стоимостью
  3. Теоретический анализ показывает, что при обучении нейронных сетей дисперсия часто более важна, чем смещение

Ограничения

  1. Высокомерные вызовы: может страдать от чрезмерной дисперсии в высокомерных задачах и сложных структурах нейронных сетей
  2. Вычислительные затраты: MLMC требует больше времени вычисления, чем атомарный APT, из-за многоуровневых вычислений градиента
  3. Настройка параметров: требует тщательного выбора параметров уровня и параметров усечения

Будущие направления

  1. Квазислучайные методы Монте-Карло: использование последовательностей низкого расхождения для снижения дисперсии оценателей MLMC
  2. Ускорение алгоритмов: разработка более эффективных реализаций алгоритмов MLMC
  3. Адаптивные стратегии: автоматический выбор оптимального варианта MLMC и параметров

Глубокая оценка

Преимущества

  1. Теоретический вклад: переформулировка APT как задачи вложенной оценки, обеспечивающая строгую теоретическую основу
  2. Методологические инновации: проектирование трех оценателей MLMC, обеспечивающих оптимальный выбор в различных сценариях
  3. Комплексные эксперименты: проверка эффективности метода на нескольких эталонных задачах от простых к сложным
  4. Практическая ценность: значительное снижение требований к памяти GPU, повышение практической осуществимости

Недостатки

  1. Вычислительная сложность: хотя теоретическая сложность лучше, фактическое время выполнения остается длительным
  2. Чувствительность параметров: требует тщательной настройки нескольких гиперпараметров (α, m, m̄ и т.д.)
  3. Масштабируемость: производительность на экстремально высокомерных задачах требует дальнейшей проверки

Влияние

  1. Теоретическое влияние: предоставление новой основы теоретического анализа для методов SNPE
  2. Практическая ценность: повышение эффективности памяти делает метод более подходящим для практического применения
  3. Воспроизводимость: предоставление подробных деталей реализации и описания алгоритмов

Применимые сценарии

  • Научные вычислительные задачи с дорогостоящими симуляторами
  • Крупномасштабные задачи вывода, требующие контроля использования памяти
  • Приложения байесовского вывода, требующие теоретических гарантий

Ссылки

  • Greenberg et al. (2019): Automatic posterior transformation for likelihood-free inference
  • Giles (2015): Multilevel Monte Carlo methods
  • Rhee & Glynn (2015): Unbiased estimation with square root convergence for SDE models
  • Papamakarios & Murray (2016): Fast ε-free inference of simulation models

Резюме: Это статья с важным теоретическим и практическим значением в области байесовского вывода без правдоподобия. Путем умелой переформулировки APT как задачи вложенной оценки и введения методов MLMC авторы решают проблемы теоретического анализа и вычислительной эффективности исходного метода. Хотя остается место для улучшения времени вычисления, эффективность использования памяти и теоретические гарантии делают эту работу важным вкладом в данную область.