Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Yang, Xiong, He
There is a growing interest in studying sequential neural posterior estimation (SNPE) techniques due to their advantages for simulation-based models with intractable likelihoods. The methods aim to learn the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As an SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs well and scales to high-dimensional data. However, the APT method requires computing the expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic proposals were used to render an analytical normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we reformulate APT as a nested estimation problem. Building on this, we construct several multilevel Monte Carlo (MLMC) estimators for the loss function and its gradients to accommodate different scenarios, including two unbiased estimators, and a biased estimator that trades a small bias for reduced variance and controlled runtime and memory usage. We also provide convergence results of stochastic gradient descent to quantify the interaction of the bias and variance of the gradient estimator. Numerical experiments for approximating complex posteriors with multimodality in moderate dimensions are provided to examine the effectiveness of the proposed methods.
academic
Использование вложенного MLMC для последовательной нейронной апостериорной оценки с неразрешимыми правдоподобиями
Название: Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Авторы: Xiliang Yang (Южнокитайский технологический университет), Yifei Xiong (Университет Пердью), Zhijian He (Южнокитайский технологический университет, автор для корреспонденции)
В данной работе исследуется применение методов последовательной нейронной апостериорной оценки (SNPE) для обработки моделей моделирования с неразрешимыми функциями правдоподобия. Для решения проблемы вложенного математического ожидания, возникающей при вычислении логарифма математического ожидания нормализующей константы в методе автоматического апостериорного преобразования (APT), авторы переформулируют APT как задачу вложенной оценки и конструируют несколько многоуровневых оценок Монте-Карло (MLMC), включая два несмещенных и один смещенный оценатель. Смещенный оценатель обменивает небольшое смещение на уменьшение дисперсии и контроль времени выполнения и использования памяти. Работа также содержит результаты сходимости для стохастического градиентного спуска, количественно определяющие взаимодействие между смещением и дисперсией оценки градиента.
Вызовы моделирования: В нейронауке, физике, биологии и других областях широко используются модели моделирования, но традиционный байесовский вывод сталкивается с трудностями вычисления функции правдоподобия и дорогостоящих симуляторов.
Потребность в методах SNPE: Методы последовательной нейронной апостериорной оценки избегают прямого вычисления функции правдоподобия, используя оценители условной плотности на основе нейронных сетей, обученные на адаптивно предложенных симуляциях.
Ограничения метода APT: Хотя метод автоматического апостериорного преобразования (APT), предложенный Greenberg и др., показывает хорошие результаты и масштабируется на высокомерные данные, он требует вычисления логарифма математического ожидания неразрешимой нормализующей константы, создавая проблему вложенного ожидания.
Ограничения атомарных предложений: Хотя использование атомарных предложений позволяет получить аналитическую нормализующую константу, это затрудняет анализ сходимости
Отсутствие теоретического анализа: Существующие методы не объясняют низкую производительность APT в некоторых задачах
Проблемы вычислительной сложности: Одноуровневый вложенный оценатель имеет вычислительную сложность O(ε^-3), что неэффективно
Переформулировка задачи APT: Переформулирование метода APT как задачи вложенной оценки, обеспечивающее основу для строгого анализа сходимости
Конструирование оценателей MLMC: Разработка трех оценателей MLMC:
RU-MLMC: случайный несмещенный многоуровневый метод Монте-Карло
GRR-MLMC: метод обобщенной русской рулетки
TGRR-MLMC: метод усеченной обобщенной русской рулетки
Теоретический анализ: Предоставление теоретических верхних границ для смещения, дисперсии и среднего стоимости, доказывающих, что методы MLMC достигают оптимальной сложности O(ε^-2)
Гарантии сходимости: Установление теорем сходимости для стохастического градиентного спуска, количественно определяющих влияние смещения и дисперсии на оптимизацию
Экспериментальная проверка: Проверка эффективности метода на нескольких эталонных задачах
Учитывая априорное распределение p(θ) и наблюдаемые данные x_o, целью является аппроксимация апостериорного распределения p(θ|x_o) ∝ p(θ)p(x_o|θ), где функция правдоподобия p(x|θ) трудно вычислить напрямую, но можно получить путем моделирования.
Теоремы 3.1 и 3.2: При надлежащих условиях оценатели разностей удовлетворяют:
Скорость смещения: α = 1
Скорость дисперсии: r ∈ (1,2]
Скорость стоимости: γ = 1
Поскольку r > γ, MLMC достигает оптимальной сложности O(ε^{-2}), что является значительным улучшением по сравнению с O(ε^{-3}) одноуровневого вложенного оценателя.
Сравнение производительности: TGRR-MLMC показывает лучшие результаты на сложных задачах (например, Lotka-Volterra), с превосходством над методом SNSE по среднему значению C2ST на трех задачах
Вычислительная эффективность: Хотя методы MLMC требуют в 1,2-1,5 раза больше времени вычисления, использование памяти GPU составляет только 1/12 от SNSE (5 ГБ против 60 ГБ)
На 8-мерной модели Ходжкина-Хаксли TGRR-MLMC показывает улучшения по сравнению с атомарным APT по метрикам LMD и NLOG, подтверждая масштабируемость метода.
Greenberg et al. (2019): Automatic posterior transformation for likelihood-free inference
Giles (2015): Multilevel Monte Carlo methods
Rhee & Glynn (2015): Unbiased estimation with square root convergence for SDE models
Papamakarios & Murray (2016): Fast ε-free inference of simulation models
Резюме: Это статья с важным теоретическим и практическим значением в области байесовского вывода без правдоподобия. Путем умелой переформулировки APT как задачи вложенной оценки и введения методов MLMC авторы решают проблемы теоретического анализа и вычислительной эффективности исходного метода. Хотя остается место для улучшения времени вычисления, эффективность использования памяти и теоретические гарантии делают эту работу важным вкладом в данную область.