Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Yang, Xiong, He
There is a growing interest in studying sequential neural posterior estimation (SNPE) techniques due to their advantages for simulation-based models with intractable likelihoods. The methods aim to learn the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As an SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs well and scales to high-dimensional data. However, the APT method requires computing the expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic proposals were used to render an analytical normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we reformulate APT as a nested estimation problem. Building on this, we construct several multilevel Monte Carlo (MLMC) estimators for the loss function and its gradients to accommodate different scenarios, including two unbiased estimators, and a biased estimator that trades a small bias for reduced variance and controlled runtime and memory usage. We also provide convergence results of stochastic gradient descent to quantify the interaction of the bias and variance of the gradient estimator. Numerical experiments for approximating complex posteriors with multimodality in moderate dimensions are provided to examine the effectiveness of the proposed methods.
academic
Aprovechando MLMC Anidado para Estimación Secuencial de Posterior Neural con Verosimilitudes Intratables
Título: Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Autores: Xiliang Yang (Universidad Tecnológica del Sur de China), Yifei Xiong (Universidad de Purdue), Zhijian He (Universidad Tecnológica del Sur de China, autor de correspondencia)
Clasificación: stat.CO cs.LG stat.ML
Fecha de Publicación: Enero de 2024, preimpresión en arXiv
Este artículo investiga la aplicación de técnicas de estimación secuencial de posterior neural (SNPE) en el tratamiento de modelos de simulación con funciones de verosimilitud difíciles de calcular. Para abordar el problema de expectativas anidadas en el método de transformación posterior automática (APT), que requiere calcular la expectativa logarítmica de una constante de normalización intratable, el artículo reformula APT como un problema de estimación anidada y construye varios estimadores de Monte Carlo multicapa (MLMC), incluyendo dos estimadores insesgados y uno sesgado. El estimador sesgado intercambia una pequeña cantidad de sesgo por reducción de varianza y control del tiempo de ejecución y uso de memoria. El artículo también proporciona resultados de convergencia para descenso de gradiente estocástico, cuantificando la interacción entre el sesgo y la varianza del estimador de gradiente.
Desafíos de Modelos de Simulación: En neurociencia, física, biología y otros campos, los modelos de simulación se utilizan ampliamente, pero la inferencia bayesiana tradicional enfrenta desafíos debido a funciones de verosimilitud difíciles de calcular y simuladores computacionalmente costosos.
Necesidad de Métodos SNPE: Los métodos de estimación secuencial de posterior neural evitan el cálculo directo de la función de verosimilitud al utilizar estimadores de densidad condicional basados en redes neuronales para aprender la distribución posterior a partir de simulaciones de propuestas adaptativas.
Limitaciones del Método APT: Aunque el método de transformación posterior automática (APT) propuesto por Greenberg et al. muestra buen desempeño y es escalable a datos de alta dimensión, requiere calcular la expectativa logarítmica de una constante de normalización intratable, formando un problema de expectativas anidadas.
Limitaciones de Propuestas Atómicas: Aunque el uso de propuestas atómicas permite obtener constantes de normalización analíticas, esto dificulta el análisis de convergencia
Falta de Análisis Teórico: Las técnicas existentes tienen dificultades para explicar el bajo desempeño de APT en algunas tareas
Problemas de Complejidad Computacional: La complejidad computacional del estimador de expectativas anidadas de una sola capa es O(ε⁻³), con eficiencia relativamente baja
Reformulación del Problema APT: Reformula el método APT como un problema de estimación anidada, proporcionando un marco para análisis de convergencia riguroso
Construcción de Estimadores MLMC: Desarrolla tres estimadores MLMC:
RU-MLMC: Método Monte Carlo multicapa aleatoriamente insesgado
GRR-MLMC: Método de ruleta rusa generalizada
TGRR-MLMC: Método de ruleta rusa generalizada truncada
Análisis Teórico: Proporciona cotas teóricas superiores para sesgo, varianza y costo promedio, demostrando que el método MLMC logra complejidad óptima O(ε⁻²)
Garantías de Convergencia: Establece teoremas de convergencia para descenso de gradiente estocástico, cuantificando el impacto del sesgo y la varianza en la optimización
Verificación Experimental: Valida la efectividad del método en múltiples tareas de referencia
Dado una distribución previa p(θ) y datos observados x_o, el objetivo es aproximar la distribución posterior p(θ|x_o) ∝ p(θ)p(x_o|θ), donde la función de verosimilitud p(x|θ) es difícil de calcular directamente, pero puede muestrearse mediante un simulador.
Teoremas 3.1 y 3.2: Bajo condiciones apropiadas, los estimadores de diferencias satisfacen:
Tasa de sesgo: α = 1
Tasa de varianza: r ∈ (1,2]
Tasa de costo: γ = 1
Dado que r > γ, MLMC logra complejidad óptima O(ε⁻²), una mejora significativa comparada con O(ε⁻³) del estimador de expectativas anidadas de una sola capa.
Comparación de Desempeño: TGRR-MLMC muestra el mejor desempeño en tareas complejas (como Lotka-Volterra), con media C2ST superior al método SNSE en tres tareas
Eficiencia Computacional: Aunque los métodos MLMC requieren 1.2-1.5 veces más tiempo de cálculo, el uso de memoria GPU es solo 1/12 del de SNSE (5GB vs 60GB)
En el modelo Hodgkin-Huxley de 8 dimensiones, TGRR-MLMC muestra mejoras sobre APT atómico en las métricas LMD y NLOG, validando la escalabilidad del método.
Greenberg et al. (2019): Automatic posterior transformation for likelihood-free inference
Giles (2015): Multilevel Monte Carlo methods
Rhee & Glynn (2015): Unbiased estimation with square root convergence for SDE models
Papamakarios & Murray (2016): Fast ε-free inference of simulation models
Resumen: Este es un artículo con valor teórico y práctico importante en el campo de la inferencia bayesiana sin verosimilitud. Al reformular ingeniosamente APT como un problema de estimación anidada e introducir la técnica MLMC, resuelve las dificultades de análisis teórico y los problemas de eficiencia computacional del método original. Aunque aún hay espacio para mejora en el tiempo de cálculo, su eficiencia de memoria y garantías teóricas lo convierten en una contribución importante en este campo.