Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Yang, Xiong, He
There is a growing interest in studying sequential neural posterior estimation (SNPE) techniques due to their advantages for simulation-based models with intractable likelihoods. The methods aim to learn the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As an SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs well and scales to high-dimensional data. However, the APT method requires computing the expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic proposals were used to render an analytical normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we reformulate APT as a nested estimation problem. Building on this, we construct several multilevel Monte Carlo (MLMC) estimators for the loss function and its gradients to accommodate different scenarios, including two unbiased estimators, and a biased estimator that trades a small bias for reduced variance and controlled runtime and memory usage. We also provide convergence results of stochastic gradient descent to quantify the interaction of the bias and variance of the gradient estimator. Numerical experiments for approximating complex posteriors with multimodality in moderate dimensions are provided to examine the effectiveness of the proposed methods.
academic
Nutzung von verschachteltem MLMC für sequenzielle neuronale Posterior-Schätzung mit nicht handhabbaren Likelihoods
Titel: Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Autoren: Xiliang Yang (South China University of Technology), Yifei Xiong (Purdue University), Zhijian He (South China University of Technology, Korrespondenzautor)
Klassifizierung: stat.CO cs.LG stat.ML
Veröffentlichungsdatum: Januar 2024, arXiv-Preprint
Dieses Paper untersucht die Anwendung von sequenzieller neuronaler Posterior-Schätzung (SNPE) bei der Verarbeitung von Simulationsmodellen mit schwer berechenbaren Likelihood-Funktionen. Um das Problem der verschachtelten Erwartungswerte bei der automatischen Posterior-Transformation (APT) zu adressieren – die die Berechnung des logarithmischen Erwartungswertes einer schwer handhabbaren Normalisierungskonstante erfordert – wird das Paper die APT als verschachteltes Schätzproblem neu formuliert und konstruiert mehrere Multi-Level-Monte-Carlo (MLMC)-Schätzer, einschließlich zweier unverzerrter Schätzer und eines verzerrten Schätzers. Der verzerrte Schätzer tauscht eine kleine Verzerrung gegen Varianzreduktion sowie Kontrolle der Laufzeit und des Speicherverbrauchs ein. Das Paper liefert auch Konvergenzresultate für stochastischen Gradientenabstieg und quantifiziert die Wechselwirkung zwischen Verzerrung und Varianz des Gradient-Schätzers.
Herausforderungen von Simulationsmodellen: In Neurowissenschaften, Physik, Biologie und anderen Bereichen werden Simulationsmodelle häufig verwendet, aber die traditionelle Bayessche Inferenz steht vor der Herausforderung schwer berechenbarer Likelihood-Funktionen und teurer Simulatoren.
Bedarf für SNPE-Methoden: Sequenzielle neuronale Posterior-Schätzungsmethoden vermeiden die direkte Berechnung der Likelihood-Funktion, indem sie neuronale Netzwerk-Conditional-Density-Estimator verwenden, um die Posterior-Verteilung aus adaptiv vorgeschlagenen Simulationen zu lernen.
Einschränkungen der APT-Methode: Obwohl die von Greenberg et al. vorgeschlagene automatische Posterior-Transformation (APT) gut funktioniert und auf hochdimensionale Daten skalierbar ist, erfordert sie die Berechnung eines logarithmischen Erwartungswertes einer schwer handhabbaren Normalisierungskonstante, was ein verschachteltes Erwartungswertproblem darstellt.
Einschränkungen atomarer Vorschläge: Obwohl die Verwendung atomarer Vorschläge zu analytischen Normalisierungskonstanten führt, erschwert dies die Konvergenzanalyse erheblich
Fehlende theoretische Analyse: Bestehende Techniken können die schwache Leistung von APT bei einigen Aufgaben nicht erklären
Rechenkomplexität: Die Rechenkomplexität von Single-Level-Schätzern beträgt O(ε⁻³), was ineffizient ist
Neuformulierung des APT-Problems: Neuformulierung der APT-Methode als verschachteltes Schätzproblem, das einen Rahmen für strenge Konvergenzanalyse bietet
Konstruktion von MLMC-Schätzern: Entwicklung von drei MLMC-Schätzern:
Theoretische Analyse: Bereitstellung theoretischer Obergrenzen für Verzerrung, Varianz und durchschnittliche Kosten; Nachweis, dass MLMC-Methoden optimale Komplexität O(ε⁻²) erreichen
Konvergenzgarantien: Etablierung von Konvergenzsätzen für stochastischen Gradientenabstieg, die die Auswirkungen von Verzerrung und Varianz auf die Optimierung quantifizieren
Experimentelle Validierung: Validierung der Methodeneffektivität auf mehreren Benchmark-Aufgaben
Gegeben eine Prior-Verteilung p(θ) und Beobachtungsdaten x_o besteht das Ziel darin, die Posterior-Verteilung p(θ|x_o) ∝ p(θ)p(x_o|θ) zu approximieren, wobei die Likelihood-Funktion p(x|θ) schwer direkt berechenbar ist, aber durch einen Simulator abgetastet werden kann.
Leistungsvergleich: TGRR-MLMC zeigt die beste Leistung bei komplexen Aufgaben (z.B. Lotka-Volterra), mit überlegenen C2ST-Mittelwerten gegenüber SNSE-Methode bei drei Aufgaben
Recheneffizienz: Obwohl MLMC-Methoden 1,2-1,5-fache Rechenzeit benötigen, beträgt der GPU-Speicherverbrauch nur 1/12 von SNSE (5GB vs. 60GB)
Im 8D-Hodgkin-Huxley-Modell zeigt TGRR-MLMC Verbesserungen gegenüber atomarer APT bei LMD- und NLOG-Metriken, was die Skalierbarkeit der Methode validiert.
Greenberg et al. (2019): Automatic posterior transformation for likelihood-free inference
Giles (2015): Multilevel Monte Carlo methods
Rhee & Glynn (2015): Unbiased estimation with square root convergence for SDE models
Papamakarios & Murray (2016): Fast ε-free inference of simulation models
Zusammenfassung: Dies ist ein Paper mit bedeutendem theoretischem und praktischem Wert im Bereich der likelihood-freien Bayesschen Inferenz. Durch geschickte Neuformulierung von APT als verschachteltes Schätzproblem und Einführung von MLMC-Techniken werden die theoretischen Analyseschwierigkeiten und Rechenefizienzprobleme der ursprünglichen Methode gelöst. Obwohl die Rechenzeit noch Verbesserungspotenzial hat, machen ihre Speichereffizienz und theoretischen Garantien sie zu einem wichtigen Beitrag auf diesem Gebiet.