Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Yang, Xiong, He
There is a growing interest in studying sequential neural posterior estimation (SNPE) techniques due to their advantages for simulation-based models with intractable likelihoods. The methods aim to learn the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As an SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs well and scales to high-dimensional data. However, the APT method requires computing the expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic proposals were used to render an analytical normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we reformulate APT as a nested estimation problem. Building on this, we construct several multilevel Monte Carlo (MLMC) estimators for the loss function and its gradients to accommodate different scenarios, including two unbiased estimators, and a biased estimator that trades a small bias for reduced variance and controlled runtime and memory usage. We also provide convergence results of stochastic gradient descent to quantify the interaction of the bias and variance of the gradient estimator. Numerical experiments for approximating complex posteriors with multimodality in moderate dimensions are provided to examine the effectiveness of the proposed methods.
academic
Sfruttamento di MLMC Annidato per la Stima Neurale Sequenziale della Posteriore con Verosimiglianze Intrattabili
Titolo: Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
Autori: Xiliang Yang (South China University of Technology), Yifei Xiong (Purdue University), Zhijian He (South China University of Technology, autore corrispondente)
Classificazione: stat.CO cs.LG stat.ML
Data di Pubblicazione: Gennaio 2024, preprint arXiv
Questo articolo affronta l'applicazione della stima neurale sequenziale della posteriore (SNPE) nel contesto di modelli di simulazione con funzioni di verosimiglianza intrattabili dal punto di vista computazionale. Per risolvere il problema delle aspettative annidate nella trasformazione posteriore automatica (APT), che richiede il calcolo dell'aspettativa logaritmica di una costante di normalizzazione intrattabile, gli autori riformulano APT come problema di stima annidato e costruiscono diversi stimatori Monte Carlo multilivello (MLMC), inclusi due stimatori non distorti e uno distorto. Lo stimatore distorto riduce la varianza e controlla il tempo di esecuzione e l'utilizzo della memoria introducendo una piccola distorsione. L'articolo fornisce inoltre risultati di convergenza per la discesa del gradiente stocastico, quantificando l'interazione tra distorsione e varianza dello stimatore del gradiente.
Sfide dei Modelli di Simulazione: Nei campi della neuroscienze, fisica e biologia, i modelli di simulazione sono ampiamente utilizzati, ma l'inferenza bayesiana tradizionale affronta le sfide del calcolo intrattabile della funzione di verosimiglianza e del costo computazionale elevato dei simulatori.
Necessità del Metodo SNPE: I metodi di stima neurale sequenziale della posteriore evitano il calcolo diretto della funzione di verosimiglianza utilizzando stimatori di densità condizionale basati su reti neurali per apprendere la distribuzione posteriore da simulazioni con proposte adattive.
Limitazioni del Metodo APT: Sebbene il metodo di trasformazione posteriore automatica (APT) proposto da Greenberg et al. presenti buone prestazioni e scalabilità a dati ad alta dimensione, richiede il calcolo dell'aspettativa logaritmica di una costante di normalizzazione intrattabile, creando un problema di aspettative annidate.
Limitazioni delle Proposte Atomiche: Sebbene l'uso di proposte atomiche consenta di ottenere costanti di normalizzazione analitiche, ciò rende difficile l'analisi della convergenza
Mancanza di Analisi Teorica: Le tecniche esistenti non riescono a spiegare le prestazioni scadenti di APT in alcuni compiti
Problemi di Complessità Computazionale: La complessità computazionale dello stimatore annidato a singolo livello è O(ε^-3), con efficienza relativamente bassa
Riformulazione del Problema APT: Riformulazione di APT come problema di stima annidato, fornendo un framework per un'analisi rigorosa della convergenza
Costruzione di Stimatori MLMC: Sviluppo di tre stimatori MLMC:
RU-MLMC: Metodo Monte Carlo multilivello casuale non distorto
GRR-MLMC: Metodo della roulette russa generalizzata
TGRR-MLMC: Metodo della roulette russa generalizzata troncato
Analisi Teorica: Fornitura di limiti teorici superiori per distorsione, varianza e costo medio, dimostrando che il metodo MLMC raggiunge la complessità ottimale O(ε^-2)
Garanzie di Convergenza: Stabilimento di teoremi di convergenza per la discesa del gradiente stocastico, quantificando l'impatto della distorsione e della varianza sull'ottimizzazione
Verifica Sperimentale: Validazione dell'efficacia del metodo su molteplici compiti di riferimento
Dato una distribuzione a priori p(θ) e dati osservati x_o, l'obiettivo è approssimare la distribuzione posteriore p(θ|x_o) ∝ p(θ)p(x_o|θ), dove la funzione di verosimiglianza p(x|θ) è intrattabile dal punto di vista computazionale ma può essere campionata tramite un simulatore.
Teoremi 3.1 e 3.2: In condizioni appropriate, gli stimatori di differenza soddisfano:
Tasso di distorsione: α = 1
Tasso di varianza: r ∈ (1,2]
Tasso di costo: γ = 1
Poiché r > γ, MLMC raggiunge la complessità ottimale O(ε^{-2}), con un miglioramento significativo rispetto allo stimatore annidato a singolo livello O(ε^{-3}).
Confronto delle Prestazioni: TGRR-MLMC mostra le migliori prestazioni su compiti complessi (come Lotka-Volterra), con media C2ST superiore al metodo SNSE su tre compiti
Efficienza Computazionale: Sebbene i metodi MLMC richiedano 1,2-1,5 volte il tempo di calcolo, l'utilizzo della memoria GPU è solo 1/12 di SNSE (5GB vs 60GB)
Sul modello Hodgkin-Huxley 8-dimensionale, TGRR-MLMC mostra miglioramenti rispetto ad APT atomico sia nelle metriche LMD che NLOG, verificando la scalabilità del metodo.
Greenberg et al. (2019): Automatic posterior transformation for likelihood-free inference
Giles (2015): Multilevel Monte Carlo methods
Rhee & Glynn (2015): Unbiased estimation with square root convergence for SDE models
Papamakarios & Murray (2016): Fast ε-free inference of simulation models
Sintesi: Questo è un articolo di significativo valore teorico e pratico nel campo dell'inferenza bayesiana senza verosimiglianza. Attraverso la riformulazione ingegnosa di APT come problema di stima annidato e l'introduzione della tecnica MLMC, risolve le difficoltà di analisi teorica e i problemi di efficienza computazionale del metodo originale. Sebbene vi sia ancora spazio per miglioramenti nel tempo di calcolo, la sua efficienza di memoria e le garanzie teoriche lo rendono un contributo importante in questo campo.