2025-11-14T09:04:13.401384

Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods

Yang, Xiong, He

There is a growing interest in studying sequential neural posterior estimation (SNPE) techniques due to their advantages for simulation-based models with intractable likelihoods. The methods aim to learn the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As an SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs well and scales to high-dimensional data. However, the APT method requires computing the expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic proposals were used to render an analytical normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we reformulate APT as a nested estimation problem. Building on this, we construct several multilevel Monte Carlo (MLMC) estimators for the loss function and its gradients to accommodate different scenarios, including two unbiased estimators, and a biased estimator that trades a small bias for reduced variance and controlled runtime and memory usage. We also provide convergence results of stochastic gradient descent to quantify the interaction of the bias and variance of the gradient estimator. Numerical experiments for approximating complex posteriors with multimodality in moderate dimensions are provided to examine the effectiveness of the proposed methods.

academic

Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods

基本信息

论文ID: 2401.16776
标题: Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods
作者: Xiliang Yang (华南理工大学), Yifei Xiong (普渡大学), Zhijian He (华南理工大学，通讯作者)
分类: stat.CO cs.LG stat.ML
发表时间: 2024年1月，arXiv预印本
论文链接: https://arxiv.org/abs/2401.16776

摘要

本文研究序列神经后验估计(SNPE)技术在处理具有难以计算似然函数的仿真模型中的应用。针对自动后验变换(APT)方法需要计算难以处理的归一化常数的对数期望这一嵌套期望问题，论文将APT重新表述为嵌套估计问题，并构建了几种多层蒙特卡罗(MLMC)估计器，包括两个无偏估计器和一个有偏估计器。有偏估计器通过引入小的偏差来换取方差的减少以及运行时间和内存使用的控制。论文还提供了随机梯度下降的收敛性结果，量化了梯度估计器偏差和方差的相互作用。

研究背景与动机

问题背景

仿真模型的挑战: 在神经科学、物理学、生物学等领域，仿真模型被广泛使用，但传统贝叶斯推断面临似然函数难以计算和仿真器计算昂贵的挑战。
SNPE方法的需求: 序列神经后验估计方法通过使用神经网络条件密度估计器从自适应提议的仿真中学习后验分布，避免了似然函数的直接计算。
APT方法的局限: Greenberg等人提出的自动后验变换(APT)方法虽然表现良好且能扩展到高维数据，但需要计算一个难以处理的归一化常数的对数期望，形成嵌套期望问题。

现有方法的不足

原子提议的局限性: 虽然使用原子提议可以得到解析的归一化常数，但这使得收敛性分析变得困难
理论分析缺失: 现有技术难以解释APT在某些任务中的低性能表现
计算复杂度问题: 单层嵌套估计器的计算复杂度为O(ε^-3)，效率较低

核心贡献

重新表述APT问题: 将APT方法重新表述为嵌套估计问题，为严格的收敛性分析提供了框架
构建MLMC估计器: 开发了三种MLMC估计器：
- RU-MLMC：随机无偏多层蒙特卡罗方法
- GRR-MLMC：广义俄罗斯轮盘赌方法
- TGRR-MLMC：截断广义俄罗斯轮盘赌方法
理论分析: 提供了偏差、方差和平均成本的理论上界，证明MLMC方法达到最优复杂度O(ε^-2)
收敛性保证: 建立了随机梯度下降的收敛性定理，量化了偏差和方差对优化的影响
实验验证: 在多个基准任务上验证了方法的有效性

方法详解

任务定义

给定先验分布p(θ)和观测数据x_o，目标是近似后验分布p(θ|x_o) ∝ p(θ)p(x_o|θ)，其中似然函数p(x|θ)难以直接计算，但可通过仿真器采样。

嵌套APT重新表述

损失函数重新表述

将APT损失函数重写为：

L(φ) = -E_p̃(θ,x)[log g_φ(x,θ)] + E_p̃(x)[log E_p̃(θ')[g_φ(x,θ')]]

其中g_φ(x,θ) = q_F(x,φ)(θ)/p(θ)是重要性权重。

梯度表达式

梯度为：

∇_φL(φ) = -E_p̃(θ,x)[∇_φ log g_φ(x,θ)] + E_p̃(x)[∇_φ log E_p̃(θ')[g_φ(x,θ')]]

MLMC估计器设计

1. RU-MLMC (随机无偏MLMC)

使用几何分布Ge(p)随机选择层级L，查询为：

V_RU = ω_L^{-1}Δρ_{φ,L}

2. GRR-MLMC (广义俄罗斯轮盘赌)

引入基础层级m，确保前m层总是被计算：

V_GRR = ρ_{φ,M_m} + Σ_{j=m+1}^L (Δρ_{φ,j}/p_j)

3. TGRR-MLMC (截断GRR)

通过截断分布控制计算成本和内存使用：

V_TGRR = ρ_{φ,M_m} + Σ_{j=m+1}^L (Δρ_{φ,j}/p_j)

其中L的取值被限制在m,m̄范围内。

反向耦合构造

使用反向耦合技术构造差分估计器：

Δρ_{φ,ℓ} = ρ_{φ,M_ℓ} - (1/2)(ρ_{φ,M_{ℓ-1}}^{(a)} + ρ_{φ,M_{ℓ-1}}^{(b)})

理论分析

复杂度分析

定理3.1和3.2: 在适当条件下，差分估计器满足：

偏差率：α = 1
方差率：r ∈ (1,2]
成本率：γ = 1

由于r > γ，MLMC达到最优复杂度O(ε^{-2})，相比单层嵌套估计器的O(ε^{-3})有显著改进。

收敛性分析

定理4.2: 在Lipschitz连续和强凸条件下，SGD的最优间隙满足：

G_T ≤ (1-γμ)^T G_0 + (1/2μ)(U_b + U_η)

其中U_b和U_η分别是偏差和方差的上界。

实验设置

数据集

Two-Moon模型: 2D参数空间的玩具模型，具有多模态后验
Lotka-Volterra模型: 捕食者-猎物动力学模型，4D参数空间
M/G/1队列模型: 单服务器队列系统，3D参数空间
Hodgkin-Huxley神经元模型: 高维神经元模型，8D参数空间

评价指标

MMD (Maximum Mean Discrepancy): 衡量分布间差异
C2ST (Classifier Two-Sample Test): 二分类器检验
LMD (Logarithmic Median Distance): 对数中位距离
NLOG (Negative Log-density): 真实参数处的负对数密度

实现细节

神经样条流(NSF)作为条件密度估计器，8层，每层50个单元
Adam优化器，学习率1×10^{-4}，批大小100
每轮仿真N=1000个样本，总共R=20轮
M_0 = 8，截断层级m̄ = 4，基础层级m = 2

实验结果

主要结果

性能比较: TGRR-MLMC在复杂任务(如Lotka-Volterra)上表现最佳，在三个任务上的C2ST均值都优于SNSE方法
计算效率: 虽然MLMC方法需要1.2-1.5倍的计算时间，但GPU内存使用量仅为SNSE的1/12 (5GB vs 60GB)
方法选择指导:
- 简单任务：RU-MLMC
- 中等复杂度：GRR-MLMC
- 复杂任务：TGRR-MLMC

消融实验

超参数α的选择: 通过最小化渐近低效性确定最优α值
截断层级的影响: 适当的截断可以显著减少方差，提高训练稳定性

高维实验

在8维Hodgkin-Huxley模型上，TGRR-MLMC相比原子APT在LMD和NLOG指标上都有改进，验证了方法的可扩展性。

结论与讨论

主要结论

嵌套MLMC方法为APT提供了理论可分析的替代方案
三种MLMC变体在偏差-方差-成本权衡中提供了灵活选择
理论分析揭示了在神经网络训练中方差往往比偏差更重要

局限性

高维挑战: 在高维问题和复杂神经网络结构中可能遭受过大方差
计算开销: 由于多层级梯度计算，MLMC比原子APT需要更多计算时间
参数调优: 需要仔细选择层级参数和截断设置

未来方向

准蒙特卡罗: 使用低差异序列减少MLMC估计器方差
算法加速: 开发更高效的MLMC算法实现
自适应策略: 自动选择最优的MLMC变体和参数

深度评价

优点

理论贡献: 将APT重新表述为嵌套估计问题，提供了严格的理论框架
方法创新: 设计了三种MLMC估计器，在不同场景下提供最优选择
实验全面: 从简单到复杂的多个基准任务验证了方法有效性
实用价值: 显著降低了GPU内存需求，提高了实际应用可行性

不足

计算复杂度: 虽然理论复杂度更优，但实际运行时间仍较长
参数敏感性: 需要仔细调优多个超参数(α, m, m̄等)
可扩展性: 在极高维问题上的表现还需进一步验证

影响力

理论影响: 为SNPE方法提供了新的理论分析框架
实用价值: 内存效率的提升使方法更适合实际应用
可复现性: 提供了详细的实现细节和算法描述

适用场景

具有昂贵仿真器的科学计算问题
需要控制内存使用的大规模推断任务
对理论保证有要求的贝叶斯推断应用

参考文献

Greenberg et al. (2019): Automatic posterior transformation for likelihood-free inference
Giles (2015): Multilevel Monte Carlo methods
Rhee & Glynn (2015): Unbiased estimation with square root convergence for SDE models
Papamakarios & Murray (2016): Fast ε-free inference of simulation models

总结: 这是一篇在无似然贝叶斯推断领域具有重要理论和实用价值的论文。通过巧妙地将APT重新表述为嵌套估计问题并引入MLMC技术，解决了原方法的理论分析困难和计算效率问题。虽然在计算时间上仍有改进空间，但其内存效率和理论保证使其成为该领域的重要贡献。