2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.

Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.

academic

Likelihood-free inference of phylogenetic tree posterior distributions

基本信息

论文ID: 2510.12976
标题: Likelihood-free inference of phylogenetic tree posterior distributions
作者: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
分类: q-bio.PE (Populations and Evolution), q-bio.QM (Quantitative Methods)
发表时间: 2024年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12976v1

摘要

系统发育推断是进化基因组学中的核心任务，旨在重建相关序列如何从共同祖先进化而来。当前最先进的方法利用序列沿系统发育树进化的概率模型，通过寻找最大化观测序列似然的树，或在贝叶斯框架下估计给定序列的树的后验分布。这两种方法通常需要计算似然函数，这只有在简化假设下（如序列不同位置进化的独立性）才可行，即使如此仍是代价高昂的操作。本文提出Phyloformer 2，这是首个用于系统发育后验分布的无似然推断方法。Phyloformer 2利用一种新颖的序列对编码方式，使其比以往方法更具可扩展性，并采用基于连续子树合并的参数化概率分布分解。该网络提供准确的后验分布估计，在点估计方面优于最先进的最大似然方法和先前的无似然方法。

研究背景与动机

问题定义

系统发育推断是重建一组现存序列进化历史的任务，需要确定描述它们如何从共同祖先分化的二叉树结构。这一任务在多个领域具有重要意义：

进化生物学：理解现存物种如何从共同祖先进化
疾病传播：追踪细菌耐药性的出现和传播
流行病学：监测疫情传播模式

现有方法的局限性

传统的系统发育推断方法主要依赖于概率模型，面临以下关键问题：

计算复杂度：似然函数计算需要昂贵的剪枝算法(Felsenstein, 1981)
搜索空间巨大：n个叶子节点的树拓扑数量为(2n-5)!!，搜索极其困难
模型简化假设：为了使计算可行，必须假设序列各位置进化独立且同分布，忽略自然选择
不现实的模拟结果：这些简化假设导致生成不现实的序列集合和系统发育重建中的伪影

研究动机

无似然推断（Simulation-based inference）为解决这些问题提供了新的范式：

当似然评估不可行但采样成本低时，可以有效进行估计
利用深度学习在模拟数据上训练神经网络来近似后验分布
摊销推断：训练耗时但推断极快
可以处理更复杂、更现实的进化模型

核心贡献

首个端到端无似然后验估计方法：提出了第一个从序列直接到系统发育的无似然后验估计方法，超越了仅限于四重组(quartets)的先前工作
新颖的网络架构EvoPF：受AlphaFold 2的EvoFormer启发，设计了更具可扩展性和表达能力的序列编码器，可处理超过200个序列
BayesNJ概率分布分解：提出了基于连续合并过程的系统发育概率分布参数化方法，确保了概率分布的正确性
显著的性能提升：在拓扑准确性上优于最先进的基于似然的方法，推断速度提高1-2个数量级
复杂模型适用性：可以在不可处理似然的模型下进行训练，与错误指定的基于似然估计器相比性能差距进一步扩大

MSA栈：每个序列中每个位置的嵌入
配对栈：每对序列的嵌入

关键设计：

轴向注意力：在MSA栈中交替使用列向（位置内序列间）和行向（序列内位置间）自注意力
配对间的平坦自注意力：简化了EvoFormer的三角注意力
信息交互：通过外积均值和配对偏置实现MSA栈与配对栈间的信息传递

2. BayesNJ概率分布

定义系统发育上的概率分布，分解为连续合并过程：

$q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})$

关键创新：

规范合并顺序：确保每个系统发育只有一个有效的合并序列
约束处理：通过距离约束确保采样和评估的一致性
分支长度参数化：使用和( $s^{(k)}$ )与比值( $r^{(k)}$ )重参数化，采用Gamma和Beta分布建模

技术创新点

可扩展的编码方案：相比Phyloformer的序列对表示，EvoPF在保持表达能力的同时显著提高了可扩展性
概率分布的正确定义：通过规范合并顺序解决了同一系统发育可由多种合并序列生成的问题
端到端训练：直接优化后验概率，避免了距离预测的中间步骤
约束满足：通过动态约束矩阵确保采样的系统发育符合规范顺序

实验设置

数据集

主要训练集：130万个50分类群的树/MSA对，基于LG+G8模型
多尺寸数据集：10-170分类群，用于微调以避免对分类群数量的过拟合
复杂模型数据集：Cherry模型（位置间依赖）和SelReg模型（位置间异质性）
MCMC比较数据集：使用RevBayes先验生成，用于后验分布质量评估

评价指标

拓扑准确性：标准化Robinson-Foulds距离
分支长度准确性：Kuhner-Felsenstein距离
后验质量：与MCMC样本的分割频率比较
计算效率：运行时间和内存使用量

对比方法

基于似然：IQTree、FastTree、FastME
无似然：原始Phyloformer (PF)
变体：PF2topo（仅拓扑）、PF2ℓ1（L1损失）

相比原始PF，在所有尺寸上都有显著改进
对于10-175叶子的树，优于IQTree和FastTree等最先进的最大似然方法
性能优势主要来源于使用正确先验的后验分布估计

计算效率大幅提升

速度：比FastTree快1个数量级，比IQTree快2个数量级
可扩展性：虽然内存密集，但比PF扩展性更好，可处理更大的树
PF2topo：仅拓扑版本甚至比原始PF快近1个数量级

复杂模型下的优势

在不可处理似然的模型（Cherry和SelReg）下：

PF2显著优于等效的PF模型
相比错误指定的基于似然方法，性能差距进一步扩大
证明了无似然方法在复杂模型下的优势

消融实验

通过训练使用L1损失的PF2ℓ1版本发现：

EvoPF编码器对拓扑预测有一定帮助
但大部分拓扑准确性提升来自BayesNJ损失函数
说明了端到端后验估计相比距离预测的优势

后验分布质量评估

与RevBayes MCMC样本的比较显示：

RevBayes产生硬后验分布（大多数分支要么全部出现要么完全不出现）
PF2提供更软的后验分布，但与RevBayes有很大一致性
在RevBayes中出现在所有树中的分支，在PF2中频率>0.6
未采样的分支在PF2中频率<0.3

结论与讨论

主要结论

方法有效性：Phyloformer 2成功实现了系统发育的无似然后验估计
性能优势：在准确性和速度上都优于现有方法
可扩展性：可处理比先前方法更大规模的问题
实用价值：为复杂进化模型下的推断开辟了新途径

局限性

可扩展性限制：目前最多处理200个序列，限制了在更大数据集上的应用
分布外泛化：对训练数据外的输入可能产生不准确估计且无警告
表达能力限制：
- 嵌入在递归过程中不更新
- 分支长度后验限制为特定参数分布（Gamma和Beta）
校准质量：后验分布的校准质量需要进一步研究

未来方向

更高效的编码器：探索更高效的架构以处理更大规模问题
层次化方法：结合现有启发式方法构建更大的树
不确定性评估：提供预测不确定性的评估
未对齐序列：处理未对齐的序列输入
更复杂模型：在包含群体动力学和协同进化的更广泛进化模型下进行推断

深度评价

优点

重大技术突破：首次实现端到端的系统发育后验估计，突破了四重组的限制
理论严谨性：通过规范合并顺序巧妙解决了概率分布定义的技术难题
实验全面：包含多种数据集、评价指标和对比方法，消融实验充分
实用价值高：显著的速度提升和准确性改进具有重要应用价值
写作清晰：技术细节描述清楚，架构图直观易懂

不足

可扩展性仍有限：200序列的限制在基因组时代仍显不足
模型表达能力：递归过程中嵌入不更新、参数分布形式固定等限制了模型表达能力
校准评估不足：后验分布校准质量的评估相对简单，需要更深入分析
Cherry数据集问题：承认使用了有错误的Cherry数据集，影响了相关结论的可信度

影响力

学术贡献：为系统发育推断领域引入了全新的无似然范式
方法论价值：BayesNJ的分解思想可能启发其他结构化对象的概率建模
应用前景：快速准确的推断能力将促进大规模进化研究
可复现性：提供了详细的实现细节和训练参数，有利于复现和改进

适用场景

中等规模系统发育：50-200序列的系统发育推断
复杂进化模型：需要考虑位置间依赖或选择压力的场景
快速推断需求：需要大量重复推断的应用场景
贝叶斯分析：需要后验分布而非点估计的研究

参考文献

Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.

Likelihood-free inference of phylogenetic tree posterior distributions

Likelihood-free inference of phylogenetic tree posterior distributions

基本信息

摘要

研究背景与动机

问题定义

现有方法的局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

1. EvoPF编码器

2. BayesNJ概率分布

技术创新点

实验设置

数据集

评价指标

对比方法

实验结果

主要结果

拓扑准确性提升

计算效率大幅提升

复杂模型下的优势

消融实验

后验分布质量评估

相关工作

传统系统发育推断

无似然系统发育推断

神经后验估计(NPE)

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献