2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.
Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
academic

Likelihood-free inference of phylogenetic tree posterior distributions

基本信息

  • 论文ID: 2510.12976
  • 标题: Likelihood-free inference of phylogenetic tree posterior distributions
  • 作者: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
  • 分类: q-bio.PE (Populations and Evolution), q-bio.QM (Quantitative Methods)
  • 发表时间: 2024年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12976v1

摘要

系统发育推断是进化基因组学中的核心任务,旨在重建相关序列如何从共同祖先进化而来。当前最先进的方法利用序列沿系统发育树进化的概率模型,通过寻找最大化观测序列似然的树,或在贝叶斯框架下估计给定序列的树的后验分布。这两种方法通常需要计算似然函数,这只有在简化假设下(如序列不同位置进化的独立性)才可行,即使如此仍是代价高昂的操作。本文提出Phyloformer 2,这是首个用于系统发育后验分布的无似然推断方法。Phyloformer 2利用一种新颖的序列对编码方式,使其比以往方法更具可扩展性,并采用基于连续子树合并的参数化概率分布分解。该网络提供准确的后验分布估计,在点估计方面优于最先进的最大似然方法和先前的无似然方法。

研究背景与动机

问题定义

系统发育推断是重建一组现存序列进化历史的任务,需要确定描述它们如何从共同祖先分化的二叉树结构。这一任务在多个领域具有重要意义:

  1. 进化生物学:理解现存物种如何从共同祖先进化
  2. 疾病传播:追踪细菌耐药性的出现和传播
  3. 流行病学:监测疫情传播模式

现有方法的局限性

传统的系统发育推断方法主要依赖于概率模型,面临以下关键问题:

  1. 计算复杂度:似然函数计算需要昂贵的剪枝算法(Felsenstein, 1981)
  2. 搜索空间巨大:n个叶子节点的树拓扑数量为(2n-5)!!,搜索极其困难
  3. 模型简化假设:为了使计算可行,必须假设序列各位置进化独立且同分布,忽略自然选择
  4. 不现实的模拟结果:这些简化假设导致生成不现实的序列集合和系统发育重建中的伪影

研究动机

无似然推断(Simulation-based inference)为解决这些问题提供了新的范式:

  • 当似然评估不可行但采样成本低时,可以有效进行估计
  • 利用深度学习在模拟数据上训练神经网络来近似后验分布
  • 摊销推断:训练耗时但推断极快
  • 可以处理更复杂、更现实的进化模型

核心贡献

  1. 首个端到端无似然后验估计方法:提出了第一个从序列直接到系统发育的无似然后验估计方法,超越了仅限于四重组(quartets)的先前工作
  2. 新颖的网络架构EvoPF:受AlphaFold 2的EvoFormer启发,设计了更具可扩展性和表达能力的序列编码器,可处理超过200个序列
  3. BayesNJ概率分布分解:提出了基于连续合并过程的系统发育概率分布参数化方法,确保了概率分布的正确性
  4. 显著的性能提升:在拓扑准确性上优于最先进的基于似然的方法,推断速度提高1-2个数量级
  5. 复杂模型适用性:可以在不可处理似然的模型下进行训练,与错误指定的基于似然估计器相比性能差距进一步扩大

方法详解

任务定义

输入:一组对齐的序列 x={x1,,xN}x = \{x_1, \ldots, x_N\},其中每个序列包含L个字符 输出:系统发育 θ=(τ,)\theta = (\tau, \ell),包括拓扑结构τ\tau和分支长度\ell目标:学习后验分布 p(θx)p(\theta|x) 的近似 qψ(θx)q_\psi(\theta|x)

模型架构

Phyloformer 2由两个核心模块组成:

1. EvoPF编码器

EvoPF是EvoFormer的转置版本,维护两种表示:

  • MSA栈:每个序列中每个位置的嵌入
  • 配对栈:每对序列的嵌入

关键设计

  • 轴向注意力:在MSA栈中交替使用列向(位置内序列间)和行向(序列内位置间)自注意力
  • 配对间的平坦自注意力:简化了EvoFormer的三角注意力
  • 信息交互:通过外积均值和配对偏置实现MSA栈与配对栈间的信息传递

2. BayesNJ概率分布

定义系统发育上的概率分布,分解为连续合并过程:

qψ(x)(θ=(τ,)x)=k=12N3qm(m(k)m(<k))q((k)m(k),m(<k))q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})

关键创新

  • 规范合并顺序:确保每个系统发育只有一个有效的合并序列
  • 约束处理:通过距离约束确保采样和评估的一致性
  • 分支长度参数化:使用和(s(k)s^{(k)})与比值(r(k)r^{(k)})重参数化,采用Gamma和Beta分布建模

技术创新点

  1. 可扩展的编码方案:相比Phyloformer的序列对表示,EvoPF在保持表达能力的同时显著提高了可扩展性
  2. 概率分布的正确定义:通过规范合并顺序解决了同一系统发育可由多种合并序列生成的问题
  3. 端到端训练:直接优化后验概率,避免了距离预测的中间步骤
  4. 约束满足:通过动态约束矩阵确保采样的系统发育符合规范顺序

实验设置

数据集

  1. 主要训练集:130万个50分类群的树/MSA对,基于LG+G8模型
  2. 多尺寸数据集:10-170分类群,用于微调以避免对分类群数量的过拟合
  3. 复杂模型数据集:Cherry模型(位置间依赖)和SelReg模型(位置间异质性)
  4. MCMC比较数据集:使用RevBayes先验生成,用于后验分布质量评估

评价指标

  1. 拓扑准确性:标准化Robinson-Foulds距离
  2. 分支长度准确性:Kuhner-Felsenstein距离
  3. 后验质量:与MCMC样本的分割频率比较
  4. 计算效率:运行时间和内存使用量

对比方法

  • 基于似然:IQTree、FastTree、FastME
  • 无似然:原始Phyloformer (PF)
  • 变体:PF2topo(仅拓扑)、PF2ℓ1(L1损失)

实验结果

主要结果

拓扑准确性提升

在10-200分类群的测试中,Phyloformer 2显著优于所有对比方法:

  • 相比原始PF,在所有尺寸上都有显著改进
  • 对于10-175叶子的树,优于IQTree和FastTree等最先进的最大似然方法
  • 性能优势主要来源于使用正确先验的后验分布估计

计算效率大幅提升

  • 速度:比FastTree快1个数量级,比IQTree快2个数量级
  • 可扩展性:虽然内存密集,但比PF扩展性更好,可处理更大的树
  • PF2topo:仅拓扑版本甚至比原始PF快近1个数量级

复杂模型下的优势

在不可处理似然的模型(Cherry和SelReg)下:

  • PF2显著优于等效的PF模型
  • 相比错误指定的基于似然方法,性能差距进一步扩大
  • 证明了无似然方法在复杂模型下的优势

消融实验

通过训练使用L1损失的PF2ℓ1版本发现:

  • EvoPF编码器对拓扑预测有一定帮助
  • 但大部分拓扑准确性提升来自BayesNJ损失函数
  • 说明了端到端后验估计相比距离预测的优势

后验分布质量评估

与RevBayes MCMC样本的比较显示:

  • RevBayes产生硬后验分布(大多数分支要么全部出现要么完全不出现)
  • PF2提供更软的后验分布,但与RevBayes有很大一致性
  • 在RevBayes中出现在所有树中的分支,在PF2中频率>0.6
  • 未采样的分支在PF2中频率<0.3

相关工作

传统系统发育推断

  1. 最大似然方法:IQTree、FastTree等,需要启发式搜索树空间
  2. 贝叶斯方法:通过MCMC采样后验分布,计算成本高
  3. 变分推断:近似后验分布,但仍需似然计算

无似然系统发育推断

  1. 四重组方法:将问题简化为3类分类,无法扩展到更大规模
  2. 距离预测方法:Phyloformer预测进化距离,然后用NJ重建树
  3. 本文贡献:首个端到端的全系统发育后验估计方法

神经后验估计(NPE)

  • 通过最小化KL散度学习后验分布的神经网络近似
  • 摊销推断:训练后推断速度极快
  • 关键挑战:为系统发育设计合适的参数化分布族

结论与讨论

主要结论

  1. 方法有效性:Phyloformer 2成功实现了系统发育的无似然后验估计
  2. 性能优势:在准确性和速度上都优于现有方法
  3. 可扩展性:可处理比先前方法更大规模的问题
  4. 实用价值:为复杂进化模型下的推断开辟了新途径

局限性

  1. 可扩展性限制:目前最多处理200个序列,限制了在更大数据集上的应用
  2. 分布外泛化:对训练数据外的输入可能产生不准确估计且无警告
  3. 表达能力限制
    • 嵌入在递归过程中不更新
    • 分支长度后验限制为特定参数分布(Gamma和Beta)
  4. 校准质量:后验分布的校准质量需要进一步研究

未来方向

  1. 更高效的编码器:探索更高效的架构以处理更大规模问题
  2. 层次化方法:结合现有启发式方法构建更大的树
  3. 不确定性评估:提供预测不确定性的评估
  4. 未对齐序列:处理未对齐的序列输入
  5. 更复杂模型:在包含群体动力学和协同进化的更广泛进化模型下进行推断

深度评价

优点

  1. 重大技术突破:首次实现端到端的系统发育后验估计,突破了四重组的限制
  2. 理论严谨性:通过规范合并顺序巧妙解决了概率分布定义的技术难题
  3. 实验全面:包含多种数据集、评价指标和对比方法,消融实验充分
  4. 实用价值高:显著的速度提升和准确性改进具有重要应用价值
  5. 写作清晰:技术细节描述清楚,架构图直观易懂

不足

  1. 可扩展性仍有限:200序列的限制在基因组时代仍显不足
  2. 模型表达能力:递归过程中嵌入不更新、参数分布形式固定等限制了模型表达能力
  3. 校准评估不足:后验分布校准质量的评估相对简单,需要更深入分析
  4. Cherry数据集问题:承认使用了有错误的Cherry数据集,影响了相关结论的可信度

影响力

  1. 学术贡献:为系统发育推断领域引入了全新的无似然范式
  2. 方法论价值:BayesNJ的分解思想可能启发其他结构化对象的概率建模
  3. 应用前景:快速准确的推断能力将促进大规模进化研究
  4. 可复现性:提供了详细的实现细节和训练参数,有利于复现和改进

适用场景

  1. 中等规模系统发育:50-200序列的系统发育推断
  2. 复杂进化模型:需要考虑位置间依赖或选择压力的场景
  3. 快速推断需求:需要大量重复推断的应用场景
  4. 贝叶斯分析:需要后验分布而非点估计的研究

参考文献

  1. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
  2. Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
  3. Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
  4. Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
  5. Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.