Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
- 論文ID: 2510.12976
- タイトル: Likelihood-free inference of phylogenetic tree posterior distributions
- 著者: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
- 分類: q-bio.PE (個体群と進化), q-bio.QM (定量的方法)
- 発表日: 2024年10月14日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.12976v1
系統発生推定は進化ゲノミクスの中核的課題であり、関連する配列がいかに共通祖先から進化してきたかを再構築することを目的としている。現在の最先端手法は、系統発生樹に沿った配列進化の確率モデルを利用し、観測配列の尤度を最大化する樹を探索するか、ベイズ枠組みの下で与えられた配列の樹の事後分布を推定している。これら両方の手法は通常、尤度関数の計算を必要とするが、これは簡略化された仮定(例えば、配列の異なる位置における進化の独立性)の下でのみ実行可能であり、その場合でも高コストな操作である。本論文はPhyloformer 2を提案する。これは系統発生事後分布のための最初の尤度フリー推定手法である。Phyloformer 2は新規な配列対符号化方式を利用し、従来の手法よりも高いスケーラビリティを実現し、連続部分樹統合に基づく確率分布の分解を採用している。本ネットワークは正確な事後分布推定を提供し、点推定の観点から最先端の最大尤度手法および先行する尤度フリー手法を上回る性能を示す。
系統発生推定は、現存する一連の配列の進化史を再構築する課題であり、共通祖先からいかに分化したかを記述する二分木構造を決定する必要がある。この課題は複数の領域において重要な意義を持つ:
- 進化生物学:現存する物種がいかに共通祖先から進化したかを理解する
- 疾病伝播:細菌耐性の出現と伝播を追跡する
- 疫学:流行の伝播パターンを監視する
従来の系統発生推定手法は主に確率モデルに依存しており、以下の重要な問題に直面している:
- 計算複雑性:尤度関数の計算は高コストな枝刈りアルゴリズム(Felsenstein, 1981)を必要とする
- 探索空間の巨大性:n個の葉ノードを持つ樹の位相の数は(2n-5)!!であり、探索は極めて困難である
- モデル簡略化仮定:計算を実行可能にするため、配列の各位置における進化が独立かつ同一分布であると仮定する必要があり、自然選択を無視している
- 非現実的なシミュレーション結果:これらの簡略化仮定は非現実的な配列集合を生成し、系統発生再構築における人工物をもたらす
尤度フリー推定(シミュレーションベース推定)はこれらの問題を解決するための新しいパラダイムを提供する:
- 尤度評価が不可能だがサンプリングコストが低い場合、効果的に推定を実行できる
- シミュレーションデータ上で訓練されたニューラルネットワークを利用して事後分布を近似する
- 償却推定:訓練は時間がかかるが推定は極めて高速である
- より複雑で現実的な進化モデルを処理できる
- 最初のエンドツーエンド尤度フリー事後推定手法:配列から系統発生樹への最初の尤度フリー事後推定手法を提案し、四重組(quartets)に限定された先行研究を超える
- 新規なネットワークアーキテクチャEvoPF:AlphaFold 2のEvoFormerに着想を得て、より高いスケーラビリティと表現能力を備えた配列符号化器を設計し、200個を超える配列を処理できる
- BayesNJ確率分布分解:連続統合プロセスに基づく系統発生確率分布のパラメータ化手法を提案し、確率分布の正確性を保証する
- 顕著な性能向上:位相精度において最先端の尤度ベース手法を上回り、推定速度を1~2桁向上させる
- 複雑モデルへの適用性:尤度が処理不可能なモデルの下で訓練でき、誤指定された尤度ベース推定器と比較してさらに大きな性能差を示す
入力:整列された配列の集合 x={x1,…,xN}。各配列はL個の文字を含む
出力:系統発生 θ=(τ,ℓ)。位相構造τと枝長ℓを含む
目標:事後分布 p(θ∣x) の近似 qψ(θ∣x) を学習する
Phyloformer 2は2つの核心的モジュールで構成される:
EvoPFはEvoFormerの転置版であり、2種類の表現を維持する:
- MSAスタック:各配列内の各位置の埋め込み
- ペアリングスタック:配列の各ペアの埋め込み
主要な設計:
- 軸方向注意:MSAスタック内で列方向(位置内配列間)と行方向(配列内位置間)の自己注意を交互に使用
- ペアリング間の平坦自己注意:EvoFormerの三角注意を簡略化
- 情報相互作用:外積平均とペアリングバイアスを通じてMSAスタックとペアリングスタック間の情報伝達を実現
系統発生上の確率分布を定義し、連続統合プロセスに分解する:
qψ(x)(θ=(τ,ℓ)∣x)=∏k=12N−3qm(m(k)∣m(<k))qℓ(ℓ(k)∣m(k),m(<k))
主要な革新:
- 規範的統合順序:各系統発生が有効な統合配列を1つだけ持つことを保証する
- 制約処理:距離制約を通じてサンプリングと評価の一貫性を保証する
- 枝長パラメータ化:和(s(k))と比率(r(k))を用いた再パラメータ化。ガンマ分布とベータ分布を使用してモデル化
- スケーラブルな符号化スキーム:Phyloformerの配列対表現と比較して、EvoPFは表現能力を保ちながら大幅にスケーラビリティを向上させる
- 確率分布の正確な定義:規範的統合順序を通じて、同一の系統発生が複数の統合配列から生成される問題を解決する
- エンドツーエンド訓練:事後確率を直接最適化し、距離予測の中間ステップを回避する
- 制約充足:動的制約行列を通じて、サンプリングされた系統発生が規範的順序に適合することを保証する
- 主要訓練セット:130万個の50分類群の樹/MSAペア。LG+G8モデルに基づく
- マルチサイズデータセット:10~170分類群。分類群数への過学習を避けるための微調整に使用
- 複雑モデルデータセット:Cherry モデル(位置間依存性)とSelRegモデル(位置間異質性)
- MCMC比較データセット:RevBayes事前分布を使用して生成。事後分布品質評価に使用
- 位相精度:正規化Robinson-Foulds距離
- 枝長精度:Kuhner-Felsenstein距離
- 事後分布品質:MCMCサンプルとの分割頻度比較
- 計算効率:実行時間とメモリ使用量
- 尤度ベース:IQTree、FastTree、FastME
- 尤度フリー:元のPhyloformer (PF)
- 変種:PF2topo(位相のみ)、PF2ℓ1(L1損失)
10~200分類群のテストにおいて、Phyloformer 2はすべての比較手法を大幅に上回る:
- すべてのサイズで元のPFに対して顕著な改善を示す
- 10~175葉の樹について、IQTreeおよびFastTreeなどの最先端の最大尤度手法を上回る
- 性能上の利点は主に正確な事前分布を使用した事後分布推定に由来する
- 速度:FastTreeより1桁高速。IQTreeより2桁高速
- スケーラビリティ:メモリ集約的だがPFより拡張性が高く、より大きな樹を処理できる
- PF2topo:位相のみのバージョンは元のPFより1桁近く高速
尤度が処理不可能なモデル(CherryおよびSelReg)の下で:
- PF2は同等のPFモデルを大幅に上回る
- 誤指定された尤度ベース手法と比較して、性能差がさらに拡大する
- 複雑モデルにおける尤度フリー手法の利点を実証する
L1損失を使用するPF2ℓ1バージョンの訓練を通じて以下を発見:
- EvoPF符号化器は位相予測に一定の支援を提供する
- しかし、位相精度の向上の大部分はBayesNJ損失関数に由来する
- 距離予測と比較したエンドツーエンド事後推定の利点を示す
RevBayes MCMCサンプルとの比較は以下を示す:
- RevBayesは硬い事後分布を生成する(ほとんどの枝は完全に出現するか全く出現しない)
- PF2はより柔軟な事後分布を提供するが、RevBayesとの高い一貫性を示す
- RevBayesのすべての樹に出現する枝は、PF2では頻度>0.6
- サンプリングされない枝はPF2では頻度<0.3
- 最大尤度手法:IQTree、FastTreeなど。樹空間のヒューリスティック探索を必要とする
- ベイズ手法:MCMCを通じて事後分布をサンプリング。計算コストが高い
- 変分推定:事後分布を近似するが、依然として尤度計算を必要とする
- 四重組手法:問題を3クラス分類に簡略化。より大規模への拡張が不可能
- 距離予測手法:Phyloformerが進化距離を予測し、その後NJで樹を再構築
- 本論文の貢献:最初のエンドツーエンド全系統発生事後推定手法
- KL発散を最小化することで事後分布のニューラルネットワーク近似を学習
- 償却推定:訓練後の推定速度は極めて高速
- 主要な課題:系統発生に適切なパラメータ化分布族の設計
- 手法の有効性:Phyloformer 2は系統発生の尤度フリー事後推定を成功裏に実現した
- 性能上の利点:正確性と速度の両面で既存手法を上回る
- スケーラビリティ:先行手法より大規模な問題を処理できる
- 実用的価値:複雑な進化モデルの下での推定に新しい道を開く
- スケーラビリティの制限:現在は最大200個の配列を処理。より大規模なデータセットでの応用を制限する
- 分布外汎化:訓練データ外の入力に対して不正確な推定を生成する可能性があり、警告なしに実行される
- 表現能力の制限:
- 埋め込みは再帰プロセス内で更新されない
- 枝長事後分布は特定のパラメータ分布(ガンマおよびベータ)に制限される
- 校正品質:事後分布の校正品質はさらなる研究を必要とする
- より効率的な符号化器:より大規模な問題を処理するための効率的なアーキテクチャを探索する
- 階層的手法:既存のヒューリスティック手法と組み合わせてより大きな樹を構築する
- 不確実性評価:予測不確実性の評価を提供する
- 未整列配列:未整列の配列入力を処理する
- より複雑なモデル:群集動力学と共進化を含むより広範な進化モデルの下で推定を実行する
- 重大な技術的突破:系統発生事後推定のエンドツーエンド実現は初めてであり、四重組の制限を突破した
- 理論的厳密性:規範的統合順序を通じて確率分布定義の技術的課題を巧妙に解決した
- 実験の包括性:複数のデータセット、評価指標、比較手法を含み、アブレーション実験が十分である
- 実用的価値が高い:顕著な速度向上と精度改善は重要な応用価値を持つ
- 記述が明確:技術詳細の説明が明確で、アーキテクチャ図は直感的で理解しやすい
- スケーラビリティがなお限定的:200配列の制限はゲノム時代においてなお不十分である
- モデル表現能力:再帰プロセス内での埋め込み非更新、パラメータ分布形式の固定など、モデル表現能力を制限する
- 校正評価が不十分:事後分布校正品質の評価は相対的に単純であり、より深い分析が必要である
- Cherryデータセット問題:誤ったCherryデータセットを使用したことを認めており、関連する結論の信頼性に影響を与える
- 学術的貢献:系統発生推定分野に全く新しい尤度フリーパラダイムをもたらした
- 方法論的価値:BayesNJの分解思想は他の構造化対象の確率モデリングにインスピレーションを与える可能性がある
- 応用前景:高速で正確な推定能力は大規模進化研究を促進する
- 再現性:詳細な実装詳細と訓練パラメータを提供し、再現と改善を容易にする
- 中規模系統発生:50~200配列の系統発生推定
- 複雑な進化モデル:位置間依存性または選択圧力を考慮する必要があるシーン
- 高速推定の必要性:大量の反復推定が必要なアプリケーションシーン
- ベイズ分析:点推定ではなく事後分布が必要な研究
- Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
- Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
- Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
- Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
- Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.