Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
- 論文ID: 2510.11982
- タイトル: Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates
- 著者: Pratyusa Datta (UCLA)、Philippe Lemey (KU Leuven)、Marc A. Suchard (UCLA)
- 分類: stat.ME (統計学 - 方法論)、q-bio.PE (定量生物学 - 個体群と進化)
- 発表日: 2025年10月13日 (arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2510.11982
本論文は、配列文字置換過程を不均質連続時間マルコフ連鎖(ICTMC)としてモデル化することで、時間とともに変動する進化速度に適応する柔軟なベイズ系統発生推定フレームワークを提案する。本手法は進化速度パラメータを多数の時期を持つ区分的定数関数(多時期時計モデル)として表現し、遷移確率計算を比較的廉価にしながら速度変動を柔軟に捉える。推定速度関数の時間的平滑化にはガウス・マルコフ確率場事前分布を採用し、スケーラブルな勾配評価を伴うハミルトニアン・モンテカルロサンプリングにより計算効率を向上させる。
系統発生学の中核的課題は、分子配列データから進化史を再構成し、進化速度を推定することである。従来の手法は進化速度が時間を通じて一定であると仮定しているが、この仮定は急速に進化するウイルスなどの生物には成立しない。
- 進化生物学的意義: 時間変動する進化速度の正確な推定は、生物多様化メカニズムの理解に不可欠である
- 感染症研究への価値: ウイルスゲノム配列は短時間スケールで著しい遺伝的変化を蓄積し、リアルタイム分析能力が必要である
- 時間スケール依存性: ウイルスの進化速度推定は採取時間枠に大きく依存することが示されている
- 均質CTMC仮定: 従来手法は分枝上の置換過程を均質連続時間マルコフ連鎖と仮定する
- 速度変動パターンの固定化: 既存の緩和時計モデルは速度変動パターンに固定的仮定を置く
- 計算複雑性: 完全ノンパラメトリック関数手法は計算上の課題に直面する
進化速度を時間の関数として直接モデル化できる柔軟なフレームワークを開発し、均質CTMC仮定の制限を克服し、急速に進化するウイルスなどに対してより正確な進化速度推定を提供する。
- 理論的革新: 不均質連続時間マルコフ連鎖(ICTMC)を系統発生推定に初めて体系的に導入
- 手法的突破: 多時期時計モデルを提案し、速度関数を多数の時期の区分的定数関数として表現
- 計算最適化: 線形時間複雑度の勾配評価アルゴリズムを開発し、HMCと組み合わせて効率的なサンプリングを実現
- 事前分布設計: 適切なガウス・マルコフ確率場事前分布を採用して事後分布の適切性を確保
- 実証検証: 複数のウイルスデータセット上で手法の有効性を検証、SARS-CoV-2伝播分析を含む
入力: N個の配列された分子配列、採取時間情報
出力: 系統発生樹、時間変動進化速度軌跡、分岐時間推定
制約: 速度関数は正値で積分可能である必要がある
不均質CTMCについて、無限小生成行列は時間の関数である: Q(t)=f(t)Q、ここで:
- Q: 時間に依存しない基本無限小生成行列
- f(t): 未知の正値積分可能速度関数
有限時間遷移確率行列:
P(t0,t)=exp[∫t0tf(τ)dτ⋅Q]
速度関数を区分的定数として表現:
f(t)=θm,wm≤t<wm−1,m=1,…,M
ここでwM<⋯<w1は時間グリッド点、θ=(θ1,…,θM+1)は速度パラメータベクトルである。
ノードiをpa(i)に接続する分枝について、期待置換数は:
bi=θq+1(wq−tpa(i))+∑m=pq−1θm+1(wm−wm+1)+θp(ti−wp)
事前分布設計:
- ζm=logθmに対してガウス・マルコフ確率場事前分布を使用
- 一階差分: ζm+1−ζm∣τ∼N(0,dm/τ)
- 適切な事前分布: P(ζ∣τ)∝τM/2exp[−2τζ′(Dw−ρW)ζ]
事後サンプリング: ハミルトニアン・モンテカルロ法を使用し、連鎖法則により勾配を計算:
∂θm∂logP(θ,τ,ρ,Q,α,F∣Y)=∑i=12N−2∂bi∂logP∂θm∂bi
- 適切性保証: パラメータρ<1を導入してGMRF事前分布の適切性を確保
- 勾配最適化: O(NCS2+NM)複雑度の勾配計算を開発、従来のO(N2CS2)手法より大幅に改善
- 柔軟なグリッド設計: 等間隔または適応的グリッド点設定をサポート
- 多スケールモデリング: 週から世紀までの異なる時間スケールに対応可能
- シミュレーションデータ:
- 厳密時計モデルシミュレーション
- 対数線形時計モデルシミュレーション(f(t)=e−4.5−0.05t)
- 実ウイルスデータセット:
- ウエストナイルウイルス: 104個の全ゲノム(1999-2007)
- デングウイルス3型: 352個の配列(1972-2010)
- 季節性インフルエンザA/H3N2: 402個の配列(1968-2010)
- SARS-CoV-2: 3959個のゲノム(2020年ヨーロッパ)
- 進化速度軌跡の事後中央値と95%ベイズ信用区間
- 最近共通祖先時間(tMRCA)推定精度
- 対数周辺尤度(モデル比較)
- 有効サンプルサイズ(ESS)
- 厳密時計モデル
- ランダム局所時計モデル
- 対数線形時計モデル
- BEAST Xソフトウェアパッケージを使用
- MCMC反復数: 300万~4000万回
- グリッド点数: 60~360時期
- GMRF精度事前分布: Gamma(0.001, 0.001)
- 厳密時計シナリオ: 多時期モデルは一定速度を正確に復元、tMRCA推定は正確
- 対数線形シナリオ: データが豊富な領域で真の速度軌跡を正確に復元、根部でわずかな過大評価
ウエストナイルウイルス:
- 速度軌跡は比較的一定(≈5×10−4 subst./site/yr)
- tMRCA: 1998年1997,1999
- 厳密時計モデルがより適合(対数周辺尤度差≈27)
デングウイルス:
- 強い時間変動パターン: 1995-2000年に速度が10倍低下、2003-2009年に10倍上昇
- 多時期モデルはランダム局所時計を上回る(対数周辺尤度改善≈220)
- tMRCA: 1972年1963,1973
季節性インフルエンザA/H3N2:
- 明らかな季節性パターン: 12月~2月にピーク
- 2001年以降ピーク値が増加
- 事後ρ=0.260.07,0.58、過度な平滑化を回避
SARS-CoV-2ヨーロッパ伝播:
- 2020年3月ロックダウン期間中の空間拡散速度が90%低下
- 夏季解除後速度が9倍上昇
- 有効個体群サイズと負の相関
- グリッド密度の影響: より多くの時期がより高い時間分解能を提供
- 事前分布感度: GMRF精度事前分布の選択は結果への影響が限定的
- 適切性パラメータρ: 季節性パターン検出に極めて重要
- 時間スケール依存性の確認: 複数のウイルスが著しい時間変動速度パターンを示す
- 疫学的関連性: 速度変化は実世界の介入措置と高度に一致
- 計算効率: 勾配最適化により大規模データ分析が可能に
- 緩和時計モデル: ランダム効果、局所時計など
- 時間依存モデル: べき乗則減衰、変点モデル
- ノンパラメトリック手法: ガウス過程、スプライン関数
- 理論的厳密性: ICTMCに基づく堅実な数学的基礎
- 計算可行性: ガウス過程積分の計算困難を回避
- 柔軟性: 任意の複雑な速度変動パターンに対応可能
- スケーラビリティ: 線形時間複雑度が大規模データをサポート
- 手法の有効性: 多時期時計モデルは時間変動進化速度を成功裏に捉える
- 生物学的意義: ウイルス進化速度の複雑な時間動態を明らかにする
- 実用的価値: 感染症監視にリアルタイム分析ツールを提供
- 根部の不確実性: 校正点がない場合、根部速度推定の不確実性が大きい
- 計算複雑度: 最適化されているが依然として大量のMCMC反復が必要
- グリッド選択: グリッド点設定を指導するための事前知識が必要
- モデル選択: 最適時期数を自動決定する方法が欠落
- 二変量CARモデル: 速度と有効個体群サイズの同時モデリング
- 適応的グリッド: データ駆動型グリッド選択方法の開発
- 多遺伝子座拡張: 全ゲノムデータの異質性処理
- リアルタイム推定: オンライン更新アルゴリズムの開発
- 理論的革新: ICTMC を系統発生学に初めて体系的に導入、理論基礎が堅実
- 手法の巧妙さ: 区分的定数パラメータ化は柔軟性と計算可行性を巧妙に平衡
- 計算最適化: 線形時間勾配アルゴリズムは重要な技術的貢献
- 実証的充実: シミュレーションと複数の実データセットによる包括的検証
- 生物学的洞察: ウイルス進化の重要な時間動態特性を明らかに
- 事前分布感度: GMRF事前分布の適切性にはρパラメータの慎重な調整が必要
- モデル複雑度: 高次元パラメータ空間は収束問題を引き起こす可能性
- 解釈上の課題: 複雑な時間変動パターンの生物学的解釈にはさらなる研究が必要
- 計算リソース: 大規模データ分析には依然として大量の計算リソースが必要
- 方法論的貢献: 系統発生時計モデルに新しい理論的枠組みを提供
- ソフトウェア実装: BEAST X統合により方法の広範な応用を確保
- 学際的価値: 統計学的手法の生物学的問題への成功的応用
- リアルタイム監視: 感染症暴発対応に重要なツールを提供
- 急速進化ウイルス: RNAウイルス、インフルエンザウイルスなど
- 疫病監視: 病原体伝播動態のリアルタイム追跡
- 進化生物学: 適応進化の時間パターン研究
- 古生物学: 長時間スケール進化速度変動分析
論文は系統発生学、ベイズ推定、マルコフ過程分野の重要な文献を引用しており、Felstensteinの古典的pruningアルゴリズム、Drummondらの緩和時計モデル、Rue & Heldのガウス・マルコフ確率場理論などの基礎的業績を含む。
総合評価: これは理論的革新、技術実装、実際的応用の面で重要な貢献を持つ高品質な方法論論文である。多時期時計モデルは系統発生推定に新しいツールを提供し、特に急速に進化する生物の研究に適している。論文の数学的導出は厳密で、実験設計は合理的、結果は説得力があり、系統発生学と感染症研究に重要な影響を与えることが予想される。