Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
- 论文ID: 2510.11982
- 标题: Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates
- 作者: Pratyusa Datta (UCLA), Philippe Lemey (KU Leuven), Marc A. Suchard (UCLA)
- 分类: stat.ME (Statistics - Methodology), q-bio.PE (Quantitative Biology - Populations and Evolution)
- 发表时间: 2025年10月13日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.11982
本文提出了一个灵活的贝叶斯系统发育推断框架,通过将序列字符替换过程建模为非齐次连续时间马尔可夫链(ICTMCs)来适应随时间变化的进化速率。该方法将进化速率参数化为具有大量时期的分段常数函数(多时期时钟模型),使转移概率计算相对廉价且能灵活捕捉速率变化。采用高斯马尔可夫随机场先验实现估计速率函数的时间平滑,并通过可扩展梯度评估的哈密顿蒙特卡洛采样提高计算效率。
系统发育学中的核心问题是从分子序列数据重建进化历史并估计进化速率。传统方法假设进化速率在时间上保持恒定,但这一假设对于快速进化的病毒等生物体并不成立。
- 进化生物学意义:准确估计时变进化速率对理解生物多样化机制至关重要
- 传染病研究价值:病毒基因组序列在短时间尺度上积累显著遗传变化,需要实时分析能力
- 时间尺度依赖性:研究表明病毒的进化速率估计严重依赖于采样时间框架
- 齐次CTMC假设:传统方法假设分支上的替换过程为齐次连续时间马尔可夫链
- 速率变异模式固化:现有松弛时钟模型对速率变异模式做出固定假设
- 计算复杂性:完全非参数函数方法面临计算挑战
开发能够直接将进化速率建模为时间函数的灵活框架,克服齐次CTMC假设的限制,为快速进化病毒等提供更准确的进化速率估计。
- 理论创新:首次将非齐次连续时间马尔可夫链(ICTMCs)系统性引入系统发育推断
- 方法突破:提出多时期时钟模型,将速率函数参数化为大量时期的分段常数函数
- 计算优化:开发线性时间复杂度的梯度评估算法,结合HMC实现高效采样
- 先验设计:采用适当的高斯马尔可夫随机场先验确保后验分布的适当性
- 实证验证:在多个病毒数据集上验证方法有效性,包括SARS-CoV-2传播分析
输入:N个排列的分子序列,采样时间信息
输出:系统发育树、时变进化速率轨迹、分歧时间估计
约束:速率函数必须为正值且可积
对于非齐次CTMC,无穷小生成矩阵为时间函数:Q(t)=f(t)Q,其中:
- Q:与时间无关的基础无穷小生成矩阵
- f(t):未知的正值可积速率函数
有限时间转移概率矩阵:
P(t0,t)=exp[∫t0tf(τ)dτ⋅Q]
将速率函数参数化为分段常数:
f(t)=θm,wm≤t<wm−1,m=1,…,M
其中wM<⋯<w1为时间网格点,θ=(θ1,…,θM+1)为速率参数向量。
对于连接节点i到pa(i)的分支,期望替换数为:
bi=θq+1(wq−tpa(i))+∑m=pq−1θm+1(wm−wm+1)+θp(ti−wp)
先验设计:
- 对ζm=logθm使用高斯马尔可夫随机场先验
- 一阶差分:ζm+1−ζm∣τ∼N(0,dm/τ)
- 适当先验:P(ζ∣τ)∝τM/2exp[−2τζ′(Dw−ρW)ζ]
后验采样:使用哈密顿蒙特卡洛方法,利用链式法则计算梯度:
∂θm∂logP(θ,τ,ρ,Q,α,F∣Y)=∑i=12N−2∂bi∂logP∂θm∂bi
- 适当性保证:通过引入参数ρ<1确保GMRF先验的适当性
- 梯度优化:开发O(NCS2+NM)复杂度的梯度计算,显著优于传统O(N2CS2)方法
- 灵活网格设计:支持等间距或自适应网格点设置
- 多尺度建模:可处理从周到世纪的不同时间尺度
- 仿真数据:
- 严格时钟模型仿真
- 对数线性时钟模型仿真(f(t)=e−4.5−0.05t)
- 真实病毒数据集:
- 西尼罗病毒:104个全基因组(1999-2007)
- 登革病毒3型:352个序列(1972-2010)
- 季节性流感A/H3N2:402个序列(1968-2010)
- SARS-CoV-2:3959个基因组(2020年欧洲)
- 进化速率轨迹的后验中位数和95%贝叶斯可信区间
- 最近共同祖先时间(tMRCA)估计精度
- 对数边际似然(模型比较)
- 有效样本量(ESS)
- 使用BEAST X软件包实现
- MCMC迭代数:300万-4000万次
- 网格点数:60-360个时期
- GMRF精度先验:Gamma(0.001, 0.001)
- 严格时钟场景:多时期模型准确恢复恒定速率,tMRCA估计精确
- 对数线性场景:在数据丰富区域准确恢复真实速率轨迹,根部存在轻微高估
西尼罗病毒:
- 速率轨迹相对恒定(≈5×10−4 subst./site/yr)
- tMRCA:1998年1997,1999
- 严格时钟模型拟合更好(对数边际似然差异≈27)
登革病毒:
- 强烈时变模式:1995-2000年速率下降10倍,2003-2009年上升10倍
- 多时期模型优于随机局部时钟(对数边际似然提升≈220)
- tMRCA:1972年1963,1973
季节性流感A/H3N2:
- 明显季节性模式:12月-2月达峰值
- 2001年后峰值增高
- 后验ρ=0.260.07,0.58,避免过度平滑
SARS-CoV-2欧洲传播:
- 2020年3月封锁期间空间扩散速率下降90%
- 夏季解封后速率上升9倍
- 与有效种群大小呈负相关
- 网格密度影响:更多时期提供更高时间分辨率
- 先验敏感性:GMRF精度先验选择对结果影响有限
- 适当性参数ρ:对季节性模式检测至关重要
- 时间尺度依赖性确认:多个病毒显示显著时变速率模式
- 流行病学关联:速率变化与真实世界干预措施高度一致
- 计算效率:梯度优化使大规模数据分析成为可能
- 松弛时钟模型:随机效应、局部时钟等
- 时间依赖模型:幂律衰减、变点模型
- 非参数方法:高斯过程、样条函数
- 理论严密性:基于ICTMC的坚实数学基础
- 计算可行性:避免高斯过程积分的计算困难
- 灵活性:可处理任意复杂的速率变化模式
- 可扩展性:线性时间复杂度支持大规模数据
- 方法有效性:多时期时钟模型成功捕捉时变进化速率
- 生物学意义:揭示病毒进化速率的复杂时间动态
- 实用价值:为传染病监测提供实时分析工具
- 根部不确定性:缺乏校准点时根部速率估计不确定性较大
- 计算复杂度:虽已优化但仍需要大量MCMC迭代
- 网格选择:需要先验知识指导网格点设置
- 模型选择:缺乏自动确定最优时期数的方法
- 双变量CAR模型:联合建模速率和有效种群大小
- 自适应网格:开发数据驱动的网格选择方法
- 多基因座扩展:处理全基因组数据的异质性
- 实时推断:开发在线更新算法
- 理论创新:首次系统性将ICTMC引入系统发育学,理论基础扎实
- 方法巧妙:分段常数参数化巧妙平衡了灵活性和计算可行性
- 计算优化:线性时间梯度算法是重要技术贡献
- 实证充分:涵盖仿真和多个真实数据集的全面验证
- 生物学洞察:揭示了病毒进化的重要时间动态特征
- 先验敏感性:GMRF先验的适当性需要仔细调节ρ参数
- 模型复杂度:高维参数空间可能导致收敛问题
- 解释性挑战:复杂时变模式的生物学解释仍需深入研究
- 计算资源:大规模数据分析仍需要大量计算资源
- 方法学贡献:为系统发育时钟模型提供新的理论框架
- 软件实现:BEAST X集成确保方法的广泛应用
- 跨学科价值:统计学方法在生物学问题中的成功应用
- 实时监测:为传染病暴发响应提供重要工具
- 快速进化病毒:RNA病毒、流感病毒等
- 疫情监测:实时追踪病原体传播动态
- 进化生物学:研究适应性进化的时间模式
- 古生物学:长时间尺度的进化速率变化分析
论文引用了系统发育学、贝叶斯推断和马尔可夫过程等领域的重要文献,包括Felsenstein的经典pruning算法、Drummond等人的松弛时钟模型,以及Rue & Held的高斯马尔可夫随机场理论等基础性工作。
总体评价:这是一篇高质量的方法学论文,在理论创新、技术实现和实际应用方面都有重要贡献。多时期时钟模型为系统发育推断提供了新的工具,特别适用于快速进化生物体的研究。论文的数学推导严密,实验设计合理,结果具有说服力,预期将对系统发育学和传染病研究产生重要影响。