Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
- ID del artículo: 2510.11982
- Título: Cadenas de Markov de tiempo continuo no homogéneas para inferir tasas evolutivas flexibles que varían en el tiempo
- Autores: Pratyusa Datta (UCLA), Philippe Lemey (KU Leuven), Marc A. Suchard (UCLA)
- Clasificación: stat.ME (Estadística - Metodología), q-bio.PE (Biología Cuantitativa - Poblaciones y Evolución)
- Fecha de publicación: 13 de octubre de 2025 (preimpresión en arXiv)
- Enlace del artículo: https://arxiv.org/abs/2510.11982
Este artículo propone un marco flexible de inferencia filogenética bayesiana que se adapta a tasas evolutivas que varían en el tiempo modelando el proceso de sustitución de caracteres de secuencias como cadenas de Markov de tiempo continuo no homogéneas (ICTMCs). El método parametriza los parámetros de tasa evolutiva como funciones constantes por tramos con numerosos períodos (modelo de reloj de múltiples períodos), lo que hace que el cálculo de probabilidades de transición sea relativamente económico y permite capturar flexiblemente cambios de tasa. Se implementa un suavizado temporal de la función de tasa estimada mediante un prior de campo aleatorio de Markov gaussiano, y se mejora la eficiencia computacional mediante muestreo de Monte Carlo Hamiltoniano con evaluación de gradientes escalable.
El problema central en la filogenética es reconstruir la historia evolutiva a partir de datos de secuencias moleculares y estimar las tasas evolutivas. Los métodos tradicionales asumen que la tasa evolutiva permanece constante en el tiempo, pero esta suposición no es válida para organismos de rápida evolución como los virus.
- Significado en biología evolutiva: La estimación precisa de tasas evolutivas que varían en el tiempo es crucial para comprender los mecanismos de diversificación biológica
- Valor en investigación de enfermedades infecciosas: Las secuencias del genoma viral acumulan cambios genéticos significativos en escalas de tiempo cortas, requiriendo capacidades de análisis en tiempo real
- Dependencia de la escala temporal: La investigación demuestra que las estimaciones de tasa evolutiva viral dependen significativamente del marco temporal de muestreo
- Suposición de CTMC homogéneo: Los métodos tradicionales asumen que el proceso de sustitución en ramas es una cadena de Markov de tiempo continuo homogénea
- Patrones de variación de tasa fijos: Los modelos de reloj relajado existentes hacen suposiciones fijas sobre patrones de variación de tasa
- Complejidad computacional: Los métodos completamente no paramétricos enfrentan desafíos computacionales
Desarrollar un marco flexible que pueda modelar directamente la tasa evolutiva como una función del tiempo, superando las limitaciones de la suposición de CTMC homogéneo, para proporcionar estimaciones más precisas de tasas evolutivas para virus de rápida evolución.
- Innovación teórica: Introducción sistemática por primera vez de cadenas de Markov de tiempo continuo no homogéneas (ICTMCs) en inferencia filogenética
- Avance metodológico: Propuesta del modelo de reloj de múltiples períodos, parametrizando la función de tasa como una función constante por tramos en numerosos períodos
- Optimización computacional: Desarrollo de un algoritmo de evaluación de gradientes con complejidad temporal lineal, combinado con HMC para muestreo eficiente
- Diseño de prior: Adopción de un prior apropiado de campo aleatorio de Markov gaussiano para asegurar la propiedad de la distribución posterior
- Verificación empírica: Validación de la efectividad del método en múltiples conjuntos de datos virales, incluyendo análisis de transmisión de SARS-CoV-2
Entrada: N secuencias moleculares alineadas con información de tiempo de muestreo
Salida: Árbol filogenético, trayectoria de tasa evolutiva que varía en el tiempo, estimaciones de tiempo de divergencia
Restricciones: La función de tasa debe ser positiva e integrable
Para un CTMC no homogéneo, la matriz generadora infinitesimal es una función del tiempo: Q(t)=f(t)Q, donde:
- Q: matriz generadora infinitesimal base independiente del tiempo
- f(t): función de tasa positiva e integrable desconocida
Matriz de probabilidades de transición en tiempo finito:
P(t0,t)=exp[∫t0tf(τ)dτ⋅Q]
Parametrización de la función de tasa como constante por tramos:
f(t)=θm,wm≤t<wm−1,m=1,…,M
donde wM<⋯<w1 son puntos de la malla temporal y θ=(θ1,…,θM+1) es el vector de parámetros de tasa.
Para la rama que conecta el nodo i con pa(i), el número esperado de sustituciones es:
bi=θq+1(wq−tpa(i))+∑m=pq−1θm+1(wm−wm+1)+θp(ti−wp)
Diseño de Prior:
- Prior de campo aleatorio de Markov gaussiano para ζm=logθm
- Diferencia de primer orden: ζm+1−ζm∣τ∼N(0,dm/τ)
- Prior apropiado: P(ζ∣τ)∝τM/2exp[−2τζ′(Dw−ρW)ζ]
Muestreo Posterior: Uso del método de Monte Carlo Hamiltoniano, calculando gradientes mediante la regla de la cadena:
∂θm∂logP(θ,τ,ρ,Q,α,F∣Y)=∑i=12N−2∂bi∂logP∂θm∂bi
- Garantía de Propiedad: Introducción del parámetro ρ<1 para asegurar la propiedad del prior GMRF
- Optimización de Gradientes: Desarrollo de cálculo de gradientes con complejidad O(NCS2+NM), significativamente mejor que el método tradicional O(N2CS2)
- Diseño de Malla Flexible: Soporte para configuración de puntos de malla equiespaciados o adaptativos
- Modelado Multiescala: Capacidad de manejar diferentes escalas temporales desde semanas hasta siglos
- Datos Simulados:
- Simulación de modelo de reloj estricto
- Simulación de modelo de reloj log-lineal (f(t)=e−4.5−0.05t)
- Conjuntos de Datos de Virus Reales:
- Virus del Nilo Occidental: 104 genomas completos (1999-2007)
- Dengue tipo 3: 352 secuencias (1972-2010)
- Gripe estacional A/H3N2: 402 secuencias (1968-2010)
- SARS-CoV-2: 3959 genomas (2020 Europa)
- Mediana posterior e intervalo de credibilidad bayesiano del 95% de trayectorias de tasa evolutiva
- Precisión de estimación del tiempo del ancestro común más reciente (tMRCA)
- Verosimilitud marginal logarítmica (comparación de modelos)
- Tamaño de muestra efectivo (ESS)
- Modelo de reloj estricto
- Modelo de reloj local estocástico
- Modelo de reloj log-lineal
- Implementación mediante paquete BEAST X
- Iteraciones MCMC: 3-40 millones
- Número de puntos de malla: 60-360 períodos
- Prior de precisión GMRF: Gamma(0.001, 0.001)
- Escenario de reloj estricto: El modelo de múltiples períodos recupera con precisión la tasa constante, estimaciones de tMRCA exactas
- Escenario log-lineal: Recuperación precisa de la trayectoria de tasa real en regiones ricas en datos, ligera sobrestimación en la raíz
Virus del Nilo Occidental:
- Trayectoria de tasa relativamente constante (≈5×10−4 subst./sitio/año)
- tMRCA: 1998 1997,1999
- Mejor ajuste del modelo de reloj estricto (diferencia de verosimilitud marginal logarítmica ≈27)
Dengue:
- Patrón fuertemente variable en el tiempo: tasa disminuye 10 veces en 1995-2000, aumenta 10 veces en 2003-2009
- Modelo de múltiples períodos superior al reloj local estocástico (mejora de verosimilitud marginal logarítmica ≈220)
- tMRCA: 1972 1963,1973
Gripe Estacional A/H3N2:
- Patrón estacional evidente: picos en diciembre-febrero
- Picos más altos después de 2001
- Posterior ρ=0.26 0.07,0.58, evitando suavizado excesivo
Transmisión de SARS-CoV-2 en Europa:
- Disminución del 90% en tasa de expansión espacial durante confinamiento en marzo de 2020
- Aumento de 9 veces en tasa tras reapertura estival
- Correlación negativa con tamaño de población efectiva
- Impacto de densidad de malla: Más períodos proporcionan mayor resolución temporal
- Sensibilidad de prior: Selección de prior de precisión GMRF tiene impacto limitado en resultados
- Parámetro de propiedad ρ: Crítico para detección de patrones estacionales
- Confirmación de dependencia de escala temporal: Múltiples virus muestran patrones de tasa significativamente variable en el tiempo
- Asociación epidemiológica: Cambios de tasa altamente consistentes con medidas de intervención del mundo real
- Eficiencia computacional: Optimización de gradientes hace posible análisis de datos a gran escala
- Modelos de reloj relajado: Efectos aleatorios, relojes locales, etc.
- Modelos dependientes del tiempo: Decaimiento de ley de potencia, modelos de punto de cambio
- Métodos no paramétricos: Procesos gaussianos, funciones spline
- Rigor teórico: Base matemática sólida basada en ICTMC
- Viabilidad computacional: Evita dificultades computacionales de integración de procesos gaussianos
- Flexibilidad: Puede manejar patrones de cambio de tasa arbitrariamente complejos
- Escalabilidad: Complejidad temporal lineal soporta datos a gran escala
- Efectividad del método: El modelo de reloj de múltiples períodos captura exitosamente tasas evolutivas que varían en el tiempo
- Significado biológico: Revela dinámicas temporales complejas de tasas evolutivas virales
- Valor práctico: Proporciona herramienta de análisis en tiempo real para vigilancia de enfermedades infecciosas
- Incertidumbre en la raíz: Mayor incertidumbre en estimación de tasa en la raíz sin puntos de calibración
- Complejidad computacional: Aunque optimizado, aún requiere numerosas iteraciones MCMC
- Selección de malla: Requiere conocimiento previo para guiar configuración de puntos de malla
- Selección de modelo: Falta método automático para determinar número óptimo de períodos
- Modelo CAR bivariado: Modelado conjunto de tasa y tamaño de población efectiva
- Malla adaptativa: Desarrollo de método de selección de malla impulsado por datos
- Extensión a múltiples loci: Manejo de heterogeneidad en datos de genoma completo
- Inferencia en tiempo real: Desarrollo de algoritmos de actualización en línea
- Innovación teórica: Introducción sistemática por primera vez de ICTMC en filogenética, base teórica sólida
- Método ingenioso: Parametrización constante por tramos equilibra ingeniosamente flexibilidad y viabilidad computacional
- Optimización computacional: Algoritmo de gradientes de tiempo lineal es contribución técnica importante
- Verificación empírica: Validación integral que abarca datos simulados y múltiples conjuntos de datos reales
- Perspectiva biológica: Revela características dinámicas temporales importantes de evolución viral
- Sensibilidad de prior: Propiedad del prior GMRF requiere ajuste cuidadoso del parámetro ρ
- Complejidad del modelo: Espacio de parámetros de alta dimensión puede causar problemas de convergencia
- Desafío de interpretación: Interpretación biológica de patrones complejos que varían en el tiempo requiere investigación más profunda
- Recursos computacionales: Análisis de datos a gran escala aún requiere recursos computacionales sustanciales
- Contribución metodológica: Proporciona nuevo marco teórico para modelos de reloj filogenético
- Implementación de software: Integración en BEAST X asegura aplicación amplia del método
- Valor interdisciplinario: Aplicación exitosa de métodos estadísticos a problemas biológicos
- Monitoreo en tiempo real: Proporciona herramienta importante para respuesta a brotes de enfermedades infecciosas
- Virus de rápida evolución: Virus de ARN, virus de gripe, etc.
- Vigilancia de epidemias: Seguimiento en tiempo real de dinámicas de transmisión de patógenos
- Biología evolutiva: Investigación de patrones temporales de evolución adaptativa
- Paleontología: Análisis de cambios de tasa evolutiva en escalas de tiempo largas
El artículo cita literatura importante en filogenética, inferencia bayesiana y procesos de Markov, incluyendo el algoritmo clásico de poda de Felsenstein, modelos de reloj relajado de Drummond et al., y teoría de campo aleatorio de Markov gaussiano de Rue & Held y otros trabajos fundamentales.
Evaluación General: Este es un artículo de metodología de alta calidad con contribuciones importantes en innovación teórica, implementación técnica y aplicación práctica. El modelo de reloj de múltiples períodos proporciona una nueva herramienta para inferencia filogenética, particularmente adecuada para investigación de organismos de rápida evolución. Las derivaciones matemáticas del artículo son rigurosas, el diseño experimental es razonable y los resultados son convincentes, con impacto esperado significativo en filogenética e investigación de enfermedades infecciosas.