2025-11-19T01:43:13.983106

Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates

Datta, Lemey, Suchard
Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
academic

Cadenas de Markov de tiempo continuo no homogéneas para inferir tasas evolutivas flexibles que varían en el tiempo

Información Básica

  • ID del artículo: 2510.11982
  • Título: Cadenas de Markov de tiempo continuo no homogéneas para inferir tasas evolutivas flexibles que varían en el tiempo
  • Autores: Pratyusa Datta (UCLA), Philippe Lemey (KU Leuven), Marc A. Suchard (UCLA)
  • Clasificación: stat.ME (Estadística - Metodología), q-bio.PE (Biología Cuantitativa - Poblaciones y Evolución)
  • Fecha de publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del artículo: https://arxiv.org/abs/2510.11982

Resumen

Este artículo propone un marco flexible de inferencia filogenética bayesiana que se adapta a tasas evolutivas que varían en el tiempo modelando el proceso de sustitución de caracteres de secuencias como cadenas de Markov de tiempo continuo no homogéneas (ICTMCs). El método parametriza los parámetros de tasa evolutiva como funciones constantes por tramos con numerosos períodos (modelo de reloj de múltiples períodos), lo que hace que el cálculo de probabilidades de transición sea relativamente económico y permite capturar flexiblemente cambios de tasa. Se implementa un suavizado temporal de la función de tasa estimada mediante un prior de campo aleatorio de Markov gaussiano, y se mejora la eficiencia computacional mediante muestreo de Monte Carlo Hamiltoniano con evaluación de gradientes escalable.

Contexto e Importancia de la Investigación

Definición del Problema

El problema central en la filogenética es reconstruir la historia evolutiva a partir de datos de secuencias moleculares y estimar las tasas evolutivas. Los métodos tradicionales asumen que la tasa evolutiva permanece constante en el tiempo, pero esta suposición no es válida para organismos de rápida evolución como los virus.

Importancia

  1. Significado en biología evolutiva: La estimación precisa de tasas evolutivas que varían en el tiempo es crucial para comprender los mecanismos de diversificación biológica
  2. Valor en investigación de enfermedades infecciosas: Las secuencias del genoma viral acumulan cambios genéticos significativos en escalas de tiempo cortas, requiriendo capacidades de análisis en tiempo real
  3. Dependencia de la escala temporal: La investigación demuestra que las estimaciones de tasa evolutiva viral dependen significativamente del marco temporal de muestreo

Limitaciones de los Métodos Existentes

  1. Suposición de CTMC homogéneo: Los métodos tradicionales asumen que el proceso de sustitución en ramas es una cadena de Markov de tiempo continuo homogénea
  2. Patrones de variación de tasa fijos: Los modelos de reloj relajado existentes hacen suposiciones fijas sobre patrones de variación de tasa
  3. Complejidad computacional: Los métodos completamente no paramétricos enfrentan desafíos computacionales

Motivación de la Investigación

Desarrollar un marco flexible que pueda modelar directamente la tasa evolutiva como una función del tiempo, superando las limitaciones de la suposición de CTMC homogéneo, para proporcionar estimaciones más precisas de tasas evolutivas para virus de rápida evolución.

Contribuciones Principales

  1. Innovación teórica: Introducción sistemática por primera vez de cadenas de Markov de tiempo continuo no homogéneas (ICTMCs) en inferencia filogenética
  2. Avance metodológico: Propuesta del modelo de reloj de múltiples períodos, parametrizando la función de tasa como una función constante por tramos en numerosos períodos
  3. Optimización computacional: Desarrollo de un algoritmo de evaluación de gradientes con complejidad temporal lineal, combinado con HMC para muestreo eficiente
  4. Diseño de prior: Adopción de un prior apropiado de campo aleatorio de Markov gaussiano para asegurar la propiedad de la distribución posterior
  5. Verificación empírica: Validación de la efectividad del método en múltiples conjuntos de datos virales, incluyendo análisis de transmisión de SARS-CoV-2

Explicación Detallada del Método

Definición de la Tarea

Entrada: N secuencias moleculares alineadas con información de tiempo de muestreo Salida: Árbol filogenético, trayectoria de tasa evolutiva que varía en el tiempo, estimaciones de tiempo de divergencia Restricciones: La función de tasa debe ser positiva e integrable

Arquitectura del Modelo

1. Marco Fundamental de ICTMC

Para un CTMC no homogéneo, la matriz generadora infinitesimal es una función del tiempo: Q(t)=f(t)QQ(t) = f(t)Q, donde:

  • QQ: matriz generadora infinitesimal base independiente del tiempo
  • f(t)f(t): función de tasa positiva e integrable desconocida

Matriz de probabilidades de transición en tiempo finito: P(t0,t)=exp[t0tf(τ)dτQ]P(t_0, t) = \exp\left[\int_{t_0}^t f(\tau)d\tau \cdot Q\right]

2. Modelo de Reloj de Múltiples Períodos

Parametrización de la función de tasa como constante por tramos: f(t)=θm,wmt<wm1,m=1,,Mf(t) = \theta_m, \quad w_m \leq t < w_{m-1}, \quad m = 1,\ldots,M

donde wM<<w1w_M < \cdots < w_1 son puntos de la malla temporal y θ=(θ1,,θM+1)\theta = (\theta_1,\ldots,\theta_{M+1}) es el vector de parámetros de tasa.

3. Cálculo de Longitud de Rama

Para la rama que conecta el nodo ii con pa(i)pa(i), el número esperado de sustituciones es: bi=θq+1(wqtpa(i))+m=pq1θm+1(wmwm+1)+θp(tiwp)b_i = \theta_{q+1}(w_q - t_{pa(i)}) + \sum_{m=p}^{q-1}\theta_{m+1}(w_m - w_{m+1}) + \theta_p(t_i - w_p)

4. Marco de Inferencia Bayesiana

Diseño de Prior:

  • Prior de campo aleatorio de Markov gaussiano para ζm=logθm\zeta_m = \log\theta_m
  • Diferencia de primer orden: ζm+1ζmτN(0,dm/τ)\zeta_{m+1} - \zeta_m | \tau \sim N(0, d_m/\tau)
  • Prior apropiado: P(ζτ)τM/2exp[τ2ζ(DwρW)ζ]P(\zeta|\tau) \propto \tau^{M/2}\exp[-\frac{\tau}{2}\zeta'(D_w - \rho W)\zeta]

Muestreo Posterior: Uso del método de Monte Carlo Hamiltoniano, calculando gradientes mediante la regla de la cadena: θmlogP(θ,τ,ρ,Q,α,FY)=i=12N2logPbibiθm\frac{\partial}{\partial\theta_m}\log P(\theta,\tau,\rho,Q,\alpha,F|Y) = \sum_{i=1}^{2N-2}\frac{\partial\log P}{\partial b_i}\frac{\partial b_i}{\partial\theta_m}

Puntos de Innovación Técnica

  1. Garantía de Propiedad: Introducción del parámetro ρ<1\rho < 1 para asegurar la propiedad del prior GMRF
  2. Optimización de Gradientes: Desarrollo de cálculo de gradientes con complejidad O(NCS2+NM)O(NCS^2 + NM), significativamente mejor que el método tradicional O(N2CS2)O(N^2CS^2)
  3. Diseño de Malla Flexible: Soporte para configuración de puntos de malla equiespaciados o adaptativos
  4. Modelado Multiescala: Capacidad de manejar diferentes escalas temporales desde semanas hasta siglos

Configuración Experimental

Conjuntos de Datos

  1. Datos Simulados:
    • Simulación de modelo de reloj estricto
    • Simulación de modelo de reloj log-lineal (f(t)=e4.50.05tf(t) = e^{-4.5-0.05t})
  2. Conjuntos de Datos de Virus Reales:
    • Virus del Nilo Occidental: 104 genomas completos (1999-2007)
    • Dengue tipo 3: 352 secuencias (1972-2010)
    • Gripe estacional A/H3N2: 402 secuencias (1968-2010)
    • SARS-CoV-2: 3959 genomas (2020 Europa)

Métricas de Evaluación

  • Mediana posterior e intervalo de credibilidad bayesiano del 95% de trayectorias de tasa evolutiva
  • Precisión de estimación del tiempo del ancestro común más reciente (tMRCA)
  • Verosimilitud marginal logarítmica (comparación de modelos)
  • Tamaño de muestra efectivo (ESS)

Métodos de Comparación

  • Modelo de reloj estricto
  • Modelo de reloj local estocástico
  • Modelo de reloj log-lineal

Detalles de Implementación

  • Implementación mediante paquete BEAST X
  • Iteraciones MCMC: 3-40 millones
  • Número de puntos de malla: 60-360 períodos
  • Prior de precisión GMRF: Gamma(0.001, 0.001)

Resultados Experimentales

Resultados Principales

Verificación Simulada

  1. Escenario de reloj estricto: El modelo de múltiples períodos recupera con precisión la tasa constante, estimaciones de tMRCA exactas
  2. Escenario log-lineal: Recuperación precisa de la trayectoria de tasa real en regiones ricas en datos, ligera sobrestimación en la raíz

Análisis de Datos Reales

Virus del Nilo Occidental:

  • Trayectoria de tasa relativamente constante (5×104\approx 5 \times 10^{-4} subst./sitio/año)
  • tMRCA: 1998 1997,1999
  • Mejor ajuste del modelo de reloj estricto (diferencia de verosimilitud marginal logarítmica 27\approx 27)

Dengue:

  • Patrón fuertemente variable en el tiempo: tasa disminuye 10 veces en 1995-2000, aumenta 10 veces en 2003-2009
  • Modelo de múltiples períodos superior al reloj local estocástico (mejora de verosimilitud marginal logarítmica 220\approx 220)
  • tMRCA: 1972 1963,1973

Gripe Estacional A/H3N2:

  • Patrón estacional evidente: picos en diciembre-febrero
  • Picos más altos después de 2001
  • Posterior ρ=0.26\rho = 0.26 0.07,0.58, evitando suavizado excesivo

Transmisión de SARS-CoV-2 en Europa:

  • Disminución del 90% en tasa de expansión espacial durante confinamiento en marzo de 2020
  • Aumento de 9 veces en tasa tras reapertura estival
  • Correlación negativa con tamaño de población efectiva

Experimentos de Ablación

  • Impacto de densidad de malla: Más períodos proporcionan mayor resolución temporal
  • Sensibilidad de prior: Selección de prior de precisión GMRF tiene impacto limitado en resultados
  • Parámetro de propiedad ρ\rho: Crítico para detección de patrones estacionales

Hallazgos Experimentales

  1. Confirmación de dependencia de escala temporal: Múltiples virus muestran patrones de tasa significativamente variable en el tiempo
  2. Asociación epidemiológica: Cambios de tasa altamente consistentes con medidas de intervención del mundo real
  3. Eficiencia computacional: Optimización de gradientes hace posible análisis de datos a gran escala

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Modelos de reloj relajado: Efectos aleatorios, relojes locales, etc.
  2. Modelos dependientes del tiempo: Decaimiento de ley de potencia, modelos de punto de cambio
  3. Métodos no paramétricos: Procesos gaussianos, funciones spline

Ventajas de Este Trabajo

  1. Rigor teórico: Base matemática sólida basada en ICTMC
  2. Viabilidad computacional: Evita dificultades computacionales de integración de procesos gaussianos
  3. Flexibilidad: Puede manejar patrones de cambio de tasa arbitrariamente complejos
  4. Escalabilidad: Complejidad temporal lineal soporta datos a gran escala

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del método: El modelo de reloj de múltiples períodos captura exitosamente tasas evolutivas que varían en el tiempo
  2. Significado biológico: Revela dinámicas temporales complejas de tasas evolutivas virales
  3. Valor práctico: Proporciona herramienta de análisis en tiempo real para vigilancia de enfermedades infecciosas

Limitaciones

  1. Incertidumbre en la raíz: Mayor incertidumbre en estimación de tasa en la raíz sin puntos de calibración
  2. Complejidad computacional: Aunque optimizado, aún requiere numerosas iteraciones MCMC
  3. Selección de malla: Requiere conocimiento previo para guiar configuración de puntos de malla
  4. Selección de modelo: Falta método automático para determinar número óptimo de períodos

Direcciones Futuras

  1. Modelo CAR bivariado: Modelado conjunto de tasa y tamaño de población efectiva
  2. Malla adaptativa: Desarrollo de método de selección de malla impulsado por datos
  3. Extensión a múltiples loci: Manejo de heterogeneidad en datos de genoma completo
  4. Inferencia en tiempo real: Desarrollo de algoritmos de actualización en línea

Evaluación Profunda

Fortalezas

  1. Innovación teórica: Introducción sistemática por primera vez de ICTMC en filogenética, base teórica sólida
  2. Método ingenioso: Parametrización constante por tramos equilibra ingeniosamente flexibilidad y viabilidad computacional
  3. Optimización computacional: Algoritmo de gradientes de tiempo lineal es contribución técnica importante
  4. Verificación empírica: Validación integral que abarca datos simulados y múltiples conjuntos de datos reales
  5. Perspectiva biológica: Revela características dinámicas temporales importantes de evolución viral

Deficiencias

  1. Sensibilidad de prior: Propiedad del prior GMRF requiere ajuste cuidadoso del parámetro ρ\rho
  2. Complejidad del modelo: Espacio de parámetros de alta dimensión puede causar problemas de convergencia
  3. Desafío de interpretación: Interpretación biológica de patrones complejos que varían en el tiempo requiere investigación más profunda
  4. Recursos computacionales: Análisis de datos a gran escala aún requiere recursos computacionales sustanciales

Impacto

  1. Contribución metodológica: Proporciona nuevo marco teórico para modelos de reloj filogenético
  2. Implementación de software: Integración en BEAST X asegura aplicación amplia del método
  3. Valor interdisciplinario: Aplicación exitosa de métodos estadísticos a problemas biológicos
  4. Monitoreo en tiempo real: Proporciona herramienta importante para respuesta a brotes de enfermedades infecciosas

Escenarios de Aplicación

  1. Virus de rápida evolución: Virus de ARN, virus de gripe, etc.
  2. Vigilancia de epidemias: Seguimiento en tiempo real de dinámicas de transmisión de patógenos
  3. Biología evolutiva: Investigación de patrones temporales de evolución adaptativa
  4. Paleontología: Análisis de cambios de tasa evolutiva en escalas de tiempo largas

Referencias

El artículo cita literatura importante en filogenética, inferencia bayesiana y procesos de Markov, incluyendo el algoritmo clásico de poda de Felsenstein, modelos de reloj relajado de Drummond et al., y teoría de campo aleatorio de Markov gaussiano de Rue & Held y otros trabajos fundamentales.


Evaluación General: Este es un artículo de metodología de alta calidad con contribuciones importantes en innovación teórica, implementación técnica y aplicación práctica. El modelo de reloj de múltiples períodos proporciona una nueva herramienta para inferencia filogenética, particularmente adecuada para investigación de organismos de rápida evolución. Las derivaciones matemáticas del artículo son rigurosas, el diseño experimental es razonable y los resultados son convincentes, con impacto esperado significativo en filogenética e investigación de enfermedades infecciosas.