Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
- ID de l'article : 2510.11982
- Titre : Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates
- Auteurs : Pratyusa Datta (UCLA), Philippe Lemey (KU Leuven), Marc A. Suchard (UCLA)
- Classification : stat.ME (Statistique - Méthodologie), q-bio.PE (Biologie quantitative - Populations et Évolution)
- Date de publication : 13 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.11982
Cet article propose un cadre flexible d'inférence phylogénétique bayésienne qui s'adapte aux taux d'évolution variant dans le temps en modélisant le processus de substitution de caractères de séquence comme des chaînes de Markov en temps continu inhomogènes (ICTMCs). La méthode paramétrise les taux d'évolution comme des fonctions constantes par morceaux avec de nombreuses périodes (modèle d'horloge multi-périodes), rendant le calcul des probabilités de transition relativement peu coûteux tout en capturant flexiblement les variations de taux. Un prior de champ aléatoire de Markov gaussien est adopté pour réaliser le lissage temporel de la fonction de taux estimée, et l'efficacité computationnelle est améliorée par l'échantillonnage hamiltonien de Monte-Carlo avec évaluation de gradient scalable.
Le problème central en phylogénétique est de reconstruire l'histoire évolutive à partir de données de séquences moléculaires et d'estimer les taux d'évolution. Les méthodes traditionnelles supposent que les taux d'évolution restent constants dans le temps, mais cette hypothèse ne s'applique pas aux organismes à évolution rapide comme les virus.
- Signification en biologie évolutive : L'estimation précise des taux d'évolution variant dans le temps est cruciale pour comprendre les mécanismes de diversification biologique
- Valeur pour la recherche en maladies infectieuses : Les séquences génomiques virales accumulent des changements génétiques significatifs sur de courtes échelles de temps, nécessitant des capacités d'analyse en temps réel
- Dépendance à l'échelle temporelle : Des études montrent que les estimations des taux d'évolution virale dépendent fortement du cadre temporel d'échantillonnage
- Hypothèse CTMC homogène : Les méthodes traditionnelles supposent que le processus de substitution sur les branches est une chaîne de Markov en temps continu homogène
- Modèles de variation de taux figés : Les modèles d'horloge relaxée existants font des hypothèses fixes sur les modèles de variation de taux
- Complexité computationnelle : Les approches entièrement non-paramétriques font face à des défis computationnels
Développer un cadre flexible capable de modéliser directement les taux d'évolution comme des fonctions du temps, surmonter les limitations de l'hypothèse CTMC homogène, et fournir des estimations plus précises des taux d'évolution pour les virus à évolution rapide et autres organismes.
- Innovation théorique : Introduction systématique des chaînes de Markov en temps continu inhomogènes (ICTMCs) en inférence phylogénétique
- Percée méthodologique : Proposition du modèle d'horloge multi-périodes, paramétrant la fonction de taux comme une fonction constante par morceaux sur de nombreuses périodes
- Optimisation computationnelle : Développement d'un algorithme d'évaluation de gradient avec complexité temporelle linéaire, combiné avec HMC pour un échantillonnage efficace
- Conception de prior : Utilisation d'un prior de champ aléatoire de Markov gaussien approprié assurant la propriété de la distribution postérieure
- Vérification empirique : Validation de la méthode sur plusieurs ensembles de données virales, incluant l'analyse de la transmission du SARS-CoV-2
Entrée : N séquences moléculaires alignées, informations de temps d'échantillonnage
Sortie : Arbre phylogénétique, trajectoire des taux d'évolution variant dans le temps, estimations des temps de divergence
Contraintes : La fonction de taux doit être positive et intégrable
Pour une CTMC inhomogène, la matrice génératrice infinitésimale est une fonction du temps : Q(t)=f(t)Q, où :
- Q : matrice génératrice infinitésimale de base indépendante du temps
- f(t) : fonction de taux positive et intégrable inconnue
Matrice de probabilité de transition sur un intervalle fini :
P(t0,t)=exp[∫t0tf(τ)dτ⋅Q]
Paramétrise la fonction de taux comme constante par morceaux :
f(t)=θm,wm≤t<wm−1,m=1,…,M
où wM<⋯<w1 sont les points de grille temporelle et θ=(θ1,…,θM+1) est le vecteur des paramètres de taux.
Pour la branche reliant le nœud i à pa(i), le nombre attendu de substitutions est :
bi=θq+1(wq−tpa(i))+∑m=pq−1θm+1(wm−wm+1)+θp(ti−wp)
Conception du prior :
- Prior de champ aléatoire de Markov gaussien sur ζm=logθm
- Différences du premier ordre : ζm+1−ζm∣τ∼N(0,dm/τ)
- Prior approprié : P(ζ∣τ)∝τM/2exp[−2τζ′(Dw−ρW)ζ]
Échantillonnage postérieur : Utilisation de la méthode hamiltonienne de Monte-Carlo, calcul du gradient via la règle de chaîne :
∂θm∂logP(θ,τ,ρ,Q,α,F∣Y)=∑i=12N−2∂bi∂logP∂θm∂bi
- Assurance d'appropriabilité : Introduction du paramètre ρ<1 assurant l'appropriabilité du prior GMRF
- Optimisation du gradient : Développement du calcul de gradient avec complexité O(NCS2+NM), significativement meilleur que la méthode traditionnelle O(N2CS2)
- Conception de grille flexible : Support des points de grille équidistants ou adaptatifs
- Modélisation multi-échelle : Traitement de différentes échelles temporelles allant de la semaine au siècle
- Données simulées :
- Simulation avec modèle d'horloge stricte
- Simulation avec modèle d'horloge log-linéaire (f(t)=e−4.5−0.05t)
- Ensembles de données virales réelles :
- Virus du Nil occidental : 104 génomes complets (1999-2007)
- Dengue de type 3 : 352 séquences (1972-2010)
- Grippe saisonnière A/H3N2 : 402 séquences (1968-2010)
- SARS-CoV-2 : 3959 génomes (2020, Europe)
- Médiane postérieure et intervalle de crédibilité bayésien à 95% de la trajectoire des taux d'évolution
- Précision de l'estimation du temps du dernier ancêtre commun (tMRCA)
- Vraisemblance marginale logarithmique (comparaison de modèles)
- Taille effective d'échantillon (ESS)
- Modèle d'horloge stricte
- Modèle d'horloge local stochastique
- Modèle d'horloge log-linéaire
- Utilisation du package BEAST X
- Nombre d'itérations MCMC : 3 à 40 millions
- Nombre de points de grille : 60-360 périodes
- Prior de précision GMRF : Gamma(0.001, 0.001)
- Scénario d'horloge stricte : Le modèle multi-périodes récupère avec précision le taux constant, l'estimation du tMRCA est exacte
- Scénario log-linéaire : Récupération précise de la trajectoire de taux réelle dans les régions riches en données, légère surestimation à la racine
Virus du Nil occidental :
- Trajectoire de taux relativement constante (≈5×10−4 subst./site/an)
- tMRCA : 1998 1997,1999
- Le modèle d'horloge stricte s'ajuste mieux (différence de vraisemblance marginale logarithmique ≈27)
Dengue :
- Motif fortement variant dans le temps : diminution du taux de 10 fois en 1995-2000, augmentation de 10 fois en 2003-2009
- Le modèle multi-périodes surpasse l'horloge locale stochastique (amélioration de vraisemblance marginale logarithmique ≈220)
- tMRCA : 1972 1963,1973
Grippe saisonnière A/H3N2 :
- Motif saisonnier évident : pic en décembre-février
- Augmentation des pics après 2001
- Postérieur ρ=0,26 0,07,0,58, évitant le sur-lissage
Transmission du SARS-CoV-2 en Europe :
- Diminution de 90% du taux de diffusion spatiale pendant le confinement de mars 2020
- Augmentation de 9 fois du taux après le déconfinement estival
- Corrélation négative avec la taille effective de la population
- Impact de la densité de grille : Plus de périodes fournissent une résolution temporelle plus élevée
- Sensibilité du prior : Le choix du prior de précision GMRF a un impact limité sur les résultats
- Paramètre d'appropriabilité ρ : Crucial pour la détection des motifs saisonniers
- Confirmation de la dépendance à l'échelle temporelle : Plusieurs virus montrent des motifs de taux significativement variants dans le temps
- Associations épidémiologiques : Les changements de taux sont hautement cohérents avec les mesures d'intervention du monde réel
- Efficacité computationnelle : L'optimisation du gradient rend l'analyse de données à grande échelle possible
- Modèles d'horloge relaxée : Effets aléatoires, horloges locales, etc.
- Modèles dépendant du temps : Décroissance en loi de puissance, modèles de points de rupture
- Méthodes non-paramétriques : Processus gaussiens, fonctions spline
- Rigueur théorique : Fondation mathématique solide basée sur ICTMC
- Faisabilité computationnelle : Évite les difficultés computationnelles de l'intégration des processus gaussiens
- Flexibilité : Peut traiter des motifs de variation de taux arbitrairement complexes
- Scalabilité : Complexité temporelle linéaire supportant l'analyse de données à grande échelle
- Efficacité de la méthode : Le modèle d'horloge multi-périodes capture avec succès les taux d'évolution variant dans le temps
- Signification biologique : Révèle la dynamique temporelle complexe des taux d'évolution virale
- Valeur pratique : Fournit un outil d'analyse en temps réel pour la surveillance des maladies infectieuses
- Incertitude à la racine : L'estimation du taux à la racine présente une incertitude plus grande en l'absence de points de calibrage
- Complexité computationnelle : Bien qu'optimisée, elle nécessite toujours un grand nombre d'itérations MCMC
- Sélection de grille : Nécessite des connaissances préalables pour guider la configuration des points de grille
- Sélection de modèle : Absence de méthode automatique pour déterminer le nombre optimal de périodes
- Modèles CAR bivariés : Modélisation conjointe du taux et de la taille effective de la population
- Grille adaptative : Développement de méthodes de sélection de grille pilotées par les données
- Extension multi-locus : Traitement de l'hétérogénéité des données de génome complet
- Inférence en temps réel : Développement d'algorithmes de mise à jour en ligne
- Innovation théorique : Introduction systématique d'ICTMC en phylogénétique, fondation théorique solide
- Méthode ingénieuse : La paramétrisation constante par morceaux équilibre ingénieusement flexibilité et faisabilité computationnelle
- Optimisation computationnelle : L'algorithme de gradient en temps linéaire est une contribution technique importante
- Vérification empirique complète : Validation complète couvrant simulations et multiples ensembles de données réelles
- Intuitions biologiques : Révèle les caractéristiques temporelles importantes de l'évolution virale
- Sensibilité du prior : L'appropriabilité du prior GMRF nécessite un ajustement soigneux du paramètre ρ
- Complexité du modèle : L'espace de paramètres de haute dimension peut entraîner des problèmes de convergence
- Défis d'interprétabilité : L'interprétation biologique des motifs complexes variant dans le temps nécessite une recherche plus approfondie
- Ressources computationnelles : L'analyse de données à grande échelle nécessite toujours des ressources computationnelles substantielles
- Contribution méthodologique : Fournit un nouveau cadre théorique pour les modèles d'horloge phylogénétique
- Implémentation logicielle : L'intégration BEAST X assure l'application généralisée de la méthode
- Valeur interdisciplinaire : Application réussie des méthodes statistiques aux problèmes biologiques
- Surveillance en temps réel : Fournit un outil important pour la réponse aux foyers de maladies infectieuses
- Virus à évolution rapide : Virus à ARN, virus de la grippe, etc.
- Surveillance épidémiologique : Suivi en temps réel de la dynamique de transmission des pathogènes
- Biologie évolutive : Étude des motifs temporels de l'évolution adaptative
- Paléontologie : Analyse des changements de taux d'évolution sur de longues échelles temporelles
L'article cite d'importantes références dans les domaines de la phylogénétique, de l'inférence bayésienne et des processus de Markov, incluant l'algorithme de pruning classique de Felsenstein, les modèles d'horloge relaxée de Drummond et autres, ainsi que la théorie des champs aléatoires de Markov gaussiens de Rue & Held et autres travaux fondamentaux.
Évaluation générale : Ceci est un article de haute qualité en méthodologie, avec des contributions importantes en innovation théorique, implémentation technique et application pratique. Le modèle d'horloge multi-périodes fournit un nouvel outil pour l'inférence phylogénétique, particulièrement adapté à l'étude des organismes à évolution rapide. Les dérivations mathématiques sont rigoureuses, la conception expérimentale est rationnelle, et les résultats sont convaincants. L'article devrait avoir un impact important sur la phylogénétique et la recherche en maladies infectieuses.