2025-11-19T01:43:13.983106

Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates

Datta, Lemey, Suchard
Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
academic

अमानवीय सतत-समय मार्कोव श्रृंखलाएं लचीली समय-परिवर्तनशील विकासवादी दरों का अनुमान लगाने के लिए

मूल जानकारी

  • पेपर ID: 2510.11982
  • शीर्षक: Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates
  • लेखक: प्रत्यूष दत्ता (UCLA), फिलिप लेमे (KU Leuven), मार्क ए. सुचर्ड (UCLA)
  • वर्गीकरण: stat.ME (सांख्यिकी - पद्धति), q-bio.PE (मात्रात्मक जीव विज्ञान - जनसंख्या और विकास)
  • प्रकाशन समय: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.11982

सारांश

यह पेपर एक लचीली बेयसियन फाइलोजेनेटिक अनुमान रूपरेखा प्रस्तावित करता है, जो अनुक्रम वर्ण प्रतिस्थापन प्रक्रिया को अमानवीय सतत-समय मार्कोव श्रृंखलाओं (ICTMCs) के रूप में मॉडल करके समय-परिवर्तनशील विकासवादी दरों के अनुकूल है। यह विधि विकासवादी दर पैरामीटर को बड़ी संख्या में अवधियों के साथ खंडित स्थिर कार्य (बहु-अवधि घड़ी मॉडल) के रूप में परिभाषित करती है, जिससे संक्रमण संभावना गणना अपेक्षाकृत सस्ती रहती है और दर परिवर्तन को लचीले ढंग से पकड़ा जा सकता है। अनुमानित दर कार्य के समय-सुचारुकरण के लिए गाऊसी मार्कोव यादृच्छिक क्षेत्र पूर्व का उपयोग किया जाता है, और स्केलेबल ग्रेडिएंट मूल्यांकन के माध्यम से हैमिल्टनियन मोंटे कार्लो नमूनाकरण द्वारा कम्प्यूटेशनल दक्षता में सुधार किया जाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

फाइलोजेनेटिक्स में मुख्य समस्या आणविक अनुक्रम डेटा से विकासवादी इतिहास का पुनर्निर्माण करना और विकासवादी दरों का अनुमान लगाना है। पारंपरिक विधियां मानती हैं कि विकासवादी दर समय के साथ स्थिर रहती है, लेकिन यह धारणा तेजी से विकसित होने वाले वायरस जैसे जीवों के लिए सत्य नहीं है।

महत्व

  1. विकासवादी जीव विज्ञान महत्व: समय-परिवर्तनशील विकासवादी दरों का सटीक अनुमान जैविक विविधता के तंत्र को समझने के लिए महत्वपूर्ण है
  2. संक्रामक रोग अनुसंधान मूल्य: वायरल जीनोम अनुक्रम छोटे समय पैमाने पर महत्वपूर्ण आनुवंशिक परिवर्तन जमा करते हैं, जिन्हें वास्तविक समय विश्लेषण क्षमता की आवश्यकता होती है
  3. समय पैमाने निर्भरता: अनुसंधान से पता चलता है कि वायरस की विकासवादी दर अनुमान नमूनाकरण समय ढांचे पर गंभीरता से निर्भर करता है

मौजूदा विधियों की सीमाएं

  1. समरूप CTMC धारणा: पारंपरिक विधियां मानती हैं कि शाखाओं पर प्रतिस्थापन प्रक्रिया समरूप सतत-समय मार्कोव श्रृंखला है
  2. दर भिन्नता पैटर्न निर्धारित: मौजूदा शिथिल घड़ी मॉडल दर भिन्नता पैटर्न के बारे में निश्चित धारणाएं करते हैं
  3. कम्प्यूटेशनल जटिलता: पूरी तरह से गैर-पैरामीट्रिक कार्य विधियां कम्प्यूटेशनल चुनौतियों का सामना करती हैं

अनुसंधान प्रेरणा

विकासवादी दर को समय के कार्य के रूप में सीधे मॉडल करने में सक्षम लचीली रूपरेखा विकसित करना, समरूप CTMC धारणा की सीमाओं को दूर करना, और तेजी से विकसित होने वाले वायरस जैसे के लिए अधिक सटीक विकासवादी दर अनुमान प्रदान करना।

मुख्य योगदान

  1. सैद्धांतिक नवाचार: फाइलोजेनेटिक अनुमान में अमानवीय सतत-समय मार्कोव श्रृंखलाओं (ICTMCs) का पहली बार व्यवस्थित परिचय
  2. विधि सफलता: बहु-अवधि घड़ी मॉडल प्रस्तावित करना, दर कार्य को बड़ी संख्या में अवधियों के खंडित स्थिर कार्य के रूप में परिभाषित करना
  3. कम्प्यूटेशनल अनुकूलन: रैखिक समय जटिलता के साथ ग्रेडिएंट मूल्यांकन एल्गोरिदम विकसित करना, HMC के साथ कुशल नमूनाकरण को एकीभूत करना
  4. पूर्व डिजाइन: उपयुक्त गाऊसी मार्कोव यादृच्छिक क्षेत्र पूर्व का उपयोग करके पश्च वितरण की उपयुक्तता सुनिश्चित करना
  5. अनुभवजन्य सत्यापन: कई वायरल डेटासेट पर विधि की प्रभावशीलता का सत्यापन, SARS-CoV-2 संचरण विश्लेषण सहित

विधि विवरण

कार्य परिभाषा

इनपुट: N संरेखित आणविक अनुक्रम, नमूनाकरण समय जानकारी आउटपुट: फाइलोजेनेटिक वृक्ष, समय-परिवर्तनशील विकासवादी दर प्रक्षेपवक्र, विचलन समय अनुमान बाधाएं: दर कार्य सकारात्मक और समाकलनीय होना चाहिए

मॉडल आर्किटेक्चर

1. ICTMC मूल ढांचा

अमानवीय CTMC के लिए, अनंत जनक मैट्रिक्स समय का कार्य है: Q(t)=f(t)QQ(t) = f(t)Q, जहां:

  • QQ: समय-स्वतंत्र मूल अनंत जनक मैट्रिक्स
  • f(t)f(t): अज्ञात सकारात्मक समाकलनीय दर कार्य

परिमित समय संक्रमण संभावना मैट्रिक्स: P(t0,t)=exp[t0tf(τ)dτQ]P(t_0, t) = \exp\left[\int_{t_0}^t f(\tau)d\tau \cdot Q\right]

2. बहु-अवधि घड़ी मॉडल

दर कार्य को खंडित स्थिर के रूप में परिभाषित करना: f(t)=θm,wmt<wm1,m=1,,Mf(t) = \theta_m, \quad w_m \leq t < w_{m-1}, \quad m = 1,\ldots,M

जहां wM<<w1w_M < \cdots < w_1 समय ग्रिड बिंदु हैं, θ=(θ1,,θM+1)\theta = (\theta_1,\ldots,\theta_{M+1}) दर पैरामीटर वेक्टर है।

3. शाखा लंबाई गणना

नोड ii को pa(i)pa(i) से जोड़ने वाली शाखा के लिए, अपेक्षित प्रतिस्थापन संख्या: bi=θq+1(wqtpa(i))+m=pq1θm+1(wmwm+1)+θp(tiwp)b_i = \theta_{q+1}(w_q - t_{pa(i)}) + \sum_{m=p}^{q-1}\theta_{m+1}(w_m - w_{m+1}) + \theta_p(t_i - w_p)

4. बेयसियन अनुमान रूपरेखा

पूर्व डिजाइन:

  • ζm=logθm\zeta_m = \log\theta_m के लिए गाऊसी मार्कोव यादृच्छिक क्षेत्र पूर्व का उपयोग
  • प्रथम-क्रम अंतर: ζm+1ζmτN(0,dm/τ)\zeta_{m+1} - \zeta_m | \tau \sim N(0, d_m/\tau)
  • उपयुक्त पूर्व: P(ζτ)τM/2exp[τ2ζ(DwρW)ζ]P(\zeta|\tau) \propto \tau^{M/2}\exp[-\frac{\tau}{2}\zeta'(D_w - \rho W)\zeta]

पश्च नमूनाकरण: हैमिल्टनियन मोंटे कार्लो विधि का उपयोग करके, श्रृंखला नियम के साथ ग्रेडिएंट की गणना: θmlogP(θ,τ,ρ,Q,α,FY)=i=12N2logPbibiθm\frac{\partial}{\partial\theta_m}\log P(\theta,\tau,\rho,Q,\alpha,F|Y) = \sum_{i=1}^{2N-2}\frac{\partial\log P}{\partial b_i}\frac{\partial b_i}{\partial\theta_m}

तकनीकी नवाचार बिंदु

  1. उपयुक्तता आश्वासन: पैरामीटर ρ<1\rho < 1 को शामिल करके GMRF पूर्व की उपयुक्तता सुनिश्चित करना
  2. ग्रेडिएंट अनुकूलन: O(NCS2+NM)O(NCS^2 + NM) जटिलता के साथ ग्रेडिएंट गणना विकसित करना, पारंपरिक O(N2CS2)O(N^2CS^2) विधि से काफी बेहतर
  3. लचीली ग्रिड डिजाइन: समान-दूरी या स्व-अनुकूली ग्रिड बिंदु सेटिंग का समर्थन
  4. बहु-पैमाने मॉडलिंग: सप्ताह से सदी तक विभिन्न समय पैमानों को संभालना

प्रयोगात्मक सेटअप

डेटासेट

  1. सिमुलेशन डेटा:
    • कठोर घड़ी मॉडल सिमुलेशन
    • लॉग-रैखिक घड़ी मॉडल सिमुलेशन (f(t)=e4.50.05tf(t) = e^{-4.5-0.05t})
  2. वास्तविक वायरल डेटासेट:
    • पश्चिमी नील वायरस: 104 पूर्ण जीनोम (1999-2007)
    • डेंगू वायरस 3 प्रकार: 352 अनुक्रम (1972-2010)
    • मौसमी इन्फ्लूएंजा A/H3N2: 402 अनुक्रम (1968-2010)
    • SARS-CoV-2: 3959 जीनोम (2020 यूरोप)

मूल्यांकन मेट्रिक्स

  • विकासवादी दर प्रक्षेपवक्र का पश्च माध्यिका और 95% बेयसियन विश्वास अंतराल
  • सबसे हाल के सामान्य पूर्वज समय (tMRCA) अनुमान सटीकता
  • लॉग सीमांत संभावना (मॉडल तुलना)
  • प्रभावी नमूना आकार (ESS)

तुलना विधियां

  • कठोर घड़ी मॉडल
  • यादृच्छिक स्थानीय घड़ी मॉडल
  • लॉग-रैखिक घड़ी मॉडल

कार्यान्वयन विवरण

  • BEAST X सॉफ्टवेयर पैकेज का उपयोग
  • MCMC पुनरावृत्ति संख्या: 3 मिलियन - 40 मिलियन
  • ग्रिड बिंदु संख्या: 60-360 अवधियां
  • GMRF सटीकता पूर्व: Gamma(0.001, 0.001)

प्रयोगात्मक परिणाम

मुख्य परिणाम

सिमुलेशन सत्यापन

  1. कठोर घड़ी परिदृश्य: बहु-अवधि मॉडल स्थिर दर को सटीकता से पुनः प्राप्त करता है, tMRCA अनुमान सटीक है
  2. लॉग-रैखिक परिदृश्य: डेटा-समृद्ध क्षेत्रों में वास्तविक दर प्रक्षेपवक्र को सटीकता से पुनः प्राप्त करता है, मूल में हल्का अधिकतमकरण

वास्तविक डेटा विश्लेषण

पश्चिमी नील वायरस:

  • दर प्रक्षेपवक्र अपेक्षाकृत स्थिर (5×104\approx 5 \times 10^{-4} subst./site/yr)
  • tMRCA: 1998 1997,1999
  • कठोर घड़ी मॉडल बेहतर फिट (लॉग सीमांत संभावना अंतर 27\approx 27)

डेंगू वायरस:

  • मजबूत समय-परिवर्तनशील पैटर्न: 1995-2000 में दर 10 गुना गिरी, 2003-2009 में 10 गुना बढ़ी
  • बहु-अवधि मॉडल यादृच्छिक स्थानीय घड़ी से बेहतर (लॉग सीमांत संभावना वृद्धि 220\approx 220)
  • tMRCA: 1972 1963,1973

मौसमी इन्फ्लूएंजा A/H3N2:

  • स्पष्ट मौसमी पैटर्न: दिसंबर-फरवरी में शिखर
  • 2001 के बाद शिखर में वृद्धि
  • पश्च ρ=0.26\rho = 0.26 0.07,0.58, अत्यधिक सुचारुकरण से बचना

SARS-CoV-2 यूरोपीय संचरण:

  • 2020 मार्च में लॉकडाउन के दौरान स्थानिक प्रसार दर 90% गिरी
  • गर्मी में अनलॉक के बाद दर 9 गुना बढ़ी
  • प्रभावी जनसंख्या आकार के साथ नकारात्मक सहसंबंध

विलोपन प्रयोग

  • ग्रिड घनत्व प्रभाव: अधिक अवधियां उच्च समय संकल्प प्रदान करती हैं
  • पूर्व संवेदनशीलता: GMRF सटीकता पूर्व चयन परिणामों पर सीमित प्रभाव
  • उपयुक्तता पैरामीटर ρ\rho: मौसमी पैटर्न पहचान के लिए महत्वपूर्ण

प्रयोगात्मक निष्कर्ष

  1. समय पैमाने निर्भरता पुष्टि: कई वायरस महत्वपूर्ण समय-परिवर्तनशील दर पैटर्न दिखाते हैं
  2. महामारी विज्ञान संबंध: दर परिवर्तन वास्तविक दुनिया के हस्तक्षेप उपायों के साथ अत्यधिक सुसंगत
  3. कम्प्यूटेशनल दक्षता: ग्रेडिएंट अनुकूलन बड़े पैमाने पर डेटा विश्लेषण को संभव बनाता है

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. शिथिल घड़ी मॉडल: यादृच्छिक प्रभाव, स्थानीय घड़ी आदि
  2. समय-निर्भर मॉडल: शक्ति-कानून क्षय, परिवर्तन बिंदु मॉडल
  3. गैर-पैरामीट्रिक विधियां: गाऊसी प्रक्रियाएं, स्पलाइन कार्य

इस पेपर के लाभ

  1. सैद्धांतिक कठोरता: ICTMC पर आधारित ठोस गणितीय आधार
  2. कम्प्यूटेशनल व्यवहार्यता: गाऊसी प्रक्रिया एकीकरण की कम्प्यूटेशनल कठिनाई से बचना
  3. लचीलापन: किसी भी जटिलता के दर परिवर्तन पैटर्न को संभालना
  4. स्केलेबिलिटी: रैखिक समय जटिलता बड़े पैमाने पर डेटा का समर्थन करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. विधि प्रभावशीलता: बहु-अवधि घड़ी मॉडल समय-परिवर्तनशील विकासवादी दरों को सफलतापूर्वक पकड़ता है
  2. जैविक महत्व: वायरल विकास की दर के जटिल समय गतिशीलता को प्रकट करता है
  3. व्यावहारिक मूल्य: संक्रामक रोग निगरानी के लिए वास्तविक समय विश्लेषण उपकरण प्रदान करता है

सीमाएं

  1. मूल अनिश्चितता: अंशांकन बिंदुओं की कमी के समय मूल दर अनुमान अनिश्चितता बड़ी है
  2. कम्प्यूटेशनल जटिलता: अनुकूलित होने के बावजूद अभी भी बड़ी संख्या में MCMC पुनरावृत्ति की आवश्यकता है
  3. ग्रिड चयन: ग्रिड बिंदु सेटिंग को निर्देशित करने के लिए पूर्व ज्ञान की आवश्यकता है
  4. मॉडल चयन: इष्टतम अवधि संख्या निर्धारित करने के लिए स्वचालित विधि की कमी

भविष्य की दिशाएं

  1. द्विचर CAR मॉडल: दर और प्रभावी जनसंख्या आकार को संयुक्त रूप से मॉडल करना
  2. स्व-अनुकूली ग्रिड: डेटा-संचालित ग्रिड चयन विधि विकसित करना
  3. बहु-जीन स्थान विस्तार: पूर्ण जीनोम डेटा की विषमता को संभालना
  4. वास्तविक समय अनुमान: ऑनलाइन अपडेट एल्गोरिदम विकसित करना

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक नवाचार: फाइलोजेनेटिक्स में ICTMC का पहली बार व्यवस्थित परिचय, ठोस सैद्धांतिक आधार
  2. विधि चतुराई: खंडित स्थिर पैरामीटरकरण लचीलापन और कम्प्यूटेशनल व्यवहार्यता को चतुराई से संतुलित करता है
  3. कम्प्यूटेशनल अनुकूलन: रैखिक समय ग्रेडिएंट एल्गोरिदम महत्वपूर्ण तकनीकी योगदान है
  4. अनुभवजन्य पर्याप्तता: सिमुलेशन और कई वास्तविक डेटासेट का व्यापक सत्यापन
  5. जैविक अंतर्दृष्टि: वायरल विकास की महत्वपूर्ण समय गतिशील विशेषताओं को प्रकट करता है

कमियां

  1. पूर्व संवेदनशीलता: GMRF पूर्व की उपयुक्तता के लिए सावधानीपूर्वक ρ\rho पैरामीटर समायोजन की आवश्यकता है
  2. मॉडल जटिलता: उच्च-आयामी पैरामीटर स्पेस अभिसरण समस्याओं का कारण बन सकता है
  3. व्याख्या चुनौती: जटिल समय-परिवर्तनशील पैटर्न की जैविक व्याख्या अभी भी गहन अनुसंधान की आवश्यकता है
  4. कम्प्यूटेशनल संसाधन: बड़े पैमाने पर डेटा विश्लेषण अभी भी बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता है

प्रभाव

  1. पद्धति विज्ञान योगदान: फाइलोजेनेटिक घड़ी मॉडल के लिए नई सैद्धांतिक रूपरेखा प्रदान करता है
  2. सॉफ्टवेयर कार्यान्वयन: BEAST X एकीकरण विधि के व्यापक अनुप्रयोग को सुनिश्चित करता है
  3. अंतःविषय मूल्य: जैविक समस्याओं में सांख्यिकीय विधि का सफल अनुप्रयोग
  4. वास्तविक समय निगरानी: संक्रामक रोग प्रकोप प्रतिक्रिया के लिए महत्वपूर्ण उपकरण प्रदान करता है

लागू परिदृश्य

  1. तेजी से विकसित होने वाले वायरस: RNA वायरस, इन्फ्लूएंजा वायरस आदि
  2. महामारी निगरानी: रोगजनक संचरण गतिशीलता को वास्तविक समय में ट्रैक करना
  3. विकासवादी जीव विज्ञान: अनुकूली विकास के समय पैटर्न का अध्ययन
  4. पेलियोबायोलॉजी: लंबे समय पैमाने पर विकासवादी दर परिवर्तन विश्लेषण

संदर्भ

पेपर फाइलोजेनेटिक्स, बेयसियन अनुमान और मार्कोव प्रक्रियाओं के क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें Felsenstein के शास्त्रीय pruning एल्गोरिदम, Drummond आदि के शिथिल घड़ी मॉडल, और Rue & Held के गाऊसी मार्कोव यादृच्छिक क्षेत्र सिद्धांत जैसे मौलिक कार्य शामिल हैं।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता की पद्धति विज्ञान पेपर है, जिसमें सैद्धांतिक नवाचार, तकनीकी कार्यान्वयन और व्यावहारिक अनुप्रयोग के संदर्भ में महत्वपूर्ण योगदान हैं। बहु-अवधि घड़ी मॉडल फाइलोजेनेटिक अनुमान के लिए एक नया उपकरण प्रदान करता है, विशेष रूप से तेजी से विकसित होने वाले जीवों के अनुसंधान के लिए उपयुक्त। पेपर की गणितीय व्युत्पत्ति कठोर है, प्रयोगात्मक डिजाइन तर्कसंगत है, परिणाम प्रेरक हैं, और यह फाइलोजेनेटिक्स और संक्रामक रोग अनुसंधान पर महत्वपूर्ण प्रभाव डालने की उम्मीद है।