2025-11-19T01:43:13.983106

Inhomogeneous continuous-time Markov chains to infer flexible time-varying evolutionary rates

Datta, Lemey, Suchard
Reconstructing evolutionary histories and estimating the rate of evolution from molecular sequence data is of central importance in evolutionary biology and infectious disease research. We introduce a flexible Bayesian phylogenetic inference framework that accommodates changing evolutionary rates over time by modeling sequence character substitution processes as inhomogeneous continuous-time Markov chains (ICTMCs) acting along the unknown phylogeny, where the rate remains as an unknown, positive and integrable function of time. The integral of the rate function appears in the finite-time transition probabilities of the ICTMCs that must be efficiently computed for all branches of the phylogeny to evaluate the observed data likelihood. Circumventing computational challenges that arise from a fully nonparametric function, we successfully parameterize the rate function as piecewise constant with a large number of epochs that we call the polyepoch clock model. This makes the transition probability computation relatively inexpensive and continues to flexibly capture rate change over time. We employ a Gaussian Markov random field prior to achieve temporal smoothing of the estimated rate function. Hamiltonian Monte Carlo sampling enabled by scalable gradient evaluation under this model makes our framework computationally efficient. We assess the performance of the polyepoch clock model in recovering the true timescales and rates through simulations under two different evolutionary scenarios. We then apply the polyepoch clock model to examine the rates of West Nile virus, Dengue virus and influenza A/H3N2 evolution, and estimate the time-varying rate of SARS-CoV-2 spread in Europe in 2020.
academic

سلاسل ماركوف المتصلة غير المتجانسة لاستنتاج معدلات التطور المرنة المتغيرة مع الزمن

المعلومات الأساسية

  • معرّف الورقة: 2510.11982
  • العنوان: سلاسل ماركوف المتصلة غير المتجانسة لاستنتاج معدلات التطور المرنة المتغيرة مع الزمن
  • المؤلفون: براتيوسا داتا (جامعة كاليفورنيا، لوس أنجلوس)، فيليب ليمي (جامعة لوفان الكاثوليكية)، مارك أ. سوشار (جامعة كاليفورنيا، لوس أنجلوس)
  • التصنيف: stat.ME (الإحصاء - المنهجية)، q-bio.PE (البيولوجيا الكمية - علم السكان والتطور)
  • تاريخ النشر: 13 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.11982

الملخص

تقترح هذه الورقة إطار عمل بايزي مرن للاستدلال النشوئي والتطوري، حيث يتم نمذجة عملية استبدال أحرف التسلسل كسلاسل ماركوف المتصلة غير المتجانسة (ICTMCs) للتكيف مع معدلات التطور المتغيرة مع الزمن. تقوم الطريقة بمعاملة معاملات معدل التطور كدوال ثابتة متعددة الفترات (نموذج الساعة متعدد الفترات)، مما يجعل حسابات احتمالية الانتقال رخيصة نسبياً وقادرة على التقاط تغييرات المعدل بمرونة. يتم تطبيق أولويات حقل ماركوف العشوائي الغاوسي لتحقيق التمويه الزمني لدالة المعدل المقدرة، وتحسين الكفاءة الحسابية من خلال أخذ عينات هاميلتونيان مونت كارلو مع تقييم التدرج القابل للتوسع.

السياق البحثي والدافع

تعريف المشكلة

تتمثل المشكلة الأساسية في علم النشوء والتطور الجزيئي في إعادة بناء التاريخ التطوري من بيانات التسلسل الجزيئي وتقدير معدلات التطور. تفترض الطرق التقليدية أن معدلات التطور تبقى ثابتة عبر الزمن، لكن هذا الافتراض لا ينطبق على الكائنات الحية سريعة التطور مثل الفيروسات.

الأهمية

  1. الأهمية في علم التطور: يعتبر التقدير الدقيق لمعدلات التطور المتغيرة مع الزمن حاسماً لفهم آليات التنوع البيولوجي
  2. قيمة البحث في الأمراض المعدية: تتراكم تسلسلات الفيروسات الجينومية تغييرات وراثية كبيرة على مدى فترات زمنية قصيرة، مما يتطلب قدرات تحليل فورية
  3. الاعتماد على المقياس الزمني: تشير الدراسات إلى أن تقديرات معدل التطور للفيروسات تعتمد بشكل كبير على إطار الزمن للعينة

قيود الطرق الموجودة

  1. افتراض CTMC المتجانس: تفترض الطرق التقليدية أن عملية الاستبدال على الفروع عبارة عن سلسلة ماركوف متصلة متجانسة
  2. تثبيت أنماط تباين المعدل: تقوم نماذج الساعة المرنة الموجودة بافتراضات ثابتة حول أنماط تباين المعدل
  3. التعقيد الحسابي: تواجه الطرق الوظيفية غير البارامترية بالكامل تحديات حسابية

الدافع البحثي

تطوير إطار عمل مرن قادر على نمذجة معدلات التطور مباشرة كدالة للزمن، والتغلب على قيود افتراض CTMC المتجانس، وتوفير تقديرات معدل تطور أكثر دقة للفيروسات سريعة التطور مثل الفيروسات.

المساهمات الأساسية

  1. الابتكار النظري: إدراج سلاسل ماركوف المتصلة غير المتجانسة (ICTMCs) بشكل منهجي للمرة الأولى في الاستدلال النشوئي والتطوري
  2. اختراق الطريقة: اقتراح نموذج الساعة متعدد الفترات، حيث يتم معاملة دالة المعدل كدالة ثابتة متعددة الفترات على عدد كبير من الفترات
  3. التحسين الحسابي: تطوير خوارزمية تقييم التدرج بتعقيد زمني خطي، مع دمج HMC لتحقيق أخذ عينات فعال
  4. تصميم الأولويات: استخدام أولويات حقل ماركوف العشوائي الغاوسي المناسبة لضمان ملاءمة التوزيع اللاحق
  5. التحقق التجريبي: التحقق من فعالية الطريقة على مجموعات بيانات فيروسية متعددة، بما في ذلك تحليل انتشار SARS-CoV-2

شرح الطريقة

تعريف المهمة

المدخلات: N من التسلسلات الجزيئية المرتبة، معلومات وقت العينة المخرجات: شجرة نشوئية وتطورية، مسار معدل التطور المتغير مع الزمن، تقديرات وقت الاختلاف القيود: يجب أن تكون دالة المعدل موجبة وقابلة للتكامل

بنية النموذج

1. إطار عمل ICTMC الأساسي

بالنسبة لـ CTMC غير المتجانس، تكون مصفوفة المولد اللامتناهي دالة للزمن: Q(t)=f(t)QQ(t) = f(t)Q، حيث:

  • QQ: مصفوفة المولد اللامتناهي الأساسية المستقلة عن الزمن
  • f(t)f(t): دالة معدل موجبة قابلة للتكامل غير معروفة

مصفوفة احتمالية الانتقال للفترة الزمنية المحدودة: P(t0,t)=exp[t0tf(τ)dτQ]P(t_0, t) = \exp\left[\int_{t_0}^t f(\tau)d\tau \cdot Q\right]

2. نموذج الساعة متعدد الفترات

معاملة دالة المعدل كدالة ثابتة متعددة الفترات: f(t)=θm,wmt<wm1,m=1,,Mf(t) = \theta_m, \quad w_m \leq t < w_{m-1}, \quad m = 1,\ldots,M

حيث wM<<w1w_M < \cdots < w_1 هي نقاط الشبكة الزمنية، وθ=(θ1,,θM+1)\theta = (\theta_1,\ldots,\theta_{M+1}) هو متجه معاملات المعدل.

3. حساب طول الفرع

بالنسبة للفرع الذي يربط العقدة ii بـ pa(i)pa(i)، يكون العدد المتوقع للاستبدالات: bi=θq+1(wqtpa(i))+m=pq1θm+1(wmwm+1)+θp(tiwp)b_i = \theta_{q+1}(w_q - t_{pa(i)}) + \sum_{m=p}^{q-1}\theta_{m+1}(w_m - w_{m+1}) + \theta_p(t_i - w_p)

4. إطار عمل الاستدلال البايزي

تصميم الأولويات:

  • استخدام أولويات حقل ماركوف العشوائي الغاوسي لـ ζm=logθm\zeta_m = \log\theta_m
  • الفرق من الدرجة الأولى: ζm+1ζmτN(0,dm/τ)\zeta_{m+1} - \zeta_m | \tau \sim N(0, d_m/\tau)
  • الأولويات المناسبة: P(ζτ)τM/2exp[τ2ζ(DwρW)ζ]P(\zeta|\tau) \propto \tau^{M/2}\exp[-\frac{\tau}{2}\zeta'(D_w - \rho W)\zeta]

أخذ عينات لاحقة: استخدام طريقة هاميلتونيان مونت كارلو، مع حساب التدرجات باستخدام قاعدة السلسلة: θmlogP(θ,τ,ρ,Q,α,FY)=i=12N2logPbibiθm\frac{\partial}{\partial\theta_m}\log P(\theta,\tau,\rho,Q,\alpha,F|Y) = \sum_{i=1}^{2N-2}\frac{\partial\log P}{\partial b_i}\frac{\partial b_i}{\partial\theta_m}

نقاط الابتكار التقني

  1. ضمان الملاءمة: إدخال المعامل ρ<1\rho < 1 لضمان ملاءمة أولويات GMRF
  2. تحسين التدرج: تطوير حساب التدرج بتعقيد O(NCS2+NM)O(NCS^2 + NM)، وهو أفضل بكثير من الطريقة التقليدية O(N2CS2)O(N^2CS^2)
  3. تصميم الشبكة المرن: دعم إعدادات نقاط الشبكة المتساوية أو التكيفية
  4. النمذجة متعددة المقاييس: القدرة على التعامل مع مقاييس زمنية مختلفة من الأسابيع إلى القرون

إعداد التجارب

مجموعات البيانات

  1. البيانات المحاكاة:
    • محاكاة نموذج الساعة الصارم
    • محاكاة نموذج الساعة اللوغاريتمي الخطي (f(t)=e4.50.05tf(t) = e^{-4.5-0.05t})
  2. مجموعات البيانات الفيروسية الحقيقية:
    • فيروس غرب النيل: 104 جينومات كاملة (1999-2007)
    • فيروس حمى الضنك من النوع 3: 352 تسلسل (1972-2010)
    • إنفلونزا A/H3N2 الموسمية: 402 تسلسل (1968-2010)
    • SARS-CoV-2: 3959 جينوم (أوروبا 2020)

مؤشرات التقييم

  • الوسيط اللاحق وفترات الثقة البايزية بنسبة 95% لمسار معدل التطور
  • دقة تقدير الوقت للسلف المشترك الأخير (tMRCA)
  • احتمالية الهامش اللوغاريتمية (مقارنة النماذج)
  • حجم العينة الفعال (ESS)

طرق المقارنة

  • نموذج الساعة الصارم
  • نموذج الساعة المحلي العشوائي
  • نموذج الساعة اللوغاريتمي الخطي

تفاصيل التنفيذ

  • استخدام حزمة BEAST X
  • عدد تكرارات MCMC: 3 إلى 40 مليون
  • عدد نقاط الشبكة: 60-360 فترة
  • أولويات دقة GMRF: Gamma(0.001, 0.001)

نتائج التجارب

النتائج الرئيسية

التحقق من المحاكاة

  1. سيناريو الساعة الصارمة: يقوم نموذج متعدد الفترات بالاسترجاع الدقيق للمعدل الثابت، وتقدير tMRCA دقيق
  2. سيناريو اللوغاريتمي الخطي: استرجاع دقيق لمسار المعدل الحقيقي في المناطق الغنية بالبيانات، مع ارتفاع طفيف عند الجذر

تحليل البيانات الحقيقية

فيروس غرب النيل:

  • مسار المعدل ثابت نسبياً (5×104\approx 5 \times 10^{-4} subst./site/yr)
  • tMRCA: 1998 1997,1999
  • نموذج الساعة الصارم يناسب بشكل أفضل (فرق احتمالية الهامش اللوغاريتمية 27\approx 27)

فيروس حمى الضنك:

  • نمط متغير بقوة مع الزمن: انخفاض المعدل بمعامل 10 خلال 1995-2000، ارتفاع بمعامل 10 خلال 2003-2009
  • نموذج متعدد الفترات يتفوق على نموذج الساعة المحلي العشوائي (تحسن احتمالية الهامش اللوغاريتمية 220\approx 220)
  • tMRCA: 1972 1963,1973

إنفلونزا A/H3N2 الموسمية:

  • نمط موسمي واضح: ذروة خلال ديسمبر-فبراير
  • ارتفاع الذروة بعد 2001
  • اللاحق ρ=0.26\rho = 0.26 0.07,0.58، يتجنب الإفراط في التمويه

انتشار SARS-CoV-2 الأوروبي:

  • انخفاض معدل الانتشار المكاني بنسبة 90% خلال فترة الإغلاق في مارس 2020
  • ارتفاع المعدل بمعامل 9 بعد فتح الصيف
  • ارتباط سلبي مع حجم السكان الفعال

التجارب الاستئصالية

  • تأثير كثافة الشبكة: توفر فترات أكثر دقة زمنية أعلى
  • حساسية الأولويات: اختيار أولويات دقة GMRF له تأثير محدود على النتائج
  • معامل الملاءمة ρ\rho: حاسم للكشف عن الأنماط الموسمية

النتائج التجريبية

  1. تأكيد الاعتماد على المقياس الزمني: يُظهر عدد من الفيروسات أنماط معدل متغيرة بشكل كبير مع الزمن
  2. الارتباط الوبائي: تغييرات المعدل متسقة بشكل كبير مع تدابير التدخل في العالم الحقيقي
  3. الكفاءة الحسابية: يجعل تحسين التدرج تحليل البيانات واسعة النطاق ممكناً

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. نماذج الساعة المرنة: التأثيرات العشوائية، الساعات المحلية، وغيرها
  2. النماذج المعتمدة على الزمن: تناقص القانون الأسي، نماذج نقطة التغيير
  3. الطرق غير البارامترية: العمليات الغاوسية، دوال التمويه

مزايا هذه الورقة

  1. الصرامة النظرية: أساس رياضي متين بناءً على ICTMC
  2. الجدوى الحسابية: تجنب الصعوبات الحسابية لتكامل العملية الغاوسية
  3. المرونة: القدرة على التعامل مع أنماط معدل معقدة بشكل تعسفي
  4. قابلية التوسع: دعم التعقيد الزمني الخطي لبيانات واسعة النطاق

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: نموذج الساعة متعدد الفترات يقوم بالتقاط معدلات التطور المتغيرة مع الزمن بنجاح
  2. الأهمية البيولوجية: الكشف عن الديناميكيات الزمنية المعقدة لمعدلات تطور الفيروسات
  3. القيمة العملية: توفير أدوات تحليل فورية لمراقبة الأمراض المعدية

القيود

  1. عدم اليقين عند الجذر: يكون تقدير معدل الجذر غير مؤكد عند الافتقار إلى نقاط المعايرة
  2. التعقيد الحسابي: على الرغم من التحسين، لا يزال يتطلب عدداً كبيراً من تكرارات MCMC
  3. اختيار الشبكة: يتطلب معرفة مسبقة لتوجيه إعداد نقاط الشبكة
  4. اختيار النموذج: الافتقار إلى طريقة تلقائية لتحديد العدد الأمثل للفترات

الاتجاهات المستقبلية

  1. نماذج CAR ثنائية المتغيرات: النمذجة المشتركة لمعدل التطور وحجم السكان الفعال
  2. الشبكة التكيفية: تطوير طرق اختيار الشبكة المدفوعة بالبيانات
  3. التوسع متعدد الموقع: التعامل مع عدم التجانس في بيانات الجينوم الكاملة
  4. الاستدلال الفوري: تطوير خوارزميات التحديث عبر الإنترنت

التقييم المتعمق

المزايا

  1. الابتكار النظري: إدراج منهجي أول لـ ICTMC في علم النشوء والتطور، مع أساس نظري متين
  2. براعة الطريقة: المعاملة الثابتة متعددة الفترات توازن بذكاء بين المرونة والجدوى الحسابية
  3. التحسين الحسابي: خوارزمية التدرج الخطي الزمني مساهمة تقنية مهمة
  4. التحقق التجريبي: التحقق الشامل يغطي البيانات المحاكاة والعديد من مجموعات البيانات الحقيقية
  5. الرؤى البيولوجية: الكشف عن خصائص الديناميكيات الزمنية المهمة لتطور الفيروسات

أوجه القصور

  1. حساسية الأولويات: تتطلب ملاءمة أولويات GMRF ضبطاً دقيقاً لمعامل ρ\rho
  2. تعقيد النموذج: قد يؤدي فضاء المعاملات عالي الأبعاد إلى مشاكل التقارب
  3. تحديات التفسير: لا يزال يتطلب بحثاً متعمقاً لتفسير الأنماط المعقدة المتغيرة مع الزمن بيولوجياً
  4. موارد حسابية: لا يزال تحليل البيانات واسعة النطاق يتطلب موارد حسابية كبيرة

التأثير

  1. المساهمة المنهجية: توفير إطار نظري جديد لنماذج ساعة النشوء والتطور
  2. التنفيذ البرمجي: يضمن التكامل مع BEAST X التطبيق الواسع للطريقة
  3. القيمة متعددة التخصصات: تطبيق ناجح للطرق الإحصائية في المشاكل البيولوجية
  4. المراقبة الفورية: أداة مهمة لاستجابة تفشي الأمراض المعدية

السيناريوهات المعمول بها

  1. الفيروسات سريعة التطور: الفيروسات الحمضية النووية الريبوزية، فيروسات الإنفلونزا، وغيرها
  2. مراقبة الأوبئة: تتبع ديناميكيات انتشار مسببات الأمراض في الوقت الفعلي
  3. علم التطور: دراسة الأنماط الزمنية للتطور التكيفي
  4. علم الحفريات: تحليل تغييرات معدل التطور على مدى فترات زمنية طويلة

المراجع

تستشهد الورقة بأدبيات مهمة في مجالات علم النشوء والتطور، والاستدلال البايزي، وعمليات ماركوف، بما في ذلك خوارزمية التقليم الكلاسيكية لـ Felsenstein، ونماذج الساعة المرنة لـ Drummond وآخرين، ونظرية حقل ماركوف العشوائي الغاوسي لـ Rue و Held وغيرها من الأعمال الأساسية.


التقييم الشامل: هذه ورقة عالية الجودة في المنهجية، مع مساهمات مهمة في الابتكار النظري والتنفيذ التقني والتطبيق العملي. يوفر نموذج الساعة متعدد الفترات أداة جديدة للاستدلال النشوئي والتطوري، وهو مناسب بشكل خاص لدراسة الكائنات الحية سريعة التطور. الاشتقاقات الرياضية دقيقة، وتصميم التجارب معقول، والنتائج مقنعة، ومن المتوقع أن يكون للورقة تأثير مهم على علم النشوء والتطور وأبحاث الأمراض المعدية.