Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
- معرّف الورقة: 2510.12976
- العنوان: الاستدلال الخالي من الاحتمالية لتوزيعات الأشجار النسبية اللاحقة
- المؤلفون: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
- التصنيف: q-bio.PE (الديموغرافيات والتطور)، q-bio.QM (الطرق الكمية)
- تاريخ النشر: 14 أكتوبر 2024 (نسخة أولية من arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.12976v1
يعتبر الاستدلال النسبي مهمة أساسية في علم الجينوميات التطوري، بهدف إعادة بناء كيفية تطور السلاسل ذات الصلة من سلف مشترك. تستفيد أحدث الطرق من نماذج احتمالية لتطور السلاسل على طول الشجرة النسبية، من خلال البحث عن الشجرة التي تزيد من احتمالية السلاسل المرصودة، أو تقدير توزيع السلاسل اللاحق في إطار بايزي. عادة ما تتطلب كلا الطريقتين حساب دالة الاحتمالية، وهو ما يكون ممكناً فقط تحت افتراضات مبسطة (مثل استقلالية تطور المواقع المختلفة في السلسلة)، وحتى في هذه الحالة يظل عملية مكلفة جداً. تقترح هذه الورقة Phyloformer 2، وهي أول طريقة استدلال خالية من الاحتمالية لتوزيعات الأشجار النسبية اللاحقة. يستفيد Phyloformer 2 من طريقة ترميز جديدة لأزواج السلاسل، مما يجعله أكثر قابلية للتوسع من الطرق السابقة، ويعتمد على تحليل توزيع احتمالي قائم على دمج الأشجار الجزئية المستمر. توفر الشبكة تقديرات دقيقة للتوزيع اللاحق، وتتفوق على أحدث طرق الاحتمالية القصوى وطرق الاستدلال الخالية من الاحتمالية السابقة من حيث التقديرات النقطية.
يعتبر الاستدلال النسبي مهمة إعادة بناء التاريخ التطوري لمجموعة من السلاسل الموجودة، والذي يتطلب تحديد هيكل الشجرة الثنائية الذي يصف كيفية تمايزها من سلف مشترك. تتمتع هذه المهمة بأهمية كبيرة في عدة مجالات:
- علم الأحياء التطوري: فهم كيفية تطور الأنواع الموجودة من سلف مشترك
- انتشار الأمراض: تتبع ظهور وانتشار مقاومة البكتيريا للمضادات الحيوية
- علم الأوبئة: مراقبة أنماط انتشار الأمراض المعدية
تعتمد طرق الاستدلال النسبي التقليدية بشكل أساسي على نماذج احتمالية، وتواجه المشاكل الرئيسية التالية:
- التعقيد الحسابي: يتطلب حساب دالة الاحتمالية خوارزميات قطع مكلفة (Felsenstein, 1981)
- فضاء البحث الضخم: عدد طوبولوجيات الأشجار لـ n عقدة ورقية يساوي (2n-5)!!، مما يجعل البحث صعباً للغاية
- افتراضات تبسيط النموذج: لجعل الحساب ممكناً، يجب افتراض أن تطور كل موقع في السلسلة مستقل وموزع بشكل متطابق، مما يتجاهل الانتقاء الطبيعي
- نتائج محاكاة غير واقعية: تؤدي هذه الافتراضات المبسطة إلى توليد مجموعات سلاسل غير واقعية وقطع أثرية في إعادة البناء النسبي
يوفر الاستدلال الخالي من الاحتمالية (الاستدلال القائم على المحاكاة) نموذجاً جديداً لحل هذه المشاكل:
- عندما يكون تقييم الاحتمالية غير ممكن لكن تكلفة العينات منخفضة، يمكن إجراء التقدير بفعالية
- الاستفادة من التعلم العميق لتدريب الشبكات العصبية على بيانات محاكاة لتقريب التوزيع اللاحق
- الاستدلال المستهلك: التدريب مستهلك للوقت لكن الاستدلال سريع جداً
- يمكن التعامل مع نماذج تطورية أكثر تعقيداً وواقعية
- أول طريقة استدلال لاحقة خالية من الاحتمالية من طرف إلى طرف: تقترح أول طريقة استدلال لاحقة خالية من الاحتمالية مباشرة من السلاسل إلى الأشجار النسبية، متجاوزة الأعمال السابقة المقتصرة على الرباعيات (quartets)
- معمارية شبكة جديدة EvoPF: مستوحاة من EvoFormer في AlphaFold 2، تم تصميم مشفر سلسلة أكثر قابلية للتوسع والتعبير، يمكنه التعامل مع أكثر من 200 سلسلة
- تحليل توزيع احتمالي BayesNJ: تقترح طريقة معاملة توزيع احتمالي نسبي بناءً على عملية دمج مستمرة، مما يضمن صحة التوزيع الاحتمالي
- تحسن أداء كبير: تتفوق على أحدث الطرق القائمة على الاحتمالية من حيث دقة الطوبولوجيا، مع تحسن سرعة الاستدلال بمقدار 1-2 من الرتب
- قابلية تطبيق النماذج المعقدة: يمكن إجراء التدريب تحت نماذج لا يمكن معالجة احتمالياتها، مع توسيع الفجوة في الأداء مقارنة بمقدرات الاحتمالية المحددة بشكل خاطئ
الإدخال: مجموعة من السلاسل المحاذاة x={x1,…,xN}، حيث تحتوي كل سلسلة على L أحرف
الإخراج: شجرة نسبية θ=(τ,ℓ)، تتضمن هيكل الطوبولوجيا τ وأطوال الفروع ℓالهدف: تعلم تقريب التوزيع اللاحق p(θ∣x) بـ qψ(θ∣x)
يتكون Phyloformer 2 من وحدتين أساسيتين:
EvoPF هو نسخة معكوسة من EvoFormer، يحافظ على تمثيلين:
- مكدس MSA: تضمين لكل موقع في كل سلسلة
- مكدس الاقتران: تضمين لكل زوج من السلاسل
التصميمات الرئيسية:
- الانتباه المحوري: استخدام متناوب للانتباه الذاتي في الاتجاه العمودي (بين السلاسل داخل الموقع) والاتجاه الأفقي (بين المواقع داخل السلسلة)
- الانتباه الذاتي المسطح بين الأزواج: تبسيط الانتباه الثلاثي في EvoFormer
- تبادل المعلومات: تحقيق نقل المعلومات بين مكدس MSA ومكدس الاقتران من خلال متوسط الضرب الخارجي والانحياز الاقتران
تعريف التوزيع الاحتمالي على الأشجار النسبية، مع تحليله إلى عملية دمج مستمرة:
qψ(x)(θ=(τ,ℓ)∣x)=∏k=12N−3qm(m(k)∣m(<k))qℓ(ℓ(k)∣m(k),m(<k))
الابتكارات الرئيسية:
- ترتيب الدمج المعياري: ضمان أن لكل شجرة نسبية تسلسل دمج واحد فقط صحيح
- معالجة القيود: ضمان اتساق العينات والتقييم من خلال قيود المسافة
- معاملة أطوال الفروع: استخدام إعادة معاملة المجموع (s(k)) والنسبة (r(k))، مع نمذجة توزيعات Gamma و Beta
- مخطط ترميز قابل للتوسع: مقارنة بتمثيل أزواج السلاسل في Phyloformer، يحسن EvoPF قابلية التوسع بشكل كبير مع الحفاظ على القدرة التعبيرية
- التعريف الصحيح للتوزيع الاحتمالي: حل مشكلة أن نفس الشجرة النسبية يمكن أن تنتج من تسلسلات دمج متعددة من خلال ترتيب دمج معياري
- التدريب من طرف إلى طرف: تحسين احتمالية لاحقة مباشرة، مما يتجنب الخطوات الوسيطة لتنبؤ المسافة
- تحقيق القيود: ضمان أن الأشجار النسبية المأخوذة من العينات تتوافق مع الترتيب المعياري من خلال مصفوفة قيود ديناميكية
- مجموعة التدريب الرئيسية: 1.3 مليون زوج شجرة/MSA بـ 50 تصنيفاً، بناءً على نموذج LG+G8
- مجموعات بيانات متعددة الأحجام: 10-170 تصنيفاً، للضبط الدقيق لتجنب الإفراط في التدريب على عدد التصنيفات
- مجموعة بيانات النموذج المعقد: نموذج Cherry (الاعتماد بين المواقع) ونموذج SelReg (عدم التجانس بين المواقع)
- مجموعة بيانات مقارنة MCMC: تم إنشاؤها باستخدام أولويات RevBayes، لتقييم جودة التوزيع اللاحق
- دقة الطوبولوجيا: مسافة Robinson-Foulds المعايرة
- دقة أطوال الفروع: مسافة Kuhner-Felsenstein
- جودة اللاحق: مقارنة تكرار الأقسام مع عينات MCMC
- الكفاءة الحسابية: وقت التشغيل واستخدام الذاكرة
- القائمة على الاحتمالية: IQTree و FastTree و FastME
- الخالية من الاحتمالية: Phyloformer الأصلي (PF)
- المتغيرات: PF2topo (الطوبولوجيا فقط)، PF2ℓ1 (خسارة L1)
في الاختبارات على 10-200 تصنيف، يتفوق Phyloformer 2 بشكل كبير على جميع طرق المقارنة:
- تحسن كبير على جميع الأحجام مقارنة بـ PF الأصلي
- بالنسبة للأشجار ذات 10-175 ورقة، يتفوق على IQTree و FastTree وغيرها من أحدث طرق الاحتمالية القصوى
- يأتي الفضل الأساسي في الأداء من استخدام توزيع لاحق مع أولويات صحيحة
- السرعة: أسرع بمقدار 1 من الرتب من FastTree، وأسرع بمقدار 2 من الرتب من IQTree
- قابلية التوسع: على الرغم من كثافة الذاكرة، فإن قابلية التوسع أفضل من PF، ويمكنها التعامل مع أشجار أكبر
- PF2topo: نسخة الطوبولوجيا فقط أسرع حتى من PF الأصلي بمقدار قريب من 1 من الرتب
تحت النماذج التي لا يمكن معالجة احتمالياتها (Cherry و SelReg):
- يتفوق PF2 بشكل كبير على نموذج PF المكافئ
- مقارنة بطرق الاحتمالية المحددة بشكل خاطئ، تتسع الفجوة في الأداء أكثر
- يثبت ميزة طرق الاستدلال الخالية من الاحتمالية تحت النماذج المعقدة
من خلال تدريب نسخة PF2ℓ1 باستخدام خسارة L1 تم اكتشاف:
- مشفر EvoPF يوفر بعض المساعدة في التنبؤ بالطوبولوجيا
- لكن معظم تحسن دقة الطوبولوجيا يأتي من دالة خسارة BayesNJ
- يوضح ميزة تقدير اللاحق من طرف إلى طرف مقارنة بتنبؤ المسافة
تظهر المقارنة مع عينات RevBayes MCMC:
- ينتج RevBayes توزيعات لاحقة صعبة (معظم الفروع إما تظهر بالكامل أو لا تظهر على الإطلاق)
- يوفر PF2 توزيعات لاحقة أكثر نعومة، لكن مع اتساق كبير مع RevBayes
- الفروع التي تظهر في جميع الأشجار في RevBayes لها تكرار >0.6 في PF2
- الفروع غير المأخوذة من العينات لها تكرار <0.3 في PF2
- طرق الاحتمالية القصوى: IQTree و FastTree وغيرها، تتطلب بحثاً استكشافياً عن فضاء الأشجار
- الطرق البايزية: أخذ عينات من التوزيع اللاحق من خلال MCMC، تكلفة حسابية عالية
- الاستدلال المتغير: تقريب التوزيع اللاحق، لكن لا يزال يتطلب حساب الاحتمالية
- طرق الرباعيات: تبسيط المشكلة إلى تصنيف 3 فئات، لا يمكن توسيعها إلى نطاقات أكبر
- طرق تنبؤ المسافة: يتنبأ Phyloformer بمسافات التطور، ثم يعيد بناء الشجرة باستخدام NJ
- مساهمة هذه الورقة: أول طريقة تقدير لاحقة نسبية كاملة من طرف إلى طرف
- تعلم تقريب الشبكة العصبية للتوزيع اللاحق من خلال تقليل تباعد KL
- الاستدلال المستهلك: سرعة استدلال سريعة جداً بعد التدريب
- التحدي الرئيسي: تصميم عائلة توزيع معاملة مناسبة للأشجار النسبية
- فعالية الطريقة: نجح Phyloformer 2 في تحقيق الاستدلال اللاحق الخالي من الاحتمالية للأشجار النسبية
- مزايا الأداء: يتفوق على الطرق الموجودة من حيث الدقة والسرعة
- قابلية التوسع: يمكنه التعامل مع مشاكل بنطاق أكبر من الطرق السابقة
- القيمة العملية: يفتح طرقاً جديدة للاستدلال تحت نماذج تطورية معقدة
- حدود قابلية التوسع: يتعامل حالياً مع 200 سلسلة كحد أقصى، مما يحد من التطبيق على مجموعات بيانات أكبر
- التعميم خارج التوزيع: قد ينتج تقديرات غير دقيقة للمدخلات خارج بيانات التدريب بدون تحذير
- حدود القدرة التعبيرية:
- التضمينات مضمنة في العملية العودية ولا يتم تحديثها
- يقتصر اللاحق لأطوال الفروع على توزيعات معاملة محددة (Gamma و Beta)
- جودة المعايرة: تتطلب جودة معايرة التوزيع اللاحق مزيداً من البحث
- مشفرات أكثر كفاءة: استكشاف معماريات أكثر كفاءة للتعامل مع مشاكل بنطاق أكبر
- طرق هرمية: دمج الطرق الاستكشافية الموجودة لبناء أشجار أكبر
- تقييم عدم اليقين: توفير تقييم عدم اليقين في التنبؤ
- السلاسل غير المحاذاة: التعامل مع مدخلات السلاسل غير المحاذاة
- نماذج أكثر تعقيداً: الاستدلال تحت نطاق أوسع من النماذج التطورية التي تتضمن ديناميكيات السكان والتطور المتزامن
- اختراق تقني كبير: أول تحقيق لتقدير لاحق نسبي من طرف إلى طرف، يتجاوز حدود الرباعيات
- الصرامة النظرية: حل ذكي لمشكلة تعريف التوزيع الاحتمالي من خلال ترتيب دمج معياري
- تجارب شاملة: تتضمن مجموعات بيانات متعددة ومؤشرات تقييم وطرق مقارنة، مع تجارب استئصال كافية
- قيمة عملية عالية: تحسن كبير في السرعة والدقة ذو أهمية تطبيقية مهمة
- كتابة واضحة: وصف تفاصيل تقنية واضح، مع رسوم بيانية معمارية بديهية وسهلة الفهم
- قابلية التوسع محدودة: حد 200 سلسلة لا يزال غير كافٍ في عصر الجينوميات
- تعبيرية النموذج: قيود مثل عدم تحديث التضمينات في العملية العودية وشكل التوزيع المعاملة الثابت تحد من قدرة النموذج التعبيرية
- تقييم المعايرة غير كافٍ: تقييم جودة معايرة التوزيع اللاحق بسيط نسبياً، يتطلب تحليلاً أعمق
- مشكلة مجموعة بيانات Cherry: الاعتراف باستخدام مجموعة بيانات Cherry التي تحتوي على أخطاء، مما يؤثر على مصداقية الاستنتاجات ذات الصلة
- المساهمة الأكاديمية: إدخال نموذج جديد خالي من الاحتمالية إلى مجال الاستدلال النسبي
- القيمة المنهجية: قد يلهم تحليل BayesNJ النمذجة الاحتمالية للكائنات الهيكلية الأخرى
- آفاق التطبيق: ستعزز قدرة الاستدلال السريع والدقيق الدراسات التطورية واسعة النطاق
- إمكانية التكرار: توفير تفاصيل تنفيذ وتدريب مفصلة، مما يسهل التكرار والتحسين
- الاستدلال النسبي بنطاق متوسط: استدلال نسبي لـ 50-200 سلسلة
- نماذج تطورية معقدة: سيناريوهات تتطلب النظر في الاعتماد بين المواقع أو ضغط الانتقاء
- احتياجات الاستدلال السريع: سيناريوهات تطبيقية تتطلب استدلالاً متكرراً كثيراً
- التحليل البايزي: البحث الذي يتطلب توزيعاً لاحقاً بدلاً من تقدير نقطي
- Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
- Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
- Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
- Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
- Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.