Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
- पेपर ID: 2510.12976
- शीर्षक: Likelihood-free inference of phylogenetic tree posterior distributions
- लेखक: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
- वर्गीकरण: q-bio.PE (जनसंख्या और विकास), q-bio.QM (मात्रात्मक विधियाँ)
- प्रकाशन समय: 14 अक्टूबर 2024 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.12976v1
फाइलोजेनेटिक अनुमान विकासात्मक जीनोमिक्स में एक मूल कार्य है, जिसका उद्देश्य यह पुनर्निर्माण करना है कि संबंधित अनुक्रम सामान्य पूर्वज से कैसे विकसित हुए। वर्तमान अत्याधुनिक विधियाँ अनुक्रमों के फाइलोजेनेटिक ट्री के साथ विकसित होने की संभाव्यता मॉडल का उपयोग करती हैं, अवलोकित अनुक्रमों की संभावना को अधिकतम करने वाले ट्री को खोजकर, या बेयेसियन ढांचे में दिए गए अनुक्रमों के ट्री का पोस्टीरियर वितरण अनुमानित करती हैं। दोनों विधियों को आमतौर पर संभावना फलन की गणना की आवश्यकता होती है, जो केवल सरलीकृत मान्यताओं के तहत संभव है (जैसे अनुक्रमों के विभिन्न स्थानों पर विकास की स्वतंत्रता), यहाँ तक कि तब भी यह एक महंगा ऑपरेशन है। यह पेपर Phyloformer 2 प्रस्तुत करता है, जो फाइलोजेनेटिक पोस्टीरियर वितरण के लिए पहली लाइकलीहुड-मुक्त अनुमान विधि है। Phyloformer 2 एक नोवल अनुक्रम जोड़ी एन्कोडिंग योजना का उपयोग करता है, जो इसे पिछली विधियों की तुलना में अधिक स्केलेबल बनाता है, और निरंतर सबट्री मर्जिंग पर आधारित संभाव्यता वितरण अपघटन को अपनाता है। नेटवर्क सटीक पोस्टीरियर वितरण अनुमान प्रदान करता है, बिंदु अनुमान में अत्याधुनिक अधिकतम संभावना विधियों और पिछली लाइकलीहुड-मुक्त विधियों से बेहतर प्रदर्शन करता है।
फाइलोजेनेटिक अनुमान वर्तमान अनुक्रमों के विकासात्मक इतिहास को पुनर्निर्माण करने का कार्य है, जिसमें एक द्विआधारी ट्री संरचना को निर्धारित करना आवश्यक है जो यह वर्णन करता है कि वे सामान्य पूर्वज से कैसे विभाजित हुए। यह कार्य कई क्षेत्रों में महत्वपूर्ण है:
- विकासात्मक जीव विज्ञान: यह समझना कि वर्तमान प्रजातियाँ सामान्य पूर्वज से कैसे विकसित हुईं
- रोग प्रसार: बैक्टीरिया प्रतिरोध के उदय और प्रसार को ट्रैक करना
- महामारी विज्ञान: महामारी प्रसार पैटर्न की निगरानी करना
पारंपरिक फाइलोजेनेटिक अनुमान विधियाँ मुख्य रूप से संभाव्यता मॉडल पर निर्भर करती हैं, जिनका सामना निम्नलिखित मुख्य समस्याओं से होता है:
- कम्प्यूटेशनल जटिलता: संभावना फलन की गणना के लिए महंगे प्रूनिंग एल्गोरिदम की आवश्यकता होती है (Felsenstein, 1981)
- विशाल खोज स्थान: n लीफ नोड्स वाले ट्री टोपोलॉजी की संख्या (2n-5)!! है, खोज अत्यंत कठिन है
- मॉडल सरलीकरण मान्यताएँ: गणना को व्यावहारिक बनाने के लिए, अनुक्रमों के विभिन्न स्थानों पर विकास की स्वतंत्रता और समान वितरण मान लेना चाहिए, प्राकृतिक चयन को नजरअंदाज करते हुए
- अवास्तविक सिमुलेशन परिणाम: ये सरलीकृत मान्यताएँ अवास्तविक अनुक्रम सेट उत्पन्न करती हैं और फाइलोजेनेटिक पुनर्निर्माण में कलाकृतियाँ पैदा करती हैं
लाइकलीहुड-मुक्त अनुमान (सिमुलेशन-आधारित अनुमान) इन समस्याओं को हल करने के लिए एक नया प्रतिमान प्रदान करता है:
- जब संभावना मूल्यांकन अव्यावहारिक हो लेकिन नमूनाकरण सस्ता हो, तो प्रभावी अनुमान संभव है
- गहन शिक्षा का उपयोग करके सिमुलेट किए गए डेटा पर तंत्रिका नेटवर्क को प्रशिक्षित करना पोस्टीरियर वितरण का अनुमान लगाने के लिए
- परिशोधित अनुमान: प्रशिक्षण समय लेने वाला है लेकिन अनुमान अत्यंत तेज़ है
- अधिक जटिल, अधिक यथार्थवादी विकासात्मक मॉडल को संभालने में सक्षम
- पहली अंत-से-अंत लाइकलीहुड-मुक्त पोस्टीरियर अनुमान विधि: अनुक्रमों से सीधे फाइलोजेनेटिक तक की पहली लाइकलीहुड-मुक्त पोस्टीरियर अनुमान विधि प्रस्तावित की गई है, जो केवल चतुर्भुज (quartets) तक सीमित पिछली कार्य से परे है
- नोवल नेटवर्क आर्किटेक्चर EvoPF: AlphaFold 2 के EvoFormer से प्रेरित, एक अधिक स्केलेबल और अभिव्यक्तिशील अनुक्रम एन्कोडर डिज़ाइन किया गया है, जो 200 से अधिक अनुक्रमों को संभाल सकता है
- BayesNJ संभाव्यता वितरण अपघटन: निरंतर मर्जिंग प्रक्रिया पर आधारित फाइलोजेनेटिक संभाव्यता वितरण के पैरामीटराइजेशन के लिए एक विधि प्रस्तावित की गई है, जो संभाव्यता वितरण की शुद्धता सुनिश्चित करती है
- महत्वपूर्ण प्रदर्शन सुधार: टोपोलॉजी सटीकता में अत्याधुनिक संभावना-आधारित विधियों से बेहतर, अनुमान गति में 1-2 परिमाण के क्रम से सुधार
- जटिल मॉडल प्रयोज्यता: उन मॉडलों के तहत प्रशिक्षण दे सकता है जहाँ संभावना अव्यावहारिक है, गलत निर्दिष्ट संभावना-आधारित अनुमानकर्ताओं की तुलना में प्रदर्शन अंतर और भी बड़ा है
इनपुट: संरेखित अनुक्रमों का एक सेट x={x1,…,xN}, जहाँ प्रत्येक अनुक्रम में L वर्ण हैं
आउटपुट: फाइलोजेनेटिक θ=(τ,ℓ), जिसमें टोपोलॉजी संरचना τ और शाखा लंबाई ℓ शामिल हैं
उद्देश्य: पोस्टीरियर वितरण p(θ∣x) के अनुमान qψ(θ∣x) को सीखना
Phyloformer 2 दो मूल मॉड्यूल से बना है:
EvoPF EvoFormer का एक ट्रांसपोज़्ड संस्करण है, दो प्रकार के प्रतिनिधित्व को बनाए रखता है:
- MSA स्टैक: प्रत्येक अनुक्रम में प्रत्येक स्थान का एम्बेडिंग
- पेयरिंग स्टैक: अनुक्रमों के प्रत्येक जोड़ी का एम्बेडिंग
मुख्य डिज़ाइन:
- अक्षीय ध्यान: MSA स्टैक में स्तंभ-वार (स्थान के भीतर अनुक्रमों के बीच) और पंक्ति-वार (अनुक्रम के भीतर स्थानों के बीच) स्व-ध्यान को वैकल्पिक करना
- पेयरिंग के बीच सपाट स्व-ध्यान: EvoFormer के त्रिकोणीय ध्यान को सरल बनाया गया
- सूचना इंटरैक्शन: बाहरी उत्पाद माध्य और पेयरिंग पूर्वाग्रह के माध्यम से MSA स्टैक और पेयरिंग स्टैक के बीच
फाइलोजेनेटिक पर एक संभाव्यता वितरण को परिभाषित करता है, निरंतर मर्जिंग प्रक्रिया में अपघटित:
qψ(x)(θ=(τ,ℓ)∣x)=∏k=12N−3qm(m(k)∣m(<k))qℓ(ℓ(k)∣m(k),m(<k))
मुख्य नवाचार:
- विहित मर्जिंग क्रम: यह सुनिश्चित करता है कि प्रत्येक फाइलोजेनेटिक के लिए केवल एक वैध मर्जिंग अनुक्रम है
- बाधा हैंडलिंग: दूरी बाधाओं के माध्यम से नमूनाकरण और मूल्यांकन की स्थिरता सुनिश्चित करना
- शाखा लंबाई पैरामीटराइजेशन: योग (s(k)) और अनुपात (r(k)) का उपयोग करके पुनः पैरामीटराइजेशन, गामा और बीटा वितरण का उपयोग करके मॉडलिंग
- स्केलेबल एन्कोडिंग योजना: Phyloformer की अनुक्रम जोड़ी प्रतिनिधित्व की तुलना में, EvoPF अभिव्यक्तिशील क्षमता को बनाए रखते हुए स्केलेबिलिटी में महत्वपूर्ण सुधार करता है
- संभाव्यता वितरण की सही परिभाषा: विहित मर्जिंग क्रम के माध्यम से समस्या को हल करता है कि एक ही फाइलोजेनेटिक को कई मर्जिंग अनुक्रमों द्वारा उत्पन्न किया जा सकता है
- अंत-से-अंत प्रशिक्षण: पोस्टीरियर संभावना को सीधे अनुकूलित करता है, दूरी भविष्यवाणी के मध्यवर्ती चरण से बचता है
- बाधा संतुष्टि: गतिशील बाधा मैट्रिक्स के माध्यम से यह सुनिश्चित करता है कि नमूना किए गए फाइलोजेनेटिक विहित क्रम का पालन करते हैं
- मुख्य प्रशिक्षण सेट: 13 लाख 50-वर्गीकरण ट्री/MSA जोड़े, LG+G8 मॉडल पर आधारित
- बहु-आकार डेटासेट: 10-170 वर्गीकरण, वर्गीकरण संख्या पर अति-फिटिंग से बचने के लिए सूक्ष्म-ट्यूनिंग के लिए
- जटिल मॉडल डेटासेट: Cherry मॉडल (स्थानों के बीच निर्भरता) और SelReg मॉडल (स्थानों के बीच विषमता)
- MCMC तुलना डेटासेट: RevBayes पूर्वसूचना का उपयोग करके उत्पन्न, पोस्टीरियर वितरण गुणवत्ता मूल्यांकन के लिए
- टोपोलॉजी सटीकता: सामान्यीकृत Robinson-Foulds दूरी
- शाखा लंबाई सटीकता: Kuhner-Felsenstein दूरी
- पोस्टीरियर गुणवत्ता: MCMC नमूनों के साथ विभाजन आवृत्ति तुलना
- कम्प्यूटेशनल दक्षता: रन टाइम और मेमोरी उपयोग
- संभावना-आधारित: IQTree, FastTree, FastME
- लाइकलीहुड-मुक्त: मूल Phyloformer (PF)
- वेरिएंट: PF2topo (केवल टोपोलॉजी), PF2ℓ1 (L1 हानि)
10-200 वर्गीकरण की परीक्षा में, Phyloformer 2 सभी तुलना विधियों से महत्वपूर्ण रूप से बेहतर है:
- मूल PF की तुलना में, सभी आकारों पर महत्वपूर्ण सुधार
- 10-175 पत्तियों वाले ट्री के लिए, IQTree और FastTree जैसी अत्याधुनिक अधिकतम संभावना विधियों से बेहतर
- प्रदर्शन लाभ मुख्य रूप से सही पूर्वसूचना के साथ पोस्टीरियर वितरण अनुमान का उपयोग करने से आता है
- गति: FastTree की तुलना में 1 परिमाण के क्रम से तेज़, IQTree की तुलना में 2 परिमाण के क्रम से तेज़
- स्केलेबिलिटी: हालाँकि मेमोरी-गहन है, लेकिन PF की तुलना में बेहतर स्केलेबिलिटी, बड़े ट्री को संभाल सकता है
- PF2topo: केवल टोपोलॉजी संस्करण मूल PF की तुलना में लगभग 1 परिमाण के क्रम से भी तेज़ है
उन मॉडलों में जहाँ संभावना अव्यावहारिक है (Cherry और SelReg):
- PF2 समकक्ष PF मॉडल से महत्वपूर्ण रूप से बेहतर है
- गलत निर्दिष्ट संभावना-आधारित विधियों की तुलना में, प्रदर्शन अंतर और भी बड़ा है
- जटिल मॉडलों के तहत लाइकलीहुड-मुक्त विधियों के लाभ को प्रदर्शित करता है
L1 हानि का उपयोग करके PF2ℓ1 संस्करण को प्रशिक्षित करने से पता चलता है:
- EvoPF एन्कोडर टोपोलॉजी भविष्यवाणी में कुछ सहायता प्रदान करता है
- लेकिन अधिकांश टोपोलॉजी सटीकता सुधार BayesNJ हानि फलन से आता है
- दूरी भविष्यवाणी की तुलना में अंत-से-अंत पोस्टीरियर अनुमान के लाभ को दर्शाता है
RevBayes MCMC नमूनों के साथ तुलना से पता चलता है:
- RevBayes कठोर पोस्टीरियर वितरण उत्पन्न करता है (अधिकांश शाखाएँ या तो पूरी तरह दिखाई देती हैं या बिल्कुल नहीं)
- PF2 नरम पोस्टीरियर वितरण प्रदान करता है, लेकिन RevBayes के साथ बहुत अधिक सहमति है
- RevBayes में सभी ट्री में दिखाई देने वाली शाखाएँ, PF2 में 0.6 से अधिक आवृत्ति रखती हैं
- नमूना न की गई शाखाएँ PF2 में 0.3 से कम आवृत्ति रखती हैं
- अधिकतम संभावना विधियाँ: IQTree, FastTree आदि, ट्री स्पेस की अनुमानी खोज की आवश्यकता है
- बेयेसियन विधियाँ: MCMC के माध्यम से पोस्टीरियर वितरण का नमूना, उच्च कम्प्यूटेशनल लागत
- परिवर्तनशील अनुमान: पोस्टीरियर वितरण का अनुमान, लेकिन फिर भी संभावना गणना की आवश्यकता है
- चतुर्भुज विधियाँ: समस्या को 3-वर्ग वर्गीकरण में सरल बनाता है, बड़े पैमाने पर विस्तार नहीं कर सकता
- दूरी भविष्यवाणी विधियाँ: Phyloformer विकासात्मक दूरी की भविष्यवाणी करता है, फिर NJ का उपयोग करके ट्री को पुनर्निर्माण करता है
- इस पेपर का योगदान: पहली अंत-से-अंत पूर्ण फाइलोजेनेटिक पोस्टीरियर अनुमान विधि
- KL विचलन को कम करके पोस्टीरियर वितरण के तंत्रिका नेटवर्क अनुमान को सीखना
- परिशोधित अनुमान: प्रशिक्षण के बाद अनुमान गति अत्यंत तेज़ है
- मुख्य चुनौती: फाइलोजेनेटिक के लिए उपयुक्त पैरामीटराइजेशन वितरण परिवार डिज़ाइन करना
- विधि प्रभावशीलता: Phyloformer 2 ने फाइलोजेनेटिक के लाइकलीहुड-मुक्त पोस्टीरियर अनुमान को सफलतापूर्वक लागू किया है
- प्रदर्शन लाभ: सटीकता और गति दोनों में मौजूदा विधियों से बेहतर है
- स्केलेबिलिटी: पिछली विधियों की तुलना में बड़े पैमाने की समस्याओं को संभाल सकता है
- व्यावहारिक मूल्य: जटिल विकासात्मक मॉडलों के तहत अनुमान के लिए नए रास्ते खोलता है
- स्केलेबिलिटी सीमा: वर्तमान में अधिकतम 200 अनुक्रमों को संभाल सकता है, बड़े डेटासेट पर अनुप्रयोग को सीमित करता है
- वितरण से बाहर सामान्यीकरण: प्रशिक्षण डेटा के बाहर इनपुट के लिए अनुपयुक्त अनुमान उत्पन्न कर सकता है और कोई चेतावनी नहीं देता है
- अभिव्यक्तिशील क्षमता सीमाएँ:
- एम्बेडिंग पुनरावर्ती प्रक्रिया में अपडेट नहीं होते हैं
- शाखा लंबाई पोस्टीरियर विशिष्ट पैरामीटराइजेशन वितरण (गामा और बीटा) तक सीमित है
- कैलिब्रेशन गुणवत्ता: पोस्टीरियर वितरण की कैलिब्रेशन गुणवत्ता को आगे के अनुसंधान की आवश्यकता है
- अधिक कुशल एन्कोडर: बड़े पैमाने की समस्याओं को संभालने के लिए अधिक कुशल आर्किटेक्चर की खोज करना
- पदानुक्रमित विधियाँ: बड़े ट्री बनाने के लिए मौजूदा अनुमानी विधियों के साथ संयोजन
- अनिश्चितता मूल्यांकन: भविष्यवाणी अनिश्चितता का मूल्यांकन प्रदान करना
- असंरेखित अनुक्रम: असंरेखित अनुक्रम इनपुट को संभालना
- अधिक जटिल मॉडल: जनसंख्या गतिविज्ञान और सहविकास को शामिल करने वाले व्यापक विकासात्मक मॉडलों के तहत अनुमान
- महत्वपूर्ण तकनीकी सफलता: पहली बार अंत-से-अंत फाइलोजेनेटिक पोस्टीरियर अनुमान को लागू किया गया है, चतुर्भुज की सीमा को तोड़ा गया है
- सैद्धांतिक कठोरता: विहित मर्जिंग क्रम के माध्यम से संभाव्यता वितरण परिभाषा की तकनीकी समस्या को चतुराई से हल किया गया है
- व्यापक प्रयोग: कई डेटासेट, मूल्यांकन मेट्रिक्स और तुलना विधियाँ शामिल हैं, विलोपन प्रयोग पर्याप्त हैं
- उच्च व्यावहारिक मूल्य: गति में महत्वपूर्ण सुधार और सटीकता में सुधार महत्वपूर्ण अनुप्रयोग मूल्य रखता है
- स्पष्ट लेखन: तकनीकी विवरण स्पष्ट रूप से वर्णित हैं, आर्किटेक्चर आरेख सहज और समझने में आसान हैं
- अभी भी सीमित स्केलेबिलिटी: 200 अनुक्रमों की सीमा जीनोमिक युग में अभी भी अपर्याप्त है
- मॉडल अभिव्यक्तिशील क्षमता: पुनरावर्ती प्रक्रिया में एम्बेडिंग अपडेट न होना, पैरामीटराइजेशन वितरण फॉर्म निश्चित होना आदि मॉडल अभिव्यक्तिशील क्षमता को सीमित करते हैं
- कैलिब्रेशन मूल्यांकन अपर्याप्त: पोस्टीरियर वितरण कैलिब्रेशन गुणवत्ता का मूल्यांकन अपेक्षाकृत सरल है, गहन विश्लेषण की आवश्यकता है
- Cherry डेटासेट समस्या: स्वीकार करता है कि त्रुटिपूर्ण Cherry डेटासेट का उपयोग किया गया था, संबंधित निष्कर्षों की विश्वसनीयता को प्रभावित करता है
- शैक्षणिक योगदान: फाइलोजेनेटिक अनुमान क्षेत्र में एक पूरी तरह नया लाइकलीहुड-मुक्त प्रतिमान पेश किया गया है
- पद्धति मूल्य: BayesNJ अपघटन विचार संरचित वस्तुओं के अन्य संभाव्यता मॉडलिंग को प्रेरित कर सकता है
- अनुप्रयोग संभावनाएँ: तेज़ और सटीक अनुमान क्षमता बड़े पैमाने पर विकासात्मक अनुसंधान को बढ़ावा देगी
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और प्रशिक्षण पैरामीटर प्रदान किए गए हैं, पुनरुत्पादन और सुधार में सहायक
- मध्यम पैमाने की फाइलोजेनेटिक: 50-200 अनुक्रमों की फाइलोजेनेटिक अनुमान
- जटिल विकासात्मक मॉडल: स्थानों के बीच निर्भरता या चयन दबाव पर विचार करने की आवश्यकता वाले परिदृश्य
- तेज़ अनुमान की आवश्यकता: बड़ी संख्या में दोहराए गए अनुमान की आवश्यकता वाले अनुप्रयोग परिदृश्य
- बेयेसियन विश्लेषण: बिंदु अनुमान के बजाय पोस्टीरियर वितरण की आवश्यकता वाले अनुसंधान
- Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
- Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
- Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
- Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
- Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.