Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
- Paper-ID: 2510.12976
- Titel: Likelihood-free inference of phylogenetic tree posterior distributions
- Autoren: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
- Klassifizierung: q-bio.PE (Populationen und Evolution), q-bio.QM (Quantitative Methoden)
- Veröffentlichungsdatum: 14. Oktober 2024 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.12976v1
Die phylogenetische Inferenz ist eine Kernaufgabe der Evolutionsgenomik, die darauf abzielt, zu rekonstruieren, wie verwandte Sequenzen von einem gemeinsamen Vorfahren evolviert sind. Aktuelle hochmoderne Methoden nutzen probabilistische Modelle der Sequenzevolution entlang phylogenetischer Bäume, indem sie Bäume suchen, die die Wahrscheinlichkeit beobachteter Sequenzen maximieren, oder im Bayesschen Rahmen die Posteriori-Verteilung von Bäumen gegeben Sequenzen schätzen. Beide Ansätze erfordern typischerweise die Berechnung der Likelihood-Funktion, die nur unter vereinfachten Annahmen (wie der Unabhängigkeit der Evolution an verschiedenen Sequenzpositionen) machbar ist und selbst dann eine teure Operation darstellt. Dieses Paper präsentiert Phyloformer 2, die erste Likelihood-freie Inferenzmethode für phylogenetische Posteriori-Verteilungen. Phyloformer 2 nutzt ein neuartiges Sequenzpaar-Kodierungsschema, das es skalierbarer macht als frühere Methoden, und verwendet eine auf kontinuierlichen Subbaum-Fusionen basierende Parametrisierung der Wahrscheinlichkeitsverteilungsdekomposition. Das Netzwerk liefert genaue Posteriori-Verteilungsschätzungen und übertrifft hochmoderne Maximum-Likelihood-Methoden und frühere Likelihood-freie Methoden bei Punktschätzungen.
Die phylogenetische Inferenz ist die Aufgabe, die Evolutionsgeschichte einer Menge existierender Sequenzen zu rekonstruieren, indem die binäre Baumstruktur bestimmt wird, die beschreibt, wie sie sich von einem gemeinsamen Vorfahren differenziert haben. Diese Aufgabe hat Bedeutung in mehreren Bereichen:
- Evolutionsbiologie: Verständnis, wie existierende Arten von einem gemeinsamen Vorfahren evolviert sind
- Krankheitsausbreitung: Verfolgung des Auftretens und der Ausbreitung von Antibiotikaresistenzen bei Bakterien
- Epidemiologie: Überwachung von Ausbreitungsmustern von Epidemien
Traditionelle phylogenetische Inferenzmethoden verlassen sich hauptsächlich auf probabilistische Modelle und sehen sich folgenden Schlüsselproblemen gegenüber:
- Rechenkomplexität: Die Berechnung der Likelihood-Funktion erfordert teure Pruning-Algorithmen (Felsenstein, 1981)
- Riesiger Suchraum: Die Anzahl der Baumtopologien für n Blattknoten beträgt (2n-5)!!, was die Suche äußerst schwierig macht
- Vereinfachte Modellannahmen: Um die Berechnung machbar zu machen, müssen die Evolution an verschiedenen Sequenzpositionen als unabhängig und identisch verteilt angenommen werden, was natürliche Selektion ignoriert
- Unrealistische Simulationsergebnisse: Diese vereinfachten Annahmen führen zu unrealistischen Sequenzmengen und Artefakten in der phylogenetischen Rekonstruktion
Likelihood-freie Inferenz (Simulation-based inference) bietet ein neues Paradigma zur Lösung dieser Probleme:
- Effektive Schätzung ist möglich, wenn die Likelihood-Bewertung nicht machbar ist, aber Stichprobenentnahme kostengünstig ist
- Nutzung von Deep Learning zum Trainieren neuronaler Netze auf simulierten Daten zur Approximation der Posteriori-Verteilung
- Amortisierte Inferenz: Trainieren ist zeitaufwändig, aber Inferenz ist extrem schnell
- Kann komplexere und realistischere Evolutionsmodelle verarbeiten
- Erste End-to-End-Likelihood-freie Posteriori-Schätzmethode: Präsentation der ersten Likelihood-freien Posteriori-Schätzmethode direkt von Sequenzen zu Phylogenetik, die frühere auf Quartette beschränkte Arbeiten übertrifft
- Neuartige Netzwerkarchitektur EvoPF: Inspiriert von AlphaFold 2s EvoFormer, Entwurf eines skalierbaren und ausdrucksstarken Sequenzkodiergeräts, das über 200 Sequenzen verarbeiten kann
- BayesNJ-Wahrscheinlichkeitsverteilungsdekomposition: Vorschlag einer auf kontinuierlichen Fusionsprozessen basierenden Parametrisierungsmethode für phylogenetische Wahrscheinlichkeitsverteilungen, die die Korrektheit der Wahrscheinlichkeitsverteilung gewährleistet
- Signifikante Leistungssteigerung: Übertrifft hochmoderne Likelihood-basierte Methoden bei Topologie-Genauigkeit, Inferenzgeschwindigkeit um 1-2 Größenordnungen erhöht
- Anwendbarkeit auf komplexe Modelle: Kann unter Modellen trainiert werden, bei denen die Likelihood nicht handhabbar ist, mit noch größerem Leistungsvorteil gegenüber falsch spezifizierten Likelihood-basierten Schätzern
Eingabe: Ein Satz ausgerichteter Sequenzen x={x1,…,xN}, wobei jede Sequenz L Zeichen enthält
Ausgabe: Phylogenetik θ=(τ,ℓ), einschließlich Topologie τ und Astlängen ℓZiel: Erlernen einer Approximation qψ(θ∣x) der Posteriori-Verteilung p(θ∣x)
Phyloformer 2 besteht aus zwei Kernmodulen:
EvoPF ist eine transponierte Version von EvoFormer, die zwei Darstellungen aufrechterhält:
- MSA-Stapel: Einbettungen für jede Position in jeder Sequenz
- Paarungsstapel: Einbettungen für jedes Sequenzpaar
Schlüsseldesign:
- Achsenweise Aufmerksamkeit: Abwechselnde Verwendung von spalten- (sequenzübergreifend innerhalb von Positionen) und zeilenweiser (positionsübergreifend innerhalb von Sequenzen) Selbstaufmerksamkeit im MSA-Stapel
- Flache Selbstaufmerksamkeit zwischen Paarungen: Vereinfachung der dreieckigen Aufmerksamkeit von EvoFormer
- Informationsaustausch: Realisierung des Informationstransfers zwischen MSA-Stapel und Paarungsstapel durch Außenproduktmittelwerte und Paarungsverzerrungen
Definition einer Wahrscheinlichkeitsverteilung über Phylogenetiken, zerlegt in einen kontinuierlichen Fusionsprozess:
qψ(x)(θ=(τ,ℓ)∣x)=∏k=12N−3qm(m(k)∣m(<k))qℓ(ℓ(k)∣m(k),m(<k))
Schlüsselinnovationen:
- Kanonische Fusionsreihenfolge: Gewährleistung, dass jede Phylogenetik nur eine gültige Fusionssequenz hat
- Beschränkungsbehandlung: Sicherung der Konsistenz zwischen Stichprobenentnahme und Bewertung durch Distanzbeschränkungen
- Astlängen-Parametrisierung: Reparametrisierung mit Summe (s(k)) und Verhältnis (r(k)), Modellierung mit Gamma- und Beta-Verteilungen
- Skalierbares Kodierungsschema: Im Vergleich zur Sequenzpaar-Darstellung von Phyloformer verbessert EvoPF die Skalierbarkeit erheblich, während die Ausdruckskraft erhalten bleibt
- Korrekte Definition der Wahrscheinlichkeitsverteilung: Lösung des Problems, dass dieselbe Phylogenetik durch mehrere Fusionssequenzen erzeugt werden kann, durch kanonische Fusionsreihenfolge
- End-to-End-Training: Direkte Optimierung der Posteriori-Wahrscheinlichkeit, Vermeidung von Zwischenschritten der Distanzvorhersage
- Beschränkungserfüllung: Sicherung, dass gesampelte Phylogenetiken die kanonische Reihenfolge erfüllen, durch dynamische Beschränkungsmatrizen
- Haupttrainingssatz: 1,3 Millionen Baum-/MSA-Paare mit 50 Taxa, basierend auf dem LG+G8-Modell
- Multi-Size-Datensatz: 10-170 Taxa, verwendet für Feinabstimmung zur Vermeidung von Überanpassung an die Anzahl der Taxa
- Datensatz mit komplexem Modell: Cherry-Modell (positionsübergreifende Abhängigkeit) und SelReg-Modell (positionsübergreifende Heterogenität)
- MCMC-Vergleichsdatensatz: Generiert mit RevBayes-Prior, verwendet zur Bewertung der Posteriori-Verteilungsqualität
- Topologie-Genauigkeit: Normalisierte Robinson-Foulds-Distanz
- Astlängen-Genauigkeit: Kuhner-Felsenstein-Distanz
- Posteriori-Qualität: Vergleich der Spaltungsfrequenzen mit MCMC-Stichproben
- Rechnerische Effizienz: Laufzeit und Speichernutzung
- Likelihood-basiert: IQTree, FastTree, FastME
- Likelihood-frei: Original-Phyloformer (PF)
- Varianten: PF2topo (nur Topologie), PF2ℓ1 (L1-Verlust)
In Tests mit 10-200 Taxa übertrifft Phyloformer 2 alle Vergleichsmethoden signifikant:
- Signifikante Verbesserung gegenüber dem ursprünglichen PF bei allen Größen
- Übertrifft hochmoderne Maximum-Likelihood-Methoden wie IQTree und FastTree für Bäume mit 10-175 Blättern
- Der Leistungsvorteil stammt hauptsächlich aus der Verwendung der korrekten Prior-Posteriori-Verteilungsschätzung
- Geschwindigkeit: Eine Größenordnung schneller als FastTree, zwei Größenordnungen schneller als IQTree
- Skalierbarkeit: Obwohl speicherintensiv, bessere Skalierbarkeit als PF, kann größere Bäume verarbeiten
- PF2topo: Nur-Topologie-Version ist sogar fast eine Größenordnung schneller als das ursprüngliche PF
Bei nicht handhabbaren Likelihood-Modellen (Cherry und SelReg):
- PF2 übertrifft signifikant das äquivalente PF-Modell
- Der Leistungsvorteil gegenüber falsch spezifizierten Likelihood-basierten Methoden vergrößert sich weiter
- Demonstriert die Vorteile von Likelihood-freien Methoden bei komplexen Modellen
Durch das Training einer PF2ℓ1-Version mit L1-Verlust wurde festgestellt:
- Der EvoPF-Kodierer bietet gewisse Hilfe bei der Topologie-Vorhersage
- Der Großteil der Topologie-Genauigkeitsverbesserung stammt jedoch aus der BayesNJ-Verlustfunktion
- Demonstriert die Vorteile des End-to-End-Posteriori-Schätzung gegenüber der Distanzvorhersage
Der Vergleich mit RevBayes-MCMC-Stichproben zeigt:
- RevBayes erzeugt harte Posteriori-Verteilungen (die meisten Äste treten entweder vollständig auf oder überhaupt nicht)
- PF2 bietet weichere Posteriori-Verteilungen, aber mit großer Konsistenz zu RevBayes
- Äste, die in RevBayes in allen Bäumen auftreten, haben in PF2 eine Häufigkeit >0,6
- Nicht gesampelte Äste haben in PF2 eine Häufigkeit <0,3
- Maximum-Likelihood-Methoden: IQTree, FastTree usw., erfordern heuristische Suche im Baum-Raum
- Bayessche Methoden: Posteriori-Verteilungssampling durch MCMC, hohe Rechenkosten
- Variationelle Inferenz: Approximation der Posteriori-Verteilung, erfordert aber immer noch Likelihood-Berechnung
- Quartett-Methoden: Vereinfachung des Problems auf 3-Klassen-Klassifizierung, nicht auf größere Skalen skalierbar
- Distanzvorhersage-Methoden: Phyloformer sagt Evolutionsdistanzen voraus, dann NJ-Rekonstruktion von Bäumen
- Beitrag dieses Papers: Erste End-to-End-Methode zur vollständigen phylogenetischen Posteriori-Schätzung
- Erlernen neuronaler Netzwerk-Approximationen der Posteriori-Verteilung durch Minimierung der KL-Divergenz
- Amortisierte Inferenz: Extrem schnelle Inferenz nach dem Training
- Schlüsselherausforderung: Entwurf geeigneter parametrischer Verteilungsfamilien für Phylogenetiken
- Methodische Wirksamkeit: Phyloformer 2 realisiert erfolgreich die Likelihood-freie Posteriori-Schätzung für Phylogenetiken
- Leistungsvorteil: Übertrifft bestehende Methoden sowohl in Genauigkeit als auch in Geschwindigkeit
- Skalierbarkeit: Kann größere Probleme verarbeiten als frühere Methoden
- Praktischer Wert: Eröffnet neue Wege für Inferenz unter komplexen Evolutionsmodellen
- Skalierungsbeschränkungen: Derzeit maximal 200 Sequenzen, was die Anwendung auf größere Datensätze einschränkt
- Out-of-Distribution-Generalisierung: Kann bei Eingaben außerhalb der Trainingsdaten ungenaue Schätzungen ohne Warnung erzeugen
- Ausdruckskraftbeschränkungen:
- Einbettungen werden im rekursiven Prozess nicht aktualisiert
- Posteriori-Verteilungen der Astlängen sind auf spezifische parametrische Verteilungen (Gamma und Beta) beschränkt
- Kalibrierungsqualität: Die Kalibrierungsqualität der Posteriori-Verteilung erfordert weitere Forschung
- Effizientere Kodierer: Erkundung effizienterer Architekturen zur Verarbeitung größerer Probleme
- Hierarchische Methoden: Kombination mit bestehenden heuristischen Methoden zum Aufbau größerer Bäume
- Unsicherheitsbewertung: Bereitstellung von Bewertungen der Vorhersageunsicherheit
- Nicht ausgerichtete Sequenzen: Verarbeitung nicht ausgerichteter Sequenzeingaben
- Komplexere Modelle: Inferenz unter breiteren Evolutionsmodellen, die Populationsdynamik und Koevolution enthalten
- Bedeutender technischer Durchbruch: Erste Realisierung der End-to-End-phylogenetischen Posteriori-Schätzung, Durchbruch über die Quartett-Beschränkung hinaus
- Theoretische Strenge: Geschickte Lösung der technischen Schwierigkeiten der Wahrscheinlichkeitsverteilungsdefinition durch kanonische Fusionsreihenfolge
- Umfassende Experimente: Mehrere Datensätze, Bewertungsmetriken und Vergleichsmethoden, ausreichende Ablationsstudien
- Hoher praktischer Wert: Signifikante Geschwindigkeitsverbesserungen und Genauigkeitssteigerungen haben wichtige Anwendungswerte
- Klare Darstellung: Technische Details sind klar beschrieben, Architekturdiagramme sind intuitiv und verständlich
- Begrenzte Skalierbarkeit: Die Beschränkung auf 200 Sequenzen ist im Genomik-Zeitalter immer noch unzureichend
- Begrenzte Modellausdruckskraft: Einbettungen werden im rekursiven Prozess nicht aktualisiert, parametrische Verteilungsformen sind festgelegt, was die Modellausdruckskraft einschränkt
- Unzureichende Kalibrierungsbewertung: Die Bewertung der Kalibrierungsqualität der Posteriori-Verteilung ist relativ einfach und erfordert tiefere Analyse
- Cherry-Datensatz-Problem: Zugabe der Verwendung eines fehlerhaften Cherry-Datensatzes, was die Glaubwürdigkeit verwandter Schlussfolgerungen beeinträchtigt
- Akademischer Beitrag: Einführung eines völlig neuen Likelihood-freien Paradigmas für die phylogenetische Inferenz
- Methodologischer Wert: Die BayesNJ-Dekompositionsidee könnte die probabilistische Modellierung anderer strukturierter Objekte inspirieren
- Anwendungsaussichten: Die schnelle und genaue Inferenzfähigkeit wird großflächige Evolutionsstudien fördern
- Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Trainingsparameter erleichtert Reproduktion und Verbesserung
- Mittelskalige Phylogenetiken: Phylogenetische Inferenz mit 50-200 Sequenzen
- Komplexe Evolutionsmodelle: Szenarien, die positionsübergreifende Abhängigkeiten oder Selektionsdruck berücksichtigen müssen
- Schnelle Inferenzanforderungen: Anwendungsszenarien, die wiederholte Inferenz erfordern
- Bayessche Analyse: Forschung, die Posteriori-Verteilungen statt Punktschätzungen benötigt
- Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
- Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
- Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
- Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
- Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.