2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.

Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.

academic

Likelihood-freie Inferenz von phylogenetischen Baum-Posteriori-Verteilungen

Grundinformationen

Paper-ID: 2510.12976
Titel: Likelihood-free inference of phylogenetic tree posterior distributions
Autoren: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
Klassifizierung: q-bio.PE (Populationen und Evolution), q-bio.QM (Quantitative Methoden)
Veröffentlichungsdatum: 14. Oktober 2024 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.12976v1

Zusammenfassung

Die phylogenetische Inferenz ist eine Kernaufgabe der Evolutionsgenomik, die darauf abzielt, zu rekonstruieren, wie verwandte Sequenzen von einem gemeinsamen Vorfahren evolviert sind. Aktuelle hochmoderne Methoden nutzen probabilistische Modelle der Sequenzevolution entlang phylogenetischer Bäume, indem sie Bäume suchen, die die Wahrscheinlichkeit beobachteter Sequenzen maximieren, oder im Bayesschen Rahmen die Posteriori-Verteilung von Bäumen gegeben Sequenzen schätzen. Beide Ansätze erfordern typischerweise die Berechnung der Likelihood-Funktion, die nur unter vereinfachten Annahmen (wie der Unabhängigkeit der Evolution an verschiedenen Sequenzpositionen) machbar ist und selbst dann eine teure Operation darstellt. Dieses Paper präsentiert Phyloformer 2, die erste Likelihood-freie Inferenzmethode für phylogenetische Posteriori-Verteilungen. Phyloformer 2 nutzt ein neuartiges Sequenzpaar-Kodierungsschema, das es skalierbarer macht als frühere Methoden, und verwendet eine auf kontinuierlichen Subbaum-Fusionen basierende Parametrisierung der Wahrscheinlichkeitsverteilungsdekomposition. Das Netzwerk liefert genaue Posteriori-Verteilungsschätzungen und übertrifft hochmoderne Maximum-Likelihood-Methoden und frühere Likelihood-freie Methoden bei Punktschätzungen.

Forschungshintergrund und Motivation

Problemdefinition

Die phylogenetische Inferenz ist die Aufgabe, die Evolutionsgeschichte einer Menge existierender Sequenzen zu rekonstruieren, indem die binäre Baumstruktur bestimmt wird, die beschreibt, wie sie sich von einem gemeinsamen Vorfahren differenziert haben. Diese Aufgabe hat Bedeutung in mehreren Bereichen:

Evolutionsbiologie: Verständnis, wie existierende Arten von einem gemeinsamen Vorfahren evolviert sind
Krankheitsausbreitung: Verfolgung des Auftretens und der Ausbreitung von Antibiotikaresistenzen bei Bakterien
Epidemiologie: Überwachung von Ausbreitungsmustern von Epidemien

Einschränkungen bestehender Methoden

Traditionelle phylogenetische Inferenzmethoden verlassen sich hauptsächlich auf probabilistische Modelle und sehen sich folgenden Schlüsselproblemen gegenüber:

Rechenkomplexität: Die Berechnung der Likelihood-Funktion erfordert teure Pruning-Algorithmen (Felsenstein, 1981)
Riesiger Suchraum: Die Anzahl der Baumtopologien für n Blattknoten beträgt (2n-5)!!, was die Suche äußerst schwierig macht
Vereinfachte Modellannahmen: Um die Berechnung machbar zu machen, müssen die Evolution an verschiedenen Sequenzpositionen als unabhängig und identisch verteilt angenommen werden, was natürliche Selektion ignoriert
Unrealistische Simulationsergebnisse: Diese vereinfachten Annahmen führen zu unrealistischen Sequenzmengen und Artefakten in der phylogenetischen Rekonstruktion

Forschungsmotivation

Likelihood-freie Inferenz (Simulation-based inference) bietet ein neues Paradigma zur Lösung dieser Probleme:

Effektive Schätzung ist möglich, wenn die Likelihood-Bewertung nicht machbar ist, aber Stichprobenentnahme kostengünstig ist
Nutzung von Deep Learning zum Trainieren neuronaler Netze auf simulierten Daten zur Approximation der Posteriori-Verteilung
Amortisierte Inferenz: Trainieren ist zeitaufwändig, aber Inferenz ist extrem schnell
Kann komplexere und realistischere Evolutionsmodelle verarbeiten

Kernbeiträge

Erste End-to-End-Likelihood-freie Posteriori-Schätzmethode: Präsentation der ersten Likelihood-freien Posteriori-Schätzmethode direkt von Sequenzen zu Phylogenetik, die frühere auf Quartette beschränkte Arbeiten übertrifft
Neuartige Netzwerkarchitektur EvoPF: Inspiriert von AlphaFold 2s EvoFormer, Entwurf eines skalierbaren und ausdrucksstarken Sequenzkodiergeräts, das über 200 Sequenzen verarbeiten kann
BayesNJ-Wahrscheinlichkeitsverteilungsdekomposition: Vorschlag einer auf kontinuierlichen Fusionsprozessen basierenden Parametrisierungsmethode für phylogenetische Wahrscheinlichkeitsverteilungen, die die Korrektheit der Wahrscheinlichkeitsverteilung gewährleistet
Signifikante Leistungssteigerung: Übertrifft hochmoderne Likelihood-basierte Methoden bei Topologie-Genauigkeit, Inferenzgeschwindigkeit um 1-2 Größenordnungen erhöht
Anwendbarkeit auf komplexe Modelle: Kann unter Modellen trainiert werden, bei denen die Likelihood nicht handhabbar ist, mit noch größerem Leistungsvorteil gegenüber falsch spezifizierten Likelihood-basierten Schätzern

Methodische Details

Aufgabendefinition

Eingabe: Ein Satz ausgerichteter Sequenzen $x = \{x_1, \ldots, x_N\}$ , wobei jede Sequenz L Zeichen enthält Ausgabe: Phylogenetik $\theta = (\tau, \ell)$ , einschließlich Topologie $\tau$ und Astlängen $\ell$ Ziel: Erlernen einer Approximation $q_\psi(\theta|x)$ der Posteriori-Verteilung $p(\theta|x)$

Modellarchitektur

Phyloformer 2 besteht aus zwei Kernmodulen:

1. EvoPF-Kodierer

EvoPF ist eine transponierte Version von EvoFormer, die zwei Darstellungen aufrechterhält:

MSA-Stapel: Einbettungen für jede Position in jeder Sequenz
Paarungsstapel: Einbettungen für jedes Sequenzpaar

Schlüsseldesign:

Achsenweise Aufmerksamkeit: Abwechselnde Verwendung von spalten- (sequenzübergreifend innerhalb von Positionen) und zeilenweiser (positionsübergreifend innerhalb von Sequenzen) Selbstaufmerksamkeit im MSA-Stapel
Flache Selbstaufmerksamkeit zwischen Paarungen: Vereinfachung der dreieckigen Aufmerksamkeit von EvoFormer
Informationsaustausch: Realisierung des Informationstransfers zwischen MSA-Stapel und Paarungsstapel durch Außenproduktmittelwerte und Paarungsverzerrungen

2. BayesNJ-Wahrscheinlichkeitsverteilung

Definition einer Wahrscheinlichkeitsverteilung über Phylogenetiken, zerlegt in einen kontinuierlichen Fusionsprozess:

$q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})$

Schlüsselinnovationen:

Kanonische Fusionsreihenfolge: Gewährleistung, dass jede Phylogenetik nur eine gültige Fusionssequenz hat
Beschränkungsbehandlung: Sicherung der Konsistenz zwischen Stichprobenentnahme und Bewertung durch Distanzbeschränkungen
Astlängen-Parametrisierung: Reparametrisierung mit Summe ( $s^{(k)}$ ) und Verhältnis ( $r^{(k)}$ ), Modellierung mit Gamma- und Beta-Verteilungen

Technische Innovationspunkte

Skalierbares Kodierungsschema: Im Vergleich zur Sequenzpaar-Darstellung von Phyloformer verbessert EvoPF die Skalierbarkeit erheblich, während die Ausdruckskraft erhalten bleibt
Korrekte Definition der Wahrscheinlichkeitsverteilung: Lösung des Problems, dass dieselbe Phylogenetik durch mehrere Fusionssequenzen erzeugt werden kann, durch kanonische Fusionsreihenfolge
End-to-End-Training: Direkte Optimierung der Posteriori-Wahrscheinlichkeit, Vermeidung von Zwischenschritten der Distanzvorhersage
Beschränkungserfüllung: Sicherung, dass gesampelte Phylogenetiken die kanonische Reihenfolge erfüllen, durch dynamische Beschränkungsmatrizen

Experimentelle Einrichtung

Datensätze

Haupttrainingssatz: 1,3 Millionen Baum-/MSA-Paare mit 50 Taxa, basierend auf dem LG+G8-Modell
Multi-Size-Datensatz: 10-170 Taxa, verwendet für Feinabstimmung zur Vermeidung von Überanpassung an die Anzahl der Taxa
Datensatz mit komplexem Modell: Cherry-Modell (positionsübergreifende Abhängigkeit) und SelReg-Modell (positionsübergreifende Heterogenität)
MCMC-Vergleichsdatensatz: Generiert mit RevBayes-Prior, verwendet zur Bewertung der Posteriori-Verteilungsqualität

Bewertungsmetriken

Topologie-Genauigkeit: Normalisierte Robinson-Foulds-Distanz
Astlängen-Genauigkeit: Kuhner-Felsenstein-Distanz
Posteriori-Qualität: Vergleich der Spaltungsfrequenzen mit MCMC-Stichproben
Rechnerische Effizienz: Laufzeit und Speichernutzung

Vergleichsmethoden

Likelihood-basiert: IQTree, FastTree, FastME
Likelihood-frei: Original-Phyloformer (PF)
Varianten: PF2topo (nur Topologie), PF2ℓ1 (L1-Verlust)

Signifikante Verbesserung gegenüber dem ursprünglichen PF bei allen Größen
Übertrifft hochmoderne Maximum-Likelihood-Methoden wie IQTree und FastTree für Bäume mit 10-175 Blättern
Der Leistungsvorteil stammt hauptsächlich aus der Verwendung der korrekten Prior-Posteriori-Verteilungsschätzung

Erhebliche Verbesserung der Rechnerischen Effizienz

Geschwindigkeit: Eine Größenordnung schneller als FastTree, zwei Größenordnungen schneller als IQTree
Skalierbarkeit: Obwohl speicherintensiv, bessere Skalierbarkeit als PF, kann größere Bäume verarbeiten
PF2topo: Nur-Topologie-Version ist sogar fast eine Größenordnung schneller als das ursprüngliche PF

Vorteile bei komplexen Modellen

Bei nicht handhabbaren Likelihood-Modellen (Cherry und SelReg):

PF2 übertrifft signifikant das äquivalente PF-Modell
Der Leistungsvorteil gegenüber falsch spezifizierten Likelihood-basierten Methoden vergrößert sich weiter
Demonstriert die Vorteile von Likelihood-freien Methoden bei komplexen Modellen

Ablationsstudien

Durch das Training einer PF2ℓ1-Version mit L1-Verlust wurde festgestellt:

Der EvoPF-Kodierer bietet gewisse Hilfe bei der Topologie-Vorhersage
Der Großteil der Topologie-Genauigkeitsverbesserung stammt jedoch aus der BayesNJ-Verlustfunktion
Demonstriert die Vorteile des End-to-End-Posteriori-Schätzung gegenüber der Distanzvorhersage

Bewertung der Posteriori-Verteilungsqualität

Der Vergleich mit RevBayes-MCMC-Stichproben zeigt:

RevBayes erzeugt harte Posteriori-Verteilungen (die meisten Äste treten entweder vollständig auf oder überhaupt nicht)
PF2 bietet weichere Posteriori-Verteilungen, aber mit großer Konsistenz zu RevBayes
Äste, die in RevBayes in allen Bäumen auftreten, haben in PF2 eine Häufigkeit >0,6
Nicht gesampelte Äste haben in PF2 eine Häufigkeit <0,3

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Methodische Wirksamkeit: Phyloformer 2 realisiert erfolgreich die Likelihood-freie Posteriori-Schätzung für Phylogenetiken
Leistungsvorteil: Übertrifft bestehende Methoden sowohl in Genauigkeit als auch in Geschwindigkeit
Skalierbarkeit: Kann größere Probleme verarbeiten als frühere Methoden
Praktischer Wert: Eröffnet neue Wege für Inferenz unter komplexen Evolutionsmodellen

Einschränkungen

Skalierungsbeschränkungen: Derzeit maximal 200 Sequenzen, was die Anwendung auf größere Datensätze einschränkt
Out-of-Distribution-Generalisierung: Kann bei Eingaben außerhalb der Trainingsdaten ungenaue Schätzungen ohne Warnung erzeugen
Ausdruckskraftbeschränkungen:
- Einbettungen werden im rekursiven Prozess nicht aktualisiert
- Posteriori-Verteilungen der Astlängen sind auf spezifische parametrische Verteilungen (Gamma und Beta) beschränkt
Kalibrierungsqualität: Die Kalibrierungsqualität der Posteriori-Verteilung erfordert weitere Forschung

Zukünftige Richtungen

Effizientere Kodierer: Erkundung effizienterer Architekturen zur Verarbeitung größerer Probleme
Hierarchische Methoden: Kombination mit bestehenden heuristischen Methoden zum Aufbau größerer Bäume
Unsicherheitsbewertung: Bereitstellung von Bewertungen der Vorhersageunsicherheit
Nicht ausgerichtete Sequenzen: Verarbeitung nicht ausgerichteter Sequenzeingaben
Komplexere Modelle: Inferenz unter breiteren Evolutionsmodellen, die Populationsdynamik und Koevolution enthalten

Tiefgreifende Bewertung

Stärken

Bedeutender technischer Durchbruch: Erste Realisierung der End-to-End-phylogenetischen Posteriori-Schätzung, Durchbruch über die Quartett-Beschränkung hinaus
Theoretische Strenge: Geschickte Lösung der technischen Schwierigkeiten der Wahrscheinlichkeitsverteilungsdefinition durch kanonische Fusionsreihenfolge
Umfassende Experimente: Mehrere Datensätze, Bewertungsmetriken und Vergleichsmethoden, ausreichende Ablationsstudien
Hoher praktischer Wert: Signifikante Geschwindigkeitsverbesserungen und Genauigkeitssteigerungen haben wichtige Anwendungswerte
Klare Darstellung: Technische Details sind klar beschrieben, Architekturdiagramme sind intuitiv und verständlich

Mängel

Begrenzte Skalierbarkeit: Die Beschränkung auf 200 Sequenzen ist im Genomik-Zeitalter immer noch unzureichend
Begrenzte Modellausdruckskraft: Einbettungen werden im rekursiven Prozess nicht aktualisiert, parametrische Verteilungsformen sind festgelegt, was die Modellausdruckskraft einschränkt
Unzureichende Kalibrierungsbewertung: Die Bewertung der Kalibrierungsqualität der Posteriori-Verteilung ist relativ einfach und erfordert tiefere Analyse
Cherry-Datensatz-Problem: Zugabe der Verwendung eines fehlerhaften Cherry-Datensatzes, was die Glaubwürdigkeit verwandter Schlussfolgerungen beeinträchtigt

Auswirkungen

Akademischer Beitrag: Einführung eines völlig neuen Likelihood-freien Paradigmas für die phylogenetische Inferenz
Methodologischer Wert: Die BayesNJ-Dekompositionsidee könnte die probabilistische Modellierung anderer strukturierter Objekte inspirieren
Anwendungsaussichten: Die schnelle und genaue Inferenzfähigkeit wird großflächige Evolutionsstudien fördern
Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Trainingsparameter erleichtert Reproduktion und Verbesserung

Anwendungsszenarien

Mittelskalige Phylogenetiken: Phylogenetische Inferenz mit 50-200 Sequenzen
Komplexe Evolutionsmodelle: Szenarien, die positionsübergreifende Abhängigkeiten oder Selektionsdruck berücksichtigen müssen
Schnelle Inferenzanforderungen: Anwendungsszenarien, die wiederholte Inferenz erfordern
Bayessche Analyse: Forschung, die Posteriori-Verteilungen statt Punktschätzungen benötigt

Literaturverzeichnis

Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.