2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.
Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
academic

Likelihood-freie Inferenz von phylogenetischen Baum-Posteriori-Verteilungen

Grundinformationen

  • Paper-ID: 2510.12976
  • Titel: Likelihood-free inference of phylogenetic tree posterior distributions
  • Autoren: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
  • Klassifizierung: q-bio.PE (Populationen und Evolution), q-bio.QM (Quantitative Methoden)
  • Veröffentlichungsdatum: 14. Oktober 2024 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12976v1

Zusammenfassung

Die phylogenetische Inferenz ist eine Kernaufgabe der Evolutionsgenomik, die darauf abzielt, zu rekonstruieren, wie verwandte Sequenzen von einem gemeinsamen Vorfahren evolviert sind. Aktuelle hochmoderne Methoden nutzen probabilistische Modelle der Sequenzevolution entlang phylogenetischer Bäume, indem sie Bäume suchen, die die Wahrscheinlichkeit beobachteter Sequenzen maximieren, oder im Bayesschen Rahmen die Posteriori-Verteilung von Bäumen gegeben Sequenzen schätzen. Beide Ansätze erfordern typischerweise die Berechnung der Likelihood-Funktion, die nur unter vereinfachten Annahmen (wie der Unabhängigkeit der Evolution an verschiedenen Sequenzpositionen) machbar ist und selbst dann eine teure Operation darstellt. Dieses Paper präsentiert Phyloformer 2, die erste Likelihood-freie Inferenzmethode für phylogenetische Posteriori-Verteilungen. Phyloformer 2 nutzt ein neuartiges Sequenzpaar-Kodierungsschema, das es skalierbarer macht als frühere Methoden, und verwendet eine auf kontinuierlichen Subbaum-Fusionen basierende Parametrisierung der Wahrscheinlichkeitsverteilungsdekomposition. Das Netzwerk liefert genaue Posteriori-Verteilungsschätzungen und übertrifft hochmoderne Maximum-Likelihood-Methoden und frühere Likelihood-freie Methoden bei Punktschätzungen.

Forschungshintergrund und Motivation

Problemdefinition

Die phylogenetische Inferenz ist die Aufgabe, die Evolutionsgeschichte einer Menge existierender Sequenzen zu rekonstruieren, indem die binäre Baumstruktur bestimmt wird, die beschreibt, wie sie sich von einem gemeinsamen Vorfahren differenziert haben. Diese Aufgabe hat Bedeutung in mehreren Bereichen:

  1. Evolutionsbiologie: Verständnis, wie existierende Arten von einem gemeinsamen Vorfahren evolviert sind
  2. Krankheitsausbreitung: Verfolgung des Auftretens und der Ausbreitung von Antibiotikaresistenzen bei Bakterien
  3. Epidemiologie: Überwachung von Ausbreitungsmustern von Epidemien

Einschränkungen bestehender Methoden

Traditionelle phylogenetische Inferenzmethoden verlassen sich hauptsächlich auf probabilistische Modelle und sehen sich folgenden Schlüsselproblemen gegenüber:

  1. Rechenkomplexität: Die Berechnung der Likelihood-Funktion erfordert teure Pruning-Algorithmen (Felsenstein, 1981)
  2. Riesiger Suchraum: Die Anzahl der Baumtopologien für n Blattknoten beträgt (2n-5)!!, was die Suche äußerst schwierig macht
  3. Vereinfachte Modellannahmen: Um die Berechnung machbar zu machen, müssen die Evolution an verschiedenen Sequenzpositionen als unabhängig und identisch verteilt angenommen werden, was natürliche Selektion ignoriert
  4. Unrealistische Simulationsergebnisse: Diese vereinfachten Annahmen führen zu unrealistischen Sequenzmengen und Artefakten in der phylogenetischen Rekonstruktion

Forschungsmotivation

Likelihood-freie Inferenz (Simulation-based inference) bietet ein neues Paradigma zur Lösung dieser Probleme:

  • Effektive Schätzung ist möglich, wenn die Likelihood-Bewertung nicht machbar ist, aber Stichprobenentnahme kostengünstig ist
  • Nutzung von Deep Learning zum Trainieren neuronaler Netze auf simulierten Daten zur Approximation der Posteriori-Verteilung
  • Amortisierte Inferenz: Trainieren ist zeitaufwändig, aber Inferenz ist extrem schnell
  • Kann komplexere und realistischere Evolutionsmodelle verarbeiten

Kernbeiträge

  1. Erste End-to-End-Likelihood-freie Posteriori-Schätzmethode: Präsentation der ersten Likelihood-freien Posteriori-Schätzmethode direkt von Sequenzen zu Phylogenetik, die frühere auf Quartette beschränkte Arbeiten übertrifft
  2. Neuartige Netzwerkarchitektur EvoPF: Inspiriert von AlphaFold 2s EvoFormer, Entwurf eines skalierbaren und ausdrucksstarken Sequenzkodiergeräts, das über 200 Sequenzen verarbeiten kann
  3. BayesNJ-Wahrscheinlichkeitsverteilungsdekomposition: Vorschlag einer auf kontinuierlichen Fusionsprozessen basierenden Parametrisierungsmethode für phylogenetische Wahrscheinlichkeitsverteilungen, die die Korrektheit der Wahrscheinlichkeitsverteilung gewährleistet
  4. Signifikante Leistungssteigerung: Übertrifft hochmoderne Likelihood-basierte Methoden bei Topologie-Genauigkeit, Inferenzgeschwindigkeit um 1-2 Größenordnungen erhöht
  5. Anwendbarkeit auf komplexe Modelle: Kann unter Modellen trainiert werden, bei denen die Likelihood nicht handhabbar ist, mit noch größerem Leistungsvorteil gegenüber falsch spezifizierten Likelihood-basierten Schätzern

Methodische Details

Aufgabendefinition

Eingabe: Ein Satz ausgerichteter Sequenzen x={x1,,xN}x = \{x_1, \ldots, x_N\}, wobei jede Sequenz L Zeichen enthält Ausgabe: Phylogenetik θ=(τ,)\theta = (\tau, \ell), einschließlich Topologie τ\tau und Astlängen \ellZiel: Erlernen einer Approximation qψ(θx)q_\psi(\theta|x) der Posteriori-Verteilung p(θx)p(\theta|x)

Modellarchitektur

Phyloformer 2 besteht aus zwei Kernmodulen:

1. EvoPF-Kodierer

EvoPF ist eine transponierte Version von EvoFormer, die zwei Darstellungen aufrechterhält:

  • MSA-Stapel: Einbettungen für jede Position in jeder Sequenz
  • Paarungsstapel: Einbettungen für jedes Sequenzpaar

Schlüsseldesign:

  • Achsenweise Aufmerksamkeit: Abwechselnde Verwendung von spalten- (sequenzübergreifend innerhalb von Positionen) und zeilenweiser (positionsübergreifend innerhalb von Sequenzen) Selbstaufmerksamkeit im MSA-Stapel
  • Flache Selbstaufmerksamkeit zwischen Paarungen: Vereinfachung der dreieckigen Aufmerksamkeit von EvoFormer
  • Informationsaustausch: Realisierung des Informationstransfers zwischen MSA-Stapel und Paarungsstapel durch Außenproduktmittelwerte und Paarungsverzerrungen

2. BayesNJ-Wahrscheinlichkeitsverteilung

Definition einer Wahrscheinlichkeitsverteilung über Phylogenetiken, zerlegt in einen kontinuierlichen Fusionsprozess:

qψ(x)(θ=(τ,)x)=k=12N3qm(m(k)m(<k))q((k)m(k),m(<k))q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})

Schlüsselinnovationen:

  • Kanonische Fusionsreihenfolge: Gewährleistung, dass jede Phylogenetik nur eine gültige Fusionssequenz hat
  • Beschränkungsbehandlung: Sicherung der Konsistenz zwischen Stichprobenentnahme und Bewertung durch Distanzbeschränkungen
  • Astlängen-Parametrisierung: Reparametrisierung mit Summe (s(k)s^{(k)}) und Verhältnis (r(k)r^{(k)}), Modellierung mit Gamma- und Beta-Verteilungen

Technische Innovationspunkte

  1. Skalierbares Kodierungsschema: Im Vergleich zur Sequenzpaar-Darstellung von Phyloformer verbessert EvoPF die Skalierbarkeit erheblich, während die Ausdruckskraft erhalten bleibt
  2. Korrekte Definition der Wahrscheinlichkeitsverteilung: Lösung des Problems, dass dieselbe Phylogenetik durch mehrere Fusionssequenzen erzeugt werden kann, durch kanonische Fusionsreihenfolge
  3. End-to-End-Training: Direkte Optimierung der Posteriori-Wahrscheinlichkeit, Vermeidung von Zwischenschritten der Distanzvorhersage
  4. Beschränkungserfüllung: Sicherung, dass gesampelte Phylogenetiken die kanonische Reihenfolge erfüllen, durch dynamische Beschränkungsmatrizen

Experimentelle Einrichtung

Datensätze

  1. Haupttrainingssatz: 1,3 Millionen Baum-/MSA-Paare mit 50 Taxa, basierend auf dem LG+G8-Modell
  2. Multi-Size-Datensatz: 10-170 Taxa, verwendet für Feinabstimmung zur Vermeidung von Überanpassung an die Anzahl der Taxa
  3. Datensatz mit komplexem Modell: Cherry-Modell (positionsübergreifende Abhängigkeit) und SelReg-Modell (positionsübergreifende Heterogenität)
  4. MCMC-Vergleichsdatensatz: Generiert mit RevBayes-Prior, verwendet zur Bewertung der Posteriori-Verteilungsqualität

Bewertungsmetriken

  1. Topologie-Genauigkeit: Normalisierte Robinson-Foulds-Distanz
  2. Astlängen-Genauigkeit: Kuhner-Felsenstein-Distanz
  3. Posteriori-Qualität: Vergleich der Spaltungsfrequenzen mit MCMC-Stichproben
  4. Rechnerische Effizienz: Laufzeit und Speichernutzung

Vergleichsmethoden

  • Likelihood-basiert: IQTree, FastTree, FastME
  • Likelihood-frei: Original-Phyloformer (PF)
  • Varianten: PF2topo (nur Topologie), PF2ℓ1 (L1-Verlust)

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserung der Topologie-Genauigkeit

In Tests mit 10-200 Taxa übertrifft Phyloformer 2 alle Vergleichsmethoden signifikant:

  • Signifikante Verbesserung gegenüber dem ursprünglichen PF bei allen Größen
  • Übertrifft hochmoderne Maximum-Likelihood-Methoden wie IQTree und FastTree für Bäume mit 10-175 Blättern
  • Der Leistungsvorteil stammt hauptsächlich aus der Verwendung der korrekten Prior-Posteriori-Verteilungsschätzung

Erhebliche Verbesserung der Rechnerischen Effizienz

  • Geschwindigkeit: Eine Größenordnung schneller als FastTree, zwei Größenordnungen schneller als IQTree
  • Skalierbarkeit: Obwohl speicherintensiv, bessere Skalierbarkeit als PF, kann größere Bäume verarbeiten
  • PF2topo: Nur-Topologie-Version ist sogar fast eine Größenordnung schneller als das ursprüngliche PF

Vorteile bei komplexen Modellen

Bei nicht handhabbaren Likelihood-Modellen (Cherry und SelReg):

  • PF2 übertrifft signifikant das äquivalente PF-Modell
  • Der Leistungsvorteil gegenüber falsch spezifizierten Likelihood-basierten Methoden vergrößert sich weiter
  • Demonstriert die Vorteile von Likelihood-freien Methoden bei komplexen Modellen

Ablationsstudien

Durch das Training einer PF2ℓ1-Version mit L1-Verlust wurde festgestellt:

  • Der EvoPF-Kodierer bietet gewisse Hilfe bei der Topologie-Vorhersage
  • Der Großteil der Topologie-Genauigkeitsverbesserung stammt jedoch aus der BayesNJ-Verlustfunktion
  • Demonstriert die Vorteile des End-to-End-Posteriori-Schätzung gegenüber der Distanzvorhersage

Bewertung der Posteriori-Verteilungsqualität

Der Vergleich mit RevBayes-MCMC-Stichproben zeigt:

  • RevBayes erzeugt harte Posteriori-Verteilungen (die meisten Äste treten entweder vollständig auf oder überhaupt nicht)
  • PF2 bietet weichere Posteriori-Verteilungen, aber mit großer Konsistenz zu RevBayes
  • Äste, die in RevBayes in allen Bäumen auftreten, haben in PF2 eine Häufigkeit >0,6
  • Nicht gesampelte Äste haben in PF2 eine Häufigkeit <0,3

Verwandte Arbeiten

Traditionelle phylogenetische Inferenz

  1. Maximum-Likelihood-Methoden: IQTree, FastTree usw., erfordern heuristische Suche im Baum-Raum
  2. Bayessche Methoden: Posteriori-Verteilungssampling durch MCMC, hohe Rechenkosten
  3. Variationelle Inferenz: Approximation der Posteriori-Verteilung, erfordert aber immer noch Likelihood-Berechnung

Likelihood-freie phylogenetische Inferenz

  1. Quartett-Methoden: Vereinfachung des Problems auf 3-Klassen-Klassifizierung, nicht auf größere Skalen skalierbar
  2. Distanzvorhersage-Methoden: Phyloformer sagt Evolutionsdistanzen voraus, dann NJ-Rekonstruktion von Bäumen
  3. Beitrag dieses Papers: Erste End-to-End-Methode zur vollständigen phylogenetischen Posteriori-Schätzung

Neuronale Posteriori-Schätzung (NPE)

  • Erlernen neuronaler Netzwerk-Approximationen der Posteriori-Verteilung durch Minimierung der KL-Divergenz
  • Amortisierte Inferenz: Extrem schnelle Inferenz nach dem Training
  • Schlüsselherausforderung: Entwurf geeigneter parametrischer Verteilungsfamilien für Phylogenetiken

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodische Wirksamkeit: Phyloformer 2 realisiert erfolgreich die Likelihood-freie Posteriori-Schätzung für Phylogenetiken
  2. Leistungsvorteil: Übertrifft bestehende Methoden sowohl in Genauigkeit als auch in Geschwindigkeit
  3. Skalierbarkeit: Kann größere Probleme verarbeiten als frühere Methoden
  4. Praktischer Wert: Eröffnet neue Wege für Inferenz unter komplexen Evolutionsmodellen

Einschränkungen

  1. Skalierungsbeschränkungen: Derzeit maximal 200 Sequenzen, was die Anwendung auf größere Datensätze einschränkt
  2. Out-of-Distribution-Generalisierung: Kann bei Eingaben außerhalb der Trainingsdaten ungenaue Schätzungen ohne Warnung erzeugen
  3. Ausdruckskraftbeschränkungen:
    • Einbettungen werden im rekursiven Prozess nicht aktualisiert
    • Posteriori-Verteilungen der Astlängen sind auf spezifische parametrische Verteilungen (Gamma und Beta) beschränkt
  4. Kalibrierungsqualität: Die Kalibrierungsqualität der Posteriori-Verteilung erfordert weitere Forschung

Zukünftige Richtungen

  1. Effizientere Kodierer: Erkundung effizienterer Architekturen zur Verarbeitung größerer Probleme
  2. Hierarchische Methoden: Kombination mit bestehenden heuristischen Methoden zum Aufbau größerer Bäume
  3. Unsicherheitsbewertung: Bereitstellung von Bewertungen der Vorhersageunsicherheit
  4. Nicht ausgerichtete Sequenzen: Verarbeitung nicht ausgerichteter Sequenzeingaben
  5. Komplexere Modelle: Inferenz unter breiteren Evolutionsmodellen, die Populationsdynamik und Koevolution enthalten

Tiefgreifende Bewertung

Stärken

  1. Bedeutender technischer Durchbruch: Erste Realisierung der End-to-End-phylogenetischen Posteriori-Schätzung, Durchbruch über die Quartett-Beschränkung hinaus
  2. Theoretische Strenge: Geschickte Lösung der technischen Schwierigkeiten der Wahrscheinlichkeitsverteilungsdefinition durch kanonische Fusionsreihenfolge
  3. Umfassende Experimente: Mehrere Datensätze, Bewertungsmetriken und Vergleichsmethoden, ausreichende Ablationsstudien
  4. Hoher praktischer Wert: Signifikante Geschwindigkeitsverbesserungen und Genauigkeitssteigerungen haben wichtige Anwendungswerte
  5. Klare Darstellung: Technische Details sind klar beschrieben, Architekturdiagramme sind intuitiv und verständlich

Mängel

  1. Begrenzte Skalierbarkeit: Die Beschränkung auf 200 Sequenzen ist im Genomik-Zeitalter immer noch unzureichend
  2. Begrenzte Modellausdruckskraft: Einbettungen werden im rekursiven Prozess nicht aktualisiert, parametrische Verteilungsformen sind festgelegt, was die Modellausdruckskraft einschränkt
  3. Unzureichende Kalibrierungsbewertung: Die Bewertung der Kalibrierungsqualität der Posteriori-Verteilung ist relativ einfach und erfordert tiefere Analyse
  4. Cherry-Datensatz-Problem: Zugabe der Verwendung eines fehlerhaften Cherry-Datensatzes, was die Glaubwürdigkeit verwandter Schlussfolgerungen beeinträchtigt

Auswirkungen

  1. Akademischer Beitrag: Einführung eines völlig neuen Likelihood-freien Paradigmas für die phylogenetische Inferenz
  2. Methodologischer Wert: Die BayesNJ-Dekompositionsidee könnte die probabilistische Modellierung anderer strukturierter Objekte inspirieren
  3. Anwendungsaussichten: Die schnelle und genaue Inferenzfähigkeit wird großflächige Evolutionsstudien fördern
  4. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Trainingsparameter erleichtert Reproduktion und Verbesserung

Anwendungsszenarien

  1. Mittelskalige Phylogenetiken: Phylogenetische Inferenz mit 50-200 Sequenzen
  2. Komplexe Evolutionsmodelle: Szenarien, die positionsübergreifende Abhängigkeiten oder Selektionsdruck berücksichtigen müssen
  3. Schnelle Inferenzanforderungen: Anwendungsszenarien, die wiederholte Inferenz erfordern
  4. Bayessche Analyse: Forschung, die Posteriori-Verteilungen statt Punktschätzungen benötigt

Literaturverzeichnis

  1. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
  2. Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
  3. Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
  4. Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
  5. Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.