2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.
Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
academic

Inférence sans vraisemblance des distributions a posteriori d'arbres phylogénétiques

Informations de base

  • ID de l'article: 2510.12976
  • Titre: Likelihood-free inference of phylogenetic tree posterior distributions
  • Auteurs: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
  • Classification: q-bio.PE (Populations et Évolution), q-bio.QM (Méthodes Quantitatives)
  • Date de publication: 14 octobre 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.12976v1

Résumé

L'inférence phylogénétique est une tâche centrale en génomique évolutive, visant à reconstruire comment les séquences associées ont évolué à partir d'un ancêtre commun. Les méthodes actuelles de pointe utilisent des modèles probabilistes de l'évolution des séquences le long d'un arbre phylogénétique, en cherchant l'arbre qui maximise la vraisemblance des séquences observées, ou en estimant la distribution a posteriori de l'arbre étant donné les séquences dans un cadre bayésien. Ces deux approches nécessitent généralement le calcul de la fonction de vraisemblance, qui n'est possible que sous des hypothèses simplifiées (comme l'indépendance de l'évolution entre les positions des séquences), et reste une opération coûteuse même dans ces conditions. Cet article propose Phyloformer 2, la première méthode d'inférence sans vraisemblance pour les distributions a posteriori phylogénétiques. Phyloformer 2 utilise un schéma d'encodage novateur des paires de séquences, le rendant plus scalable que les méthodes précédentes, et adopte une décomposition de la distribution de probabilité basée sur la fusion continue de sous-arbres. Le réseau fournit des estimations précises de la distribution a posteriori, surpassant les méthodes de vraisemblance maximale de pointe et les méthodes sans vraisemblance précédentes en termes d'estimation ponctuelle.

Contexte et motivation de la recherche

Définition du problème

L'inférence phylogénétique est la tâche de reconstruire l'histoire évolutive d'un ensemble de séquences existantes, nécessitant de déterminer la structure d'arbre binaire qui décrit comment elles se sont diversifiées à partir d'un ancêtre commun. Cette tâche revêt une importance significative dans plusieurs domaines:

  1. Biologie évolutive: comprendre comment les espèces existantes ont évolué à partir d'un ancêtre commun
  2. Transmission de maladies: suivre l'émergence et la propagation de la résistance bactérienne
  3. Épidémiologie: surveiller les modèles de propagation des épidémies

Limitations des méthodes existantes

Les méthodes traditionnelles d'inférence phylogénétique reposent principalement sur des modèles probabilistes et font face aux problèmes clés suivants:

  1. Complexité computationnelle: le calcul de la fonction de vraisemblance nécessite des algorithmes d'élagage coûteux (Felsenstein, 1981)
  2. Espace de recherche énorme: le nombre de topologies d'arbres pour n nœuds feuilles est (2n-5)!!, rendant la recherche extrêmement difficile
  3. Hypothèses de simplification du modèle: pour rendre le calcul viable, il faut supposer que l'évolution à différentes positions des séquences est indépendante et identiquement distribuée, ignorant la sélection naturelle
  4. Résultats de simulation irréalistes: ces hypothèses simplifiées conduisent à la génération d'ensembles de séquences irréalistes et d'artefacts dans la reconstruction phylogénétique

Motivation de la recherche

L'inférence sans vraisemblance (inférence basée sur la simulation) offre un nouveau paradigme pour résoudre ces problèmes:

  • Lorsque l'évaluation de la vraisemblance n'est pas viable mais que l'échantillonnage est peu coûteux, l'estimation peut être effectuée efficacement
  • Utiliser l'apprentissage profond pour entraîner des réseaux de neurones sur des données simulées afin d'approximer la distribution a posteriori
  • Inférence amortie: l'entraînement est coûteux mais l'inférence est extrêmement rapide
  • Peut gérer des modèles évolutifs plus complexes et plus réalistes

Contributions principales

  1. Première méthode d'estimation a posteriori sans vraisemblance de bout en bout: propose la première méthode d'estimation a posteriori sans vraisemblance allant directement des séquences à la phylogénie, dépassant les travaux antérieurs limités aux quartets
  2. Architecture réseau novatrice EvoPF: inspirée par EvoFormer d'AlphaFold 2, conçoit un encodeur de séquences plus scalable et expressif, capable de traiter plus de 200 séquences
  3. Décomposition de distribution de probabilité BayesNJ: propose une paramétrisation de la distribution de probabilité phylogénétique basée sur un processus de fusion continu, assurant la correction de la distribution de probabilité
  4. Amélioration significative des performances: surpasse les méthodes basées sur la vraisemblance de pointe en termes de précision topologique, avec une vitesse d'inférence améliorée de 1 à 2 ordres de grandeur
  5. Applicabilité aux modèles complexes: peut être entraîné sous des modèles où la vraisemblance n'est pas traitable, avec un écart de performance encore plus grand par rapport aux estimateurs basés sur la vraisemblance mal spécifiés

Détails de la méthode

Définition de la tâche

Entrée: un ensemble de séquences alignées x={x1,,xN}x = \{x_1, \ldots, x_N\}, où chaque séquence contient L caractères Sortie: une phylogénie θ=(τ,)\theta = (\tau, \ell), incluant la structure topologique τ\tau et les longueurs de branche \ellObjectif: apprendre une approximation qψ(θx)q_\psi(\theta|x) de la distribution a posteriori p(θx)p(\theta|x)

Architecture du modèle

Phyloformer 2 est composé de deux modules principaux:

1. Encodeur EvoPF

EvoPF est une version transposée d'EvoFormer, maintenant deux types de représentations:

  • Pile MSA: plongements pour chaque position dans chaque séquence
  • Pile d'appariement: plongements pour chaque paire de séquences

Conceptions clés:

  • Attention axiale: alternance entre attention automatique colonnaire (entre séquences au sein d'une position) et attention automatique rangée (entre positions au sein d'une séquence) dans la pile MSA
  • Attention automatique plate entre appariements: simplifie l'attention triangulaire d'EvoFormer
  • Interaction d'information: transmission d'information entre la pile MSA et la pile d'appariement via produit externe moyen et biais d'appariement

2. Distribution de probabilité BayesNJ

Définit une distribution de probabilité sur les phylogénies, décomposée en un processus de fusion continu:

qψ(x)(θ=(τ,)x)=k=12N3qm(m(k)m(<k))q((k)m(k),m(<k))q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})

Innovations clés:

  • Ordre de fusion canonique: assure qu'il n'existe qu'une seule séquence de fusion valide pour chaque phylogénie
  • Gestion des contraintes: assure la cohérence entre l'échantillonnage et l'évaluation par des contraintes de distance
  • Paramétrisation des longueurs de branche: utilise une re-paramétrisation en somme (s(k)s^{(k)}) et ratio (r(k)r^{(k)}), modélisée avec des distributions Gamma et Beta

Points techniques innovants

  1. Schéma d'encodage scalable: comparé à la représentation de paires de séquences de Phyloformer, EvoPF améliore significativement la scalabilité tout en maintenant la capacité d'expression
  2. Définition correcte de la distribution de probabilité: résout le problème selon lequel une même phylogénie peut être générée par plusieurs séquences de fusion via un ordre de fusion canonique
  3. Entraînement de bout en bout: optimise directement la probabilité a posteriori, évitant les étapes intermédiaires de prédiction de distance
  4. Satisfaction des contraintes: assure que les phylogénies échantillonnées respectent l'ordre canonique via une matrice de contrainte dynamique

Configuration expérimentale

Ensembles de données

  1. Ensemble d'entraînement principal: 1,3 million de paires arbre/MSA avec 50 taxons, basé sur le modèle LG+G8
  2. Ensemble de données multi-tailles: 10-170 taxons, utilisé pour l'ajustement fin afin d'éviter le surapprentissage au nombre de taxons
  3. Ensemble de données de modèles complexes: modèle Cherry (dépendance entre positions) et modèle SelReg (hétérogénéité entre positions)
  4. Ensemble de données de comparaison MCMC: généré avec les priors de RevBayes, utilisé pour évaluer la qualité de la distribution a posteriori

Métriques d'évaluation

  1. Précision topologique: distance Robinson-Foulds normalisée
  2. Précision des longueurs de branche: distance Kuhner-Felsenstein
  3. Qualité a posteriori: comparaison des fréquences de partition avec les échantillons MCMC
  4. Efficacité computationnelle: temps d'exécution et utilisation de la mémoire

Méthodes de comparaison

  • Basées sur la vraisemblance: IQTree, FastTree, FastME
  • Sans vraisemblance: Phyloformer original (PF)
  • Variantes: PF2topo (topologie uniquement), PF2ℓ1 (perte L1)

Résultats expérimentaux

Résultats principaux

Amélioration de la précision topologique

Dans les tests avec 10-200 taxons, Phyloformer 2 surpasse significativement toutes les méthodes de comparaison:

  • Amélioration significative par rapport au PF original sur toutes les tailles
  • Pour les arbres avec 10-175 feuilles, surpasse les méthodes de vraisemblance maximale de pointe comme IQTree et FastTree
  • L'avantage de performance provient principalement de l'utilisation d'une distribution a posteriori avec un prior correct

Amélioration significative de l'efficacité computationnelle

  • Vitesse: plus rapide d'un ordre de grandeur que FastTree, de deux ordres de grandeur que IQTree
  • Scalabilité: bien que gourmande en mémoire, meilleure scalabilité que PF, capable de traiter des arbres plus grands
  • PF2topo: la version topologie uniquement est même près d'un ordre de grandeur plus rapide que le PF original

Avantage sous modèles complexes

Sous des modèles où la vraisemblance n'est pas traitable (Cherry et SelReg):

  • PF2 surpasse significativement le modèle PF équivalent
  • L'écart de performance s'élargit encore par rapport aux méthodes basées sur la vraisemblance mal spécifiées
  • Démontre l'avantage des méthodes sans vraisemblance sous modèles complexes

Études d'ablation

L'entraînement d'une version PF2ℓ1 utilisant la perte L1 révèle:

  • L'encodeur EvoPF offre une certaine aide pour la prédiction topologique
  • Cependant, la majorité de l'amélioration de la précision topologique provient de la fonction de perte BayesNJ
  • Démontre l'avantage de l'estimation a posteriori de bout en bout par rapport à la prédiction de distance

Évaluation de la qualité de la distribution a posteriori

La comparaison avec les échantillons MCMC de RevBayes montre:

  • RevBayes produit des distributions a posteriori dures (la plupart des branches apparaissent soit complètement soit pas du tout)
  • PF2 fournit des distributions a posteriori plus souples, mais avec une grande cohérence avec RevBayes
  • Les branches qui apparaissent dans tous les arbres dans RevBayes ont une fréquence >0,6 dans PF2
  • Les branches non échantillonnées ont une fréquence <0,3 dans PF2

Travaux connexes

Inférence phylogénétique traditionnelle

  1. Méthodes de vraisemblance maximale: IQTree, FastTree, etc., nécessitant une recherche heuristique dans l'espace des arbres
  2. Méthodes bayésiennes: échantillonnage de la distribution a posteriori via MCMC, coût computationnel élevé
  3. Inférence variationnelle: approximation de la distribution a posteriori, mais nécessitant toujours le calcul de la vraisemblance

Inférence phylogénétique sans vraisemblance

  1. Méthodes de quartets: réduction du problème à 3 classifications, non extensible à plus grande échelle
  2. Méthodes de prédiction de distance: Phyloformer prédit les distances évolutives, puis reconstruit l'arbre avec NJ
  3. Contribution de cet article: première méthode d'estimation a posteriori phylogénétique complète de bout en bout

Estimation neuronale a posteriori (NPE)

  • Apprentissage d'une approximation par réseau de neurones de la distribution a posteriori en minimisant la divergence KL
  • Inférence amortie: après entraînement, la vitesse d'inférence est extrêmement rapide
  • Défi clé: concevoir une famille de distributions paramétriques appropriée pour les phylogénies

Conclusions et discussion

Conclusions principales

  1. Efficacité de la méthode: Phyloformer 2 réalise avec succès l'estimation a posteriori sans vraisemblance pour les phylogénies
  2. Avantages de performance: surpasse les méthodes existantes en précision et vitesse
  3. Scalabilité: capable de traiter des problèmes de plus grande envergure que les méthodes précédentes
  4. Valeur pratique: ouvre de nouvelles voies pour l'inférence sous modèles évolutifs complexes

Limitations

  1. Limitations de scalabilité: actuellement capable de traiter au maximum 200 séquences, limitant l'application sur des ensembles de données plus grands
  2. Généralisation hors distribution: peut produire des estimations inexactes sans avertissement pour des entrées en dehors des données d'entraînement
  3. Limitations de la capacité d'expression:
    • Les plongements ne sont pas mis à jour dans le processus récursif
    • La distribution a posteriori des longueurs de branche est limitée à des distributions paramétriques spécifiques (Gamma et Beta)
  4. Qualité de calibrage: la qualité du calibrage de la distribution a posteriori nécessite des recherches supplémentaires

Directions futures

  1. Encodeurs plus efficaces: explorer des architectures plus efficaces pour traiter des problèmes de plus grande envergure
  2. Approches hiérarchiques: combiner les méthodes heuristiques existantes pour construire des arbres plus grands
  3. Évaluation de l'incertitude: fournir une évaluation de l'incertitude de prédiction
  4. Séquences non alignées: traiter les entrées de séquences non alignées
  5. Modèles plus complexes: inférence sous une gamme plus large de modèles évolutifs incluant la dynamique des populations et l'évolution conjointe

Évaluation approfondie

Points forts

  1. Percée technique majeure: première réalisation de l'estimation a posteriori phylogénétique de bout en bout, dépassant la limitation des quartets
  2. Rigueur théorique: résout élégamment les difficultés techniques de la définition de la distribution de probabilité via un ordre de fusion canonique
  3. Expériences complètes: incluent plusieurs ensembles de données, métriques d'évaluation et méthodes de comparaison, avec des études d'ablation suffisantes
  4. Valeur pratique élevée: les améliorations significatives de vitesse et de précision ont une importante valeur applicative
  5. Rédaction claire: les détails techniques sont bien décrits, les diagrammes d'architecture sont intuitifs et faciles à comprendre

Insuffisances

  1. Scalabilité toujours limitée: la limite de 200 séquences reste insuffisante à l'ère génomique
  2. Capacité d'expression du modèle: les limitations telles que la non-mise à jour des plongements dans le processus récursif et la forme fixe des distributions paramétriques limitent la capacité d'expression du modèle
  3. Évaluation du calibrage insuffisante: l'évaluation de la qualité du calibrage de la distribution a posteriori est relativement simple, nécessitant une analyse plus approfondie
  4. Problème d'ensemble de données Cherry: reconnaît l'utilisation d'un ensemble de données Cherry contenant des erreurs, affectant la crédibilité des conclusions connexes

Impact

  1. Contribution académique: introduit un nouveau paradigme sans vraisemblance dans le domaine de l'inférence phylogénétique
  2. Valeur méthodologique: la pensée de décomposition BayesNJ peut inspirer la modélisation probabiliste d'autres objets structurés
  3. Perspectives d'application: la capacité d'inférence rapide et précise favorisera la recherche évolutive à grande échelle
  4. Reproductibilité: fournit des détails d'implémentation détaillés et des paramètres d'entraînement, facilitant la reproduction et l'amélioration

Scénarios d'application

  1. Phylogénie à échelle moyenne: inférence phylogénétique avec 50-200 séquences
  2. Modèles évolutifs complexes: scénarios nécessitant de considérer la dépendance entre positions ou la pression de sélection
  3. Besoins d'inférence rapide: scénarios d'application nécessitant de nombreuses inférences répétées
  4. Analyse bayésienne: recherche nécessitant la distribution a posteriori plutôt que des estimations ponctuelles

Références

  1. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
  2. Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
  3. Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
  4. Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
  5. Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.