Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
academic
Décodage de la Sélection Positive chez Mycobacterium tuberculosis avec des Modèles d'Attention Graphique Guidés par la Phylogénie
Cette étude propose une méthode basée sur des réseaux d'attention graphique (GAT) guidés par un arbre phylogénétique pour détecter les signaux de sélection positive chez Mycobacterium tuberculosis. En convertissant un arbre phylogénétique annoté par SNP en une structure graphique adaptée à l'analyse par réseau de neurones, la méthode a atteint une précision de 0,88 sur 500 isolats de tuberculose et 249 variantes mononucléotidiques, et a identifié avec succès 41 variantes candidates présentant des caractéristiques d'évolution adaptative.
La tuberculose (TB) reste l'une des principales causes de décès par maladie infectieuse au monde, causant 1,09 million de décès en 2024. Le développement de la résistance aux médicaments aggrave cette épidémie, avec 400 000 nouveaux cas de TB résistants à au moins la rifampicine, un médicament de première ligne. La sélection positive est un moteur clé de l'évolution de Mycobacterium tuberculosis, favorisant l'émergence de mutations adaptatives qui affectent la résistance aux médicaments, la transmissibilité et la virulence.
Signification clinique: L'identification des mutations sous sélection positive est cruciale pour comprendre les mécanismes de résistance et orienter les stratégies thérapeutiques
Valeur en biologie évolutive: La structure de population strictement clonale de Mycobacterium tuberculosis et l'absence de recombinaison en font un modèle idéal pour étudier l'évolution adaptative
Besoin de santé publique: La surveillance génomique nécessite une identification rapide et précise des variantes présentant des avantages adaptatifs
Innovation méthodologique: Première proposition d'une méthode de conversion d'arbres phylogénétiques en structures compatibles avec les réseaux de neurones graphiques
Conception architecturale: Développement d'une architecture de réseau d'attention graphique intégrant les informations de longueur d'arête, capable de traiter simultanément la topologie et les motifs de mutation
Application pratique: Identification de 41 variantes candidates adaptatives présentant des motifs de convergence dans la classification WHO des variantes « incertaines »
Développement d'outils: Fourniture de code open-source complet et d'un pipeline de traitement de données
Entrée: Arbre phylogénétique annoté par SNP, où les nœuds représentent des isolats de Mycobacterium tuberculosis et les arêtes reflètent les distances phylogénétiques
Sortie: Prédiction binaire déterminant si un SNP spécifique est soumis à une sélection positive
Contraintes: Maintenir l'intégrité des relations phylogénétiques tout en s'adaptant aux exigences d'entrée des réseaux de neurones graphiques
Construction du graphe: Conversion de l'arbre phylogénétique en graphe non orienté, les nœuds représentant les isolats et les poids des arêtes correspondant aux distances de comptage des nœuds internes
Élagage des arêtes: Suppression des arêtes entre les échantillons séparés par plus de 7 nœuds internes, mettant en évidence la structure évolutive locale
Caractéristiques des nœuds: Utilisation d'indicateurs binaires pour encoder l'état de présence/absence du SNP
Phase 1: Réseau d'attention graphique à deux couches
- Première couche: 8 têtes d'attention, 32 caractéristiques de sortie par tête
- Deuxième couche: Tête d'attention unique, sortie 256-dimensionnelle
- Connexions résiduelles: Connexion des sorties des deux couches
Phase 2: Pooling global et classification
- Pooling d'attention global
- Perceptron multicouche (256→32→2)
L'innovation clé réside dans le calcul de l'attention sensible aux arêtes:
hi(l+1)=σ(∑j∈N(i)αijWhj(l))
où les poids d'attention αij considèrent à la fois les caractéristiques des nœuds et les informations de longueur d'arête:
αij=softmax(σ(aT[Whi∥Whj]+b⋅edgeij))
Bien que l'article ne fournisse pas de comparaison directe avec les méthodes traditionnelles, la validité de la méthode a été vérifiée par la cohérence avec la classification de l'OMS.
L'article cite 26 références importantes couvrant l'épidémiologie de la tuberculose, l'analyse phylogénétique, les réseaux de neurones graphiques et d'autres domaines, fournissant une base théorique solide à la recherche.
Évaluation Globale: Cet article est une recherche interdisciplinaire d'importance innovante qui applique avec succès les techniques d'apprentissage profond à la génomique évolutive des maladies infectieuses, fournissant de nouveaux moyens techniques pour la surveillance de la résistance à la tuberculose. Malgré certaines limitations, ses contributions méthodologiques et sa valeur d'application pratique méritent d'être reconnues.