Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
academic
Dekodierung positiver Selektion in Mycobacterium tuberculosis mit phylogenie-gesteuerten Graph-Attention-Modellen
Diese Studie präsentiert eine Methode basierend auf phylogenie-gesteuerten Graph-Attention-Netzwerken (GAT) zur Erkennung von Signalen positiver Selektion in Mycobacterium tuberculosis. Durch die Umwandlung von SNP-annotierten phylogenetischen Bäumen in für neuronale Netzwerkanalyse geeignete Graphstrukturen erreichte die Methode eine Genauigkeit von 0,88 auf 500 Mycobacterium tuberculosis-Isolaten und 249 Einzelnukleotid-Varianten und identifizierte erfolgreich 41 Kandidatenvarianten mit adaptiven Evolutionsmerkmalen.
Tuberkulose (TB) bleibt eine der führenden Todesursachen durch Infektionskrankheiten weltweit und verursachte 2024 etwa 1,09 Millionen Todesfälle. Die Entwicklung von Resistenzen verschärft diese Epidemie, wobei 400.000 neu diagnostizierte TB-Fälle Resistenzen gegen mindestens das Erstlinien-Antituberkulotikum Rifampicin aufweisen. Positive Selektion ist ein Schlüsseltreiber der Evolution von Mycobacterium tuberculosis und fördert das Auftreten adaptiver Mutationen, die Resistenz, Übertragbarkeit und Virulenz beeinflussen.
Klinische Bedeutung: Die Identifizierung von Mutationen unter positiver Selektion ist entscheidend für das Verständnis von Resistenzmechanismen und die Anleitung von Behandlungsstrategien
Wert für die Evolutionsbiologie: Die streng klonale Populationsstruktur und die fehlende Rekombination von Mycobacterium tuberculosis machen es zu einem idealen Modell für die Untersuchung adaptiver Evolution
Bedarf im öffentlichen Gesundheitswesen: Die genomische Überwachung erfordert schnelle und genaue Identifizierung von Varianten mit adaptiven Vorteilen
Methodische Innovation: Erstmals Vorschlag einer Methode zur Umwandlung phylogenetischer Bäume in graphische neuronale Netzwerk-kompatible Strukturen
Architekturdesign: Entwicklung einer Graph-Attention-Netzwerk-Architektur, die Kantenlengen-Informationen integriert und gleichzeitig Topologie und Mutationsmuster verarbeitet
Praktische Anwendung: Identifizierung von 41 Kandidaten-Adaptationsvarianten mit konvergenten Erscheinungsmustern in der WHO-Klassifizierung "unsicherer" Varianten
Werkzeugentwicklung: Bereitstellung vollständiger Open-Source-Code und Datenverarbeitungs-Pipeline
Eingabe: SNP-annotierte phylogenetische Bäume, wobei Knoten Mycobacterium tuberculosis-Isolate darstellen und Kanten phylogenetische Distanzen widerspiegeln
Ausgabe: Binäre Klassifizierungsvorhersage, ob ein bestimmtes SNP unter positiver Selektion steht
Einschränkungen: Beibehaltung der Integrität phylogenetischer Beziehungen bei gleichzeitiger Anpassung an die Eingabeanforderungen von Graphneuronalen Netzwerken
Graphkonstruktion: Umwandlung des phylogenetischen Baums in einen ungerichteten Graphen, wobei Knoten Isolate darstellen und Kantengewichte als Abstände zwischen internen Knoten kodiert sind
Kantenbereinigung: Entfernung von Kanten zwischen Proben, die mehr als 7 interne Knoten entfernt sind, um lokale Evolutionsstrukturen hervorzuheben
Knotenmerkmale: Verwendung binärer Indikatoren zur Kodierung des SNP-Vorhandenseins/-Fehlens
Obwohl das Papier keinen direkten Vergleich mit traditionellen Methoden bietet, wurde die Wirksamkeit der Methode durch Validierung gegen WHO-Klassifizierung überprüft.
Das Papier zitiert 26 wichtige Literaturquellen, die Tuberkulose-Epidemiologie, phylogenetische Analyse, Graphneuronale Netzwerke und andere Bereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein innovatives interdisziplinäres Forschungspapier von großer Bedeutung, das Deep-Learning-Techniken erfolgreich auf die Evolutionsgenomik von Infektionskrankheiten anwendet und neue technische Mittel für die Tuberkulose-Resistenzüberwachung bereitstellt. Trotz einiger Einschränkungen sind sein methodologischer Beitrag und sein praktischer Anwendungswert bemerkenswert.