Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
academic
Decodifica della Selezione Positiva in Mycobacterium tuberculosis con Modelli di Attenzione Grafica Guidati dalla Filogenia
Questo studio propone un metodo basato su reti di attenzione grafica (GAT) guidate da alberi filogenetici per rilevare segnali di selezione positiva in Mycobacterium tuberculosis. Convertendo alberi filogenetici annotati con SNP in strutture grafiche adatte all'analisi di reti neurali, il metodo ha raggiunto un'accuratezza di 0,88 su 500 isolati di tubercolosi e 249 varianti di singoli nucleotidi, identificando con successo 41 varianti candidate con caratteristiche di evoluzione adattativa.
La tubercolosi (TB) rimane una delle principali cause di morte da malattie infettive a livello mondiale, causando 1,09 milioni di decessi nel 2024. Lo sviluppo della resistenza ai farmaci ha aggravato questa epidemia, con 400.000 nuovi casi di TB che mostrano resistenza alla rifampicina, un farmaco di prima linea. La selezione positiva è un fattore chiave nell'evoluzione di Mycobacterium tuberculosis, promuovendo l'emergenza di mutazioni adattative che influenzano la resistenza ai farmaci, la trasmissibilità e la virulenza.
Significato Clinico: L'identificazione di mutazioni sotto selezione positiva è cruciale per comprendere i meccanismi di resistenza e guidare le strategie terapeutiche
Valore in Biologia Evolutiva: La struttura di popolazione strettamente clonale di Mycobacterium tuberculosis e l'assenza di ricombinazione lo rendono un modello ideale per lo studio dell'evoluzione adattativa
Necessità di Sanità Pubblica: La sorveglianza genomica richiede l'identificazione rapida e accurata di varianti con vantaggi adattativi
Innovazione Metodologica: Prima proposta di conversione di alberi filogenetici in strutture compatibili con reti neurali grafiche
Progettazione dell'Architettura: Sviluppo di un'architettura di rete di attenzione grafica integrata con informazioni sulla lunghezza dei rami, in grado di elaborare simultaneamente la topologia e i modelli di mutazione
Applicazione Pratica: Identificazione di 41 varianti candidate con pattern di comparsa convergente nella classificazione OMS di varianti "incerte"
Sviluppo di Strumenti: Fornitura di codice open-source completo e pipeline di elaborazione dati
Input: Albero filogenetico annotato con SNP, dove i nodi rappresentano isolati di tubercolosi e i bordi riflettono distanze filogenetiche
Output: Previsione di classificazione binaria per determinare se uno specifico SNP è sottoposto a selezione positiva
Vincoli: Mantenere l'integrità delle relazioni filogenetiche adattandosi ai requisiti di input delle reti neurali grafiche
Costruzione del Grafo: Conversione dell'albero filogenetico in grafo non orientato, con nodi che rappresentano isolati e pesi dei bordi come distanze di conteggio dei nodi interni
Potatura dei Bordi: Rimozione dei bordi tra campioni separati da più di 7 nodi interni, evidenziando la struttura evolutiva locale
Caratteristiche dei Nodi: Utilizzo di indicatori binari per codificare lo stato di presenza/assenza di SNP
Fase 1: Rete di Attenzione Grafica a Due Strati
- Primo strato: 8 teste di attenzione, 32 caratteristiche di output per testa
- Secondo strato: singola testa di attenzione, output di 256 dimensioni
- Connessioni residue: collegamento degli output dei due strati
Fase 2: Pooling Globale e Classificazione
- Pooling di attenzione globale
- Classificatore di percettrone multistrato (256→32→2)
L'innovazione chiave risiede nel calcolo dell'attenzione consapevole dei bordi:
hi(l+1)=σ(∑j∈N(i)αijWhj(l))
dove i pesi di attenzione αij considerano sia le caratteristiche dei nodi che le informazioni sulla lunghezza dei bordi:
αij=softmax(σ(aT[Whi∥Whj]+b⋅edgeij))
Sebbene l'articolo non fornisca confronti diretti con metodi tradizionali, la validità del metodo è stata verificata attraverso la coerenza con la classificazione OMS.
L'articolo cita 26 importanti riferimenti che coprono epidemiologia della tubercolosi, analisi filogenetica, reti neurali grafiche e altri campi, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca interdisciplinare di significativa importanza innovativa che applica con successo la tecnologia dell'apprendimento profondo alla genomica evolutiva delle malattie infettive, fornendo nuovi mezzi tecnici per la sorveglianza della resistenza tubercolare. Nonostante alcune limitazioni, il suo contributo metodologico e il valore applicativo pratico meritano riconoscimento.