Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
academic
Descifrando la Selección Positiva en Mycobacterium tuberculosis con Modelos de Atención Gráfica Guiados por Filogenia
Este estudio propone un método basado en redes de atención gráfica (GAT) guiadas por árboles filogenéticos para detectar señales de selección positiva en Mycobacterium tuberculosis. Al convertir árboles filogenéticos anotados con SNP en estructuras gráficas adecuadas para análisis de redes neuronales, el método logra una precisión de 0.88 en 500 aislados de M. tuberculosis y 249 variantes de nucleótido único, identificando exitosamente 41 variantes candidatas con características de evolución adaptativa.
La tuberculosis (TB) sigue siendo una de las principales causas de muerte por enfermedades infecciosas a nivel mundial, causando 1.09 millones de muertes en 2024. El desarrollo de resistencia a fármacos agrava esta epidemia, con 400,000 nuevos casos de TB resistentes a al menos la rifampicina, un fármaco de primera línea. La selección positiva es un factor clave en la evolución de M. tuberculosis, impulsando la aparición de mutaciones adaptativas que afectan la resistencia a fármacos, transmisibilidad y virulencia.
Significancia Clínica: Identificar mutaciones bajo selección positiva es crucial para comprender los mecanismos de resistencia y guiar estrategias terapéuticas
Valor en Biología Evolutiva: La estructura poblacional estrictamente clonal de M. tuberculosis y su naturaleza sin recombinación la convierten en un modelo ideal para estudiar evolución adaptativa
Necesidad de Salud Pública: La vigilancia genómica requiere identificación rápida y precisa de variantes con ventajas adaptativas
Innovación Metodológica: Primera propuesta de convertir árboles filogenéticos en estructuras compatibles con redes neuronales gráficas
Diseño de Arquitectura: Desarrollo de una arquitectura de red de atención gráfica que integra información de longitud de aristas, procesando simultáneamente estructura topológica y patrones de mutación
Aplicación Práctica: Identificación de 41 variantes candidatas con patrones de aparición convergente en la clasificación de variantes "inciertas" de la OMS
Desarrollo de Herramientas: Provisión de código abierto completo y tubería de procesamiento de datos
Entrada: Árbol filogenético anotado con SNP, donde los nodos representan aislados de M. tuberculosis y las aristas reflejan distancias filogenéticas
Salida: Predicción de clasificación binaria determinando si un SNP específico está bajo selección positiva
Restricciones: Mantener la integridad de las relaciones filogenéticas mientras se adapta a los requisitos de entrada de redes neuronales gráficas
Construcción Gráfica: Conversión del árbol filogenético a un gráfico no dirigido, con nodos representando aislados y pesos de aristas como distancia de conteo de nodos internos
Poda de Aristas: Eliminación de aristas entre muestras separadas por más de 7 nodos internos, destacando estructura evolutiva local
Características de Nodos: Uso de indicadores binarios codificando presencia/ausencia de SNP
Etapa 1: Red de Atención Gráfica de Dos Capas
- Primera capa: 8 cabezas de atención, 32 características de salida por cabeza
- Segunda capa: Cabeza de atención única, salida de 256 dimensiones
- Conexiones residuales: Conectando salidas de ambas capas
Etapa 2: Agrupación Global y Clasificación
- Agrupación de atención global
- Clasificador de perceptrón multicapa (256→32→2)
La innovación clave radica en el cálculo de atención consciente de aristas:
hi(l+1)=σ(∑j∈N(i)αijWhj(l))
donde los pesos de atención αij consideran simultáneamente características de nodos e información de longitud de arista:
αij=softmax(σ(aT[Whi∥Whj]+b⋅edgeij))
Aunque el artículo no proporciona comparación directa con métodos tradicionales, valida la efectividad del método mediante verificación de consistencia con clasificación de la OMS.
El artículo cita 26 referencias importantes, abarcando epidemiología de tuberculosis, análisis filogenético, redes neuronales gráficas y otros múltiples campos, proporcionando base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación interdisciplinaria con significancia innovadora importante, aplicando exitosamente tecnología de aprendizaje profundo a genómica evolutiva de enfermedades infecciosas, proporcionando nuevas herramientas técnicas para vigilancia de resistencia a tuberculosis. A pesar de algunas limitaciones, sus contribuciones metodológicas y valor de aplicación práctica merecen reconocimiento.