Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
본 연구는 계통발생 트리 기반 그래프 주의 네트워크(GAT) 방법을 제안하여 결핵균의 양성선택 신호를 검출한다. SNP 주석이 달린 계통발생 트리를 신경망 분석에 적합한 그래프 구조로 변환함으로써, 500개의 결핵균 분리주와 249개의 단일 핵산염 변이체에서 0.88의 정확도를 달성하였으며, 적응 진화 특성을 보이는 41개의 후보 변이를 성공적으로 식별하였다.
결핵(TB)은 여전히 전 세계 주요 감염병 사망 원인 중 하나이며, 2024년에 109만 명의 사망을 초래했다. 약제내성의 발전은 이 유행병을 악화시키고 있으며, 40만 건의 신규 TB 사례가 최소한 1차 약물인 리팜핀에 내성을 보인다. 양성선택은 결핵균 진화의 핵심 동인으로, 약제내성, 전파성 및 독성에 영향을 미치는 적응 돌연변이의 출현을 촉진한다.
단계 1: 이중층 그래프 주의 네트워크
- 첫 번째 층: 8개 주의 헤드, 헤드당 32개 출력 특성
- 두 번째 층: 단일 주의 헤드, 256차원 출력
- 잔차 연결: 두 층 출력 연결
단계 2: 전역 풀링 및 분류
- 전역 주의 풀링
- 다층 퍼셉트론 분류기(256→32→2)