Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
academic
Декодирование позитивной селекции в Mycobacterium tuberculosis с использованием моделей графовых сетей внимания, направляемых филогенией
В данном исследовании предложен метод на основе графовых сетей внимания (GAT), направляемых филогенетическим деревом, для выявления сигналов позитивной селекции в туберкулёзной палочке. Путём преобразования филогенетического дерева с аннотированными SNP в графовую структуру, пригодную для анализа нейронными сетями, метод достигает точности 0,88 на 500 изолятах Mycobacterium tuberculosis и 249 однонуклеотидных вариантах, успешно идентифицируя 41 кандидатный вариант с признаками адаптивной эволюции.
Туберкулёз (ТБ) остаётся одной из основных причин смертности от инфекционных заболеваний в мире, унеся в 2024 году 1,09 млн жизней. Развитие лекарственной устойчивости обостряет эту эпидемию, при этом 400 тыс. новых случаев ТБ проявляют устойчивость к рифампицину, препарату первого ряда. Позитивная селекция является ключевым движущим фактором эволюции Mycobacterium tuberculosis, способствуя появлению адаптивных мутаций, влияющих на лекарственную устойчивость, передаваемость и вирулентность.
Клиническое значение: Идентификация мутаций позитивной селекции критична для понимания механизмов устойчивости и разработки стратегий лечения
Ценность эволюционной биологии: Строгая клональная структура популяции Mycobacterium tuberculosis и отсутствие рекомбинации делают её идеальной моделью для изучения адаптивной эволюции
Потребности общественного здравоохранения: Геномный мониторинг требует быстрого и точного выявления вариантов с адаптивными преимуществами
Методологическое инновация: Впервые предложен метод преобразования филогенетического дерева в структуру, совместимую с графовыми нейронными сетями
Архитектурный дизайн: Разработана архитектура графовой сети внимания, интегрирующая информацию о длинах рёбер и способная одновременно обрабатывать топологию и паттерны мутаций
Практическое применение: Идентификация 41 кандидатного адаптивного варианта с паттернами конвергентного появления в классификации ВОЗ "неопределённых" вариантов
Разработка инструментов: Предоставление полного открытого исходного кода и конвейера обработки данных
Входные данные: Филогенетическое дерево с аннотированными SNP, где узлы представляют изоляты Mycobacterium tuberculosis, рёбра отражают филогенетические расстояния
Выходные данные: Бинарная классификация, определяющая, подвергается ли конкретный SNP позитивной селекции
Ограничения: Сохранение целостности филогенетических отношений при адаптации к требованиям входных данных графовых нейронных сетей
Построение графа: Преобразование филогенетического дерева в неориентированный граф, узлы представляют изоляты, веса рёбер соответствуют расстояниям по количеству внутренних узлов
Обрезка рёбер: Удаление рёбер между образцами, разделёнными более чем семью внутренними узлами, для выделения локальной эволюционной структуры
Признаки узлов: Использование бинарных индикаторов для кодирования наличия/отсутствия SNP
Этап 1: Двухслойная графовая сеть внимания
- Первый слой: 8 голов внимания, 32 выходных признака на голову
- Второй слой: одна голова внимания, 256-мерный выход
- Остаточные соединения: соединение выходов обоих слоёв
Этап 2: Глобальное объединение и классификация
- Глобальное объединение внимания
- Многослойный персептрон-классификатор (256→32→2)
Хотя в статье не предоставлено прямого сравнения с традиционными методами, валидация согласованности с классификацией ВОЗ подтверждает эффективность метода.
Статья цитирует 26 важных работ, охватывающих эпидемиологию туберкулёза, филогенетический анализ, графовые нейронные сети и другие области, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это инновационная междисциплинарная исследовательская работа, успешно применившая технологии глубокого обучения к эволюционной геномике инфекционных заболеваний, предоставляющая новые технические средства для мониторинга устойчивости туберкулёза. Несмотря на некоторые ограничения, её методологический вклад и практическая ценность заслуживают признания.