Decoding Positive Selection in Mycobacterium tuberculosis with Phylogeny-Guided Graph Attention Models
Wang, Campino, Clark et al.
Positive selection drives the emergence of adaptive mutations in Mycobacterium tuberculosis, shaping drug resistance, transmissibility, and virulence. Phylogenetic trees capture evolutionary relationships among isolates and provide a natural framework for detecting such adaptive signals. We present a phylogeny-guided graph attention network (GAT) approach, introducing a method for converting SNP-annotated phylogenetic trees into graph structures suitable for neural network analysis. Using 500 M. tuberculosis isolates from four major lineages and 249 single-nucleotide variants (84 resistance-associated and 165 neutral) across 61 drug-resistance genes, we constructed graphs where nodes represented isolates and edges reflected phylogenetic distances. Edges between isolates separated by more than seven internal nodes were pruned to emphasise local evolutionary structure. Node features encoded SNP presence or absence, and the GAT architecture included two attention layers, a residual connection, global attention pooling, and a multilayer perceptron classifier. The model achieved an accuracy of 0.88 on a held-out test set and, when applied to 146 WHO-classified "uncertain" variants, identified 41 candidates with convergent emergence across multiple lineages, consistent with adaptive evolution. This work demonstrates the feasibility of transforming phylogenies into GNN-compatible structures and highlights attention-based models as effective tools for detecting positive selection, aiding genomic surveillance and variant prioritisation.
academic
فك تشفير الانتقاء الإيجابي في Mycobacterium tuberculosis باستخدام نماذج الانتباه الرسومي الموجهة بالنشوء والتطور
تقترح هذه الدراسة طريقة قائمة على شبكات الانتباه الرسومي (GAT) موجهة بشجرة النشوء والتطور لكشف إشارات الانتقاء الإيجابي في بكتيريا السل. من خلال تحويل شجرة النشوء والتطور المعلّمة بـ SNP إلى هيكل رسومي مناسب لتحليل الشبكات العصبية، حققت الطريقة دقة 0.88 على 500 عزلة من بكتيريا السل و249 متغيراً أحادي النوكليوتيد، وحددت بنجاح 41 متغيراً مرشحاً يتمتع بخصائص التطور التكيفي.
السل (TB) لا يزال أحد الأسباب الرئيسية للوفيات من الأمراض المعدية عالمياً، حيث تسبب 1.09 مليون وفاة في عام 2024. يؤدي تطور المقاومة إلى تفاقم هذا الوباء، حيث يظهر 400,000 حالة سل جديدة مقاومة لريفامبيسين على الأقل من الأدوية من الخط الأول. يعتبر الانتقاء الإيجابي قوة دافعة رئيسية في تطور بكتيريا السل، مما يدفع ظهور الطفرات التكيفية التي تؤثر على المقاومة والانتشار والضراوة.
الإدخال: شجرة النشوء والتطور المعلّمة بـ SNP، حيث تمثل العقد عزلات بكتيريا السل وتعكس الحواف المسافة النشوء والتطور
الإخراج: تنبؤ ثنائي التصنيف لتحديد ما إذا كان SNP معين يخضع للانتقاء الإيجابي
القيود: الحفاظ على سلامة العلاقات النشوء والتطور مع التكيف مع متطلبات إدخال شبكات الأعصاب الرسومية
المرحلة 1: شبكة انتباه رسومية ثنائية الطبقات
- الطبقة الأولى: 8 رؤوس انتباه، 32 ميزة إخراج لكل رأس
- الطبقة الثانية: رأس انتباه واحد، إخراج 256 بُعد
- اتصالات متبقية: ربط إخراج الطبقتين
المرحلة 2: التجميع العام والتصنيف
- تجميع الانتباه العام
- شبكة إدراك متعددة الطبقات (256→32→2)
تستشهد الورقة بـ 26 مرجعاً مهماً، تغطي علم الأوبئة للسل وتحليل النشوء والتطور وشبكات الأعصاب الرسومية وغيرها من المجالات المتعددة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة بحثية متعددة التخصصات ذات أهمية ابتكارية كبيرة، حيث نجحت في تطبيق تقنيات التعلم العميق على جينوميات التطور للأمراض المعدية، وتوفير وسائل تقنية جديدة لمراقبة مقاومة السل. على الرغم من وجود بعض القيود، فإن مساهماتها المنهجية وقيمتها التطبيقية تستحق الإقرار بها.