Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic
Transformateur de Graphe avec Codage Positionnel de Sous-graphe de Maladie pour une Prédiction Améliorée de la Comorbidité
Cette étude propose une méthode de Transformateur de graphe basée sur le codage positionnel de sous-graphe (TSPE) pour le problème de prédiction de la comorbidité des maladies. La méthode exploite les données de l'interactome humain (Human Interactome, HI), utilisant le mécanisme d'attention du Transformateur et un codage positionnel de sous-graphe novateur (SPE) pour capturer les interactions entre nœuds et les associations de maladies. Les expériences sur les ensembles de données de référence cliniques RR0 et RR1 démontrent que TSPE améliore l'AUC ROC jusqu'à 28,24% et la précision de 4,93% par rapport aux méthodes existantes les plus performantes.
Problème central: Prédiction de la comorbidité des maladies, c'est-à-dire prédire la probabilité que plusieurs maladies se produisent simultanément chez un même patient
Importance: La comorbidité affecte significativement la gestion des maladies, les stratégies thérapeutiques et les résultats pronostiques, particulièrement dans les pandémies comme la COVID-19, où certaines comorbidités entraînent des résultats plus graves
Limitations des méthodes existantes:
Les méthodes traditionnelles comme l'intégration géodésique (GE) ont une performance limitée
La meilleure méthode existante BSE, bien qu'elle introduise un mécanisme de sélection supervisée, utilise toujours un classificateur SVM traditionnel
Le Transformateur de graphe de Dwivedi et al. utilise le codage positionnel laplacien (LPE) qui manque d'informations spécifiques à la maladie
Basée sur l'importance soulignée par la recherche BSE concernant la connectivité des nœuds et les associations de maladies, cet article explore l'utilisation du mécanisme d'attention du modèle Transformateur et d'un codage positionnel de sous-graphe spécialement conçu pour améliorer la performance de prédiction de comorbidité.
Proposition du cadre TSPE: Application pour la première fois de l'architecture Transformateur à la tâche de prédiction de comorbidité des maladies, avec conception d'une structure encodeur-décodeur adaptée aux données de graphe
Codage positionnel de sous-graphe innovant (SPE): Combinaison des informations de clustering du codage positionnel laplacien (LPE) et des informations d'étiquettes de maladie du codage positionnel d'intégration d'encodeur de graphe (GPE)
Amélioration significative de la performance: Dépassement considérable des méthodes existantes les plus performantes sur deux ensembles de données de référence
Expériences d'ablation complètes: Vérification de l'efficacité de différentes méthodes de codage positionnel
1. Génération d'Intégration de Nœuds
Utilisation de Node2Vec pour générer les intégrations de nœuds, avec paramètres p=1, q=1 (marche aléatoire équilibrée), taille de fenêtre de 2.
LPE: Codage positionnel laplacien, capturant les informations de clustering du graphe
GPE: Codage positionnel d'intégration d'encodeur de graphe, capturant les informations d'étiquettes de maladie
3. Processus de Calcul de GPE
Z = AW # (11) Calcul d'intégration GEE
Z = UΣV^T # (12) Décomposition en valeurs singulières
GPE = U_d # (13) Sélection des d premiers vecteurs singuliers gauches
4. Mécanisme de Classification
s = softmax(||X||²₂,axis=1) # (6) Calcul du vecteur de score
y_cand = Σ(X·diag(s))_j # (8) Somme pondérée
y_pred = σ(Wy_cand + b) # (9) Prédiction finale
Évaluation Globale: Cet article est une recherche de haute qualité qui introduit avec succès l'architecture Transformateur dans le domaine de la prédiction de comorbidité des maladies. La méthode de codage positionnel SPE proposée possède une motivation biologique claire et une innovativité technique. Les résultats expérimentaux sont impressionnants et fournissent une référence précieuse pour la recherche dans les domaines connexes.