2025-11-19T06:52:13.983675

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

Qin, Liao

Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.

academic

Transformateur de Graphe avec Codage Positionnel de Sous-graphe de Maladie pour une Prédiction Améliorée de la Comorbidité

Informations Fondamentales

ID de l'article: 2503.03046
Titre: Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
Auteurs: Xihan Qin, Li Liao (Université du Delaware)
Classification: cs.LG (Apprentissage Automatique)
Lien de l'article: https://arxiv.org/abs/2503.03046
Lien du code: https://github.com/xihan-qin/TSPE-GraphTransformer

Résumé

Cette étude propose une méthode de Transformateur de graphe basée sur le codage positionnel de sous-graphe (TSPE) pour le problème de prédiction de la comorbidité des maladies. La méthode exploite les données de l'interactome humain (Human Interactome, HI), utilisant le mécanisme d'attention du Transformateur et un codage positionnel de sous-graphe novateur (SPE) pour capturer les interactions entre nœuds et les associations de maladies. Les expériences sur les ensembles de données de référence cliniques RR0 et RR1 démontrent que TSPE améliore l'AUC ROC jusqu'à 28,24% et la précision de 4,93% par rapport aux méthodes existantes les plus performantes.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: Prédiction de la comorbidité des maladies, c'est-à-dire prédire la probabilité que plusieurs maladies se produisent simultanément chez un même patient
Importance: La comorbidité affecte significativement la gestion des maladies, les stratégies thérapeutiques et les résultats pronostiques, particulièrement dans les pandémies comme la COVID-19, où certaines comorbidités entraînent des résultats plus graves
Limitations des méthodes existantes:
- Les méthodes traditionnelles comme l'intégration géodésique (GE) ont une performance limitée
- La meilleure méthode existante BSE, bien qu'elle introduise un mécanisme de sélection supervisée, utilise toujours un classificateur SVM traditionnel
- Le Transformateur de graphe de Dwivedi et al. utilise le codage positionnel laplacien (LPE) qui manque d'informations spécifiques à la maladie

Motivation de la Recherche

Basée sur l'importance soulignée par la recherche BSE concernant la connectivité des nœuds et les associations de maladies, cet article explore l'utilisation du mécanisme d'attention du modèle Transformateur et d'un codage positionnel de sous-graphe spécialement conçu pour améliorer la performance de prédiction de comorbidité.

Contributions Principales

Proposition du cadre TSPE: Application pour la première fois de l'architecture Transformateur à la tâche de prédiction de comorbidité des maladies, avec conception d'une structure encodeur-décodeur adaptée aux données de graphe
Codage positionnel de sous-graphe innovant (SPE): Combinaison des informations de clustering du codage positionnel laplacien (LPE) et des informations d'étiquettes de maladie du codage positionnel d'intégration d'encodeur de graphe (GPE)
Amélioration significative de la performance: Dépassement considérable des méthodes existantes les plus performantes sur deux ensembles de données de référence
Expériences d'ablation complètes: Vérification de l'efficacité de différentes méthodes de codage positionnel

Détails de la Méthode

Définition de la Tâche

Entrée: Deux sous-graphes de maladie dans le graphe de l'interactome humain (ensembles de nœuds de protéines)
Sortie: Résultat de classification binaire, déterminant si deux maladies présentent une comorbidité
Contrainte: Définition des échantillons positifs et négatifs basée sur la valeur de risque relatif clinique (RR)

Architecture du Modèle

Cadre Global

TSPE adopte une architecture encodeur-décodeur:

Encodeur: Traite les intégrations de nœuds de la maladie A
Décodeur: Traite les intégrations de nœuds de la maladie B, apprenant les relations entre maladies via l'attention croisée
Couche de classification: Convertit la sortie du décodeur en résultat de classification binaire

Composants Techniques Clés

1. Génération d'Intégration de Nœuds Utilisation de Node2Vec pour générer les intégrations de nœuds, avec paramètres p=1, q=1 (marche aléatoire équilibrée), taille de fenêtre de 2.

2. Codage Positionnel de Sous-graphe (SPE) SPE = (M + LPE), GPE, où:

M: Matrice d'intégration de nœuds
LPE: Codage positionnel laplacien, capturant les informations de clustering du graphe
GPE: Codage positionnel d'intégration d'encodeur de graphe, capturant les informations d'étiquettes de maladie

3. Processus de Calcul de GPE

Z = AW                    # (11) Calcul d'intégration GEE
Z = UΣV^T                 # (12) Décomposition en valeurs singulières
GPE = U_d                 # (13) Sélection des d premiers vecteurs singuliers gauches

4. Mécanisme de Classification

s = softmax(||X||²₂,axis=1)     # (6) Calcul du vecteur de score
y_cand = Σ(X·diag(s))_j         # (8) Somme pondérée
y_pred = σ(Wy_cand + b)         # (9) Prédiction finale

Points d'Innovation Technique

Mécanisme d'attention unifié: Utilisation d'attention multi-têtes sans masque, permettant au modèle de se concentrer sur tous les nœuds du sous-graphe
Codage positionnel spécifique à la maladie: GPE exploite directement les informations d'étiquettes de maladie, plus ciblé que le LPE traditionnel
Fusion d'informations multi-niveaux: SPE capture simultanément la structure topologique du graphe (LPE) et la signification biologique (GPE)

Configuration Expérimentale

Ensembles de Données

Source: Ensemble de données d'interactome humain de Menche et al.
Échelle: 13 460 nœuds de protéines, 153 sous-graphes de maladie, 10 743 paires de maladies
Division des données:
- RR0: RR > 0 comme échantillons positifs (82,6% d'échantillons positifs)
- RR1: RR > 1 comme échantillons positifs (58,4% d'échantillons positifs)

Métriques d'Évaluation

Métrique principale: AUC ROC (appropriée pour les ensembles de données déséquilibrés)
Métriques secondaires: Précision (Accuracy)

Méthodes de Comparaison

Node2Vec + SVM
BSE + Node2Vec + SVM (meilleure méthode existante)

Détails d'Implémentation

Paramètre	Valeur
Nombre de couches	3
Taux d'apprentissage	1e-04
Taille de lot	20
Dropout	0,2
Dimension d'intégration de nœud	64
Nombre de têtes d'attention	8
Dimension GPE	8
Dimension LPE	64

Résultats Expérimentaux

Résultats Principaux

Ensemble de données RR0:

Méthode	AUC ROC	Précision
SVM	0,5309 ± 0,0105	0,8357 ± 0,0039
BSE_SVM	0,6665 ± 0,0301	0,8765 ± 0,0117
TSPE	0,9489 ± 0,0501	0,9069 ± 0,0683

Ensemble de données RR1:

Méthode	AUC ROC	Précision
SVM	0,5497 ± 0,0079	0,6150 ± 0,0078
BSE_SVM	0,6469 ± 0,0183	0,6801 ± 0,0166
TSPE	0,8009 ± 0,0152	0,7294 ± 0,0138

Expériences d'Ablation

Test de différentes méthodes de codage positionnel sur l'ensemble de données RR1:

Codage Positionnel	AUC ROC	Précision
NoPE	0,7971 ± 0,0146	0,7214 ± 0,0202
LPE	0,8007 ± 0,0179	0,7234 ± 0,0202
SPE	0,8009 ± 0,0152	0,7294 ± 0,0138

Découvertes Expérimentales

Amélioration significative de la performance: TSPE améliore l'AUC ROC de 28,24% par rapport à BSE_SVM sur RR0 et de 15,40% sur RR1
Importance du codage positionnel: SPE surpasse LPE, prouvant la valeur des informations d'étiquettes de maladie
Efficacité du mécanisme d'attention: L'architecture Transformateur surpasse significativement le classificateur SVM traditionnel

Travaux Connexes

Principales Directions de Recherche

Méthodes basées sur le réseau: Utilisation de réseaux d'interaction de protéines pour prédire les relations entre maladies
Méthodes d'intégration de graphe: Comme l'intégration géodésique (GE) et l'intégration supervisée biologiquement (BSE)
Transformateurs de graphe: Cadre de Transformateur de graphe générique de Dwivedi et al.

Avantages de cet Article

Innovation architecturale: Application pour la première fois du Transformateur à la prédiction de comorbidité des maladies
Amélioration du codage: Le SPE proposé est plus adapté aux tâches biomédicales que le LPE standard
Percée de performance: Dépassement considérable de la meilleure méthode existante

Conclusion et Discussion

Conclusions Principales

TSPE adapte avec succès l'architecture Transformateur à la tâche de prédiction de comorbidité des maladies
Le codage positionnel de sous-graphe SPE combine efficacement les informations topologiques et biologiques
Le mécanisme d'attention peut capturer efficacement les relations complexes entre nœuds de protéines

Limitations

Dépendance aux données: Nécessite des informations d'étiquettes de maladie pour utiliser SPE
Complexité computationnelle: L'architecture Transformateur a des frais de calcul plus importants que les méthodes traditionnelles
Interprétabilité: La signification biologique des poids d'attention nécessite une recherche approfondie

Directions Futures

Adaptation à d'autres tâches de prédiction de relations de sous-graphe
Exploration de plus de types de méthodes de codage positionnel
Amélioration de l'interprétabilité du modèle

Évaluation Approfondie

Points Forts

Forte innovativité méthodologique: Application réussie pour la première fois du Transformateur à la prédiction de comorbidité des maladies
Contributions techniques claires: La conception du codage positionnel SPE est rationnelle et fusionne efficacement plusieurs types d'informations
Conception expérimentale complète: Inclut des expériences de comparaison suffisantes et des études d'ablation
Amélioration de performance significative: Améliorations considérables sur les deux ensembles de données de référence

Insuffisances

Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur pourquoi le Transformateur est efficace pour cette tâche
Efficacité computationnelle non discutée: Aucun rapport sur les comparaisons de temps d'entraînement et d'efficacité d'inférence
Validation biologique limitée: Manque de vérification de la signification biologique des résultats de prédiction

Impact

Valeur académique: Fournit de nouvelles perspectives pour l'application des Transformateurs de graphe dans le domaine biomédical
Valeur pratique: Peut être directement appliqué aux systèmes d'aide à la décision clinique
Reproductibilité: Fournit une implémentation de code complète

Scénarios d'Application

Évaluation des risques de maladie et médecine personnalisée
Réaffectation de médicaments et prédiction d'effets secondaires
Autres tâches de prédiction biomédicales basées sur des graphes

Références

Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015)
Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021)
Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016)

Évaluation Globale: Cet article est une recherche de haute qualité qui introduit avec succès l'architecture Transformateur dans le domaine de la prédiction de comorbidité des maladies. La méthode de codage positionnel SPE proposée possède une motivation biologique claire et une innovativité technique. Les résultats expérimentaux sont impressionnants et fournissent une référence précieuse pour la recherche dans les domaines connexes.