2025-11-19T06:52:13.983675

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic

Transformateur de Graphe avec Codage Positionnel de Sous-graphe de Maladie pour une Prédiction Améliorée de la Comorbidité

Informations Fondamentales

Résumé

Cette étude propose une méthode de Transformateur de graphe basée sur le codage positionnel de sous-graphe (TSPE) pour le problème de prédiction de la comorbidité des maladies. La méthode exploite les données de l'interactome humain (Human Interactome, HI), utilisant le mécanisme d'attention du Transformateur et un codage positionnel de sous-graphe novateur (SPE) pour capturer les interactions entre nœuds et les associations de maladies. Les expériences sur les ensembles de données de référence cliniques RR0 et RR1 démontrent que TSPE améliore l'AUC ROC jusqu'à 28,24% et la précision de 4,93% par rapport aux méthodes existantes les plus performantes.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central: Prédiction de la comorbidité des maladies, c'est-à-dire prédire la probabilité que plusieurs maladies se produisent simultanément chez un même patient
  2. Importance: La comorbidité affecte significativement la gestion des maladies, les stratégies thérapeutiques et les résultats pronostiques, particulièrement dans les pandémies comme la COVID-19, où certaines comorbidités entraînent des résultats plus graves
  3. Limitations des méthodes existantes:
    • Les méthodes traditionnelles comme l'intégration géodésique (GE) ont une performance limitée
    • La meilleure méthode existante BSE, bien qu'elle introduise un mécanisme de sélection supervisée, utilise toujours un classificateur SVM traditionnel
    • Le Transformateur de graphe de Dwivedi et al. utilise le codage positionnel laplacien (LPE) qui manque d'informations spécifiques à la maladie

Motivation de la Recherche

Basée sur l'importance soulignée par la recherche BSE concernant la connectivité des nœuds et les associations de maladies, cet article explore l'utilisation du mécanisme d'attention du modèle Transformateur et d'un codage positionnel de sous-graphe spécialement conçu pour améliorer la performance de prédiction de comorbidité.

Contributions Principales

  1. Proposition du cadre TSPE: Application pour la première fois de l'architecture Transformateur à la tâche de prédiction de comorbidité des maladies, avec conception d'une structure encodeur-décodeur adaptée aux données de graphe
  2. Codage positionnel de sous-graphe innovant (SPE): Combinaison des informations de clustering du codage positionnel laplacien (LPE) et des informations d'étiquettes de maladie du codage positionnel d'intégration d'encodeur de graphe (GPE)
  3. Amélioration significative de la performance: Dépassement considérable des méthodes existantes les plus performantes sur deux ensembles de données de référence
  4. Expériences d'ablation complètes: Vérification de l'efficacité de différentes méthodes de codage positionnel

Détails de la Méthode

Définition de la Tâche

  • Entrée: Deux sous-graphes de maladie dans le graphe de l'interactome humain (ensembles de nœuds de protéines)
  • Sortie: Résultat de classification binaire, déterminant si deux maladies présentent une comorbidité
  • Contrainte: Définition des échantillons positifs et négatifs basée sur la valeur de risque relatif clinique (RR)

Architecture du Modèle

Cadre Global

TSPE adopte une architecture encodeur-décodeur:

  • Encodeur: Traite les intégrations de nœuds de la maladie A
  • Décodeur: Traite les intégrations de nœuds de la maladie B, apprenant les relations entre maladies via l'attention croisée
  • Couche de classification: Convertit la sortie du décodeur en résultat de classification binaire

Composants Techniques Clés

1. Génération d'Intégration de Nœuds Utilisation de Node2Vec pour générer les intégrations de nœuds, avec paramètres p=1, q=1 (marche aléatoire équilibrée), taille de fenêtre de 2.

2. Codage Positionnel de Sous-graphe (SPE) SPE = (M + LPE), GPE, où:

  • M: Matrice d'intégration de nœuds
  • LPE: Codage positionnel laplacien, capturant les informations de clustering du graphe
  • GPE: Codage positionnel d'intégration d'encodeur de graphe, capturant les informations d'étiquettes de maladie

3. Processus de Calcul de GPE

Z = AW                    # (11) Calcul d'intégration GEE
Z = UΣV^T                 # (12) Décomposition en valeurs singulières
GPE = U_d                 # (13) Sélection des d premiers vecteurs singuliers gauches

4. Mécanisme de Classification

s = softmax(||X||²₂,axis=1)     # (6) Calcul du vecteur de score
y_cand = Σ(X·diag(s))_j         # (8) Somme pondérée
y_pred = σ(Wy_cand + b)         # (9) Prédiction finale

Points d'Innovation Technique

  1. Mécanisme d'attention unifié: Utilisation d'attention multi-têtes sans masque, permettant au modèle de se concentrer sur tous les nœuds du sous-graphe
  2. Codage positionnel spécifique à la maladie: GPE exploite directement les informations d'étiquettes de maladie, plus ciblé que le LPE traditionnel
  3. Fusion d'informations multi-niveaux: SPE capture simultanément la structure topologique du graphe (LPE) et la signification biologique (GPE)

Configuration Expérimentale

Ensembles de Données

  • Source: Ensemble de données d'interactome humain de Menche et al.
  • Échelle: 13 460 nœuds de protéines, 153 sous-graphes de maladie, 10 743 paires de maladies
  • Division des données:
    • RR0: RR > 0 comme échantillons positifs (82,6% d'échantillons positifs)
    • RR1: RR > 1 comme échantillons positifs (58,4% d'échantillons positifs)

Métriques d'Évaluation

  • Métrique principale: AUC ROC (appropriée pour les ensembles de données déséquilibrés)
  • Métriques secondaires: Précision (Accuracy)

Méthodes de Comparaison

  • Node2Vec + SVM
  • BSE + Node2Vec + SVM (meilleure méthode existante)

Détails d'Implémentation

ParamètreValeur
Nombre de couches3
Taux d'apprentissage1e-04
Taille de lot20
Dropout0,2
Dimension d'intégration de nœud64
Nombre de têtes d'attention8
Dimension GPE8
Dimension LPE64

Résultats Expérimentaux

Résultats Principaux

Ensemble de données RR0:

MéthodeAUC ROCPrécision
SVM0,5309 ± 0,01050,8357 ± 0,0039
BSE_SVM0,6665 ± 0,03010,8765 ± 0,0117
TSPE0,9489 ± 0,05010,9069 ± 0,0683

Ensemble de données RR1:

MéthodeAUC ROCPrécision
SVM0,5497 ± 0,00790,6150 ± 0,0078
BSE_SVM0,6469 ± 0,01830,6801 ± 0,0166
TSPE0,8009 ± 0,01520,7294 ± 0,0138

Expériences d'Ablation

Test de différentes méthodes de codage positionnel sur l'ensemble de données RR1:

Codage PositionnelAUC ROCPrécision
NoPE0,7971 ± 0,01460,7214 ± 0,0202
LPE0,8007 ± 0,01790,7234 ± 0,0202
SPE0,8009 ± 0,01520,7294 ± 0,0138

Découvertes Expérimentales

  1. Amélioration significative de la performance: TSPE améliore l'AUC ROC de 28,24% par rapport à BSE_SVM sur RR0 et de 15,40% sur RR1
  2. Importance du codage positionnel: SPE surpasse LPE, prouvant la valeur des informations d'étiquettes de maladie
  3. Efficacité du mécanisme d'attention: L'architecture Transformateur surpasse significativement le classificateur SVM traditionnel

Travaux Connexes

Principales Directions de Recherche

  1. Méthodes basées sur le réseau: Utilisation de réseaux d'interaction de protéines pour prédire les relations entre maladies
  2. Méthodes d'intégration de graphe: Comme l'intégration géodésique (GE) et l'intégration supervisée biologiquement (BSE)
  3. Transformateurs de graphe: Cadre de Transformateur de graphe générique de Dwivedi et al.

Avantages de cet Article

  1. Innovation architecturale: Application pour la première fois du Transformateur à la prédiction de comorbidité des maladies
  2. Amélioration du codage: Le SPE proposé est plus adapté aux tâches biomédicales que le LPE standard
  3. Percée de performance: Dépassement considérable de la meilleure méthode existante

Conclusion et Discussion

Conclusions Principales

  1. TSPE adapte avec succès l'architecture Transformateur à la tâche de prédiction de comorbidité des maladies
  2. Le codage positionnel de sous-graphe SPE combine efficacement les informations topologiques et biologiques
  3. Le mécanisme d'attention peut capturer efficacement les relations complexes entre nœuds de protéines

Limitations

  1. Dépendance aux données: Nécessite des informations d'étiquettes de maladie pour utiliser SPE
  2. Complexité computationnelle: L'architecture Transformateur a des frais de calcul plus importants que les méthodes traditionnelles
  3. Interprétabilité: La signification biologique des poids d'attention nécessite une recherche approfondie

Directions Futures

  1. Adaptation à d'autres tâches de prédiction de relations de sous-graphe
  2. Exploration de plus de types de méthodes de codage positionnel
  3. Amélioration de l'interprétabilité du modèle

Évaluation Approfondie

Points Forts

  1. Forte innovativité méthodologique: Application réussie pour la première fois du Transformateur à la prédiction de comorbidité des maladies
  2. Contributions techniques claires: La conception du codage positionnel SPE est rationnelle et fusionne efficacement plusieurs types d'informations
  3. Conception expérimentale complète: Inclut des expériences de comparaison suffisantes et des études d'ablation
  4. Amélioration de performance significative: Améliorations considérables sur les deux ensembles de données de référence

Insuffisances

  1. Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur pourquoi le Transformateur est efficace pour cette tâche
  2. Efficacité computationnelle non discutée: Aucun rapport sur les comparaisons de temps d'entraînement et d'efficacité d'inférence
  3. Validation biologique limitée: Manque de vérification de la signification biologique des résultats de prédiction

Impact

  1. Valeur académique: Fournit de nouvelles perspectives pour l'application des Transformateurs de graphe dans le domaine biomédical
  2. Valeur pratique: Peut être directement appliqué aux systèmes d'aide à la décision clinique
  3. Reproductibilité: Fournit une implémentation de code complète

Scénarios d'Application

  1. Évaluation des risques de maladie et médecine personnalisée
  2. Réaffectation de médicaments et prédiction d'effets secondaires
  3. Autres tâches de prédiction biomédicales basées sur des graphes

Références

  1. Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015)
  2. Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021)
  3. Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016)

Évaluation Globale: Cet article est une recherche de haute qualité qui introduit avec succès l'architecture Transformateur dans le domaine de la prédiction de comorbidité des maladies. La méthode de codage positionnel SPE proposée possède une motivation biologique claire et une innovativité technique. Les résultats expérimentaux sont impressionnants et fournissent une référence précieuse pour la recherche dans les domaines connexes.