Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic
Transformador de Grafos con Codificación Posicional de Subgrafos de Enfermedades para Predicción Mejorada de Comorbilidad
Este estudio propone un método de Transformador de Grafos basado en codificación posicional de subgrafos (TSPE) para abordar el problema de predicción de comorbilidad de enfermedades. El método utiliza datos del Interactoma Humano (Human Interactome, HI) y aprovecha el mecanismo de atención del Transformador y una novedosa codificación posicional de subgrafos (SPE) para capturar las interacciones entre nodos y las asociaciones de enfermedades. Los experimentos en los conjuntos de datos de referencia clínicos RR0 y RR1 demuestran que TSPE mejora el ROC AUC hasta un 28.24% en comparación con los métodos existentes más avanzados, con una mejora de precisión del 4.93%.
Problema Central: Predicción de comorbilidad de enfermedades, es decir, predecir la probabilidad de que múltiples enfermedades ocurran simultáneamente en el mismo paciente
Importancia: La comorbilidad afecta significativamente la gestión de enfermedades, estrategias de tratamiento y resultados del pronóstico, particularmente en pandemias como COVID-19, donde ciertas comorbilidades conducen a resultados más graves
Limitaciones de Métodos Existentes:
Los métodos tradicionales como la incrustación geodésica (GE) tienen un rendimiento limitado
El método más avanzado existente, BSE, aunque introduce un mecanismo de selección supervisada, sigue utilizando un clasificador SVM tradicional
El Transformador de Grafos de Dwivedi et al. utiliza codificación posicional de Laplace (LPE) que carece de información específica de enfermedades
Basándose en la importancia enfatizada por la investigación BSE sobre la conectividad de nodos y las asociaciones de enfermedades, este trabajo explora la utilización del mecanismo de atención del modelo Transformador y codificación posicional de subgrafos especialmente diseñada para mejorar el rendimiento de predicción de comorbilidad.
Marco TSPE Propuesto: Primera aplicación de la arquitectura Transformador a la tarea de predicción de comorbilidad de enfermedades, con diseño de estructura codificador-decodificador adaptada a datos de grafos
Codificación Posicional de Subgrafos Innovadora (SPE): Combina información de agrupamiento de la codificación posicional de Laplace (LPE) e información de etiquetas de enfermedades de la codificación posicional de incrustación de codificador de grafos (GPE)
Mejora Significativa de Rendimiento: Supera sustancialmente los métodos más avanzados existentes en ambos conjuntos de datos de referencia
Experimentos de Ablación Exhaustivos: Valida la efectividad de diferentes métodos de codificación posicional
1. Generación de Incrustación de Nodos
Se utiliza Node2Vec para generar incrustaciones de nodos con parámetros configurados como p=1, q=1 (paseo aleatorio equilibrado), con tamaño de ventana de 2.
LPE: Codificación posicional de Laplace, captura información de agrupamiento del gráfico
GPE: Codificación posicional de incrustación de codificador de grafos, captura información de etiquetas de enfermedades
3. Proceso de Cálculo de GPE
Z = AW # (11) Cálculo de incrustación GEE
Z = UΣV^T # (12) Descomposición de valores singulares
GPE = U_d # (13) Seleccionar los primeros d vectores singulares izquierdos
4. Mecanismo de Clasificación
s = softmax(||X||²₂,axis=1) # (6) Calcular vector de puntuación
y_cand = Σ(X·diag(s))_j # (8) Suma ponderada
y_pred = σ(Wy_cand + b) # (9) Predicción final
Mecanismo de Atención Unificado: Utiliza atención multiencabezada sin máscara, permitiendo que el modelo atienda a todos los nodos dentro del subgrafo
Codificación Posicional Específica de Enfermedad: GPE utiliza directamente información de etiquetas de enfermedades, siendo más específica que LPE tradicional
Fusión de Información Multinivel: SPE captura simultáneamente la estructura topológica del gráfico (LPE) y el significado biológico (GPE)
Evaluación General: Este es un artículo de investigación de alta calidad que introduce exitosamente la arquitectura Transformador en el campo de predicción de comorbilidad de enfermedades. El método de codificación posicional SPE propuesto posee motivación biológica clara e innovación técnica. Los resultados experimentales son impresionantes y proporcionan referencias valiosas para investigación en campos relacionados.