2025-11-19T06:52:13.983675

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

基本信息

摘要

本研究针对疾病共病性(comorbidity)预测问题,提出了一种基于子图位置编码的图Transformer方法(TSPE)。该方法利用人类相互作用组(Human Interactome, HI)数据,通过Transformer的注意力机制和新颖的子图位置编码(SPE)来捕获节点间交互和疾病关联。在临床基准数据集RR0和RR1上的实验表明,TSPE相比现有最佳方法在ROC AUC上提升高达28.24%,准确率提升4.93%。

研究背景与动机

问题定义

  1. 核心问题:疾病共病性预测,即预测多种疾病在同一患者中同时发生的可能性
  2. 重要性:共病性显著影响疾病管理、治疗策略和预后结果,特别是在COVID-19等大流行病中,特定共病性会导致更严重的结果
  3. 现有方法局限性
    • 传统方法如geodesic embedding (GE)性能有限
    • 现有最佳方法BSE虽然引入了监督选择机制,但仍使用传统的SVM分类器
    • Dwivedi等人的Graph Transformer使用的拉普拉斯位置编码(LPE)缺乏疾病特异性信息

研究动机

基于BSE研究强调的节点连接性和疾病关联的重要性,本文探索利用Transformer模型的注意力机制和专门设计的子图位置编码来改进共病性预测性能。

核心贡献

  1. 提出TSPE框架:首次将Transformer架构应用于疾病共病性预测任务,设计了适合图数据的编码器-解码器结构
  2. 创新的子图位置编码(SPE):结合拉普拉斯位置编码(LPE)的聚类信息和图编码器嵌入位置编码(GPE)的疾病标签信息
  3. 显著的性能提升:在两个基准数据集上均大幅超越现有最佳方法
  4. 全面的消融实验:验证了不同位置编码方法的有效性

方法详解

任务定义

  • 输入:人类相互作用组图中的两个疾病子图(蛋白质节点集合)
  • 输出:二分类结果,判断两种疾病是否具有共病性
  • 约束:基于临床相对风险(RR)值定义正负样本

模型架构

整体框架

TSPE采用编码器-解码器架构:

  • 编码器:处理疾病A的节点嵌入
  • 解码器:处理疾病B的节点嵌入,并通过交叉注意力学习疾病间关系
  • 分类层:将解码器输出转换为二分类结果

关键技术组件

1. 节点嵌入生成 使用Node2Vec生成节点嵌入,参数设置为p=1, q=1(平衡的随机游走),窗口大小为2。

2. 子图位置编码(SPE) SPE = (M + LPE), GPE,其中:

  • M:节点嵌入矩阵
  • LPE:拉普拉斯位置编码,捕获图的聚类信息
  • GPE:图编码器嵌入位置编码,捕获疾病标签信息

3. GPE计算过程

Z = AW                    # (11) GEE嵌入计算
Z = UΣV^T                 # (12) 奇异值分解
GPE = U_d                 # (13) 选择前d个左奇异向量

4. 分类机制

s = softmax(||X||²₂,axis=1)     # (6) 计算得分向量
y_cand = Σ(X·diag(s))_j         # (8) 加权求和
y_pred = σ(Wy_cand + b)         # (9) 最终预测

技术创新点

  1. 统一的注意力机制:使用无遮罩的多头注意力,使模型能够关注子图内的所有节点
  2. 疾病特异性位置编码:GPE直接利用疾病标签信息,比传统LPE更有针对性
  3. 多层次信息融合:SPE同时捕获图的拓扑结构(LPE)和生物学意义(GPE)

实验设置

数据集

  • 来源:Menche等人的人类相互作用组数据集
  • 规模:13,460个蛋白质节点,153个疾病子图,10,743个疾病对
  • 数据集划分
    • RR0:RR > 0为正样本(82.6%正样本)
    • RR1:RR > 1为正样本(58.4%正样本)

评价指标

  • 主要指标:ROC AUC(适合不平衡数据集)
  • 次要指标:准确率(Accuracy)

对比方法

  • Node2Vec + SVM
  • BSE + Node2Vec + SVM(现有最佳方法)

实现细节

参数
层数3
学习率1e-04
批大小20
Dropout0.2
节点嵌入维度64
注意力头数8
GPE维度8
LPE维度64

实验结果

主要结果

RR0数据集

方法ROC AUCAccuracy
SVM0.5309 ± 0.01050.8357 ± 0.0039
BSE_SVM0.6665 ± 0.03010.8765 ± 0.0117
TSPE0.9489 ± 0.05010.9069 ± 0.0683

RR1数据集

方法ROC AUCAccuracy
SVM0.5497 ± 0.00790.6150 ± 0.0078
BSE_SVM0.6469 ± 0.01830.6801 ± 0.0166
TSPE0.8009 ± 0.01520.7294 ± 0.0138

消融实验

在RR1数据集上测试不同位置编码方法:

位置编码ROC AUCAccuracy
NoPE0.7971 ± 0.01460.7214 ± 0.0202
LPE0.8007 ± 0.01790.7234 ± 0.0202
SPE0.8009 ± 0.01520.7294 ± 0.0138

实验发现

  1. 显著的性能提升:TSPE相比BSE_SVM在RR0上ROC AUC提升28.24%,在RR1上提升15.40%
  2. 位置编码的重要性:SPE比LPE表现更好,证明了疾病标签信息的价值
  3. 注意力机制的有效性:Transformer架构显著优于传统SVM分类器

相关工作

主要研究方向

  1. 网络基础方法:利用蛋白质相互作用网络预测疾病关系
  2. 图嵌入方法:如geodesic embedding (GE)和Biologically Supervised Embedding (BSE)
  3. 图Transformer:Dwivedi等人的通用图Transformer框架

本文优势

  1. 架构创新:首次将Transformer应用于疾病共病性预测
  2. 编码改进:提出的SPE比标准LPE更适合生物医学任务
  3. 性能突破:大幅超越现有最佳方法

结论与讨论

主要结论

  1. TSPE成功将Transformer架构适配到疾病共病性预测任务
  2. 子图位置编码SPE有效结合了拓扑和生物学信息
  3. 注意力机制能够有效捕获蛋白质节点间的复杂关系

局限性

  1. 数据依赖:需要疾病标签信息才能使用SPE
  2. 计算复杂度:Transformer架构相比传统方法计算开销更大
  3. 可解释性:注意力权重的生物学意义需要进一步研究

未来方向

  1. 适配到其他子图关系预测任务
  2. 探索更多类型的位置编码方法
  3. 提高模型的可解释性

深度评价

优点

  1. 方法创新性强:首次将Transformer成功应用于疾病共病性预测
  2. 技术贡献明确:SPE位置编码设计合理,有效融合多种信息
  3. 实验设计完善:包含充分的对比实验和消融研究
  4. 性能提升显著:在两个基准数据集上均取得大幅改进

不足

  1. 理论分析不足:缺乏对为什么Transformer在此任务上有效的深入理论分析
  2. 计算效率未讨论:未报告训练时间和推理效率对比
  3. 生物学验证有限:缺乏对预测结果的生物学意义验证

影响力

  1. 学术价值:为图Transformer在生物医学领域的应用提供了新思路
  2. 实用价值:可直接应用于临床决策支持系统
  3. 可复现性:提供了完整的代码实现

适用场景

  1. 疾病风险评估和个性化医疗
  2. 药物重定位和副作用预测
  3. 其他基于图的生物医学预测任务

参考文献

  1. Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015)
  2. Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021)
  3. Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016)

总体评价:这是一篇高质量的研究论文,成功地将Transformer架构引入疾病共病性预测领域,提出的SPE位置编码方法具有明确的生物学动机和技术创新性。实验结果令人印象深刻,为相关领域的研究提供了有价值的参考。