2025-11-19T06:52:13.983675

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic

Граф-Трансформер с позиционным кодированием подграфа заболевания для улучшенного предсказания коморбидности

Основная информация

  • ID статьи: 2503.03046
  • Название: Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
  • Авторы: Xihan Qin, Li Liao (Университет Делавэра)
  • Категория: cs.LG (Машинное обучение)
  • Ссылка на статью: https://arxiv.org/abs/2503.03046
  • Ссылка на код: https://github.com/xihan-qin/TSPE-GraphTransformer

Аннотация

В данном исследовании предлагается метод граф-Трансформера на основе позиционного кодирования подграфа (TSPE) для решения задачи предсказания коморбидности заболеваний. Метод использует данные человеческого интерактома (Human Interactome, HI) и механизм внимания Трансформера с новым позиционным кодированием подграфа (SPE) для захвата взаимодействий между узлами и ассоциаций заболеваний. Эксперименты на клинических эталонных наборах данных RR0 и RR1 показывают, что TSPE превосходит существующие лучшие методы с улучшением ROC AUC до 28,24% и улучшением точности на 4,93%.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Предсказание коморбидности заболеваний, то есть предсказание вероятности одновременного возникновения нескольких заболеваний у одного пациента
  2. Значимость: Коморбидность значительно влияет на управление заболеванием, стратегии лечения и прогноз, особенно при пандемиях, таких как COVID-19, где определённые коморбидности приводят к более тяжёлым исходам
  3. Ограничения существующих методов:
    • Традиционные методы, такие как геодезическое вложение (GE), имеют ограниченную производительность
    • Существующий лучший метод BSE, хотя и вводит механизм контролируемого выбора, по-прежнему использует традиционный классификатор SVM
    • Лапласово позиционное кодирование (LPE), используемое граф-Трансформером Dwivedi и др., не содержит информации, специфичной для заболевания

Исследовательская мотивация

На основе исследований BSE, подчёркивающих важность связности узлов и ассоциаций заболеваний, данная работа исследует использование механизма внимания модели Трансформера и специально разработанного позиционного кодирования подграфа для улучшения производительности предсказания коморбидности.

Основные вклады

  1. Предложение фреймворка TSPE: Первое применение архитектуры Трансформера к задаче предсказания коморбидности заболеваний с разработкой структуры кодировщик-декодировщик, адаптированной к графовым данным
  2. Инновационное позиционное кодирование подграфа (SPE): Объединение информации о кластеризации из лапласова позиционного кодирования (LPE) и информации о метках заболеваний из позиционного кодирования вложения графового кодировщика (GPE)
  3. Значительное улучшение производительности: Значительное превосходство над существующими лучшими методами на обоих эталонных наборах данных
  4. Комплексные абляционные эксперименты: Проверка эффективности различных методов позиционного кодирования

Подробное описание методологии

Определение задачи

  • Входные данные: Два подграфа заболеваний в графе человеческого интерактома (наборы узлов белков)
  • Выходные данные: Результат бинарной классификации, определяющий, имеют ли два заболевания коморбидность
  • Ограничения: Определение положительных и отрицательных образцов на основе клинического относительного риска (RR)

Архитектура модели

Общая структура

TSPE использует архитектуру кодировщик-декодировщик:

  • Кодировщик: Обработка вложений узлов заболевания A
  • Декодировщик: Обработка вложений узлов заболевания B и изучение отношений между заболеваниями через перекрёстное внимание
  • Слой классификации: Преобразование выходных данных декодировщика в результат бинарной классификации

Ключевые технические компоненты

1. Генерация вложений узлов Использование Node2Vec для генерации вложений узлов с параметрами p=1, q=1 (сбалансированное случайное блуждание), размер окна 2.

2. Позиционное кодирование подграфа (SPE) SPE = (M + LPE), GPE, где:

  • M: матрица вложений узлов
  • LPE: лапласово позиционное кодирование, захватывающее информацию о кластеризации графа
  • GPE: позиционное кодирование вложения графового кодировщика, захватывающее информацию о метках заболеваний

3. Процесс вычисления GPE

Z = AW                    # (11) Вычисление вложения GEE
Z = UΣV^T                 # (12) Сингулярное разложение
GPE = U_d                 # (13) Выбор первых d левых сингулярных векторов

4. Механизм классификации

s = softmax(||X||²₂,axis=1)     # (6) Вычисление вектора оценок
y_cand = Σ(X·diag(s))_j         # (8) Взвешенное суммирование
y_pred = σ(Wy_cand + b)         # (9) Финальное предсказание

Технические инновации

  1. Унифицированный механизм внимания: Использование многоголового внимания без маскирования, позволяющее модели обращать внимание на все узлы в подграфе
  2. Позиционное кодирование, специфичное для заболевания: GPE напрямую использует информацию о метках заболеваний, что более целенаправленно, чем традиционное LPE
  3. Многоуровневое слияние информации: SPE одновременно захватывает топологическую структуру графа (LPE) и биологический смысл (GPE)

Экспериментальная установка

Наборы данных

  • Источник: Набор данных человеческого интерактома от Menche и др.
  • Масштаб: 13 460 узлов белков, 153 подграфа заболеваний, 10 743 пары заболеваний
  • Разделение наборов данных:
    • RR0: RR > 0 как положительные образцы (82,6% положительных образцов)
    • RR1: RR > 1 как положительные образцы (58,4% положительных образцов)

Метрики оценки

  • Основная метрика: ROC AUC (подходит для несбалансированных наборов данных)
  • Вторичная метрика: Точность (Accuracy)

Методы сравнения

  • Node2Vec + SVM
  • BSE + Node2Vec + SVM (существующий лучший метод)

Детали реализации

ПараметрЗначение
Количество слоёв3
Скорость обучения1e-04
Размер пакета20
Dropout0,2
Размерность вложения узла64
Количество голов внимания8
Размерность GPE8
Размерность LPE64

Результаты экспериментов

Основные результаты

Набор данных RR0:

МетодROC AUCТочность
SVM0,5309 ± 0,01050,8357 ± 0,0039
BSE_SVM0,6665 ± 0,03010,8765 ± 0,0117
TSPE0,9489 ± 0,05010,9069 ± 0,0683

Набор данных RR1:

МетодROC AUCТочность
SVM0,5497 ± 0,00790,6150 ± 0,0078
BSE_SVM0,6469 ± 0,01830,6801 ± 0,0166
TSPE0,8009 ± 0,01520,7294 ± 0,0138

Абляционные эксперименты

Тестирование различных методов позиционного кодирования на наборе данных RR1:

Позиционное кодированиеROC AUCТочность
NoPE0,7971 ± 0,01460,7214 ± 0,0202
LPE0,8007 ± 0,01790,7234 ± 0,0202
SPE0,8009 ± 0,01520,7294 ± 0,0138

Экспериментальные находки

  1. Значительное улучшение производительности: TSPE превосходит BSE_SVM с улучшением ROC AUC на 28,24% на RR0 и на 15,40% на RR1
  2. Важность позиционного кодирования: SPE показывает лучшие результаты, чем LPE, что подтверждает ценность информации о метках заболеваний
  3. Эффективность механизма внимания: Архитектура Трансформера значительно превосходит традиционный классификатор SVM

Связанные работы

Основные направления исследований

  1. Методы на основе сетей: Использование сетей взаимодействия белков для предсказания отношений между заболеваниями
  2. Методы графового вложения: Такие как геодезическое вложение (GE) и биологически контролируемое вложение (BSE)
  3. Граф-Трансформеры: Универсальная структура граф-Трансформера от Dwivedi и др.

Преимущества данной работы

  1. Архитектурная инновация: Первое применение Трансформера к предсказанию коморбидности заболеваний
  2. Улучшение кодирования: Предложенное SPE более подходит для биомедицинских задач, чем стандартное LPE
  3. Прорыв в производительности: Значительное превосходство над существующими лучшими методами

Заключение и обсуждение

Основные выводы

  1. TSPE успешно адаптирует архитектуру Трансформера к задаче предсказания коморбидности заболеваний
  2. Позиционное кодирование подграфа SPE эффективно объединяет топологическую и биологическую информацию
  3. Механизм внимания может эффективно захватывать сложные отношения между узлами белков

Ограничения

  1. Зависимость от данных: Требуется информация о метках заболеваний для использования SPE
  2. Вычислительная сложность: Архитектура Трансформера имеет большие вычислительные затраты по сравнению с традиционными методами
  3. Интерпретируемость: Биологический смысл весов внимания требует дальнейшего исследования

Направления будущих исследований

  1. Адаптация к другим задачам предсказания отношений подграфов
  2. Исследование дополнительных типов позиционного кодирования
  3. Повышение интерпретируемости модели

Глубокая оценка

Преимущества

  1. Высокая методологическая инновативность: Первое успешное применение Трансформера к предсказанию коморбидности заболеваний
  2. Чёткий технический вклад: Позиционное кодирование SPE хорошо спроектировано и эффективно объединяет различные типы информации
  3. Тщательный экспериментальный дизайн: Включает достаточное количество сравнительных экспериментов и абляционных исследований
  4. Значительное улучшение производительности: Достигнуты значительные улучшения на обоих эталонных наборах данных

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует глубокий анализ того, почему Трансформер эффективен для данной задачи
  2. Отсутствие обсуждения вычислительной эффективности: Не приводятся сравнения времени обучения и эффективности вывода
  3. Ограниченная биологическая валидация: Отсутствует проверка биологического смысла предсказанных результатов

Влияние

  1. Академическая ценность: Предоставляет новые подходы для применения граф-Трансформеров в биомедицинской области
  2. Практическая ценность: Может быть непосредственно применён в системах поддержки клинических решений
  3. Воспроизводимость: Предоставляется полная реализация кода

Области применения

  1. Оценка риска заболевания и персонализированная медицина
  2. Переназначение лекарств и предсказание побочных эффектов
  3. Другие задачи предсказания на основе графов в биомедицине

Библиография

  1. Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015)
  2. Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021)
  3. Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016)

Общая оценка: Это высококачественная исследовательская работа, которая успешно внедряет архитектуру Трансформера в область предсказания коморбидности заболеваний. Предложенный метод позиционного кодирования SPE имеет чёткую биологическую мотивацию и техническую инновативность. Результаты экспериментов впечатляют и предоставляют ценные ориентиры для исследований в соответствующих областях.