Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic
Граф-Трансформер с позиционным кодированием подграфа заболевания для улучшенного предсказания коморбидности
В данном исследовании предлагается метод граф-Трансформера на основе позиционного кодирования подграфа (TSPE) для решения задачи предсказания коморбидности заболеваний. Метод использует данные человеческого интерактома (Human Interactome, HI) и механизм внимания Трансформера с новым позиционным кодированием подграфа (SPE) для захвата взаимодействий между узлами и ассоциаций заболеваний. Эксперименты на клинических эталонных наборах данных RR0 и RR1 показывают, что TSPE превосходит существующие лучшие методы с улучшением ROC AUC до 28,24% и улучшением точности на 4,93%.
Основная проблема: Предсказание коморбидности заболеваний, то есть предсказание вероятности одновременного возникновения нескольких заболеваний у одного пациента
Значимость: Коморбидность значительно влияет на управление заболеванием, стратегии лечения и прогноз, особенно при пандемиях, таких как COVID-19, где определённые коморбидности приводят к более тяжёлым исходам
Ограничения существующих методов:
Традиционные методы, такие как геодезическое вложение (GE), имеют ограниченную производительность
Существующий лучший метод BSE, хотя и вводит механизм контролируемого выбора, по-прежнему использует традиционный классификатор SVM
Лапласово позиционное кодирование (LPE), используемое граф-Трансформером Dwivedi и др., не содержит информации, специфичной для заболевания
На основе исследований BSE, подчёркивающих важность связности узлов и ассоциаций заболеваний, данная работа исследует использование механизма внимания модели Трансформера и специально разработанного позиционного кодирования подграфа для улучшения производительности предсказания коморбидности.
Предложение фреймворка TSPE: Первое применение архитектуры Трансформера к задаче предсказания коморбидности заболеваний с разработкой структуры кодировщик-декодировщик, адаптированной к графовым данным
Инновационное позиционное кодирование подграфа (SPE): Объединение информации о кластеризации из лапласова позиционного кодирования (LPE) и информации о метках заболеваний из позиционного кодирования вложения графового кодировщика (GPE)
Значительное улучшение производительности: Значительное превосходство над существующими лучшими методами на обоих эталонных наборах данных
Комплексные абляционные эксперименты: Проверка эффективности различных методов позиционного кодирования
1. Генерация вложений узлов
Использование Node2Vec для генерации вложений узлов с параметрами p=1, q=1 (сбалансированное случайное блуждание), размер окна 2.
Унифицированный механизм внимания: Использование многоголового внимания без маскирования, позволяющее модели обращать внимание на все узлы в подграфе
Позиционное кодирование, специфичное для заболевания: GPE напрямую использует информацию о метках заболеваний, что более целенаправленно, чем традиционное LPE
Многоуровневое слияние информации: SPE одновременно захватывает топологическую структуру графа (LPE) и биологический смысл (GPE)
Общая оценка: Это высококачественная исследовательская работа, которая успешно внедряет архитектуру Трансформера в область предсказания коморбидности заболеваний. Предложенный метод позиционного кодирования SPE имеет чёткую биологическую мотивацию и техническую инновативность. Результаты экспериментов впечатляют и предоставляют ценные ориентиры для исследований в соответствующих областях.