2025-11-19T06:52:13.983675

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

Qin, Liao

Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.

academic

محول الرسم البياني مع ترميز الموضع للرسم البياني الفرعي للمرض لتحسين التنبؤ بالأمراض المصاحبة

المعلومات الأساسية

معرّف الورقة: 2503.03046
العنوان: Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
المؤلفون: Xihan Qin, Li Liao (جامعة ديلاوير)
التصنيف: cs.LG (التعلم الآلي)
رابط الورقة: https://arxiv.org/abs/2503.03046
رابط الكود: https://github.com/xihan-qin/TSPE-GraphTransformer

الملخص

تقترح هذه الدراسة طريقة محول الرسم البياني القائمة على ترميز الموضع للرسم البياني الفرعي (TSPE) لمعالجة مشكلة التنبؤ بالأمراض المصاحبة (comorbidity). تستخدم الطريقة بيانات الشبكة البشرية للتفاعلات (Human Interactome, HI)، وتستفيد من آلية الانتباه في محول الرسم البياني وترميز موضع الرسم البياني الفرعي المبتكر (SPE) لالتقاط التفاعلات بين العقد والارتباطات بين الأمراض. أظهرت التجارب على مجموعات البيانات المرجعية السريرية RR0 و RR1 أن TSPE يحقق تحسناً يصل إلى 28.24% في ROC AUC و 4.93% في الدقة مقارنة بأفضل الطرق الموجودة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: التنبؤ بالأمراض المصاحبة، أي التنبؤ باحتمالية حدوث عدة أمراض في نفس المريض في نفس الوقت
الأهمية: تؤثر الأمراض المصاحبة بشكل كبير على إدارة المرض واستراتيجيات العلاج والنتائج السريرية، خاصة في الأوبئة مثل COVID-19، حيث قد تؤدي أمراض مصاحبة معينة إلى نتائج أكثر حدة
قيود الطرق الموجودة:
- الطرق التقليدية مثل geodesic embedding (GE) لها أداء محدود
- أفضل طريقة موجودة BSE، على الرغم من إدخالها آلية الاختيار الموجهة، لا تزال تستخدم مصنف SVM تقليدي
- محول الرسم البياني الذي اقترحه Dwivedi وآخرون يستخدم ترميز الموضع اللابلاسي (LPE) الذي يفتقر إلى المعلومات الخاصة بالمرض

دافع البحث

بناءً على أهمية الاتصالية بين العقد والارتباطات بين الأمراض التي أكدتها دراسة BSE، تستكشف هذه الورقة استخدام آلية الانتباه في نموذج محول الرسم البياني وترميز موضع الرسم البياني الفرعي المصمم خصيصاً لتحسين أداء التنبؤ بالأمراض المصاحبة.

المساهمات الأساسية

اقتراح إطار عمل TSPE: تطبيق معمارية محول الرسم البياني لأول مرة على مهمة التنبؤ بالأمراض المصاحبة، مع تصميم بنية مشفر-فك تشفير مناسبة لبيانات الرسم البياني
ترميز موضع الرسم البياني الفرعي المبتكر (SPE): يجمع بين معلومات التجميع من ترميز الموضع اللابلاسي (LPE) ومعلومات تسميات المرض من ترميز موضع مشفر الرسم البياني (GPE)
تحسن كبير في الأداء: يتفوق بشكل كبير على أفضل الطرق الموجودة على مجموعتي البيانات المرجعيتين
تجارب استبدال شاملة: التحقق من فعالية طرق ترميز الموضع المختلفة

شرح الطريقة

تعريف المهمة

الإدخال: رسمان بيانيان فرعيان للمرض من شبكة التفاعلات البشرية (مجموعات عقد البروتين)
الإخراج: نتيجة تصنيف ثنائي، يحدد ما إذا كان المرضان مصاحبين
القيود: تحديد العينات الموجبة والسالبة بناءً على قيمة المخاطر النسبية السريرية (RR)

معمارية النموذج

الإطار العام

يعتمد TSPE على معمارية مشفر-فك تشفير:

المشفر: معالجة تضمينات عقد المرض A
فك التشفير: معالجة تضمينات عقد المرض B، والتعلم عن العلاقات بين الأمراض من خلال الانتباه المتقاطع
طبقة التصنيف: تحويل مخرجات فك التشفير إلى نتيجة تصنيف ثنائي

مكونات التقنية الرئيسية

1. توليد تضمينات العقد استخدام Node2Vec لتوليد تضمينات العقد، مع معاملات معينة p=1, q=1 (المشي العشوائي المتوازن)، وحجم النافذة 2.

2. ترميز موضع الرسم البياني الفرعي (SPE) SPE = (M + LPE), GPE، حيث:

M: مصفوفة تضمينات العقد
LPE: ترميز الموضع اللابلاسي، يلتقط معلومات التجميع في الرسم البياني
GPE: ترميز موضع مشفر الرسم البياني، يلتقط معلومات تسميات المرض

3. عملية حساب GPE

Z = AW                    # (11) حساب تضمين GEE
Z = UΣV^T                 # (12) تحليل القيمة المفردة
GPE = U_d                 # (13) اختيار أول d متجه فردي يساري

4. آلية التصنيف

s = softmax(||X||²₂,axis=1)     # (6) حساب متجه النقاط
y_cand = Σ(X·diag(s))_j         # (8) المجموع المرجح
y_pred = σ(Wy_cand + b)         # (9) التنبؤ النهائي

نقاط الابتكار التقني

آلية انتباه موحدة: استخدام الانتباه متعدد الرؤوس بدون قناع، مما يسمح للنموذج بالانتباه إلى جميع العقد داخل الرسم البياني الفرعي
ترميز موضع خاص بالمرض: يستخدم GPE مباشرة معلومات تسميات المرض، وهو أكثر استهدافاً من LPE التقليدي
دمج المعلومات متعدد المستويات: يلتقط SPE كلاً من البنية الطوبولوجية للرسم البياني (LPE) والمعنى البيولوجي (GPE)

إعداد التجارب

مجموعات البيانات

المصدر: مجموعة بيانات شبكة التفاعلات البشرية من Menche وآخرين
الحجم: 13,460 عقدة بروتين، 153 رسم بياني فرعي للمرض، 10,743 زوج مرض
تقسيم مجموعات البيانات:
- RR0: RR > 0 كعينات موجبة (82.6% عينات موجبة)
- RR1: RR > 1 كعينات موجبة (58.4% عينات موجبة)

مؤشرات التقييم

المؤشر الرئيسي: ROC AUC (مناسب لمجموعات البيانات غير المتوازنة)
المؤشرات الثانوية: الدقة (Accuracy)

طرق المقارنة

Node2Vec + SVM
BSE + Node2Vec + SVM (أفضل طريقة موجودة)

تفاصيل التنفيذ

المعامل	القيمة
عدد الطبقات	3
معدل التعلم	1e-04
حجم الدفعة	20
Dropout	0.2
بُعد تضمين العقدة	64
عدد رؤوس الانتباه	8
بُعد GPE	8
بُعد LPE	64

نتائج التجارب

النتائج الرئيسية

مجموعة بيانات RR0:

الطريقة	ROC AUC	الدقة
SVM	0.5309 ± 0.0105	0.8357 ± 0.0039
BSE_SVM	0.6665 ± 0.0301	0.8765 ± 0.0117
TSPE	0.9489 ± 0.0501	0.9069 ± 0.0683

مجموعة بيانات RR1:

الطريقة	ROC AUC	الدقة
SVM	0.5497 ± 0.0079	0.6150 ± 0.0078
BSE_SVM	0.6469 ± 0.0183	0.6801 ± 0.0166
TSPE	0.8009 ± 0.0152	0.7294 ± 0.0138

تجارب الاستبدال

اختبار طرق ترميز الموضع المختلفة على مجموعة بيانات RR1:

ترميز الموضع	ROC AUC	الدقة
NoPE	0.7971 ± 0.0146	0.7214 ± 0.0202
LPE	0.8007 ± 0.0179	0.7234 ± 0.0202
SPE	0.8009 ± 0.0152	0.7294 ± 0.0138

نتائج التجارب

تحسن كبير في الأداء: يحقق TSPE تحسناً بنسبة 28.24% في ROC AUC على RR0 و 15.40% على RR1 مقارنة بـ BSE_SVM
أهمية ترميز الموضع: يتفوق SPE على LPE، مما يثبت قيمة معلومات تسميات المرض
فعالية آلية الانتباه: تتفوق معمارية محول الرسم البياني بشكل كبير على مصنف SVM التقليدي

الأعمال ذات الصلة

اتجاهات البحث الرئيسية

الطرق القائمة على الشبكة: استخدام شبكات التفاعل بين البروتينات للتنبؤ بالعلاقات بين الأمراض
طرق تضمين الرسم البياني: مثل geodesic embedding (GE) و Biologically Supervised Embedding (BSE)
محول الرسم البياني: إطار عمل محول الرسم البياني العام الذي اقترحه Dwivedi وآخرون

مزايا هذه الورقة

ابتكار المعمارية: تطبيق محول الرسم البياني على التنبؤ بالأمراض المصاحبة لأول مرة
تحسين الترميز: يقدم SPE المقترح أداءً أفضل من LPE القياسي للمهام الطبية الحيوية
اختراق الأداء: يتفوق بشكل كبير على أفضل الطرق الموجودة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجح TSPE في تكييف معمارية محول الرسم البياني مع مهمة التنبؤ بالأمراض المصاحبة
يجمع ترميز موضع الرسم البياني الفرعي SPE بفعالية بين المعلومات الطوبولوجية والبيولوجية
يمكن لآلية الانتباه التقاط العلاقات المعقدة بين عقد البروتين بفعالية

القيود

الاعتماد على البيانات: يتطلب معلومات تسميات المرض لاستخدام SPE
التعقيد الحسابي: معمارية محول الرسم البياني لها تكلفة حسابية أكبر من الطرق التقليدية
القابلية للتفسير: يتطلب المعنى البيولوجي لأوزان الانتباه مزيداً من البحث

الاتجاهات المستقبلية

التكيف مع مهام التنبؤ بالعلاقات الفرعية الأخرى
استكشاف المزيد من أنواع طرق ترميز الموضع
تحسين قابلية تفسير النموذج

التقييم المتعمق

المزايا

قوة الابتكار المنهجي: تطبيق ناجح لمعمارية محول الرسم البياني على التنبؤ بالأمراض المصاحبة لأول مرة
المساهمة التقنية الواضحة: تصميم ترميز موضع SPE معقول، يدمج المعلومات بفعالية
تصميم التجارب الشامل: يتضمن تجارب مقارنة كافية وأبحاث استبدال
تحسن الأداء الكبير: تحقيق تحسينات كبيرة على مجموعتي البيانات المرجعيتين

أوجه القصور

نقص التحليل النظري: يفتقر إلى تحليل نظري متعمق حول سبب فعالية محول الرسم البياني في هذه المهمة
عدم مناقشة الكفاءة الحسابية: لم يتم الإبلاغ عن مقارنة وقت التدريب وكفاءة الاستدلال
التحقق البيولوجي محدود: يفتقر إلى التحقق من المعنى البيولوجي لنتائج التنبؤ

التأثير

القيمة الأكاديمية: توفير أفكار جديدة لتطبيق محول الرسم البياني في المجال الطبي الحيوي
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة دعم القرار السريري
قابلية إعادة الإنتاج: توفير تنفيذ كود كامل

السيناريوهات المعمول بها

تقييم مخاطر المرض والطب الشخصي
إعادة تحديد الأدوية والتنبؤ بالآثار الجانبية
مهام التنبؤ الطبية الحيوية الأخرى القائمة على الرسم البياني

المراجع

Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015)
Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021)
Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة نجحت في إدخال معمارية محول الرسم البياني إلى مجال التنبؤ بالأمراض المصاحبة، وطريقة ترميز موضع الرسم البياني الفرعي SPE المقترحة لها دافع بيولوجي واضح وابتكار تقني. النتائج التجريبية مثيرة للإعجاب وتوفر مرجعاً قيماً للبحث ذي الصلة.