2025-11-19T06:52:13.983675

Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction

Qin, Liao
Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
academic

রোগ সাবগ্রাফ পজিশনাল এনকোডিং সহ গ্রাফ ট্রান্সফর্মার সহরুগ্ণতা পূর্বাভাসের জন্য উন্নত পদ্ধতি

মৌলিক তথ্য

  • পেপার আইডি: 2503.03046
  • শিরোনাম: Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction
  • লেখক: Xihan Qin, Li Liao (ডেলাওয়্যার বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2503.03046
  • কোড লিঙ্ক: https://github.com/xihan-qin/TSPE-GraphTransformer

সারসংক্ষেপ

এই গবেষণা রোগ সহরুগ্ণতা (comorbidity) পূর্বাভাস সমস্যার জন্য সাবগ্রাফ পজিশনাল এনকোডিং ভিত্তিক গ্রাফ ট্রান্সফর্মার পদ্ধতি (TSPE) প্রস্তাব করে। এই পদ্ধতিটি মানব ইন্টারঅ্যাক্টোম (Human Interactome, HI) ডেটা ব্যবহার করে, ট্রান্সফর্মারের মনোযোগ প্রক্রিয়া এবং উদ্ভাবনী সাবগ্রাফ পজিশনাল এনকোডিং (SPE) এর মাধ্যমে নোড মধ্যে মিথস্ক্রিয়া এবং রোগ সম্পর্ক ক্যাপচার করে। ক্লিনিক্যাল বেঞ্চমার্ক ডেটাসেট RR0 এবং RR1 এ পরীক্ষা-নিরীক্ষা দেখায় যে TSPE বিদ্যমান সেরা পদ্ধতির তুলনায় ROC AUC তে ২৮.২৪% এবং নির্ভুলতায় ৪.৯৩% উন্নতি করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

  1. মূল সমস্যা: রোগ সহরুগ্ণতা পূর্বাভাস, অর্থাৎ একই রোগীতে একাধিক রোগ একসাথে ঘটার সম্ভাবনা পূর্বাভাস দেওয়া
  2. গুরুত্ব: সহরুগ্ণতা রোগ ব্যবস্থাপনা, চিকিৎসা কৌশল এবং পূর্বাভাস ফলাফলকে উল্লেখযোগ্যভাবে প্রভাবিত করে, বিশেষত COVID-19 এর মতো মহামারীতে, নির্দিষ্ট সহরুগ্ণতা আরও গুরুতর ফলাফল সৃষ্টি করে
  3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
    • ভূগোলিক এমবেডিং (GE) এর মতো ঐতিহ্যবাহী পদ্ধতির কর্মক্ষমতা সীমিত
    • বিদ্যমান সেরা পদ্ধতি BSE তদারকিকৃত নির্বাচন প্রক্রিয়া প্রবর্তন করলেও এখনও ঐতিহ্যবাহী SVM শ্রেণীবিভাজক ব্যবহার করে
    • Dwivedi এবং অন্যদের গ্রাফ ট্রান্সফর্মার ব্যবহৃত লাপ্লাসিয়ান পজিশনাল এনকোডিং (LPE) রোগ-নির্দিষ্ট তথ্যের অভাব রয়েছে

গবেষণা প্রেরণা

BSE গবেষণা দ্বারা জোর দেওয়া নোড সংযোগযোগ্যতা এবং রোগ সম্পর্কের গুরুত্বের উপর ভিত্তি করে, এই পত্রটি ট্রান্সফর্মার মডেলের মনোযোগ প্রক্রিয়া এবং বিশেষভাবে ডিজাইন করা সাবগ্রাফ পজিশনাল এনকোডিং ব্যবহার করে সহরুগ্ণতা পূর্বাভাস কর্মক্ষমতা উন্নত করার অন্বেষণ করে।

মূল অবদান

  1. TSPE ফ্রেমওয়ার্ক প্রস্তাব: প্রথমবারের মতো ট্রান্সফর্মার আর্কিটেকচার রোগ সহরুগ্ণতা পূর্বাভাস কাজে প্রয়োগ করা, গ্রাফ ডেটার জন্য উপযুক্ত এনকোডার-ডিকোডার কাঠামো ডিজাইন করা
  2. উদ্ভাবনী সাবগ্রাফ পজিশনাল এনকোডিং (SPE): লাপ্লাসিয়ান পজিশনাল এনকোডিং (LPE) এর ক্লাস্টারিং তথ্য এবং গ্রাফ এনকোডার এমবেডিং পজিশনাল এনকোডিং (GPE) এর রোগ লেবেল তথ্য সংমিশ্রণ করা
  3. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: দুটি বেঞ্চমার্ক ডেটাসেটে বিদ্যমান সেরা পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করা
  4. ব্যাপক অ্যাবলেশন পরীক্ষা: বিভিন্ন পজিশনাল এনকোডিং পদ্ধতির কার্যকারিতা যাচাই করা

পদ্ধতি বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

  • ইনপুট: মানব ইন্টারঅ্যাক্টোম গ্রাফে দুটি রোগ সাবগ্রাফ (প্রোটিন নোড সেট)
  • আউটপুট: দ্বিমুখী শ্রেণীবিভাজন ফলাফল, দুটি রোগের সহরুগ্ণতা আছে কিনা তা নির্ধারণ করা
  • সীমাবদ্ধতা: ক্লিনিক্যাল আপেক্ষিক ঝুঁকি (RR) মূল্যের উপর ভিত্তি করে ইতিবাচক এবং নেতিবাচক নমুনা সংজ্ঞায়িত করা

মডেল আর্কিটেকচার

সামগ্রিক ফ্রেমওয়ার্ক

TSPE এনকোডার-ডিকোডার আর্কিটেকচার গ্রহণ করে:

  • এনকোডার: রোগ A এর নোড এমবেডিং প্রক্রিয়া করে
  • ডিকোডার: রোগ B এর নোড এমবেডিং প্রক্রিয়া করে এবং ক্রস-মনোযোগের মাধ্যমে রোগ মধ্যে সম্পর্ক শিখে
  • শ্রেণীবিভাজন স্তর: ডিকোডার আউটপুটকে দ্বিমুখী শ্রেণীবিভাজন ফলাফলে রূপান্তরিত করে

মূল প্রযুক্তিগত উপাদান

১. নোড এমবেডিং উৎপাদন Node2Vec ব্যবহার করে নোড এমবেডিং উৎপাদন করা, প্যারামিটার সেটিং p=1, q=1 (ভারসাম্যপূর্ণ র্যান্ডম ওয়াক), উইন্ডো আকার ২।

২. সাবগ্রাফ পজিশনাল এনকোডিং (SPE) SPE = (M + LPE), GPE, যেখানে:

  • M: নোড এমবেডিং ম্যাট্রিক্স
  • LPE: লাপ্লাসিয়ান পজিশনাল এনকোডিং, গ্রাফের ক্লাস্টারিং তথ্য ক্যাপচার করে
  • GPE: গ্রাফ এনকোডার এমবেডিং পজিশনাল এনকোডিং, রোগ লেবেল তথ্য ক্যাপচার করে

३. GPE গণনা প্রক্রিয়া

Z = AW                    # (11) GEE এমবেডিং গণনা
Z = UΣV^T                 # (12) একবচন মূল্য বিয়োজন
GPE = U_d                 # (13) প্রথম d বাম একবচন ভেক্টর নির্বাচন করা

४. শ্রেণীবিভাজন প্রক্রিয়া

s = softmax(||X||²₂,axis=1)     # (6) স্কোর ভেক্টর গণনা করা
y_cand = Σ(X·diag(s))_j         # (8) ওজনযুক্ত যোগফল
y_pred = σ(Wy_cand + b)         # (9) চূড়ান্ত পূর্বাভাস

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. একীভূত মনোযোগ প্রক্রিয়া: অমুখোমুখি বহু-মাথা মনোযোগ ব্যবহার করে, মডেলকে সাবগ্রাফের সমস্ত নোডে মনোযোগ দিতে সক্ষম করে
  2. রোগ-নির্দিষ্ট পজিশনাল এনকোডিং: GPE সরাসরি রোগ লেবেল তথ্য ব্যবহার করে, ঐতিহ্যবাহী LPE এর চেয়ে আরও লক্ষ্যবস্তু
  3. বহু-স্তরীয় তথ্য সংমিশ্রণ: SPE একই সাথে গ্রাফের টপোলজিক্যাল কাঠামো (LPE) এবং জৈবিক অর্থ (GPE) ক্যাপচার করে

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

  • উৎস: Menche এবং অন্যদের মানব ইন্টারঅ্যাক্টোম ডেটাসেট
  • স্কেল: ১३,४६० প্রোটিন নোড, १५३ রোগ সাবগ্রাফ, १०,७४३ রোগ জোড়া
  • ডেটাসেট বিভাজন:
    • RR0: RR > 0 ইতিবাচক নমুনা (८२.६% ইতিবাচক নমুনা)
    • RR1: RR > 1 ইতিবাচক নমুনা (५८.४% ইতিবাচক নমুনা)

মূল্যায়ন মেট্রিক্স

  • প্রধান মেট্রিক: ROC AUC (অসন্তুলিত ডেটাসেটের জন্য উপযুক্ত)
  • গৌণ মেট্রিক: নির্ভুলতা (Accuracy)

তুলনামূলক পদ্ধতি

  • Node2Vec + SVM
  • BSE + Node2Vec + SVM (বিদ্যমান সেরা পদ্ধতি)

বাস্তবায়ন বিবরণ

প্যারামিটারমূল্য
স্তর সংখ্যা3
শেখার হার1e-04
ব্যাচ আকার20
Dropout0.2
নোড এমবেডিং মাত্রা64
মনোযোগ মাথা সংখ্যা8
GPE মাত্রা8
LPE মাত্রা64

পরীক্ষা-নিরীক্ষা ফলাফল

প্রধান ফলাফল

RR0 ডেটাসেট:

পদ্ধতিROC AUCনির্ভুলতা
SVM0.5309 ± 0.01050.8357 ± 0.0039
BSE_SVM0.6665 ± 0.03010.8765 ± 0.0117
TSPE0.9489 ± 0.05010.9069 ± 0.0683

RR1 ডেটাসেট:

পদ্ধতিROC AUCনির্ভুলতা
SVM0.5497 ± 0.00790.6150 ± 0.0078
BSE_SVM0.6469 ± 0.01830.6801 ± 0.0166
TSPE0.8009 ± 0.01520.7294 ± 0.0138

অ্যাবলেশন পরীক্ষা

RR1 ডেটাসেটে বিভিন্ন পজিশনাল এনকোডিং পদ্ধতি পরীক্ষা করা:

পজিশনাল এনকোডিংROC AUCনির্ভুলতা
NoPE0.7971 ± 0.01460.7214 ± 0.0202
LPE0.8007 ± 0.01790.7234 ± 0.0202
SPE0.8009 ± 0.01520.7294 ± 0.0138

পরীক্ষা-নিরীক্ষা আবিষ্কার

  1. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: TSPE BSE_SVM এর তুলনায় RR0 তে ROC AUC ২८.२४% এবং RR1 তে १५.४०% উন্নতি করে
  2. পজিশনাল এনকোডিংয়ের গুরুত্ব: SPE LPE এর চেয়ে ভাল পারফর্ম করে, রোগ লেবেল তথ্যের মূল্য প্রমাণ করে
  3. মনোযোগ প্রক্রিয়ার কার্যকারিতা: ট্রান্সফর্মার আর্কিটেকচার ঐতিহ্যবাহী SVM শ্রেণীবিভাজকের চেয়ে উল্লেখযোগ্যভাবে ভাল

সম্পর্কিত কাজ

প্রধান গবেষণা দিক

  1. নেটওয়ার্ক-ভিত্তিক পদ্ধতি: প্রোটিন ইন্টারঅ্যাকশন নেটওয়ার্ক ব্যবহার করে রোগ সম্পর্ক পূর্বাভাস দেওয়া
  2. গ্রাফ এমবেডিং পদ্ধতি: যেমন geodesic embedding (GE) এবং Biologically Supervised Embedding (BSE)
  3. গ্রাফ ট্রান্সফর্মার: Dwivedi এবং অন্যদের সর্বজনীন গ্রাফ ট্রান্সফর্মার ফ্রেমওয়ার্ক

এই পত্রের সুবিধা

  1. আর্কিটেকচার উদ্ভাবন: প্রথমবারের মতো রোগ সহরুগ্ণতা পূর্বাভাসে ট্রান্সফর্মার প্রয়োগ করা
  2. এনকোডিং উন্নতি: প্রস্তাবিত SPE মান LPE এর চেয়ে জৈব-চিকিৎসা কাজের জন্য আরও উপযুক্ত
  3. কর্মক্ষমতা অগ্রগতি: বিদ্যমান সেরা পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. TSPE সফলভাবে ট্রান্সফর্মার আর্কিটেকচারকে রোগ সহরুগ্ণতা পূর্বাভাস কাজে অভিযোজিত করেছে
  2. সাবগ্রাফ পজিশনাল এনকোডিং SPE কার্যকরভাবে টপোলজিক্যাল এবং জৈবিক তথ্য সংমিশ্রণ করে
  3. মনোযোগ প্রক্রিয়া প্রোটিন নোডের মধ্যে জটিল সম্পর্ক কার্যকরভাবে ক্যাপচার করতে পারে

সীমাবদ্ধতা

  1. ডেটা নির্ভরতা: SPE ব্যবহার করার জন্য রোগ লেবেল তথ্যের প্রয়োজন
  2. গণনামূলক জটিলতা: ট্রান্সফর্মার আর্কিটেকচার ঐতিহ্যবাহী পদ্ধতির তুলনায় বেশি গণনা খরচ রয়েছে
  3. ব্যাখ্যাযোগ্যতা: মনোযোগ ওজনের জৈবিক অর্থ আরও গবেষণার প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. অন্যান্য সাবগ্রাফ সম্পর্ক পূর্বাভাস কাজে অভিযোজন করা
  2. আরও ধরনের পজিশনাল এনকোডিং পদ্ধতি অন্বেষণ করা
  3. মডেলের ব্যাখ্যাযোগ্যতা উন্নত করা

গভীর মূল্যায়ন

সুবিধা

  1. পদ্ধতি উদ্ভাবনী শক্তিশালী: প্রথমবারের মতো রোগ সহরুগ্ণতা পূর্বাভাসে ট্রান্সফর্মার সফলভাবে প্রয়োগ করা
  2. প্রযুক্তিগত অবদান স্পষ্ট: SPE পজিশনাল এনকোডিং ডিজাইন যুক্তিসঙ্গত, কার্যকরভাবে একাধিক তথ্য সংমিশ্রণ করে
  3. পরীক্ষা-নিরীক্ষা ডিজাইন সম্পূর্ণ: পর্যাপ্ত তুলনামূলক পরীক্ষা এবং অ্যাবলেশন গবেষণা অন্তর্ভুক্ত
  4. কর্মক্ষমতা উন্নতি উল্লেখযোগ্য: দুটি বেঞ্চমার্ক ডেটাসেটে উল্লেখযোগ্য উন্নতি অর্জন করা

অপূর্ণতা

  1. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: এই কাজে ট্রান্সফর্মার কেন কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব
  2. গণনা দক্ষতা আলোচিত নয়: প্রশিক্ষণ সময় এবং অনুমান দক্ষতার তুলনা রিপোর্ট করা হয়নি
  3. জৈবিক যাচাইকরণ সীমিত: পূর্বাভাস ফলাফলের জৈবিক অর্থের যাচাইকরণের অভাব

প্রভাব

  1. একাডেমিক মূল্য: গ্রাফ ট্রান্সফর্মারের জৈব-চিকিৎসা ক্ষেত্রে প্রয়োগের জন্য নতুন চিন্তাভাবনা প্রদান করে
  2. ব্যবহারিক মূল্য: সরাসরি ক্লিনিক্যাল সিদ্ধান্ত সহায়তা ব্যবস্থায় প্রয়োগ করা যায়
  3. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড বাস্তবায়ন প্রদান করা হয়েছে

প্রযোজ্য পরিস্থিতি

  1. রোগ ঝুঁকি মূল্যায়ন এবং ব্যক্তিগতকৃত চিকিৎসা
  2. ওষুধ পুনর্নির্ধারণ এবং পার্শ্ব প্রতিক্রিয়া পূর্বাভাস
  3. অন্যান্য গ্রাফ-ভিত্তিক জৈব-চিকিৎসা পূর্বাভাস কাজ

সংদর্ভ

  1. Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015)
  2. Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021)
  3. Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পত্র, যা সফলভাবে ট্রান্সফর্মার আর্কিটেকচারকে রোগ সহরুগ্ণতা পূর্বাভাস ক্ষেত্রে প্রবর্তন করেছে, প্রস্তাবিত SPE পজিশনাল এনকোডিং পদ্ধতি স্পষ্ট জৈবিক প্রেরণা এবং প্রযুক্তিগত উদ্ভাবনী শক্তি রয়েছে। পরীক্ষা-নিরীক্ষার ফলাফল চিত্তাকর্ষক, সম্পর্কিত ক্ষেত্রের গবেষণার জন্য মূল্যবান রেফারেন্স প্রদান করে।