Comorbidity, the co-occurrence of multiple medical conditions in a single patient, profoundly impacts disease management and outcomes. Understanding these complex interconnections is crucial, especially in contexts where comorbidities exacerbate outcomes. Leveraging insights from the human interactome (HI) and advancements in graph-based methodologies, this study introduces Transformer with Subgraph Positional Encoding (TSPE) for disease comorbidity prediction. Inspired by Biologically Supervised Embedding (BSE), TSPE employs Transformer's attention mechanisms and Subgraph Positional Encoding (SPE) to capture interactions between nodes and disease associations. Our proposed SPE proves more effective than LPE, as used in Dwivedi et al.'s Graph Transformer, underscoring the importance of integrating clustering and disease-specific information for improved predictive accuracy. Evaluated on real clinical benchmark datasets (RR0 and RR1), TSPE demonstrates substantial performance enhancements over the state-of-the-art method, achieving up to 28.24% higher ROC AUC and 4.93% higher accuracy. This method shows promise for adaptation to other complex graph-based tasks and applications. The source code is available in the GitHub repository at: https://github.com/xihan-qin/TSPE-GraphTransformer.
๋
ผ๋ฌธ ID : 2503.03046์ ๋ชฉ : Graph Transformer with Disease Subgraph Positional Encoding for Improved Comorbidity Prediction์ ์ : Xihan Qin, Li Liao (University of Delaware)๋ถ๋ฅ : cs.LG (๊ธฐ๊ณํ์ต)๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2503.03046 ์ฝ๋ ๋งํฌ : https://github.com/xihan-qin/TSPE-GraphTransformer ๋ณธ ์ฐ๊ตฌ๋ ๋๋ฐ์งํ(comorbidity) ์์ธก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ถ๋ถ๊ทธ๋ํ ์์น ์ธ์ฝ๋ฉ ๊ธฐ๋ฐ์ ๊ทธ๋ํ Transformer ๋ฐฉ๋ฒ(TSPE)์ ์ ์ํ๋ค. ๋ณธ ๋ฐฉ๋ฒ์ ์ธ๊ฐ ์ํธ์์ฉ ์กฐ์ง(Human Interactome, HI) ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ Transformer์ ์ฃผ์ ๋ฉ์ปค๋์ฆ๊ณผ ์๋ก์ด ๋ถ๋ถ๊ทธ๋ํ ์์น ์ธ์ฝ๋ฉ(SPE)์ ํตํด ๋
ธ๋ ๊ฐ ์ํธ์์ฉ๊ณผ ์ง๋ณ ์ฐ๊ด์ฑ์ ํฌ์ฐฉํ๋ค. ์์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
RR0 ๋ฐ RR1์ ๋ํ ์คํ ๊ฒฐ๊ณผ, TSPE๋ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ ๋๋น ROC AUC์์ ์ต๋ 28.24% ํฅ์, ์ ํ๋์์ 4.93% ํฅ์์ ๋ฌ์ฑํ๋ค.
ํต์ฌ ๋ฌธ์ : ๋๋ฐ์งํ ์์ธก, ์ฆ ๋์ผ ํ์์์ ์ฌ๋ฌ ์ง๋ณ์ด ๋์์ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ ์์ธก์ค์์ฑ : ๋๋ฐ์งํ์ ์ง๋ณ ๊ด๋ฆฌ, ์น๋ฃ ์ ๋ต ๋ฐ ์ํ ๊ฒฐ๊ณผ์ ์๋นํ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ํนํ COVID-19 ๊ฐ์ ๋์ ํ ์ํฉ์์ ํน์ ๋๋ฐ์งํ์ ๋ ์ฌ๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ค๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ :
์ธก์ง์ ์๋ฒ ๋ฉ(GE) ๊ฐ์ ์ ํต์ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ ์ ํ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ์ธ BSE๋ ๊ฐ๋
์ ํ ๋ฉ์ปค๋์ฆ์ ๋์
ํ์ผ๋ ์ฌ์ ํ ์ ํต์ SVM ๋ถ๋ฅ๊ธฐ ์ฌ์ฉ Dwivedi ๋ฑ์ ๊ทธ๋ํ Transformer๊ฐ ์ฌ์ฉํ๋ ๋ผํ๋ผ์์ ์์น ์ธ์ฝ๋ฉ(LPE)์ ์ง๋ณ ํน์ด์ ์ ๋ณด ๋ถ์กฑ BSE ์ฐ๊ตฌ์์ ๊ฐ์กฐํ ๋
ธ๋ ์ฐ๊ฒฐ์ฑ๊ณผ ์ง๋ณ ์ฐ๊ด์ฑ์ ์ค์์ฑ์ ๋ฐํ์ผ๋ก, ๋ณธ ๋
ผ๋ฌธ์ Transformer ๋ชจ๋ธ์ ์ฃผ์ ๋ฉ์ปค๋์ฆ๊ณผ ์ ๋ฌธ์ ์ผ๋ก ์ค๊ณ๋ ๋ถ๋ถ๊ทธ๋ํ ์์น ์ธ์ฝ๋ฉ์ ํ์ฉํ์ฌ ๋๋ฐ์งํ ์์ธก ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ ํ์ํ๋ค.
TSPE ํ๋ ์์ํฌ ์ ์ : Transformer ์ํคํ
์ฒ๋ฅผ ๋๋ฐ์งํ ์์ธก ์์
์ ์ฒ์ ์ ์ฉํ๊ณ , ๊ทธ๋ํ ๋ฐ์ดํฐ์ ์ ํฉํ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ ์ค๊ณํ์ ์ ์ธ ๋ถ๋ถ๊ทธ๋ํ ์์น ์ธ์ฝ๋ฉ(SPE) : ๋ผํ๋ผ์์ ์์น ์ธ์ฝ๋ฉ(LPE)์ ํด๋ฌ์คํฐ๋ง ์ ๋ณด์ ๊ทธ๋ํ ์ธ์ฝ๋ ์๋ฒ ๋ฉ ์์น ์ธ์ฝ๋ฉ(GPE)์ ์ง๋ณ ๋ ์ด๋ธ ์ ๋ณด ๊ฒฐํฉํ์ ํ ์ฑ๋ฅ ํฅ์ : ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ์ ๋ํญ ์ด๊ณผํฌ๊ด์ ์ธ ์ ๊ฑฐ ์คํ : ๋ค์ํ ์์น ์ธ์ฝ๋ฉ ๋ฐฉ๋ฒ์ ํจ๊ณผ์ฑ ๊ฒ์ฆ์
๋ ฅ : ์ธ๊ฐ ์ํธ์์ฉ ์กฐ์ง ๊ทธ๋ํ์ ๋ ์ง๋ณ ๋ถ๋ถ๊ทธ๋ํ(๋จ๋ฐฑ์ง ๋
ธ๋ ์งํฉ)์ถ๋ ฅ : ์ด์ง ๋ถ๋ฅ ๊ฒฐ๊ณผ, ๋ ์ง๋ณ์ ๋๋ฐ์งํ ์ฌ๋ถ ํ๋จ์ ์ฝ : ์์ ์๋ ์ํ๋(RR) ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ/์์ฑ ์ํ ์ ์TSPE๋ ์ธ์ฝ๋-๋์ฝ๋ ์ํคํ
์ฒ๋ฅผ ์ฑํํ๋ค:
์ธ์ฝ๋ : ์ง๋ณ A์ ๋
ธ๋ ์๋ฒ ๋ฉ ์ฒ๋ฆฌ๋์ฝ๋ : ์ง๋ณ B์ ๋
ธ๋ ์๋ฒ ๋ฉ ์ฒ๋ฆฌ, ๊ต์ฐจ ์ฃผ์๋ฅผ ํตํด ์ง๋ณ ๊ฐ ๊ด๊ณ ํ์ต๋ถ๋ฅ์ธต : ๋์ฝ๋ ์ถ๋ ฅ์ ์ด์ง ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ก ๋ณํ1. ๋
ธ๋ ์๋ฒ ๋ฉ ์์ฑ
Node2Vec์ ์ฌ์ฉํ์ฌ ๋
ธ๋ ์๋ฒ ๋ฉ ์์ฑ, ๋งค๊ฐ๋ณ์ ์ค์ : p=1, q=1(๊ท ํ์กํ ๋ฌด์์ ๋ณดํ), ์๋์ฐ ํฌ๊ธฐ 2
2. ๋ถ๋ถ๊ทธ๋ํ ์์น ์ธ์ฝ๋ฉ(SPE)
SPE = (M + LPE), GPE , ์ฌ๊ธฐ์:
M: ๋
ธ๋ ์๋ฒ ๋ฉ ํ๋ ฌ LPE: ๋ผํ๋ผ์์ ์์น ์ธ์ฝ๋ฉ, ๊ทธ๋ํ์ ํด๋ฌ์คํฐ๋ง ์ ๋ณด ํฌ์ฐฉ GPE: ๊ทธ๋ํ ์ธ์ฝ๋ ์๋ฒ ๋ฉ ์์น ์ธ์ฝ๋ฉ, ์ง๋ณ ๋ ์ด๋ธ ์ ๋ณด ํฌ์ฐฉ 3. GPE ๊ณ์ฐ ๊ณผ์
Z = AW # (11) GEE ์๋ฒ ๋ฉ ๊ณ์ฐ
Z = UฮฃV^T # (12) ํน์ด๊ฐ ๋ถํด
GPE = U_d # (13) ์์ d๊ฐ ์ข์ธก ํน์ด ๋ฒกํฐ ์ ํ
4. ๋ถ๋ฅ ๋ฉ์ปค๋์ฆ
s = softmax(||X||ยฒโ,axis=1) # (6) ์ ์ ๋ฒกํฐ ๊ณ์ฐ
y_cand = ฮฃ(Xยทdiag(s))_j # (8) ๊ฐ์ค ํฉ์ฐ
y_pred = ฯ(Wy_cand + b) # (9) ์ต์ข
์์ธก
ํตํฉ๋ ์ฃผ์ ๋ฉ์ปค๋์ฆ : ๋ง์คํน๋์ง ์์ ๋ค์ค ํค๋ ์ฃผ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ถ๋ถ๊ทธ๋ํ ๋ด ๋ชจ๋ ๋
ธ๋์ ์ง์ค ๊ฐ๋ฅ์ง๋ณ ํน์ด์ ์์น ์ธ์ฝ๋ฉ : GPE๋ ์ง๋ณ ๋ ์ด๋ธ ์ ๋ณด๋ฅผ ์ง์ ํ์ฉํ์ฌ ์ ํต์ LPE๋ณด๋ค ๋ ํ์ ํ๋จ๋ค์ธต ์ ๋ณด ์ตํฉ : SPE๋ ๊ทธ๋ํ์ ์์ ๊ตฌ์กฐ(LPE)์ ์๋ฌผํ์ ์๋ฏธ(GPE)๋ฅผ ๋์์ ํฌ์ฐฉ์ถ์ฒ : Menche ๋ฑ์ ์ธ๊ฐ ์ํธ์์ฉ ์กฐ์ง ๋ฐ์ดํฐ์
๊ท๋ชจ : 13,460๊ฐ ๋จ๋ฐฑ์ง ๋
ธ๋, 153๊ฐ ์ง๋ณ ๋ถ๋ถ๊ทธ๋ํ, 10,743๊ฐ ์ง๋ณ ์๋ฐ์ดํฐ์
๋ถํ :
RR0: RR > 0์ ์์ฑ ์ํ๋ก ์ ์(82.6% ์์ฑ ์ํ) RR1: RR > 1์ ์์ฑ ์ํ๋ก ์ ์(58.4% ์์ฑ ์ํ) ์ฃผ์ ์งํ : ROC AUC(๋ถ๊ท ํ ๋ฐ์ดํฐ์
์ ์ ํฉ)๋ณด์กฐ ์งํ : ์ ํ๋(Accuracy)Node2Vec + SVM BSE + Node2Vec + SVM(๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ) ๋งค๊ฐ๋ณ์ ๊ฐ ์ธต ์ 3 ํ์ต๋ฅ 1e-04 ๋ฐฐ์น ํฌ๊ธฐ 20 Dropout 0.2 ๋
ธ๋ ์๋ฒ ๋ฉ ์ฐจ์ 64 ์ฃผ์ ํค๋ ์ 8 GPE ์ฐจ์ 8 LPE ์ฐจ์ 64
RR0 ๋ฐ์ดํฐ์
:
๋ฐฉ๋ฒ ROC AUC ์ ํ๋ SVM 0.5309 ยฑ 0.0105 0.8357 ยฑ 0.0039 BSE_SVM 0.6665 ยฑ 0.0301 0.8765 ยฑ 0.0117 TSPE 0.9489 ยฑ 0.0501 0.9069 ยฑ 0.0683
RR1 ๋ฐ์ดํฐ์
:
๋ฐฉ๋ฒ ROC AUC ์ ํ๋ SVM 0.5497 ยฑ 0.0079 0.6150 ยฑ 0.0078 BSE_SVM 0.6469 ยฑ 0.0183 0.6801 ยฑ 0.0166 TSPE 0.8009 ยฑ 0.0152 0.7294 ยฑ 0.0138
RR1 ๋ฐ์ดํฐ์
์์ ๋ค์ํ ์์น ์ธ์ฝ๋ฉ ๋ฐฉ๋ฒ ํ
์คํธ:
์์น ์ธ์ฝ๋ฉ ROC AUC ์ ํ๋ NoPE 0.7971 ยฑ 0.0146 0.7214 ยฑ 0.0202 LPE 0.8007 ยฑ 0.0179 0.7234 ยฑ 0.0202 SPE 0.8009 ยฑ 0.0152 0.7294 ยฑ 0.0138
ํ์ ํ ์ฑ๋ฅ ํฅ์ : TSPE๋ BSE_SVM ๋๋น RR0์์ ROC AUC 28.24% ํฅ์, RR1์์ 15.40% ํฅ์์์น ์ธ์ฝ๋ฉ์ ์ค์์ฑ : SPE๊ฐ LPE๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ ์ง๋ณ ๋ ์ด๋ธ ์ ๋ณด์ ๊ฐ์น ์
์ฆ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ํจ๊ณผ์ฑ : Transformer ์ํคํ
์ฒ๊ฐ ์ ํต์ SVM ๋ถ๋ฅ๊ธฐ๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐ๋คํธ์ํฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ : ๋จ๋ฐฑ์ง ์ํธ์์ฉ ๋คํธ์ํฌ๋ฅผ ํ์ฉํ ์ง๋ณ ๊ด๊ณ ์์ธก๊ทธ๋ํ ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ : ์ธก์ง์ ์๋ฒ ๋ฉ(GE)๊ณผ ์๋ฌผํ์ ๊ฐ๋
์๋ฒ ๋ฉ(BSE) ๋ฑ๊ทธ๋ํ Transformer : Dwivedi ๋ฑ์ ๋ฒ์ฉ ๊ทธ๋ํ Transformer ํ๋ ์์ํฌ์ํคํ
์ฒ ํ์ : Transformer๋ฅผ ๋๋ฐ์งํ ์์ธก์ ์ฒ์ ์ ์ฉ์ธ์ฝ๋ฉ ๊ฐ์ : ์ ์๋ SPE๊ฐ ํ์ค LPE๋ณด๋ค ์์ํ ์์
์ ๋ ์ ํฉ์ฑ๋ฅ ๋ํ : ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ์ ๋ํญ ์ด๊ณผTSPE๋ Transformer ์ํคํ
์ฒ๋ฅผ ๋๋ฐ์งํ ์์ธก ์์
์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ ๋ถ๋ถ๊ทธ๋ํ ์์น ์ธ์ฝ๋ฉ SPE๋ ์์ ๋ฐ ์๋ฌผํ์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋จ๋ฐฑ์ง ๋
ธ๋ ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉ ๋ฐ์ดํฐ ์์กด์ฑ : SPE ์ฌ์ฉ์ ์ํด ์ง๋ณ ๋ ์ด๋ธ ์ ๋ณด ํ์๊ณ์ฐ ๋ณต์ก๋ : Transformer ์ํคํ
์ฒ๋ ์ ํต์ ๋ฐฉ๋ฒ ๋๋น ๊ณ์ฐ ์ค๋ฒํค๋ ์ฆ๊ฐํด์ ๊ฐ๋ฅ์ฑ : ์ฃผ์ ๊ฐ์ค์น์ ์๋ฌผํ์ ์๋ฏธ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ ํ์๋ค๋ฅธ ๋ถ๋ถ๊ทธ๋ํ ๊ด๊ณ ์์ธก ์์
์ผ๋ก ์ ์ ๋ ๋ง์ ์ ํ์ ์์น ์ธ์ฝ๋ฉ ๋ฐฉ๋ฒ ํ์ ๋ชจ๋ธ์ ํด์ ๊ฐ๋ฅ์ฑ ํฅ์ ๋ฐฉ๋ฒ์ ํ์ ์ฑ ๊ฐํจ : Transformer๋ฅผ ๋๋ฐ์งํ ์์ธก์ ์ฒ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๊ธฐ์ ๊ธฐ์ฌ ๋ช
ํ : SPE ์์น ์ธ์ฝ๋ฉ ์ค๊ณ๊ฐ ํฉ๋ฆฌ์ ์ด๊ณ ๋ค์ํ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ตํฉ์คํ ์ค๊ณ ์์ฑ๋ : ์ถฉ๋ถํ ๋น๊ต ์คํ ๋ฐ ์ ๊ฑฐ ์ฐ๊ตฌ ํฌํจ์ฑ๋ฅ ํฅ์ ํ์ : ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ ๋ชจ๋ ๋ํญ ๊ฐ์ ์ด๋ก ์ ๋ถ์ ๋ถ์กฑ : Transformer๊ฐ ์ด ์์
์์ ํจ๊ณผ์ ์ธ ์ด์ ์ ๋ํ ์ฌ์ธต ์ด๋ก ์ ๋ถ์ ๋ถ์ฌ๊ณ์ฐ ํจ์จ์ฑ ๋ฏธ๋
ผ์ : ํ๋ จ ์๊ฐ ๋ฐ ์ถ๋ก ํจ์จ์ฑ ๋น๊ต ๋ฏธ๋ณด๊ณ ์๋ฌผํ์ ๊ฒ์ฆ ์ ํ : ์์ธก ๊ฒฐ๊ณผ์ ์๋ฌผํ์ ์๋ฏธ์ ๋ํ ๊ฒ์ฆ ๋ถ์กฑํ์ ์ ๊ฐ์น : ๊ทธ๋ํ Transformer์ ์์ํ ๋ถ์ผ ์์ฉ์ ์๋ก์ด ์ฌ๊ณ ์ ๊ณต์ค์ฉ์ ๊ฐ์น : ์์ ์์ฌ๊ฒฐ์ ์ง์ ์์คํ
์ ์ง์ ์ ์ฉ ๊ฐ๋ฅ์ฌํ์ฑ : ์์ ํ ์ฝ๋ ๊ตฌํ ์ ๊ณต์ง๋ณ ์ํ ํ๊ฐ ๋ฐ ๊ฐ์ธํ ์๋ฃ ์ฝ๋ฌผ ์ฌ์ฐฝ์ถ ๋ฐ ๋ถ์์ฉ ์์ธก ๊ธฐํ ๊ทธ๋ํ ๊ธฐ๋ฐ ์์ํ ์์ธก ์์
Menche et al. "Uncovering disease-disease relationships through the incomplete interactome." Science (2015) Dwivedi & Bresson. "A generalization of transformer networks to graphs." AAAI Workshop (2021) Grover & Leskovec. "node2vec: Scalable feature learning for networks." KDD (2016) ์ข
ํฉ ํ๊ฐ : ์ด๋ Transformer ์ํคํ
์ฒ๋ฅผ ๋๋ฐ์งํ ์์ธก ๋ถ์ผ์ ์ฑ๊ณต์ ์ผ๋ก ๋์
ํ ๊ณ ํ์ง ์ฐ๊ตฌ ๋
ผ๋ฌธ์ด๋ค. ์ ์๋ SPE ์์น ์ธ์ฝ๋ฉ ๋ฐฉ๋ฒ์ ๋ช
ํํ ์๋ฌผํ์ ๋๊ธฐ์ ๊ธฐ์ ์ ํ์ ์ฑ์ ๊ฐ์ถ๊ณ ์๋ค. ์ธ์์ ์ธ ์คํ ๊ฒฐ๊ณผ๋ ๊ด๋ จ ๋ถ์ผ ์ฐ๊ตฌ์ ๊ท์คํ ์ฐธ๊ณ ์๋ฃ๋ฅผ ์ ๊ณตํ๋ค.