The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
- पेपर ID: 2509.02803
- शीर्षक: ग्राफ लाप्लासियन आइजेनवेक्टर-आधारित ग्राफ न्यूरल नेटवर्क के लिए प्री-ट्रेनिंग विधि
- लेखक: हॉवर्ड डाई, न्यांबुरा न्जेंगा, हिरेन मधु, सिद्धार्थ विश्वनाथ, रयान पेलिको, इयान एडेलस्टीन, स्मिता कृष्णस्वामी
- वर्गीकरण: cs.LG (मशीन लर्निंग)
- प्रकाशन समय: 25 अक्टूबर 2024 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2509.02803v2
यह पेपर ग्राफ लाप्लासियन आइजेनवेक्टर के आधार पर ग्राफ न्यूरल नेटवर्क के लिए एक प्री-ट्रेनिंग विधि प्रस्तावित करता है। ग्राफ आधारित मॉडल (GFMs) में संरचनात्मक प्री-ट्रेनिंग विधियों की कमी को संबोधित करते हुए, लेखकों ने लाप्लासियन आइजेनवेक्टर लर्निंग मॉड्यूल (LELM) विकसित किया है, जो ग्राफ लाप्लासियन के निम्न-आवृत्ति आइजेनवेक्टर की भविष्यवाणी करके प्री-ट्रेनिंग करता है। यह विधि नए आर्किटेक्चर डिज़ाइन का परिचय देती है, अत्यधिक सुगमता की समस्या को दूर करती है, और GNN मॉडल को दीर्घ-दूरी की निर्भरता सीखने में सक्षम बनाती है। प्रयोग दर्शाते हैं कि इस ढांचे का उपयोग करके प्री-ट्रेन किए गए मॉडल आणविक गुण पूर्वानुमान कार्यों पर आधारभूत मॉडल से बेहतर प्रदर्शन करते हैं।
- संरचनात्मक प्री-ट्रेनिंग विधियों की कमी: मौजूदा ग्राफ न्यूरल नेटवर्क प्री-ट्रेनिंग विधियां मुख्य रूप से विशेषता पुनर्निर्माण और विरोधाभासी शिक्षा पर आधारित हैं, जबकि ग्राफ संरचनात्मक गुणों के आधार पर प्री-ट्रेनिंग विधियां अपेक्षाकृत कम अन्वेषित हैं।
- अत्यधिक सुगमता की समस्या: पारंपरिक संदेश-पारण GNN वैश्विक और क्षेत्रीय संरचना को पकड़ने में चुनौतियों का सामना करते हैं, और नेटवर्क की गहराई बढ़ने के साथ अत्यधिक सुगमता की समस्या उत्पन्न होती है।
- दीर्घ-दूरी की निर्भरता सीखने में कठिनाई: मौजूदा GNN आर्किटेक्चर ग्राफ में दीर्घ-दूरी की पारस्परिक निर्भरता सीखने में अभिव्यक्ति क्षमता में सीमाएं हैं।
- ग्राफ आधारित मॉडल के विकास के लिए प्रभावी स्व-पर्यवेक्षित प्री-ट्रेनिंग कार्यों की आवश्यकता है
- संरचना-जागरूक डाउनस्ट्रीम अनुप्रयोगों के लिए अंतर्निहित ग्राफ संरचना को पकड़ने में सक्षम प्री-ट्रेनिंग विधियों की आवश्यकता है
- आणविक गुण पूर्वानुमान जैसे अनुप्रयोग ग्राफ की वैश्विक संरचना की समझ पर निर्भर करते हैं
- विरोधाभासी विधियां: मुख्य रूप से Jensen-Shannon अनुमानक या InfoNCE उद्देश्य फ़ंक्शन का उपयोग करती हैं, संरचनात्मक जानकारी के प्रत्यक्ष मॉडलिंग में कमी है
- भविष्यवाणी विधियां: अधिकांश ग्राफ पुनर्निर्माण कार्यों पर केंद्रित हैं, ग्राफ गुण पूर्वानुमान के आधार पर विधियां कम हैं
- संरचनात्मक प्रतिनिधित्व क्षमता: मौजूदा विधियां ग्राफ की वैश्विक संरचनात्मक जानकारी को प्रभावी ढंग से पकड़ने में कठिनाई का सामना करती हैं
- LELM ढांचा प्रस्तावित करना: ग्राफ लाप्लासियन आइजेनवेक्टर को प्री-ट्रेनिंग लक्ष्य के रूप में उपयोग करने वाली पहली विधि
- नवीन आर्किटेक्चर डिज़ाइन: ग्राफ-स्तरीय MLP हेड का परिचय, जो GNN को बिना गहरे नेटवर्क के बड़े पैमाने पर संरचना को पकड़ने में सक्षम बनाता है
- नोड विशेषता वृद्धि: ग्राफ प्रसार ऑपरेटर के आधार पर वृद्धि नोड विशेषताएं, GNN की अभिव्यक्ति क्षमता की सीमाओं को दूर करना
- प्रायोगिक सत्यापन: आणविक डेटासेट पर विधि की प्रभावशीलता को प्रमाणित करना, स्वतंत्र प्री-ट्रेनिंग विधि या मौजूदा पाइपलाइन के प्लग-इन के रूप में कार्य कर सकता है
दिया गया ग्राफ G=(V,E), लक्ष्य GNN मॉडल को प्री-ट्रेन करना है ताकि यह ग्राफ लाप्लासियन मैट्रिक्स L=D−A के k सबसे निम्न-आवृत्ति आइजेनवेक्टर ψ1,ψ2,…,ψk की भविष्यवाणी कर सके, जहां Lψi=λiψi।
LELM ढांचे में तीन मुख्य घटक हैं:
वेवलेट स्थिति एन्कोडिंग: नोड्स के बीच सापेक्ष स्थिति जानकारी को एन्कोड करता है
- यादृच्छिक रूप से दो नोड्स i,j का चयन करें, डिराक सिग्नल δi,δj का निर्माण करें
- वेवलेट ऑपरेटर Ψk=P2j−1−P2j लागू करें, जहां P=D−1A प्रसार ऑपरेटर है
- नोड m की वेवलेट स्थिति एन्कोडिंग: wm=[wm,1…wm,J]
प्रसार डिराक एन्कोडिंग: स्थानीय कनेक्टिविटी संरचना को एन्कोड करता है
- प्रत्येक नोड m के लिए, dm,k=Ψk(m,⋅)P(m,⋅)T की गणना करें
- प्रसार डिराक एन्कोडिंग: dm=[dm,1…dm,J]
- आधारभूत GNN: वृद्धि विशेषताओं के ग्राफ को संसाधित करता है, नोड प्रतिनिधित्व उत्पन्न करता है
- ग्राफ-स्तरीय एकत्रीकरण: सभी नोड प्रतिनिधित्वों को ग्राफ-स्तरीय वेक्टर Z=[z1,…,zn]∈Rnd में जोड़ता है
- MLP भविष्यवाणी हेड: U~=MLP(Z) पूर्वानुमानित आइजेनवेक्टर आउटपुट करता है
QR अपघटन के माध्यम से ऑर्थोगोनलिटी बाधा लागू करता है: U^=QR(U~)
हानि फ़ंक्शन:
- ऊर्जा हानि: Lenergy=k1∑i=1ku^iTLu^i
- आइजेनवेक्टर हानि: Leigvec=k1∑i=1k∥Lu^i−λiu^i∥
- कुल हानि: L=α⋅Lenergy+β⋅Leigvec
- ग्राफ-स्तरीय MLP डिज़ाइन: नोड-स्तरीय MLP द्वारा दीर्घ-दूरी की बातचीत सीखने में असमर्थता की समस्या से बचा जाता है
- आइजेनवेक्टर लक्ष्य: निम्न-आवृत्ति लाप्लासियन आइजेनवेक्टर स्वाभाविक रूप से वैश्विक, क्षेत्रीय और स्थानीय ग्राफ संरचना को एन्कोड करते हैं
- प्रसार ऑपरेटर वृद्धि: संरचनात्मक संदर्भ जानकारी प्रदान करता है, GNN अभिव्यक्ति क्षमता को बढ़ाता है
- दोहरी हानि तंत्र: ऊर्जा हानि सबस्पेस सही होने को सुनिश्चित करती है, आइजेनवेक्टर हानि कठोर क्रमबद्धता सुनिश्चित करती है
- ZINC-12k: 12,000 आणविक ग्राफ
- ZINC-250k: 250,000 आणविक ग्राफ
- QM9: 134,000 आणविक ग्राफ, कई क्वांटम रसायन विज्ञान गुणों के साथ
- MAE (माध्य निरपेक्ष त्रुटि): मुख्य मूल्यांकन मेट्रिक
- ROC-AUC: द्विआधारी वर्गीकरण कार्यों के लिए
- आधारभूत मॉडल: अप्रशिक्षित GIN और GPS मॉडल
- वैकल्पिक प्री-ट्रेनिंग लक्ष्य: नोड डिग्री, स्थानीय क्लस्टरिंग गुणांक, चक्र गणना, लाप्लासियन आइजेनवैल्यूज
- मौजूदा प्री-ट्रेनिंग विधियां: ContextPred, Masking आदि
- प्री-ट्रेनिंग epochs: 100-200 राउंड
- फाइन-ट्यूनिंग epochs: 150-500 राउंड
- आइजेनवेक्टर संख्या: k=6
- हानि भार: α=2,β=1 (मुख्य प्रयोग)
- ऑप्टिमाइज़र: Adam
- सीखने की दर: 0.001
ZINC और QM9 डेटासेट प्रदर्शन तुलना:
| मॉडल | ZINC पूर्ण | ZINC सबसेट | QM9 μ | QM9 α | QM9 εHOMO |
|---|
| GIN + LELM | 0.130 | 0.353 | 0.484 | 0.489 | 0.00353 |
| GIN (आधारभूत) | 0.228 | 0.438 | 0.472 | 1.132 | 0.00386 |
| GPS + LELM | 0.104 | 0.210 | 0.502 | 0.592 | 0.00372 |
| GPS (आधारभूत) | 0.150 | 0.358 | 0.413 | 0.718 | 0.00434 |
LELM ने अधिकांश कार्यों पर प्रदर्शन में महत्वपूर्ण सुधार किया है, विशेष रूप से ZINC डेटासेट पर स्पष्ट सुधार है।
ग्राफ-स्तरीय MLP बनाम नोड-स्तरीय MLP:
| मॉडल | ZINC पूर्ण | ZINC सबसेट |
|---|
| GIN + LELM (ग्राफ-स्तरीय) | 0.130 | 0.353 |
| GIN + LELM (नोड-स्तरीय) | 0.152 | 0.435 |
| GPS + LELM (ग्राफ-स्तरीय) | 0.104 | 0.210 |
| GPS + LELM (नोड-स्तरीय) | 0.126 | 0.261 |
ग्राफ-स्तरीय MLP दोनों आर्किटेक्चर पर नोड-स्तरीय MLP से महत्वपूर्ण रूप से बेहतर है।
वैकल्पिक संरचनात्मक प्री-ट्रेनिंग लक्ष्य तुलना:
| प्री-ट्रेनिंग लक्ष्य | ZINC पूर्ण | ZINC सबसेट |
|---|
| LELM | 0.130 | 0.353 |
| नोड डिग्री | 0.238 | 0.471 |
| स्थानीय क्लस्टरिंग गुणांक | 1.493 | 1.551 |
| चक्र गणना | 0.285 | 0.420 |
| लाप्लासियन आइजेनवैल्यूज | 0.250 | 0.520 |
LELM अन्य संरचनात्मक प्री-ट्रेनिंग लक्ष्यों से स्पष्ट रूप से बेहतर है।
आणविक पूर्वानुमान कार्यों पर, LELM को मौजूदा प्री-ट्रेनिंग पाइपलाइन में प्लग-इन के रूप में जोड़ना:
- Masking + LELM: सभी 5 डेटासेट पर सुधार
- ContextPred + LELM: अधिकांश कार्यों पर सुधार
- ग्राफ-स्तरीय आर्किटेक्चर का महत्व: ग्राफ-स्तरीय MLP दीर्घ-दूरी की निर्भरता को प्रभावी ढंग से सीख सकता है
- आइजेनवेक्टर की श्रेष्ठता: लाप्लासियन आइजेनवेक्टर अन्य संरचनात्मक लक्ष्यों की तुलना में प्री-ट्रेनिंग के लिए अधिक उपयुक्त हैं
- सार्वभौमिकता: LELM को मौजूदा प्री-ट्रेनिंग विधियों के साथ जोड़ा जा सकता है
- स्केलेबिलिटी: विधि विभिन्न GNN आर्किटेक्चर (GIN, GPS) पर लागू होती है
- विरोधाभासी विधियां:
- ग्राफ-नोड विरोध (Deep Graph Infomax आदि)
- सबग्राफ-नोड विरोध (InfoGraph आदि)
- सबग्राफ-सबग्राफ विरोध (GraphCL आदि)
- भविष्यवाणी विधियां:
- ग्राफ पुनर्निर्माण (नोड/किनारा मास्किंग, ऑटोएन्कोडर)
- गुण पूर्वानुमान (k-hop कनेक्टिविटी, मेटा-पाथ)
- स्थिति एन्कोडिंग: ग्राफ ट्रांसफॉर्मर में मानक स्थिति एन्कोडिंग
- वर्णक्रमीय ग्राफ न्यूरल नेटवर्क: सिग्नल डोमेन में फ़िल्टर सीखना
- वर्णक्रमीय क्लस्टरिंग: क्लस्टरिंग के लिए निम्न-आयामी एम्बेडिंग उत्पन्न करना
- ग्राफ विभाजन: Fiedler वेक्टर इष्टतम ग्राफ विभाजन उत्पन्न करता है
LELM ग्राफ लाप्लासियन आइजेनवेक्टर को प्री-ट्रेनिंग लक्ष्य के रूप में उपयोग करने वाली पहली गुण पूर्वानुमान विधि है, जो संरचनात्मक प्री-ट्रेनिंग विधियों में अंतराल को भरती है।
- प्रभावशीलता सत्यापन: LELM आणविक गुण पूर्वानुमान कार्यों पर GNN प्रदर्शन में महत्वपूर्ण सुधार करता है
- आर्किटेक्चर नवाचार: ग्राफ-स्तरीय MLP अत्यधिक सुगमता समस्या को प्रभावी ढंग से हल करता है
- सार्वभौमिक ढांचा: स्वतंत्र विधि या मौजूदा पाइपलाइन के वृद्धि घटक के रूप में कार्य कर सकता है
- सैद्धांतिक गारंटी: हानि फ़ंक्शन में आवश्यक संकेत और आधार अपरिवर्तनीयता है
- स्थानांतरण शिक्षा क्षमता अन्वेषित नहीं: वर्तमान में केवल समान या संबंधित डोमेन डेटासेट पर सत्यापित
- कम्प्यूटेशनल जटिलता: लाप्लासियन आइजेनडीकम्पोजिशन की गणना की आवश्यकता है, बड़े ग्राफ के लिए चुनौतीपूर्ण हो सकता है
- क्रॉस-डोमेन सामान्यीकरण: सिंथेटिक ग्राफ या क्रॉस-डोमेन डेटासेट पर प्रभाव अज्ञात है
- सांख्यिकीय महत्व: कम्प्यूटेशनल लागत सीमा के कारण त्रुटि बार की रिपोर्ट नहीं की गई
- क्रॉस-डोमेन प्री-ट्रेनिंग: सिंथेटिक ग्राफ या क्रॉस-डोमेन डेटासेट पर प्री-ट्रेनिंग प्रभाव की खोज
- बड़े पैमाने पर अनुप्रयोग: बड़े पैमाने पर ग्राफ पर स्केलेबिलिटी का अनुसंधान
- सैद्धांतिक विश्लेषण: यह विश्लेषण करना कि लाप्लासियन आइजेनवेक्टर अच्छे प्री-ट्रेनिंग लक्ष्य क्यों हैं
- आर्किटेक्चर अनुकूलन: ग्राफ-स्तरीय MLP डिज़ाइन को और अनुकूलित करना
- मजबूत नवाचार: पहली बार लाप्लासियन आइजेनवेक्टर को GNN प्री-ट्रेनिंग के लिए उपयोग किया गया, विचार नया है
- ठोस सैद्धांतिक आधार: लाप्लासियन आइजेनवेक्टर ग्राफ सिद्धांत में गहरे सैद्धांतिक आधार रखते हैं
- चतुर आर्किटेक्चर डिज़ाइन: ग्राफ-स्तरीय MLP दीर्घ-दूरी की निर्भरता सीखने की समस्या को प्रभावी ढंग से हल करता है
- व्यापक प्रयोग: कई तुलनात्मक प्रयोग, विलोपन प्रयोग और वृद्धि प्रयोग शामिल हैं
- अच्छी सार्वभौमिकता: विभिन्न GNN आर्किटेक्चर और मौजूदा प्री-ट्रेनिंग विधियों के साथ जोड़ा जा सकता है
- सीमित अनुप्रयोग क्षेत्र: मुख्य रूप से आणविक डेटा पर सत्यापित, अन्य ग्राफ प्रकारों का प्रभाव अज्ञात है
- कम्प्यूटेशनल ओवरहेड: आइजेनडीकम्पोजिशन की कम्प्यूटेशनल लागत बड़े पैमाने पर अनुप्रयोग को सीमित कर सकती है
- हाइपरपैरामीटर संवेदनशीलता: हानि फ़ंक्शन भार आदि हाइपरपैरामीटर के चयन में व्यवस्थित विश्लेषण की कमी है
- सैद्धांतिक व्याख्या अपर्याप्त: इस बात की गहन सैद्धांतिक व्याख्या की कमी कि यह विधि प्रभावी क्यों है
- शैक्षणिक मूल्य: ग्राफ प्री-ट्रेनिंग के लिए नई अनुसंधान दिशा प्रदान करता है
- व्यावहारिक मूल्य: आणविक गुण पूर्वानुमान जैसे व्यावहारिक अनुप्रयोगों में संभावित मूल्य है
- पुनरुत्पादनीयता: पूर्ण कोड और प्रायोगिक सेटअप प्रदान करता है
- प्रेरणा: अधिक ग्राफ वर्णक्रमीय गुण-आधारित प्री-ट्रेनिंग विधियों को प्रेरित कर सकता है
- आणविक गुण पूर्वानुमान: पहले से सत्यापित प्रभावी अनुप्रयोग परिदृश्य
- सामाजिक नेटवर्क विश्लेषण: वैश्विक संरचना को समझने की आवश्यकता वाले कार्य
- ज्ञान ग्राफ: संरचनात्मक जानकारी महत्वपूर्ण ग्राफ अनुमान कार्य
- जैविक नेटवर्क: प्रोटीन इंटरैक्शन नेटवर्क आदि जैविक अनुप्रयोग
पेपर कई महत्वपूर्ण संबंधित कार्यों को उद्धृत करता है, जिनमें शामिल हैं:
- Hu et al. (2019): "ग्राफ न्यूरल नेटवर्क के प्री-ट्रेनिंग के लिए रणनीतियां" - ग्राफ प्री-ट्रेनिंग का क्लासिक कार्य
- Shaham et al. (2018): "SpectralNet" - वर्णक्रमीय क्लस्टरिंग की तंत्रिका नेटवर्क विधि
- Dwivedi et al. (2021): "सीखने योग्य संरचनात्मक और स्थिति प्रतिनिधित्व के साथ ग्राफ न्यूरल नेटवर्क" - संरचनात्मक स्थिति प्रतिनिधित्व शिक्षा
- Rampášek et al. (2022): "सामान्य, शक्तिशाली, स्केलेबल ग्राफ ट्रांसफॉर्मर के लिए रेसिपी" - GPS आर्किटेक्चर
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो ग्राफ न्यूरल नेटवर्क के लिए एक नवीन प्री-ट्रेनिंग विधि प्रस्तावित करता है। हालांकि कुछ पहलुओं में सुधार की गुंजाइश है, लेकिन इसका मुख्य विचार नया है, प्रायोगिक सत्यापन व्यापक है, और यह ग्राफ प्री-ट्रेनिंग क्षेत्र में महत्वपूर्ण योगदान देता है। इस विधि की सार्वभौमिकता और स्केलेबिलिटी इसे अच्छी अनुप्रयोग संभावनाएं प्रदान करती हैं।