2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.

The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.

academic

ग्राफ लाप्लासियन आइजेनवेक्टर-आधारित ग्राफ न्यूरल नेटवर्क के लिए प्री-ट्रेनिंग विधि

मूल जानकारी

पेपर ID: 2509.02803
शीर्षक: ग्राफ लाप्लासियन आइजेनवेक्टर-आधारित ग्राफ न्यूरल नेटवर्क के लिए प्री-ट्रेनिंग विधि
लेखक: हॉवर्ड डाई, न्यांबुरा न्जेंगा, हिरेन मधु, सिद्धार्थ विश्वनाथ, रयान पेलिको, इयान एडेलस्टीन, स्मिता कृष्णस्वामी
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन समय: 25 अक्टूबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2509.02803v2

सारांश

यह पेपर ग्राफ लाप्लासियन आइजेनवेक्टर के आधार पर ग्राफ न्यूरल नेटवर्क के लिए एक प्री-ट्रेनिंग विधि प्रस्तावित करता है। ग्राफ आधारित मॉडल (GFMs) में संरचनात्मक प्री-ट्रेनिंग विधियों की कमी को संबोधित करते हुए, लेखकों ने लाप्लासियन आइजेनवेक्टर लर्निंग मॉड्यूल (LELM) विकसित किया है, जो ग्राफ लाप्लासियन के निम्न-आवृत्ति आइजेनवेक्टर की भविष्यवाणी करके प्री-ट्रेनिंग करता है। यह विधि नए आर्किटेक्चर डिज़ाइन का परिचय देती है, अत्यधिक सुगमता की समस्या को दूर करती है, और GNN मॉडल को दीर्घ-दूरी की निर्भरता सीखने में सक्षम बनाती है। प्रयोग दर्शाते हैं कि इस ढांचे का उपयोग करके प्री-ट्रेन किए गए मॉडल आणविक गुण पूर्वानुमान कार्यों पर आधारभूत मॉडल से बेहतर प्रदर्शन करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

संरचनात्मक प्री-ट्रेनिंग विधियों की कमी: मौजूदा ग्राफ न्यूरल नेटवर्क प्री-ट्रेनिंग विधियां मुख्य रूप से विशेषता पुनर्निर्माण और विरोधाभासी शिक्षा पर आधारित हैं, जबकि ग्राफ संरचनात्मक गुणों के आधार पर प्री-ट्रेनिंग विधियां अपेक्षाकृत कम अन्वेषित हैं।
अत्यधिक सुगमता की समस्या: पारंपरिक संदेश-पारण GNN वैश्विक और क्षेत्रीय संरचना को पकड़ने में चुनौतियों का सामना करते हैं, और नेटवर्क की गहराई बढ़ने के साथ अत्यधिक सुगमता की समस्या उत्पन्न होती है।
दीर्घ-दूरी की निर्भरता सीखने में कठिनाई: मौजूदा GNN आर्किटेक्चर ग्राफ में दीर्घ-दूरी की पारस्परिक निर्भरता सीखने में अभिव्यक्ति क्षमता में सीमाएं हैं।

अनुसंधान का महत्व

ग्राफ आधारित मॉडल के विकास के लिए प्रभावी स्व-पर्यवेक्षित प्री-ट्रेनिंग कार्यों की आवश्यकता है
संरचना-जागरूक डाउनस्ट्रीम अनुप्रयोगों के लिए अंतर्निहित ग्राफ संरचना को पकड़ने में सक्षम प्री-ट्रेनिंग विधियों की आवश्यकता है
आणविक गुण पूर्वानुमान जैसे अनुप्रयोग ग्राफ की वैश्विक संरचना की समझ पर निर्भर करते हैं

मौजूदा विधियों की सीमाएं

विरोधाभासी विधियां: मुख्य रूप से Jensen-Shannon अनुमानक या InfoNCE उद्देश्य फ़ंक्शन का उपयोग करती हैं, संरचनात्मक जानकारी के प्रत्यक्ष मॉडलिंग में कमी है
भविष्यवाणी विधियां: अधिकांश ग्राफ पुनर्निर्माण कार्यों पर केंद्रित हैं, ग्राफ गुण पूर्वानुमान के आधार पर विधियां कम हैं
संरचनात्मक प्रतिनिधित्व क्षमता: मौजूदा विधियां ग्राफ की वैश्विक संरचनात्मक जानकारी को प्रभावी ढंग से पकड़ने में कठिनाई का सामना करती हैं

मुख्य योगदान

LELM ढांचा प्रस्तावित करना: ग्राफ लाप्लासियन आइजेनवेक्टर को प्री-ट्रेनिंग लक्ष्य के रूप में उपयोग करने वाली पहली विधि
नवीन आर्किटेक्चर डिज़ाइन: ग्राफ-स्तरीय MLP हेड का परिचय, जो GNN को बिना गहरे नेटवर्क के बड़े पैमाने पर संरचना को पकड़ने में सक्षम बनाता है
नोड विशेषता वृद्धि: ग्राफ प्रसार ऑपरेटर के आधार पर वृद्धि नोड विशेषताएं, GNN की अभिव्यक्ति क्षमता की सीमाओं को दूर करना
प्रायोगिक सत्यापन: आणविक डेटासेट पर विधि की प्रभावशीलता को प्रमाणित करना, स्वतंत्र प्री-ट्रेनिंग विधि या मौजूदा पाइपलाइन के प्लग-इन के रूप में कार्य कर सकता है

विधि विस्तार

कार्य परिभाषा

दिया गया ग्राफ $G = (V,E)$ , लक्ष्य GNN मॉडल को प्री-ट्रेन करना है ताकि यह ग्राफ लाप्लासियन मैट्रिक्स $L = D - A$ के $k$ सबसे निम्न-आवृत्ति आइजेनवेक्टर $\psi_1, \psi_2, \ldots, \psi_k$ की भविष्यवाणी कर सके, जहां $L\psi_i = \lambda_i\psi_i$ ।

मॉडल आर्किटेक्चर

LELM ढांचे में तीन मुख्य घटक हैं:

1. नोड विशेषता वृद्धि

वेवलेट स्थिति एन्कोडिंग: नोड्स के बीच सापेक्ष स्थिति जानकारी को एन्कोड करता है

यादृच्छिक रूप से दो नोड्स $i, j$ का चयन करें, डिराक सिग्नल $\delta_i, \delta_j$ का निर्माण करें
वेवलेट ऑपरेटर $\Psi_k = P^{2^{j-1}} - P^{2^j}$ लागू करें, जहां $P = D^{-1}A$ प्रसार ऑपरेटर है
नोड $m$ की वेवलेट स्थिति एन्कोडिंग: $w_m = [w_{m,1} \ldots w_{m,J}]$

प्रसार डिराक एन्कोडिंग: स्थानीय कनेक्टिविटी संरचना को एन्कोड करता है

प्रत्येक नोड $m$ के लिए, $d_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T$ की गणना करें
प्रसार डिराक एन्कोडिंग: $d_m = [d_{m,1} \ldots d_{m,J}]$

2. ग्राफ-स्तरीय MLP

आधारभूत GNN: वृद्धि विशेषताओं के ग्राफ को संसाधित करता है, नोड प्रतिनिधित्व उत्पन्न करता है
ग्राफ-स्तरीय एकत्रीकरण: सभी नोड प्रतिनिधित्वों को ग्राफ-स्तरीय वेक्टर $Z = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}$ में जोड़ता है
MLP भविष्यवाणी हेड: $\tilde{U} = \text{MLP}(Z)$ पूर्वानुमानित आइजेनवेक्टर आउटपुट करता है

3. आइजेनवेक्टर भविष्यवाणी

QR अपघटन के माध्यम से ऑर्थोगोनलिटी बाधा लागू करता है: $\hat{U} = \text{QR}(\tilde{U})$

हानि फ़ंक्शन:

ऊर्जा हानि: $L_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i$
आइजेनवेक्टर हानि: $L_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|$
कुल हानि: $L = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}$

तकनीकी नवाचार बिंदु

ग्राफ-स्तरीय MLP डिज़ाइन: नोड-स्तरीय MLP द्वारा दीर्घ-दूरी की बातचीत सीखने में असमर्थता की समस्या से बचा जाता है
आइजेनवेक्टर लक्ष्य: निम्न-आवृत्ति लाप्लासियन आइजेनवेक्टर स्वाभाविक रूप से वैश्विक, क्षेत्रीय और स्थानीय ग्राफ संरचना को एन्कोड करते हैं
प्रसार ऑपरेटर वृद्धि: संरचनात्मक संदर्भ जानकारी प्रदान करता है, GNN अभिव्यक्ति क्षमता को बढ़ाता है
दोहरी हानि तंत्र: ऊर्जा हानि सबस्पेस सही होने को सुनिश्चित करती है, आइजेनवेक्टर हानि कठोर क्रमबद्धता सुनिश्चित करती है

प्रायोगिक सेटअप

डेटासेट

ZINC-12k: 12,000 आणविक ग्राफ
ZINC-250k: 250,000 आणविक ग्राफ
QM9: 134,000 आणविक ग्राफ, कई क्वांटम रसायन विज्ञान गुणों के साथ

मूल्यांकन मेट्रिक्स

MAE (माध्य निरपेक्ष त्रुटि): मुख्य मूल्यांकन मेट्रिक
ROC-AUC: द्विआधारी वर्गीकरण कार्यों के लिए

तुलनात्मक विधियां

आधारभूत मॉडल: अप्रशिक्षित GIN और GPS मॉडल
वैकल्पिक प्री-ट्रेनिंग लक्ष्य: नोड डिग्री, स्थानीय क्लस्टरिंग गुणांक, चक्र गणना, लाप्लासियन आइजेनवैल्यूज
मौजूदा प्री-ट्रेनिंग विधियां: ContextPred, Masking आदि

कार्यान्वयन विवरण

प्री-ट्रेनिंग epochs: 100-200 राउंड
फाइन-ट्यूनिंग epochs: 150-500 राउंड
आइजेनवेक्टर संख्या: $k = 6$
हानि भार: $\alpha = 2, \beta = 1$ (मुख्य प्रयोग)
ऑप्टिमाइज़र: Adam
सीखने की दर: 0.001

प्रायोगिक परिणाम

मुख्य परिणाम

ZINC और QM9 डेटासेट प्रदर्शन तुलना:

मॉडल	ZINC पूर्ण	ZINC सबसेट	QM9 μ	QM9 α	QM9 εHOMO
GIN + LELM	0.130	0.353	0.484	0.489	0.00353
GIN (आधारभूत)	0.228	0.438	0.472	1.132	0.00386
GPS + LELM	0.104	0.210	0.502	0.592	0.00372
GPS (आधारभूत)	0.150	0.358	0.413	0.718	0.00434

LELM ने अधिकांश कार्यों पर प्रदर्शन में महत्वपूर्ण सुधार किया है, विशेष रूप से ZINC डेटासेट पर स्पष्ट सुधार है।

विलोपन प्रयोग

ग्राफ-स्तरीय MLP बनाम नोड-स्तरीय MLP:

मॉडल	ZINC पूर्ण	ZINC सबसेट
GIN + LELM (ग्राफ-स्तरीय)	0.130	0.353
GIN + LELM (नोड-स्तरीय)	0.152	0.435
GPS + LELM (ग्राफ-स्तरीय)	0.104	0.210
GPS + LELM (नोड-स्तरीय)	0.126	0.261

ग्राफ-स्तरीय MLP दोनों आर्किटेक्चर पर नोड-स्तरीय MLP से महत्वपूर्ण रूप से बेहतर है।

वैकल्पिक संरचनात्मक प्री-ट्रेनिंग लक्ष्य तुलना:

प्री-ट्रेनिंग लक्ष्य	ZINC पूर्ण	ZINC सबसेट
LELM	0.130	0.353
नोड डिग्री	0.238	0.471
स्थानीय क्लस्टरिंग गुणांक	1.493	1.551
चक्र गणना	0.285	0.420
लाप्लासियन आइजेनवैल्यूज	0.250	0.520

LELM अन्य संरचनात्मक प्री-ट्रेनिंग लक्ष्यों से स्पष्ट रूप से बेहतर है।

मौजूदा प्री-ट्रेनिंग विधियों को बढ़ाना

आणविक पूर्वानुमान कार्यों पर, LELM को मौजूदा प्री-ट्रेनिंग पाइपलाइन में प्लग-इन के रूप में जोड़ना:

Masking + LELM: सभी 5 डेटासेट पर सुधार
ContextPred + LELM: अधिकांश कार्यों पर सुधार

प्रायोगिक निष्कर्ष

ग्राफ-स्तरीय आर्किटेक्चर का महत्व: ग्राफ-स्तरीय MLP दीर्घ-दूरी की निर्भरता को प्रभावी ढंग से सीख सकता है
आइजेनवेक्टर की श्रेष्ठता: लाप्लासियन आइजेनवेक्टर अन्य संरचनात्मक लक्ष्यों की तुलना में प्री-ट्रेनिंग के लिए अधिक उपयुक्त हैं
सार्वभौमिकता: LELM को मौजूदा प्री-ट्रेनिंग विधियों के साथ जोड़ा जा सकता है
स्केलेबिलिटी: विधि विभिन्न GNN आर्किटेक्चर (GIN, GPS) पर लागू होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: LELM आणविक गुण पूर्वानुमान कार्यों पर GNN प्रदर्शन में महत्वपूर्ण सुधार करता है
आर्किटेक्चर नवाचार: ग्राफ-स्तरीय MLP अत्यधिक सुगमता समस्या को प्रभावी ढंग से हल करता है
सार्वभौमिक ढांचा: स्वतंत्र विधि या मौजूदा पाइपलाइन के वृद्धि घटक के रूप में कार्य कर सकता है
सैद्धांतिक गारंटी: हानि फ़ंक्शन में आवश्यक संकेत और आधार अपरिवर्तनीयता है

सीमाएं

स्थानांतरण शिक्षा क्षमता अन्वेषित नहीं: वर्तमान में केवल समान या संबंधित डोमेन डेटासेट पर सत्यापित
कम्प्यूटेशनल जटिलता: लाप्लासियन आइजेनडीकम्पोजिशन की गणना की आवश्यकता है, बड़े ग्राफ के लिए चुनौतीपूर्ण हो सकता है
क्रॉस-डोमेन सामान्यीकरण: सिंथेटिक ग्राफ या क्रॉस-डोमेन डेटासेट पर प्रभाव अज्ञात है
सांख्यिकीय महत्व: कम्प्यूटेशनल लागत सीमा के कारण त्रुटि बार की रिपोर्ट नहीं की गई

भविष्य की दिशाएं

क्रॉस-डोमेन प्री-ट्रेनिंग: सिंथेटिक ग्राफ या क्रॉस-डोमेन डेटासेट पर प्री-ट्रेनिंग प्रभाव की खोज
बड़े पैमाने पर अनुप्रयोग: बड़े पैमाने पर ग्राफ पर स्केलेबिलिटी का अनुसंधान
सैद्धांतिक विश्लेषण: यह विश्लेषण करना कि लाप्लासियन आइजेनवेक्टर अच्छे प्री-ट्रेनिंग लक्ष्य क्यों हैं
आर्किटेक्चर अनुकूलन: ग्राफ-स्तरीय MLP डिज़ाइन को और अनुकूलित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार लाप्लासियन आइजेनवेक्टर को GNN प्री-ट्रेनिंग के लिए उपयोग किया गया, विचार नया है
ठोस सैद्धांतिक आधार: लाप्लासियन आइजेनवेक्टर ग्राफ सिद्धांत में गहरे सैद्धांतिक आधार रखते हैं
चतुर आर्किटेक्चर डिज़ाइन: ग्राफ-स्तरीय MLP दीर्घ-दूरी की निर्भरता सीखने की समस्या को प्रभावी ढंग से हल करता है
व्यापक प्रयोग: कई तुलनात्मक प्रयोग, विलोपन प्रयोग और वृद्धि प्रयोग शामिल हैं
अच्छी सार्वभौमिकता: विभिन्न GNN आर्किटेक्चर और मौजूदा प्री-ट्रेनिंग विधियों के साथ जोड़ा जा सकता है

कमियां

सीमित अनुप्रयोग क्षेत्र: मुख्य रूप से आणविक डेटा पर सत्यापित, अन्य ग्राफ प्रकारों का प्रभाव अज्ञात है
कम्प्यूटेशनल ओवरहेड: आइजेनडीकम्पोजिशन की कम्प्यूटेशनल लागत बड़े पैमाने पर अनुप्रयोग को सीमित कर सकती है
हाइपरपैरामीटर संवेदनशीलता: हानि फ़ंक्शन भार आदि हाइपरपैरामीटर के चयन में व्यवस्थित विश्लेषण की कमी है
सैद्धांतिक व्याख्या अपर्याप्त: इस बात की गहन सैद्धांतिक व्याख्या की कमी कि यह विधि प्रभावी क्यों है

प्रभाव

शैक्षणिक मूल्य: ग्राफ प्री-ट्रेनिंग के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: आणविक गुण पूर्वानुमान जैसे व्यावहारिक अनुप्रयोगों में संभावित मूल्य है
पुनरुत्पादनीयता: पूर्ण कोड और प्रायोगिक सेटअप प्रदान करता है
प्रेरणा: अधिक ग्राफ वर्णक्रमीय गुण-आधारित प्री-ट्रेनिंग विधियों को प्रेरित कर सकता है

लागू परिस्थितियां

आणविक गुण पूर्वानुमान: पहले से सत्यापित प्रभावी अनुप्रयोग परिदृश्य
सामाजिक नेटवर्क विश्लेषण: वैश्विक संरचना को समझने की आवश्यकता वाले कार्य
ज्ञान ग्राफ: संरचनात्मक जानकारी महत्वपूर्ण ग्राफ अनुमान कार्य
जैविक नेटवर्क: प्रोटीन इंटरैक्शन नेटवर्क आदि जैविक अनुप्रयोग

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

Hu et al. (2019): "ग्राफ न्यूरल नेटवर्क के प्री-ट्रेनिंग के लिए रणनीतियां" - ग्राफ प्री-ट्रेनिंग का क्लासिक कार्य
Shaham et al. (2018): "SpectralNet" - वर्णक्रमीय क्लस्टरिंग की तंत्रिका नेटवर्क विधि
Dwivedi et al. (2021): "सीखने योग्य संरचनात्मक और स्थिति प्रतिनिधित्व के साथ ग्राफ न्यूरल नेटवर्क" - संरचनात्मक स्थिति प्रतिनिधित्व शिक्षा
Rampášek et al. (2022): "सामान्य, शक्तिशाली, स्केलेबल ग्राफ ट्रांसफॉर्मर के लिए रेसिपी" - GPS आर्किटेक्चर

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो ग्राफ न्यूरल नेटवर्क के लिए एक नवीन प्री-ट्रेनिंग विधि प्रस्तावित करता है। हालांकि कुछ पहलुओं में सुधार की गुंजाइश है, लेकिन इसका मुख्य विचार नया है, प्रायोगिक सत्यापन व्यापक है, और यह ग्राफ प्री-ट्रेनिंग क्षेत्र में महत्वपूर्ण योगदान देता है। इस विधि की सार्वभौमिकता और स्केलेबिलिटी इसे अच्छी अनुप्रयोग संभावनाएं प्रदान करती हैं।