The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
- Papier-ID: 2509.02803
- Titel: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
- Autoren: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
- Klassifizierung: cs.LG (Maschinelles Lernen)
- Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2509.02803v2
Dieses Papier präsentiert eine Vortrainingsmethode für Graphische Neuronale Netze (GNNs) basierend auf Graph-Laplace-Eigenvektoren. Um die Unzulänglichkeiten strukturierter Vortrainingsmethoden in Graph-Grundmodellen (GFMs) zu beheben, entwickelten die Autoren das Laplace-Eigenvektor-Lernmodul (LELM), das durch Vorhersage der niederfrequenten Eigenvektoren des Graph-Laplacian vortrainiert wird. Diese Methode führt ein neuartiges Architekturdesign ein, das das Überglättungsproblem überwindet und es GNN-Modellen ermöglicht, Fernabhängigkeiten zu erlernen. Experimente zeigen, dass mit diesem Framework vortrainierte Modelle Baseline-Modelle bei Aufgaben zur Vorhersage von Moleküleigenschaften übertreffen.
- Unzulänglichkeit strukturierter Vortrainingsmethoden: Bestehende Vortrainingsmethoden für Graphische Neuronale Netze basieren hauptsächlich auf Merkmalrekonstruktion und kontrastivem Lernen, während auf Graphstruktur-Eigenschaften basierende Vortrainingsmethoden relativ wenig erforscht sind.
- Überglättungsproblem: Traditionelle Nachrichtenübergabe-GNNs haben Schwierigkeiten, globale und regionale Strukturen zu erfassen, und neigen mit zunehmender Netzwerktiefe zur Überglättung.
- Schwierigkeiten beim Erlernen von Fernabhängigkeiten: Bestehende GNN-Architekturen haben Ausdrucksbeschränkungen beim Erlernen von Fernabhängigkeitsbeziehungen in Graphen.
- Die Entwicklung von Graph-Grundmodellen erfordert effektive selbstüberwachte Vortrainingsaufgaben
- Strukturbewusste Downstream-Anwendungen benötigen Vortrainingsmethoden, die zugrunde liegende Graphstrukturen erfassen können
- Anwendungen wie Vorhersage von Moleküleigenschaften hängen vom Verständnis der globalen Graphstruktur ab
- Kontrastive Methoden: Verwenden hauptsächlich Jensen-Shannon-Schätzer oder InfoNCE-Zielfunktionen, fehlt direkte Modellierung von Strukturinformationen
- Vorhersagemethoden: Konzentrieren sich hauptsächlich auf Graphrekonstruktionsaufgaben, weniger Methoden basieren auf Grapheigenschaften-Vorhersage
- Strukturdarstellungsfähigkeit: Bestehende Methoden können globale Graphinformationen nicht effektiv erfassen
- Vorschlag des LELM-Frameworks: Erste Methode, die Graph-Laplace-Eigenvektoren als Vortrainingsziel verwendet
- Innovatives Architekturdesign: Einführung eines Graph-Level-MLP-Kopfes, der es GNNs ermöglicht, großflächige Strukturen ohne tiefe Netzwerke zu erfassen
- Verbesserung von Knotenmerkmalen: Auf dem Graph-Diffusionsoperator basierende Merkmalverbesserung, um die Ausdrucksfähigkeit von GNNs zu überwinden
- Experimentelle Validierung: Nachweis der Methodeneffektivität auf Moleküldatensätzen, kann als eigenständige Vortrainingsmethode oder Plug-in für bestehende Pipelines verwendet werden
Gegeben ein Graph G=(V,E) besteht das Ziel darin, ein GNN-Modell vorzutrainieren, um die k niederfrequenten Eigenvektoren ψ1,ψ2,…,ψk der Graph-Laplace-Matrix L=D−A vorherzusagen, wobei Lψi=λiψi.
Das LELM-Framework enthält drei Kernkomponenten:
Wavelet-Positionskodierung: Kodiert relative Positionsinformationen zwischen Knoten
- Wählen Sie zufällig zwei Knoten i,j und konstruieren Sie Dirac-Signale δi,δj
- Wenden Sie den Wavelet-Operator Ψk=P2j−1−P2j an, wobei P=D−1A der Diffusionsoperator ist
- Wavelet-Positionskodierung für Knoten m: wm=[wm,1…wm,J]
Diffusions-Dirac-Kodierung: Kodiert lokale Konnektivitätsstruktur
- Für jeden Knoten m berechnen Sie dm,k=Ψk(m,⋅)P(m,⋅)T
- Diffusions-Dirac-Kodierung: dm=[dm,1…dm,J]
- Basis-GNN: Verarbeitet den Graphen mit verbesserten Merkmalen und generiert Knotendarstellungen
- Graph-Level-Aggregation: Verkettung aller Knotendarstellungen zu einem Graph-Level-Vektor Z=[z1,…,zn]∈Rnd
- MLP-Vorhersagekopf: U~=MLP(Z) gibt die vorhergesagten Eigenvektoren aus
Orthogonalitätsbeschränkungen durch QR-Zerlegung auferlegen: U^=QR(U~)
Verlustfunktion:
- Energieverlust: Lenergy=k1∑i=1ku^iTLu^i
- Eigenvektorverlust: Leigvec=k1∑i=1k∥Lu^i−λiu^i∥
- Gesamtverlust: L=α⋅Lenergy+β⋅Leigvec
- Graph-Level-MLP-Design: Vermeidet das Problem, dass Knoten-Level-MLP keine Ferninteraktionen erlernen kann
- Eigenvektor-Ziel: Niederfrequente Laplace-Eigenvektoren kodieren natürlicherweise globale, regionale und lokale Graphstrukturen
- Diffusionsoperator-Verbesserung: Bietet strukturelle Kontextinformationen und verbessert die Ausdrucksfähigkeit von GNNs
- Duales Verlustmechanismus: Energieverlust gewährleistet Unterraum-Korrektheit, Eigenvektorverlust gewährleistet strikte Ordnung
- ZINC-12k: 12.000 Molekülgraphen
- ZINC-250k: 250.000 Molekülgraphen
- QM9: 134.000 Molekülgraphen mit mehreren quantenchemischen Eigenschaften
- MAE (Mean Absolute Error): Hauptbewertungsmetrik
- ROC-AUC: Für binäre Klassifizierungsaufgaben
- Baseline-Modelle: Nicht vortrainierte GIN- und GPS-Modelle
- Alternative Vortrainingsziele: Knotengrad, lokaler Clusterungskoeffizient, Ringzählung, Laplace-Eigenwerte
- Bestehende Vortrainingsmethoden: ContextPred, Masking usw.
- Vortrainings-Epochen: 100-200 Runden
- Feinabstimmungs-Epochen: 150-500 Runden
- Anzahl der Eigenvektoren: k=6
- Verlustgewichte: α=2,β=1 (Hauptexperiment)
- Optimierer: Adam
- Lernrate: 0,001
Leistungsvergleich auf ZINC- und QM9-Datensätzen:
| Modell | ZINC full | ZINC subset | QM9 μ | QM9 α | QM9 εHOMO |
|---|
| GIN + LELM | 0,130 | 0,353 | 0,484 | 0,489 | 0,00353 |
| GIN (Baseline) | 0,228 | 0,438 | 0,472 | 1,132 | 0,00386 |
| GPS + LELM | 0,104 | 0,210 | 0,502 | 0,592 | 0,00372 |
| GPS (Baseline) | 0,150 | 0,358 | 0,413 | 0,718 | 0,00434 |
LELM verbessert die Leistung bei den meisten Aufgaben erheblich, besonders deutlich bei ZINC-Datensätzen.
Graph-Level-MLP vs. Knoten-Level-MLP:
| Modell | ZINC full | ZINC subset |
|---|
| GIN + LELM (Graph-Level) | 0,130 | 0,353 |
| GIN + LELM (Knoten-Level) | 0,152 | 0,435 |
| GPS + LELM (Graph-Level) | 0,104 | 0,210 |
| GPS + LELM (Knoten-Level) | 0,126 | 0,261 |
Graph-Level-MLP übertrifft Knoten-Level-MLP bei beiden Architekturen erheblich.
Vergleich alternativer strukturierter Vortrainingsziele:
| Vortrainingsziel | ZINC full | ZINC subset |
|---|
| LELM | 0,130 | 0,353 |
| Knotengrad | 0,238 | 0,471 |
| Lokaler Clusterungskoeffizient | 1,493 | 1,551 |
| Ringzählung | 0,285 | 0,420 |
| Laplace-Eigenwerte | 0,250 | 0,520 |
LELM übertrifft deutlich andere strukturierte Vortrainingsziele.
Hinzufügen von LELM als Plug-in zu bestehenden Vortrainings-Pipelines bei Molekülvorhersageaufgaben:
- Masking + LELM: Verbesserungen auf allen 5 Datensätzen
- ContextPred + LELM: Verbesserungen bei den meisten Aufgaben
- Wichtigkeit der Graph-Level-Architektur: Graph-Level-MLP kann Fernabhängigkeiten effektiv erlernen
- Überlegenheit von Eigenvektoren: Laplace-Eigenvektoren sind besser geeignet als andere Strukturziele für das Vortraining
- Universalität: LELM kann mit bestehenden Vortrainingsmethoden kombiniert werden
- Skalierbarkeit: Methode ist auf verschiedene GNN-Architekturen (GIN, GPS) anwendbar
- Kontrastive Methoden:
- Graph-Knoten-Kontrast (Deep Graph Infomax usw.)
- Subgraph-Knoten-Kontrast (InfoGraph usw.)
- Subgraph-Subgraph-Kontrast (GraphCL usw.)
- Vorhersagemethoden:
- Graphrekonstruktion (Knoten-/Kantenmasking, Autoencoder)
- Eigenschaftsvorhersage (k-Hop-Konnektivität, Metapfade)
- Positionskodierung: Standardpositionskodierung in Graph-Transformern
- Spektrale Graphische Neuronale Netze: Filterlernen im Signalbereich
- Spektrale Clusterung: Generierung von niederfrequenten Einbettungen für Clusterung
- Graphpartitionierung: Fiedler-Vektor erzeugt optimale Graphpartitionierung
LELM ist die erste Eigenschaftsvorhersagemethode, die Graph-Laplace-Eigenvektoren als Vortrainingsziel verwendet und füllt eine Lücke in strukturierten Vortrainingsmethoden.
- Validierung der Effektivität: LELM verbessert die GNN-Leistung bei Aufgaben zur Vorhersage von Moleküleigenschaften erheblich
- Architektur-Innovation: Graph-Level-MLP löst das Überglättungsproblem effektiv
- Universelles Framework: Kann als eigenständige Methode oder Verbesserungskomponente für bestehende Pipelines verwendet werden
- Theoretische Garantie: Verlustfunktion hat notwendige Vorzeichens- und Basisinvarianz
- Transferlernfähigkeit nicht erforscht: Derzeit nur auf Datensätzen in derselben oder verwandten Bereiche validiert
- Rechenkomplexität: Erfordert Laplace-Eigenzerlegung, kann für große Graphen eine Herausforderung darstellen
- Verallgemeinerung über Domänen hinweg: Effektivität auf synthetischen Graphen oder domänenübergreifenden Datensätzen unbekannt
- Statistische Signifikanz: Aufgrund von Rechenbeschränkungen wurden keine Fehlerbalken gemeldet
- Domänenübergreifendes Vortraining: Erforschung von Vortrainingsergebnissen auf synthetischen Graphen oder domänenübergreifenden Datensätzen
- Großflächige Anwendungen: Untersuchung der Skalierbarkeit auf größere Graphen
- Theoretische Analyse: Tiefere Analyse, warum Laplace-Eigenvektoren ein gutes Vortrainingsziel sind
- Architektur-Optimierung: Weitere Optimierung des Graph-Level-MLP-Designs
- Starke Innovativität: Erste Verwendung von Laplace-Eigenvektoren für GNN-Vortraining, neuartige Idee
- Solide theoretische Grundlagen: Laplace-Eigenvektoren haben tiefe theoretische Grundlagen in der Graphentheorie
- Geschicktes Architekturdesign: Graph-Level-MLP löst effektiv das Problem des Fernabhängigkeitslernens
- Umfangreiche Experimente: Umfasst mehrere Vergleichsexperimente, Ablationsstudien und Verbesserungsexperimente
- Gute Universalität: Kann mit verschiedenen GNN-Architekturen und bestehenden Vortrainingsmethoden kombiniert werden
- Begrenzte Anwendungsbereiche: Hauptsächlich auf Moleküldaten validiert, Effektivität auf anderen Graphtypen unbekannt
- Rechenlast: Die Rechenkomplexität der Eigenzerlegung kann großflächige Anwendungen einschränken
- Überempfindlichkeit gegenüber Hyperparametern: Auswahl von Verlustfunktionsgewichten und anderen Hyperparametern fehlt systematische Analyse
- Unzureichende theoretische Erklärung: Mangel an tiefgreifender theoretischer Analyse, warum die Methode effektiv ist
- Akademischer Wert: Bietet neue Forschungsrichtung für Graph-Vortraining
- Praktischer Wert: Potenzieller Wert in praktischen Anwendungen wie Vorhersage von Moleküleigenschaften
- Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Einrichtung
- Inspirationswert: Kann mehr auf Graphspektral-Eigenschaften basierende Vortrainingsmethoden inspirieren
- Vorhersage von Moleküleigenschaften: Bereits validiertes Anwendungsszenario
- Analyse sozialer Netzwerke: Aufgaben, die das Verständnis globaler Strukturen erfordern
- Wissensgraphen: Graphinferenzaufgaben, bei denen Strukturinformationen wichtig sind
- Biologische Netzwerke: Biologische Anwendungen wie Protein-Interaktionsnetzwerke
Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
- Hu et al. (2019): "Strategies for pre-training graph neural networks" - Klassische Arbeiten zum Graph-Vortraining
- Shaham et al. (2018): "SpectralNet" - Neuronale Netzwerk-Methode für spektrale Clusterung
- Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - Strukturelles Positionsdarstellungslernen
- Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - GPS-Architektur
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Vortrainingsmethode für Graphische Neuronale Netze präsentiert. Obwohl in einigen Aspekten Verbesserungspotenzial besteht, ist die Kernidee neuartig, die experimentelle Validierung umfassend, und es leistet einen wichtigen Beitrag zum Bereich des Graph-Vortrainings. Die Universalität und Skalierbarkeit der Methode machen sie für praktische Anwendungen vielversprechend.