2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.

The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.

academic

Eine auf Graph-Laplace-Eigenvektoren basierende Vortrainingsmethode für Graphische Neuronale Netze

Grundlegende Informationen

Papier-ID: 2509.02803
Titel: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
Autoren: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2509.02803v2

Zusammenfassung

Dieses Papier präsentiert eine Vortrainingsmethode für Graphische Neuronale Netze (GNNs) basierend auf Graph-Laplace-Eigenvektoren. Um die Unzulänglichkeiten strukturierter Vortrainingsmethoden in Graph-Grundmodellen (GFMs) zu beheben, entwickelten die Autoren das Laplace-Eigenvektor-Lernmodul (LELM), das durch Vorhersage der niederfrequenten Eigenvektoren des Graph-Laplacian vortrainiert wird. Diese Methode führt ein neuartiges Architekturdesign ein, das das Überglättungsproblem überwindet und es GNN-Modellen ermöglicht, Fernabhängigkeiten zu erlernen. Experimente zeigen, dass mit diesem Framework vortrainierte Modelle Baseline-Modelle bei Aufgaben zur Vorhersage von Moleküleigenschaften übertreffen.

Forschungshintergrund und Motivation

Problemdefinition

Unzulänglichkeit strukturierter Vortrainingsmethoden: Bestehende Vortrainingsmethoden für Graphische Neuronale Netze basieren hauptsächlich auf Merkmalrekonstruktion und kontrastivem Lernen, während auf Graphstruktur-Eigenschaften basierende Vortrainingsmethoden relativ wenig erforscht sind.
Überglättungsproblem: Traditionelle Nachrichtenübergabe-GNNs haben Schwierigkeiten, globale und regionale Strukturen zu erfassen, und neigen mit zunehmender Netzwerktiefe zur Überglättung.
Schwierigkeiten beim Erlernen von Fernabhängigkeiten: Bestehende GNN-Architekturen haben Ausdrucksbeschränkungen beim Erlernen von Fernabhängigkeitsbeziehungen in Graphen.

Forschungsbedeutung

Die Entwicklung von Graph-Grundmodellen erfordert effektive selbstüberwachte Vortrainingsaufgaben
Strukturbewusste Downstream-Anwendungen benötigen Vortrainingsmethoden, die zugrunde liegende Graphstrukturen erfassen können
Anwendungen wie Vorhersage von Moleküleigenschaften hängen vom Verständnis der globalen Graphstruktur ab

Einschränkungen bestehender Methoden

Kontrastive Methoden: Verwenden hauptsächlich Jensen-Shannon-Schätzer oder InfoNCE-Zielfunktionen, fehlt direkte Modellierung von Strukturinformationen
Vorhersagemethoden: Konzentrieren sich hauptsächlich auf Graphrekonstruktionsaufgaben, weniger Methoden basieren auf Grapheigenschaften-Vorhersage
Strukturdarstellungsfähigkeit: Bestehende Methoden können globale Graphinformationen nicht effektiv erfassen

Kernbeiträge

Vorschlag des LELM-Frameworks: Erste Methode, die Graph-Laplace-Eigenvektoren als Vortrainingsziel verwendet
Innovatives Architekturdesign: Einführung eines Graph-Level-MLP-Kopfes, der es GNNs ermöglicht, großflächige Strukturen ohne tiefe Netzwerke zu erfassen
Verbesserung von Knotenmerkmalen: Auf dem Graph-Diffusionsoperator basierende Merkmalverbesserung, um die Ausdrucksfähigkeit von GNNs zu überwinden
Experimentelle Validierung: Nachweis der Methodeneffektivität auf Moleküldatensätzen, kann als eigenständige Vortrainingsmethode oder Plug-in für bestehende Pipelines verwendet werden

Methodendetails

Aufgabendefinition

Gegeben ein Graph $G = (V,E)$ besteht das Ziel darin, ein GNN-Modell vorzutrainieren, um die $k$ niederfrequenten Eigenvektoren $\psi_1, \psi_2, \ldots, \psi_k$ der Graph-Laplace-Matrix $L = D - A$ vorherzusagen, wobei $L\psi_i = \lambda_i\psi_i$ .

Modellarchitektur

Das LELM-Framework enthält drei Kernkomponenten:

1. Verbesserung von Knotenmerkmalen

Wavelet-Positionskodierung: Kodiert relative Positionsinformationen zwischen Knoten

Wählen Sie zufällig zwei Knoten $i, j$ und konstruieren Sie Dirac-Signale $\delta_i, \delta_j$
Wenden Sie den Wavelet-Operator $\Psi_k = P^{2^{j-1}} - P^{2^j}$ an, wobei $P = D^{-1}A$ der Diffusionsoperator ist
Wavelet-Positionskodierung für Knoten $m$ : $w_m = [w_{m,1} \ldots w_{m,J}]$

Diffusions-Dirac-Kodierung: Kodiert lokale Konnektivitätsstruktur

Für jeden Knoten $m$ berechnen Sie $d_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T$
Diffusions-Dirac-Kodierung: $d_m = [d_{m,1} \ldots d_{m,J}]$

2. Graph-Level-MLP

Basis-GNN: Verarbeitet den Graphen mit verbesserten Merkmalen und generiert Knotendarstellungen
Graph-Level-Aggregation: Verkettung aller Knotendarstellungen zu einem Graph-Level-Vektor $Z = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}$
MLP-Vorhersagekopf: $\tilde{U} = \text{MLP}(Z)$ gibt die vorhergesagten Eigenvektoren aus

3. Eigenvektor-Vorhersage

Orthogonalitätsbeschränkungen durch QR-Zerlegung auferlegen: $\hat{U} = \text{QR}(\tilde{U})$

Verlustfunktion:

Energieverlust: $L_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i$
Eigenvektorverlust: $L_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|$
Gesamtverlust: $L = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}$

Technische Innovationspunkte

Graph-Level-MLP-Design: Vermeidet das Problem, dass Knoten-Level-MLP keine Ferninteraktionen erlernen kann
Eigenvektor-Ziel: Niederfrequente Laplace-Eigenvektoren kodieren natürlicherweise globale, regionale und lokale Graphstrukturen
Diffusionsoperator-Verbesserung: Bietet strukturelle Kontextinformationen und verbessert die Ausdrucksfähigkeit von GNNs
Duales Verlustmechanismus: Energieverlust gewährleistet Unterraum-Korrektheit, Eigenvektorverlust gewährleistet strikte Ordnung

Experimentelle Einrichtung

Datensätze

ZINC-12k: 12.000 Molekülgraphen
ZINC-250k: 250.000 Molekülgraphen
QM9: 134.000 Molekülgraphen mit mehreren quantenchemischen Eigenschaften

Bewertungsmetriken

MAE (Mean Absolute Error): Hauptbewertungsmetrik
ROC-AUC: Für binäre Klassifizierungsaufgaben

Vergleichsmethoden

Baseline-Modelle: Nicht vortrainierte GIN- und GPS-Modelle
Alternative Vortrainingsziele: Knotengrad, lokaler Clusterungskoeffizient, Ringzählung, Laplace-Eigenwerte
Bestehende Vortrainingsmethoden: ContextPred, Masking usw.

Implementierungsdetails

Vortrainings-Epochen: 100-200 Runden
Feinabstimmungs-Epochen: 150-500 Runden
Anzahl der Eigenvektoren: $k = 6$
Verlustgewichte: $\alpha = 2, \beta = 1$ (Hauptexperiment)
Optimierer: Adam
Lernrate: 0,001

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf ZINC- und QM9-Datensätzen:

Modell	ZINC full	ZINC subset	QM9 μ	QM9 α	QM9 εHOMO
GIN + LELM	0,130	0,353	0,484	0,489	0,00353
GIN (Baseline)	0,228	0,438	0,472	1,132	0,00386
GPS + LELM	0,104	0,210	0,502	0,592	0,00372
GPS (Baseline)	0,150	0,358	0,413	0,718	0,00434

LELM verbessert die Leistung bei den meisten Aufgaben erheblich, besonders deutlich bei ZINC-Datensätzen.

Ablationsstudien

Graph-Level-MLP vs. Knoten-Level-MLP:

Modell	ZINC full	ZINC subset
GIN + LELM (Graph-Level)	0,130	0,353
GIN + LELM (Knoten-Level)	0,152	0,435
GPS + LELM (Graph-Level)	0,104	0,210
GPS + LELM (Knoten-Level)	0,126	0,261

Graph-Level-MLP übertrifft Knoten-Level-MLP bei beiden Architekturen erheblich.

Vergleich alternativer strukturierter Vortrainingsziele:

Vortrainingsziel	ZINC full	ZINC subset
LELM	0,130	0,353
Knotengrad	0,238	0,471
Lokaler Clusterungskoeffizient	1,493	1,551
Ringzählung	0,285	0,420
Laplace-Eigenwerte	0,250	0,520

LELM übertrifft deutlich andere strukturierte Vortrainingsziele.

Verbesserung bestehender Vortrainingsmethoden

Hinzufügen von LELM als Plug-in zu bestehenden Vortrainings-Pipelines bei Molekülvorhersageaufgaben:

Masking + LELM: Verbesserungen auf allen 5 Datensätzen
ContextPred + LELM: Verbesserungen bei den meisten Aufgaben

Experimentelle Erkenntnisse

Wichtigkeit der Graph-Level-Architektur: Graph-Level-MLP kann Fernabhängigkeiten effektiv erlernen
Überlegenheit von Eigenvektoren: Laplace-Eigenvektoren sind besser geeignet als andere Strukturziele für das Vortraining
Universalität: LELM kann mit bestehenden Vortrainingsmethoden kombiniert werden
Skalierbarkeit: Methode ist auf verschiedene GNN-Architekturen (GIN, GPS) anwendbar

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Validierung der Effektivität: LELM verbessert die GNN-Leistung bei Aufgaben zur Vorhersage von Moleküleigenschaften erheblich
Architektur-Innovation: Graph-Level-MLP löst das Überglättungsproblem effektiv
Universelles Framework: Kann als eigenständige Methode oder Verbesserungskomponente für bestehende Pipelines verwendet werden
Theoretische Garantie: Verlustfunktion hat notwendige Vorzeichens- und Basisinvarianz

Einschränkungen

Transferlernfähigkeit nicht erforscht: Derzeit nur auf Datensätzen in derselben oder verwandten Bereiche validiert
Rechenkomplexität: Erfordert Laplace-Eigenzerlegung, kann für große Graphen eine Herausforderung darstellen
Verallgemeinerung über Domänen hinweg: Effektivität auf synthetischen Graphen oder domänenübergreifenden Datensätzen unbekannt
Statistische Signifikanz: Aufgrund von Rechenbeschränkungen wurden keine Fehlerbalken gemeldet

Zukünftige Richtungen

Domänenübergreifendes Vortraining: Erforschung von Vortrainingsergebnissen auf synthetischen Graphen oder domänenübergreifenden Datensätzen
Großflächige Anwendungen: Untersuchung der Skalierbarkeit auf größere Graphen
Theoretische Analyse: Tiefere Analyse, warum Laplace-Eigenvektoren ein gutes Vortrainingsziel sind
Architektur-Optimierung: Weitere Optimierung des Graph-Level-MLP-Designs

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erste Verwendung von Laplace-Eigenvektoren für GNN-Vortraining, neuartige Idee
Solide theoretische Grundlagen: Laplace-Eigenvektoren haben tiefe theoretische Grundlagen in der Graphentheorie
Geschicktes Architekturdesign: Graph-Level-MLP löst effektiv das Problem des Fernabhängigkeitslernens
Umfangreiche Experimente: Umfasst mehrere Vergleichsexperimente, Ablationsstudien und Verbesserungsexperimente
Gute Universalität: Kann mit verschiedenen GNN-Architekturen und bestehenden Vortrainingsmethoden kombiniert werden

Mängel

Begrenzte Anwendungsbereiche: Hauptsächlich auf Moleküldaten validiert, Effektivität auf anderen Graphtypen unbekannt
Rechenlast: Die Rechenkomplexität der Eigenzerlegung kann großflächige Anwendungen einschränken
Überempfindlichkeit gegenüber Hyperparametern: Auswahl von Verlustfunktionsgewichten und anderen Hyperparametern fehlt systematische Analyse
Unzureichende theoretische Erklärung: Mangel an tiefgreifender theoretischer Analyse, warum die Methode effektiv ist

Einfluss

Akademischer Wert: Bietet neue Forschungsrichtung für Graph-Vortraining
Praktischer Wert: Potenzieller Wert in praktischen Anwendungen wie Vorhersage von Moleküleigenschaften
Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Einrichtung
Inspirationswert: Kann mehr auf Graphspektral-Eigenschaften basierende Vortrainingsmethoden inspirieren

Anwendungsszenarien

Vorhersage von Moleküleigenschaften: Bereits validiertes Anwendungsszenario
Analyse sozialer Netzwerke: Aufgaben, die das Verständnis globaler Strukturen erfordern
Wissensgraphen: Graphinferenzaufgaben, bei denen Strukturinformationen wichtig sind
Biologische Netzwerke: Biologische Anwendungen wie Protein-Interaktionsnetzwerke

Literaturverzeichnis

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

Hu et al. (2019): "Strategies for pre-training graph neural networks" - Klassische Arbeiten zum Graph-Vortraining
Shaham et al. (2018): "SpectralNet" - Neuronale Netzwerk-Methode für spektrale Clusterung
Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - Strukturelles Positionsdarstellungslernen
Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - GPS-Architektur

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Vortrainingsmethode für Graphische Neuronale Netze präsentiert. Obwohl in einigen Aspekten Verbesserungspotenzial besteht, ist die Kernidee neuartig, die experimentelle Validierung umfassend, und es leistet einen wichtigen Beitrag zum Bereich des Graph-Vortrainings. Die Universalität und Skalierbarkeit der Methode machen sie für praktische Anwendungen vielversprechend.