2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.
The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
academic

Eine auf Graph-Laplace-Eigenvektoren basierende Vortrainingsmethode für Graphische Neuronale Netze

Grundlegende Informationen

  • Papier-ID: 2509.02803
  • Titel: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
  • Autoren: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2509.02803v2

Zusammenfassung

Dieses Papier präsentiert eine Vortrainingsmethode für Graphische Neuronale Netze (GNNs) basierend auf Graph-Laplace-Eigenvektoren. Um die Unzulänglichkeiten strukturierter Vortrainingsmethoden in Graph-Grundmodellen (GFMs) zu beheben, entwickelten die Autoren das Laplace-Eigenvektor-Lernmodul (LELM), das durch Vorhersage der niederfrequenten Eigenvektoren des Graph-Laplacian vortrainiert wird. Diese Methode führt ein neuartiges Architekturdesign ein, das das Überglättungsproblem überwindet und es GNN-Modellen ermöglicht, Fernabhängigkeiten zu erlernen. Experimente zeigen, dass mit diesem Framework vortrainierte Modelle Baseline-Modelle bei Aufgaben zur Vorhersage von Moleküleigenschaften übertreffen.

Forschungshintergrund und Motivation

Problemdefinition

  1. Unzulänglichkeit strukturierter Vortrainingsmethoden: Bestehende Vortrainingsmethoden für Graphische Neuronale Netze basieren hauptsächlich auf Merkmalrekonstruktion und kontrastivem Lernen, während auf Graphstruktur-Eigenschaften basierende Vortrainingsmethoden relativ wenig erforscht sind.
  2. Überglättungsproblem: Traditionelle Nachrichtenübergabe-GNNs haben Schwierigkeiten, globale und regionale Strukturen zu erfassen, und neigen mit zunehmender Netzwerktiefe zur Überglättung.
  3. Schwierigkeiten beim Erlernen von Fernabhängigkeiten: Bestehende GNN-Architekturen haben Ausdrucksbeschränkungen beim Erlernen von Fernabhängigkeitsbeziehungen in Graphen.

Forschungsbedeutung

  • Die Entwicklung von Graph-Grundmodellen erfordert effektive selbstüberwachte Vortrainingsaufgaben
  • Strukturbewusste Downstream-Anwendungen benötigen Vortrainingsmethoden, die zugrunde liegende Graphstrukturen erfassen können
  • Anwendungen wie Vorhersage von Moleküleigenschaften hängen vom Verständnis der globalen Graphstruktur ab

Einschränkungen bestehender Methoden

  • Kontrastive Methoden: Verwenden hauptsächlich Jensen-Shannon-Schätzer oder InfoNCE-Zielfunktionen, fehlt direkte Modellierung von Strukturinformationen
  • Vorhersagemethoden: Konzentrieren sich hauptsächlich auf Graphrekonstruktionsaufgaben, weniger Methoden basieren auf Grapheigenschaften-Vorhersage
  • Strukturdarstellungsfähigkeit: Bestehende Methoden können globale Graphinformationen nicht effektiv erfassen

Kernbeiträge

  1. Vorschlag des LELM-Frameworks: Erste Methode, die Graph-Laplace-Eigenvektoren als Vortrainingsziel verwendet
  2. Innovatives Architekturdesign: Einführung eines Graph-Level-MLP-Kopfes, der es GNNs ermöglicht, großflächige Strukturen ohne tiefe Netzwerke zu erfassen
  3. Verbesserung von Knotenmerkmalen: Auf dem Graph-Diffusionsoperator basierende Merkmalverbesserung, um die Ausdrucksfähigkeit von GNNs zu überwinden
  4. Experimentelle Validierung: Nachweis der Methodeneffektivität auf Moleküldatensätzen, kann als eigenständige Vortrainingsmethode oder Plug-in für bestehende Pipelines verwendet werden

Methodendetails

Aufgabendefinition

Gegeben ein Graph G=(V,E)G = (V,E) besteht das Ziel darin, ein GNN-Modell vorzutrainieren, um die kk niederfrequenten Eigenvektoren ψ1,ψ2,,ψk\psi_1, \psi_2, \ldots, \psi_k der Graph-Laplace-Matrix L=DAL = D - A vorherzusagen, wobei Lψi=λiψiL\psi_i = \lambda_i\psi_i.

Modellarchitektur

Das LELM-Framework enthält drei Kernkomponenten:

1. Verbesserung von Knotenmerkmalen

Wavelet-Positionskodierung: Kodiert relative Positionsinformationen zwischen Knoten

  • Wählen Sie zufällig zwei Knoten i,ji, j und konstruieren Sie Dirac-Signale δi,δj\delta_i, \delta_j
  • Wenden Sie den Wavelet-Operator Ψk=P2j1P2j\Psi_k = P^{2^{j-1}} - P^{2^j} an, wobei P=D1AP = D^{-1}A der Diffusionsoperator ist
  • Wavelet-Positionskodierung für Knoten mm: wm=[wm,1wm,J]w_m = [w_{m,1} \ldots w_{m,J}]

Diffusions-Dirac-Kodierung: Kodiert lokale Konnektivitätsstruktur

  • Für jeden Knoten mm berechnen Sie dm,k=Ψk(m,)P(m,)Td_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T
  • Diffusions-Dirac-Kodierung: dm=[dm,1dm,J]d_m = [d_{m,1} \ldots d_{m,J}]

2. Graph-Level-MLP

  • Basis-GNN: Verarbeitet den Graphen mit verbesserten Merkmalen und generiert Knotendarstellungen
  • Graph-Level-Aggregation: Verkettung aller Knotendarstellungen zu einem Graph-Level-Vektor Z=[z1,,zn]RndZ = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}
  • MLP-Vorhersagekopf: U~=MLP(Z)\tilde{U} = \text{MLP}(Z) gibt die vorhergesagten Eigenvektoren aus

3. Eigenvektor-Vorhersage

Orthogonalitätsbeschränkungen durch QR-Zerlegung auferlegen: U^=QR(U~)\hat{U} = \text{QR}(\tilde{U})

Verlustfunktion:

  • Energieverlust: Lenergy=1ki=1ku^iTLu^iL_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i
  • Eigenvektorverlust: Leigvec=1ki=1kLu^iλiu^iL_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|
  • Gesamtverlust: L=αLenergy+βLeigvecL = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}

Technische Innovationspunkte

  1. Graph-Level-MLP-Design: Vermeidet das Problem, dass Knoten-Level-MLP keine Ferninteraktionen erlernen kann
  2. Eigenvektor-Ziel: Niederfrequente Laplace-Eigenvektoren kodieren natürlicherweise globale, regionale und lokale Graphstrukturen
  3. Diffusionsoperator-Verbesserung: Bietet strukturelle Kontextinformationen und verbessert die Ausdrucksfähigkeit von GNNs
  4. Duales Verlustmechanismus: Energieverlust gewährleistet Unterraum-Korrektheit, Eigenvektorverlust gewährleistet strikte Ordnung

Experimentelle Einrichtung

Datensätze

  • ZINC-12k: 12.000 Molekülgraphen
  • ZINC-250k: 250.000 Molekülgraphen
  • QM9: 134.000 Molekülgraphen mit mehreren quantenchemischen Eigenschaften

Bewertungsmetriken

  • MAE (Mean Absolute Error): Hauptbewertungsmetrik
  • ROC-AUC: Für binäre Klassifizierungsaufgaben

Vergleichsmethoden

  • Baseline-Modelle: Nicht vortrainierte GIN- und GPS-Modelle
  • Alternative Vortrainingsziele: Knotengrad, lokaler Clusterungskoeffizient, Ringzählung, Laplace-Eigenwerte
  • Bestehende Vortrainingsmethoden: ContextPred, Masking usw.

Implementierungsdetails

  • Vortrainings-Epochen: 100-200 Runden
  • Feinabstimmungs-Epochen: 150-500 Runden
  • Anzahl der Eigenvektoren: k=6k = 6
  • Verlustgewichte: α=2,β=1\alpha = 2, \beta = 1 (Hauptexperiment)
  • Optimierer: Adam
  • Lernrate: 0,001

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf ZINC- und QM9-Datensätzen:

ModellZINC fullZINC subsetQM9 μQM9 αQM9 εHOMO
GIN + LELM0,1300,3530,4840,4890,00353
GIN (Baseline)0,2280,4380,4721,1320,00386
GPS + LELM0,1040,2100,5020,5920,00372
GPS (Baseline)0,1500,3580,4130,7180,00434

LELM verbessert die Leistung bei den meisten Aufgaben erheblich, besonders deutlich bei ZINC-Datensätzen.

Ablationsstudien

Graph-Level-MLP vs. Knoten-Level-MLP:

ModellZINC fullZINC subset
GIN + LELM (Graph-Level)0,1300,353
GIN + LELM (Knoten-Level)0,1520,435
GPS + LELM (Graph-Level)0,1040,210
GPS + LELM (Knoten-Level)0,1260,261

Graph-Level-MLP übertrifft Knoten-Level-MLP bei beiden Architekturen erheblich.

Vergleich alternativer strukturierter Vortrainingsziele:

VortrainingszielZINC fullZINC subset
LELM0,1300,353
Knotengrad0,2380,471
Lokaler Clusterungskoeffizient1,4931,551
Ringzählung0,2850,420
Laplace-Eigenwerte0,2500,520

LELM übertrifft deutlich andere strukturierte Vortrainingsziele.

Verbesserung bestehender Vortrainingsmethoden

Hinzufügen von LELM als Plug-in zu bestehenden Vortrainings-Pipelines bei Molekülvorhersageaufgaben:

  • Masking + LELM: Verbesserungen auf allen 5 Datensätzen
  • ContextPred + LELM: Verbesserungen bei den meisten Aufgaben

Experimentelle Erkenntnisse

  1. Wichtigkeit der Graph-Level-Architektur: Graph-Level-MLP kann Fernabhängigkeiten effektiv erlernen
  2. Überlegenheit von Eigenvektoren: Laplace-Eigenvektoren sind besser geeignet als andere Strukturziele für das Vortraining
  3. Universalität: LELM kann mit bestehenden Vortrainingsmethoden kombiniert werden
  4. Skalierbarkeit: Methode ist auf verschiedene GNN-Architekturen (GIN, GPS) anwendbar

Verwandte Arbeiten

Klassifizierung von Graph-Vortrainingsmethoden

  1. Kontrastive Methoden:
    • Graph-Knoten-Kontrast (Deep Graph Infomax usw.)
    • Subgraph-Knoten-Kontrast (InfoGraph usw.)
    • Subgraph-Subgraph-Kontrast (GraphCL usw.)
  2. Vorhersagemethoden:
    • Graphrekonstruktion (Knoten-/Kantenmasking, Autoencoder)
    • Eigenschaftsvorhersage (k-Hop-Konnektivität, Metapfade)

Anwendungen von Laplace-Eigenvektoren

  • Positionskodierung: Standardpositionskodierung in Graph-Transformern
  • Spektrale Graphische Neuronale Netze: Filterlernen im Signalbereich
  • Spektrale Clusterung: Generierung von niederfrequenten Einbettungen für Clusterung
  • Graphpartitionierung: Fiedler-Vektor erzeugt optimale Graphpartitionierung

Positionierung des Beitrags

LELM ist die erste Eigenschaftsvorhersagemethode, die Graph-Laplace-Eigenvektoren als Vortrainingsziel verwendet und füllt eine Lücke in strukturierten Vortrainingsmethoden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Validierung der Effektivität: LELM verbessert die GNN-Leistung bei Aufgaben zur Vorhersage von Moleküleigenschaften erheblich
  2. Architektur-Innovation: Graph-Level-MLP löst das Überglättungsproblem effektiv
  3. Universelles Framework: Kann als eigenständige Methode oder Verbesserungskomponente für bestehende Pipelines verwendet werden
  4. Theoretische Garantie: Verlustfunktion hat notwendige Vorzeichens- und Basisinvarianz

Einschränkungen

  1. Transferlernfähigkeit nicht erforscht: Derzeit nur auf Datensätzen in derselben oder verwandten Bereiche validiert
  2. Rechenkomplexität: Erfordert Laplace-Eigenzerlegung, kann für große Graphen eine Herausforderung darstellen
  3. Verallgemeinerung über Domänen hinweg: Effektivität auf synthetischen Graphen oder domänenübergreifenden Datensätzen unbekannt
  4. Statistische Signifikanz: Aufgrund von Rechenbeschränkungen wurden keine Fehlerbalken gemeldet

Zukünftige Richtungen

  1. Domänenübergreifendes Vortraining: Erforschung von Vortrainingsergebnissen auf synthetischen Graphen oder domänenübergreifenden Datensätzen
  2. Großflächige Anwendungen: Untersuchung der Skalierbarkeit auf größere Graphen
  3. Theoretische Analyse: Tiefere Analyse, warum Laplace-Eigenvektoren ein gutes Vortrainingsziel sind
  4. Architektur-Optimierung: Weitere Optimierung des Graph-Level-MLP-Designs

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erste Verwendung von Laplace-Eigenvektoren für GNN-Vortraining, neuartige Idee
  2. Solide theoretische Grundlagen: Laplace-Eigenvektoren haben tiefe theoretische Grundlagen in der Graphentheorie
  3. Geschicktes Architekturdesign: Graph-Level-MLP löst effektiv das Problem des Fernabhängigkeitslernens
  4. Umfangreiche Experimente: Umfasst mehrere Vergleichsexperimente, Ablationsstudien und Verbesserungsexperimente
  5. Gute Universalität: Kann mit verschiedenen GNN-Architekturen und bestehenden Vortrainingsmethoden kombiniert werden

Mängel

  1. Begrenzte Anwendungsbereiche: Hauptsächlich auf Moleküldaten validiert, Effektivität auf anderen Graphtypen unbekannt
  2. Rechenlast: Die Rechenkomplexität der Eigenzerlegung kann großflächige Anwendungen einschränken
  3. Überempfindlichkeit gegenüber Hyperparametern: Auswahl von Verlustfunktionsgewichten und anderen Hyperparametern fehlt systematische Analyse
  4. Unzureichende theoretische Erklärung: Mangel an tiefgreifender theoretischer Analyse, warum die Methode effektiv ist

Einfluss

  1. Akademischer Wert: Bietet neue Forschungsrichtung für Graph-Vortraining
  2. Praktischer Wert: Potenzieller Wert in praktischen Anwendungen wie Vorhersage von Moleküleigenschaften
  3. Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Einrichtung
  4. Inspirationswert: Kann mehr auf Graphspektral-Eigenschaften basierende Vortrainingsmethoden inspirieren

Anwendungsszenarien

  1. Vorhersage von Moleküleigenschaften: Bereits validiertes Anwendungsszenario
  2. Analyse sozialer Netzwerke: Aufgaben, die das Verständnis globaler Strukturen erfordern
  3. Wissensgraphen: Graphinferenzaufgaben, bei denen Strukturinformationen wichtig sind
  4. Biologische Netzwerke: Biologische Anwendungen wie Protein-Interaktionsnetzwerke

Literaturverzeichnis

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Hu et al. (2019): "Strategies for pre-training graph neural networks" - Klassische Arbeiten zum Graph-Vortraining
  • Shaham et al. (2018): "SpectralNet" - Neuronale Netzwerk-Methode für spektrale Clusterung
  • Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - Strukturelles Positionsdarstellungslernen
  • Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - GPS-Architektur

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Vortrainingsmethode für Graphische Neuronale Netze präsentiert. Obwohl in einigen Aspekten Verbesserungspotenzial besteht, ist die Kernidee neuartig, die experimentelle Validierung umfassend, und es leistet einen wichtigen Beitrag zum Bereich des Graph-Vortrainings. Die Universalität und Skalierbarkeit der Methode machen sie für praktische Anwendungen vielversprechend.