2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.

The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.

academic

Une Méthode de Pré-entraînement Basée sur les Vecteurs Propres du Laplacien de Graphe pour les Réseaux de Neurones de Graphe

Informations Fondamentales

ID de l'article : 2509.02803
Titre : A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
Auteurs : Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
Classification : cs.LG (Apprentissage Automatique)
Date de Publication : 11 octobre 2025 (pré-impression arXiv)
Lien de l'article : https://arxiv.org/abs/2509.02803v2

Résumé

Cet article propose une méthode de pré-entraînement pour les réseaux de neurones de graphe basée sur les vecteurs propres du laplacien de graphe. Pour remédier aux insuffisances des méthodes de pré-entraînement structuré dans les modèles fondamentaux de graphe (GFMs), les auteurs ont développé un module d'apprentissage des vecteurs propres du laplacien (LELM), qui effectue le pré-entraînement en prédisant les vecteurs propres de basse fréquence du laplacien de graphe. Cette méthode introduit une conception architecturale novatrice qui surmonte le problème du lissage excessif, permettant aux modèles GNN d'apprendre les dépendances à longue distance. Les expériences démontrent que les modèles pré-entraînés avec ce cadre surpassent les modèles de base dans les tâches de prédiction de propriétés moléculaires.

Contexte de Recherche et Motivation

Définition du Problème

Insuffisance des méthodes de pré-entraînement structuré : Les méthodes de pré-entraînement existantes pour les réseaux de neurones de graphe reposent principalement sur la reconstruction de caractéristiques et l'apprentissage contrastif, tandis que les méthodes basées sur les propriétés structurelles des graphes sont relativement peu explorées.
Problème du lissage excessif : Les GNN traditionnels basés sur la transmission de messages font face à des défis dans la capture des structures globales et régionales, et présentent un phénomène de lissage excessif à mesure que la profondeur du réseau augmente.
Difficulté d'apprentissage des dépendances à longue distance : Les architectures GNN existantes présentent des limitations en termes de capacité d'expression pour apprendre les interdépendances à longue distance dans les graphes.

Importance de la Recherche

Le développement de modèles fondamentaux de graphe nécessite des tâches de pré-entraînement auto-supervisé efficaces
Les applications conscientes de la structure nécessitent des méthodes de pré-entraînement capables de capturer la structure de graphe sous-jacente
Des applications telles que la prédiction de propriétés moléculaires dépendent de la compréhension de la structure globale des graphes

Limitations des Méthodes Existantes

Méthodes contrastives : Utilisent principalement l'estimateur de Jensen-Shannon ou la fonction objectif InfoNCE, manquant de modélisation directe des informations structurelles
Méthodes prédictives : Se concentrent principalement sur les tâches de reconstruction de graphe, avec peu de méthodes basées sur la prédiction de propriétés de graphe
Capacité de représentation structurelle : Les méthodes existantes ont du mal à capturer efficacement les informations de structure globale des graphes

Contributions Principales

Proposition du cadre LELM : Première méthode utilisant les vecteurs propres du laplacien de graphe comme objectif de pré-entraînement
Conception architecturale innovante : Introduction d'une tête MLP au niveau du graphe, permettant aux GNN de capturer les structures à grande échelle sans nécessiter de réseaux très profonds
Amélioration des caractéristiques des nœuds : Proposition d'amélioration des caractéristiques des nœuds basée sur l'opérateur de diffusion de graphe, surmontant les limitations de capacité d'expression des GNN
Vérification expérimentale : Démonstration de l'efficacité de la méthode sur les ensembles de données moléculaires, pouvant servir de méthode de pré-entraînement indépendante ou de complément aux pipelines existants

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un graphe $G = (V,E)$ , l'objectif est de pré-entraîner un modèle GNN pour prédire les $k$ vecteurs propres de plus basse fréquence $\psi_1, \psi_2, \ldots, \psi_k$ de la matrice laplacienne $L = D - A$ , où $L\psi_i = \lambda_i\psi_i$ .

Architecture du Modèle

Le cadre LELM comprend trois composants principaux :

1. Amélioration des Caractéristiques des Nœuds

Codage de Position par Ondelettes : Encode les informations de position relative entre les nœuds

Sélection aléatoire de deux nœuds $i, j$ , construction de signaux de Dirac $\delta_i, \delta_j$
Application de l'opérateur d'ondelette $\Psi_k = P^{2^{j-1}} - P^{2^j}$ , où $P = D^{-1}A$ est l'opérateur de diffusion
Codage de position par ondelettes du nœud $m$ : $w_m = [w_{m,1} \ldots w_{m,J}]$

Codage de Dirac par Diffusion : Encode la structure de connectivité locale

Pour chaque nœud $m$ , calcul de $d_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T$
Codage de Dirac par diffusion : $d_m = [d_{m,1} \ldots d_{m,J}]$

2. MLP au Niveau du Graphe

GNN de base : Traite le graphe avec caractéristiques améliorées, générant les représentations des nœuds
Agrégation au niveau du graphe : Concatène toutes les représentations des nœuds en un vecteur au niveau du graphe $Z = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}$
Tête de prédiction MLP : $\tilde{U} = \text{MLP}(Z)$ produit les vecteurs propres prédits

3. Prédiction des Vecteurs Propres

Application de contraintes d'orthogonalité via décomposition QR : $\hat{U} = \text{QR}(\tilde{U})$

Fonction de Perte :

Perte d'énergie : $L_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i$
Perte de vecteur propre : $L_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|$
Perte totale : $L = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}$

Points d'Innovation Technique

Conception du MLP au niveau du graphe : Évite le problème que le MLP au niveau des nœuds ne peut pas apprendre les interactions à longue distance
Objectif de vecteur propre : Les vecteurs propres du laplacien de basse fréquence codent naturellement les structures de graphe globales, régionales et locales
Amélioration par opérateur de diffusion : Fournit des informations de contexte structurel, améliorant la capacité d'expression des GNN
Mécanisme de double perte : La perte d'énergie assure la correction du sous-espace, la perte de vecteur propre assure l'ordre strict

Configuration Expérimentale

Ensembles de Données

ZINC-12k : 12 000 graphes moléculaires
ZINC-250k : 250 000 graphes moléculaires
QM9 : 134 000 graphes moléculaires, contenant plusieurs propriétés chimiques quantiques

Métriques d'Évaluation

MAE (Erreur Absolue Moyenne) : Métrique d'évaluation principale
ROC-AUC : Utilisée pour les tâches de classification binaire

Méthodes de Comparaison

Modèles de base : Modèles GIN et GPS non pré-entraînés
Objectifs de pré-entraînement alternatifs : Degré des nœuds, coefficient de clustering local, comptage des cycles, valeurs propres du laplacien
Méthodes de pré-entraînement existantes : ContextPred, Masking, etc.

Détails d'Implémentation

Epochs de pré-entraînement : 100-200 tours
Epochs d'ajustement fin : 150-500 tours
Nombre de vecteurs propres : $k = 6$
Poids de perte : $\alpha = 2, \beta = 1$ (expérience principale)
Optimiseur : Adam
Taux d'apprentissage : 0,001

Résultats Expérimentaux

Résultats Principaux

Comparaison de Performance sur les Ensembles de Données ZINC et QM9 :

Modèle	ZINC complet	Sous-ensemble ZINC	QM9 μ	QM9 α	QM9 εHOMO
GIN + LELM	0,130	0,353	0,484	0,489	0,00353
GIN (baseline)	0,228	0,438	0,472	1,132	0,00386
GPS + LELM	0,104	0,210	0,502	0,592	0,00372
GPS (baseline)	0,150	0,358	0,413	0,718	0,00434

LELM améliore significativement les performances sur la plupart des tâches, en particulier sur l'ensemble de données ZINC.

Études d'Ablation

MLP au Niveau du Graphe vs MLP au Niveau des Nœuds :

Modèle	ZINC complet	Sous-ensemble ZINC
GIN + LELM (niveau graphe)	0,130	0,353
GIN + LELM (niveau nœud)	0,152	0,435
GPS + LELM (niveau graphe)	0,104	0,210
GPS + LELM (niveau nœud)	0,126	0,261

Le MLP au niveau du graphe surpasse significativement le MLP au niveau des nœuds dans les deux architectures.

Comparaison des Objectifs de Pré-entraînement Structurel Alternatifs :

Objectif de Pré-entraînement	ZINC complet	Sous-ensemble ZINC
LELM	0,130	0,353
Degré des nœuds	0,238	0,471
Coefficient de clustering local	1,493	1,551
Comptage des cycles	0,285	0,420
Valeurs propres du laplacien	0,250	0,520

LELM surpasse clairement les autres objectifs de pré-entraînement structuré.

Amélioration des Méthodes de Pré-entraînement Existantes

Ajout de LELM comme complément aux pipelines de pré-entraînement existants dans les tâches de prédiction moléculaire :

Masking + LELM : Amélioration sur les 5 ensembles de données
ContextPred + LELM : Amélioration sur la plupart des tâches

Découvertes Expérimentales

Importance de l'architecture au niveau du graphe : Le MLP au niveau du graphe peut apprendre efficacement les dépendances à longue distance
Supériorité des vecteurs propres : Les vecteurs propres du laplacien sont plus appropriés que les autres objectifs structurels pour le pré-entraînement
Universalité : LELM peut être combiné avec les méthodes de pré-entraînement existantes
Scalabilité : La méthode s'applique à différentes architectures GNN (GIN, GPS)

Travaux Connexes

Classification des Méthodes de Pré-entraînement de Graphe

Méthodes contrastives :
- Contraste graphe-nœud (Deep Graph Infomax, etc.)
- Contraste sous-graphe-nœud (InfoGraph, etc.)
- Contraste sous-graphe-sous-graphe (GraphCL, etc.)
Méthodes prédictives :
- Reconstruction de graphe (masquage de nœuds/arêtes, autoencodeurs)
- Prédiction de propriétés (connectivité k-hop, méta-chemins)

Applications des Vecteurs Propres du Laplacien

Codage de position : Codage de position standard dans les Transformers de graphe
Réseaux de neurones spectraux : Apprentissage de filtres dans le domaine spectral
Clustering spectral : Génération d'embeddings de basse dimension pour le clustering
Partitionnement de graphe : Le vecteur de Fiedler génère le partitionnement optimal de graphe

Positionnement de la Contribution de cet Article

LELM est la première méthode de prédiction de propriétés utilisant les vecteurs propres du laplacien de graphe comme objectif de pré-entraînement, comblant une lacune dans les méthodes de pré-entraînement structuré.

Conclusion et Discussion

Conclusions Principales

Validation de l'efficacité : LELM améliore significativement les performances des GNN dans les tâches de prédiction de propriétés moléculaires
Innovation architecturale : Le MLP au niveau du graphe résout efficacement le problème du lissage excessif
Cadre universel : Peut servir de méthode indépendante ou de composant d'amélioration pour les pipelines existants
Garanties théoriques : La fonction de perte possède les invariances de signe et de base nécessaires

Limitations

Capacité d'apprentissage par transfert non explorée : Actuellement validée uniquement sur des ensembles de données du même domaine ou de domaines connexes
Complexité de calcul : Nécessite le calcul de la décomposition en valeurs propres du laplacien, ce qui peut être un défi pour les grands graphes
Généralisation inter-domaines : L'effet sur les graphes synthétiques ou les ensembles de données inter-domaines est inconnu
Signification statistique : Les barres d'erreur ne sont pas rapportées en raison des limitations de coût de calcul

Directions Futures

Pré-entraînement inter-domaines : Explorer l'effet du pré-entraînement sur les graphes synthétiques ou les ensembles de données inter-domaines
Applications à grande échelle : Étudier la scalabilité sur des graphes de plus grande taille
Analyse théorique : Analyser en profondeur pourquoi les vecteurs propres du laplacien constituent un bon objectif de pré-entraînement
Optimisation architecturale : Optimiser davantage la conception du MLP au niveau du graphe

Évaluation Approfondie

Avantages

Forte innovativité : Première utilisation des vecteurs propres du laplacien pour le pré-entraînement de GNN, approche novatrice
Fondations théoriques solides : Les vecteurs propres du laplacien ont des fondations théoriques profondes en théorie des graphes
Conception architecturale ingénieuse : Le MLP au niveau du graphe résout efficacement le problème d'apprentissage des dépendances à longue distance
Expériences complètes : Incluent plusieurs expériences de comparaison, études d'ablation et expériences d'amélioration
Bonne universalité : Peut être combiné avec différentes architectures GNN et méthodes de pré-entraînement existantes

Insuffisances

Domaines d'application limités : Principalement validés sur des données moléculaires, l'effet sur d'autres types de graphes est inconnu
Surcharge de calcul : Le coût de calcul de la décomposition en valeurs propres peut limiter les applications à grande échelle
Sensibilité aux hyperparamètres : Le choix des hyperparamètres tels que les poids de perte manque d'analyse systématique
Explication théorique insuffisante : Manque d'analyse théorique approfondie sur pourquoi cette méthode est efficace

Influence

Valeur académique : Fournit une nouvelle direction de recherche pour le pré-entraînement de graphe
Valeur pratique : Potentiel dans les applications pratiques telles que la prédiction de propriétés moléculaires
Reproductibilité : Fournit un code complet et des paramètres expérimentaux
Caractère inspirant : Peut inspirer davantage de méthodes de pré-entraînement basées sur les propriétés spectrales des graphes

Scénarios d'Application

Prédiction de propriétés moléculaires : Scénario d'application validé et efficace
Analyse de réseaux sociaux : Tâches nécessitant la compréhension de la structure globale
Graphes de connaissances : Tâches de raisonnement sur graphes où les informations structurelles sont importantes
Réseaux biologiques : Applications biologiques telles que les réseaux d'interaction protéine-protéine

Références

L'article cite plusieurs travaux connexes importants, notamment :

Hu et al. (2019) : "Strategies for pre-training graph neural networks" - Travail classique sur le pré-entraînement de graphe
Shaham et al. (2018) : "SpectralNet" - Méthode de réseau de neurones pour le clustering spectral
Dwivedi et al. (2021) : "Graph neural networks with learnable structural and positional representations" - Apprentissage de représentations structurelles et positionnelles
Rampášek et al. (2022) : "Recipe for a general, powerful, scalable graph transformer" - Architecture GPS

Évaluation Globale : Il s'agit d'un article de recherche de haute qualité proposant une méthode novatrice de pré-entraînement pour les réseaux de neurones de graphe. Bien qu'il y ait des domaines d'amélioration, l'idée centrale est novatrice, la vérification expérimentale est complète, et l'article apporte une contribution importante au domaine du pré-entraînement de graphe. L'universalité et la scalabilité de la méthode lui confèrent de bonnes perspectives d'application.