The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
- ID de l'article : 2509.02803
- Titre : A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
- Auteurs : Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
- Classification : cs.LG (Apprentissage Automatique)
- Date de Publication : 11 octobre 2025 (pré-impression arXiv)
- Lien de l'article : https://arxiv.org/abs/2509.02803v2
Cet article propose une méthode de pré-entraînement pour les réseaux de neurones de graphe basée sur les vecteurs propres du laplacien de graphe. Pour remédier aux insuffisances des méthodes de pré-entraînement structuré dans les modèles fondamentaux de graphe (GFMs), les auteurs ont développé un module d'apprentissage des vecteurs propres du laplacien (LELM), qui effectue le pré-entraînement en prédisant les vecteurs propres de basse fréquence du laplacien de graphe. Cette méthode introduit une conception architecturale novatrice qui surmonte le problème du lissage excessif, permettant aux modèles GNN d'apprendre les dépendances à longue distance. Les expériences démontrent que les modèles pré-entraînés avec ce cadre surpassent les modèles de base dans les tâches de prédiction de propriétés moléculaires.
- Insuffisance des méthodes de pré-entraînement structuré : Les méthodes de pré-entraînement existantes pour les réseaux de neurones de graphe reposent principalement sur la reconstruction de caractéristiques et l'apprentissage contrastif, tandis que les méthodes basées sur les propriétés structurelles des graphes sont relativement peu explorées.
- Problème du lissage excessif : Les GNN traditionnels basés sur la transmission de messages font face à des défis dans la capture des structures globales et régionales, et présentent un phénomène de lissage excessif à mesure que la profondeur du réseau augmente.
- Difficulté d'apprentissage des dépendances à longue distance : Les architectures GNN existantes présentent des limitations en termes de capacité d'expression pour apprendre les interdépendances à longue distance dans les graphes.
- Le développement de modèles fondamentaux de graphe nécessite des tâches de pré-entraînement auto-supervisé efficaces
- Les applications conscientes de la structure nécessitent des méthodes de pré-entraînement capables de capturer la structure de graphe sous-jacente
- Des applications telles que la prédiction de propriétés moléculaires dépendent de la compréhension de la structure globale des graphes
- Méthodes contrastives : Utilisent principalement l'estimateur de Jensen-Shannon ou la fonction objectif InfoNCE, manquant de modélisation directe des informations structurelles
- Méthodes prédictives : Se concentrent principalement sur les tâches de reconstruction de graphe, avec peu de méthodes basées sur la prédiction de propriétés de graphe
- Capacité de représentation structurelle : Les méthodes existantes ont du mal à capturer efficacement les informations de structure globale des graphes
- Proposition du cadre LELM : Première méthode utilisant les vecteurs propres du laplacien de graphe comme objectif de pré-entraînement
- Conception architecturale innovante : Introduction d'une tête MLP au niveau du graphe, permettant aux GNN de capturer les structures à grande échelle sans nécessiter de réseaux très profonds
- Amélioration des caractéristiques des nœuds : Proposition d'amélioration des caractéristiques des nœuds basée sur l'opérateur de diffusion de graphe, surmontant les limitations de capacité d'expression des GNN
- Vérification expérimentale : Démonstration de l'efficacité de la méthode sur les ensembles de données moléculaires, pouvant servir de méthode de pré-entraînement indépendante ou de complément aux pipelines existants
Étant donné un graphe G=(V,E), l'objectif est de pré-entraîner un modèle GNN pour prédire les k vecteurs propres de plus basse fréquence ψ1,ψ2,…,ψk de la matrice laplacienne L=D−A, où Lψi=λiψi.
Le cadre LELM comprend trois composants principaux :
Codage de Position par Ondelettes : Encode les informations de position relative entre les nœuds
- Sélection aléatoire de deux nœuds i,j, construction de signaux de Dirac δi,δj
- Application de l'opérateur d'ondelette Ψk=P2j−1−P2j, où P=D−1A est l'opérateur de diffusion
- Codage de position par ondelettes du nœud m : wm=[wm,1…wm,J]
Codage de Dirac par Diffusion : Encode la structure de connectivité locale
- Pour chaque nœud m, calcul de dm,k=Ψk(m,⋅)P(m,⋅)T
- Codage de Dirac par diffusion : dm=[dm,1…dm,J]
- GNN de base : Traite le graphe avec caractéristiques améliorées, générant les représentations des nœuds
- Agrégation au niveau du graphe : Concatène toutes les représentations des nœuds en un vecteur au niveau du graphe Z=[z1,…,zn]∈Rnd
- Tête de prédiction MLP : U~=MLP(Z) produit les vecteurs propres prédits
Application de contraintes d'orthogonalité via décomposition QR : U^=QR(U~)
Fonction de Perte :
- Perte d'énergie : Lenergy=k1∑i=1ku^iTLu^i
- Perte de vecteur propre : Leigvec=k1∑i=1k∥Lu^i−λiu^i∥
- Perte totale : L=α⋅Lenergy+β⋅Leigvec
- Conception du MLP au niveau du graphe : Évite le problème que le MLP au niveau des nœuds ne peut pas apprendre les interactions à longue distance
- Objectif de vecteur propre : Les vecteurs propres du laplacien de basse fréquence codent naturellement les structures de graphe globales, régionales et locales
- Amélioration par opérateur de diffusion : Fournit des informations de contexte structurel, améliorant la capacité d'expression des GNN
- Mécanisme de double perte : La perte d'énergie assure la correction du sous-espace, la perte de vecteur propre assure l'ordre strict
- ZINC-12k : 12 000 graphes moléculaires
- ZINC-250k : 250 000 graphes moléculaires
- QM9 : 134 000 graphes moléculaires, contenant plusieurs propriétés chimiques quantiques
- MAE (Erreur Absolue Moyenne) : Métrique d'évaluation principale
- ROC-AUC : Utilisée pour les tâches de classification binaire
- Modèles de base : Modèles GIN et GPS non pré-entraînés
- Objectifs de pré-entraînement alternatifs : Degré des nœuds, coefficient de clustering local, comptage des cycles, valeurs propres du laplacien
- Méthodes de pré-entraînement existantes : ContextPred, Masking, etc.
- Epochs de pré-entraînement : 100-200 tours
- Epochs d'ajustement fin : 150-500 tours
- Nombre de vecteurs propres : k=6
- Poids de perte : α=2,β=1 (expérience principale)
- Optimiseur : Adam
- Taux d'apprentissage : 0,001
Comparaison de Performance sur les Ensembles de Données ZINC et QM9 :
| Modèle | ZINC complet | Sous-ensemble ZINC | QM9 μ | QM9 α | QM9 εHOMO |
|---|
| GIN + LELM | 0,130 | 0,353 | 0,484 | 0,489 | 0,00353 |
| GIN (baseline) | 0,228 | 0,438 | 0,472 | 1,132 | 0,00386 |
| GPS + LELM | 0,104 | 0,210 | 0,502 | 0,592 | 0,00372 |
| GPS (baseline) | 0,150 | 0,358 | 0,413 | 0,718 | 0,00434 |
LELM améliore significativement les performances sur la plupart des tâches, en particulier sur l'ensemble de données ZINC.
MLP au Niveau du Graphe vs MLP au Niveau des Nœuds :
| Modèle | ZINC complet | Sous-ensemble ZINC |
|---|
| GIN + LELM (niveau graphe) | 0,130 | 0,353 |
| GIN + LELM (niveau nœud) | 0,152 | 0,435 |
| GPS + LELM (niveau graphe) | 0,104 | 0,210 |
| GPS + LELM (niveau nœud) | 0,126 | 0,261 |
Le MLP au niveau du graphe surpasse significativement le MLP au niveau des nœuds dans les deux architectures.
Comparaison des Objectifs de Pré-entraînement Structurel Alternatifs :
| Objectif de Pré-entraînement | ZINC complet | Sous-ensemble ZINC |
|---|
| LELM | 0,130 | 0,353 |
| Degré des nœuds | 0,238 | 0,471 |
| Coefficient de clustering local | 1,493 | 1,551 |
| Comptage des cycles | 0,285 | 0,420 |
| Valeurs propres du laplacien | 0,250 | 0,520 |
LELM surpasse clairement les autres objectifs de pré-entraînement structuré.
Ajout de LELM comme complément aux pipelines de pré-entraînement existants dans les tâches de prédiction moléculaire :
- Masking + LELM : Amélioration sur les 5 ensembles de données
- ContextPred + LELM : Amélioration sur la plupart des tâches
- Importance de l'architecture au niveau du graphe : Le MLP au niveau du graphe peut apprendre efficacement les dépendances à longue distance
- Supériorité des vecteurs propres : Les vecteurs propres du laplacien sont plus appropriés que les autres objectifs structurels pour le pré-entraînement
- Universalité : LELM peut être combiné avec les méthodes de pré-entraînement existantes
- Scalabilité : La méthode s'applique à différentes architectures GNN (GIN, GPS)
- Méthodes contrastives :
- Contraste graphe-nœud (Deep Graph Infomax, etc.)
- Contraste sous-graphe-nœud (InfoGraph, etc.)
- Contraste sous-graphe-sous-graphe (GraphCL, etc.)
- Méthodes prédictives :
- Reconstruction de graphe (masquage de nœuds/arêtes, autoencodeurs)
- Prédiction de propriétés (connectivité k-hop, méta-chemins)
- Codage de position : Codage de position standard dans les Transformers de graphe
- Réseaux de neurones spectraux : Apprentissage de filtres dans le domaine spectral
- Clustering spectral : Génération d'embeddings de basse dimension pour le clustering
- Partitionnement de graphe : Le vecteur de Fiedler génère le partitionnement optimal de graphe
LELM est la première méthode de prédiction de propriétés utilisant les vecteurs propres du laplacien de graphe comme objectif de pré-entraînement, comblant une lacune dans les méthodes de pré-entraînement structuré.
- Validation de l'efficacité : LELM améliore significativement les performances des GNN dans les tâches de prédiction de propriétés moléculaires
- Innovation architecturale : Le MLP au niveau du graphe résout efficacement le problème du lissage excessif
- Cadre universel : Peut servir de méthode indépendante ou de composant d'amélioration pour les pipelines existants
- Garanties théoriques : La fonction de perte possède les invariances de signe et de base nécessaires
- Capacité d'apprentissage par transfert non explorée : Actuellement validée uniquement sur des ensembles de données du même domaine ou de domaines connexes
- Complexité de calcul : Nécessite le calcul de la décomposition en valeurs propres du laplacien, ce qui peut être un défi pour les grands graphes
- Généralisation inter-domaines : L'effet sur les graphes synthétiques ou les ensembles de données inter-domaines est inconnu
- Signification statistique : Les barres d'erreur ne sont pas rapportées en raison des limitations de coût de calcul
- Pré-entraînement inter-domaines : Explorer l'effet du pré-entraînement sur les graphes synthétiques ou les ensembles de données inter-domaines
- Applications à grande échelle : Étudier la scalabilité sur des graphes de plus grande taille
- Analyse théorique : Analyser en profondeur pourquoi les vecteurs propres du laplacien constituent un bon objectif de pré-entraînement
- Optimisation architecturale : Optimiser davantage la conception du MLP au niveau du graphe
- Forte innovativité : Première utilisation des vecteurs propres du laplacien pour le pré-entraînement de GNN, approche novatrice
- Fondations théoriques solides : Les vecteurs propres du laplacien ont des fondations théoriques profondes en théorie des graphes
- Conception architecturale ingénieuse : Le MLP au niveau du graphe résout efficacement le problème d'apprentissage des dépendances à longue distance
- Expériences complètes : Incluent plusieurs expériences de comparaison, études d'ablation et expériences d'amélioration
- Bonne universalité : Peut être combiné avec différentes architectures GNN et méthodes de pré-entraînement existantes
- Domaines d'application limités : Principalement validés sur des données moléculaires, l'effet sur d'autres types de graphes est inconnu
- Surcharge de calcul : Le coût de calcul de la décomposition en valeurs propres peut limiter les applications à grande échelle
- Sensibilité aux hyperparamètres : Le choix des hyperparamètres tels que les poids de perte manque d'analyse systématique
- Explication théorique insuffisante : Manque d'analyse théorique approfondie sur pourquoi cette méthode est efficace
- Valeur académique : Fournit une nouvelle direction de recherche pour le pré-entraînement de graphe
- Valeur pratique : Potentiel dans les applications pratiques telles que la prédiction de propriétés moléculaires
- Reproductibilité : Fournit un code complet et des paramètres expérimentaux
- Caractère inspirant : Peut inspirer davantage de méthodes de pré-entraînement basées sur les propriétés spectrales des graphes
- Prédiction de propriétés moléculaires : Scénario d'application validé et efficace
- Analyse de réseaux sociaux : Tâches nécessitant la compréhension de la structure globale
- Graphes de connaissances : Tâches de raisonnement sur graphes où les informations structurelles sont importantes
- Réseaux biologiques : Applications biologiques telles que les réseaux d'interaction protéine-protéine
L'article cite plusieurs travaux connexes importants, notamment :
- Hu et al. (2019) : "Strategies for pre-training graph neural networks" - Travail classique sur le pré-entraînement de graphe
- Shaham et al. (2018) : "SpectralNet" - Méthode de réseau de neurones pour le clustering spectral
- Dwivedi et al. (2021) : "Graph neural networks with learnable structural and positional representations" - Apprentissage de représentations structurelles et positionnelles
- Rampášek et al. (2022) : "Recipe for a general, powerful, scalable graph transformer" - Architecture GPS
Évaluation Globale : Il s'agit d'un article de recherche de haute qualité proposant une méthode novatrice de pré-entraînement pour les réseaux de neurones de graphe. Bien qu'il y ait des domaines d'amélioration, l'idée centrale est novatrice, la vérification expérimentale est complète, et l'article apporte une contribution importante au domaine du pré-entraînement de graphe. L'universalité et la scalabilité de la méthode lui confèrent de bonnes perspectives d'application.