2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.

The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.

academic

Un Metodo di Pre-addestramento Basato su Autovettori del Laplaciano Grafico per Reti Neurali Grafiche

Informazioni Fondamentali

ID Articolo: 2509.02803
Titolo: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
Autori: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2509.02803v2

Riassunto

Questo articolo propone un metodo di pre-addestramento per reti neurali grafiche basato su autovettori del laplaciano grafico. Affrontando l'insufficienza dei metodi di pre-addestramento strutturato nei modelli fondamentali grafici (GFMs), gli autori hanno sviluppato il modulo di apprendimento degli autovettori laplaciani (LELM), che esegue il pre-addestramento prevedendo gli autovettori a bassa frequenza del laplaciano grafico. Il metodo introduce un innovativo design architetturale che supera il problema dell'eccessivo livellamento, consentendo ai modelli GNN di apprendere dipendenze a lunga distanza. Gli esperimenti dimostrano che i modelli pre-addestrati utilizzando questo framework superano i modelli di base nei compiti di previsione delle proprietà molecolari.

Contesto di Ricerca e Motivazione

Definizione del Problema

Insufficienza dei metodi di pre-addestramento strutturato: I metodi di pre-addestramento attuali per le reti neurali grafiche si basano principalmente sulla ricostruzione delle caratteristiche e sull'apprendimento contrastivo, mentre i metodi basati sulle proprietà strutturali del grafico sono stati relativamente poco esplorati.
Problema dell'eccessivo livellamento: Le GNN tradizionali basate sul passaggio di messaggi affrontano sfide nel catturare la struttura globale e regionale, con il fenomeno dell'eccessivo livellamento che aumenta con la profondità della rete.
Difficoltà nell'apprendimento delle dipendenze a lunga distanza: Le architetture GNN attuali hanno limitazioni nella capacità espressiva nell'apprendimento delle relazioni di interdipendenza a lunga distanza nei grafi.

Importanza della Ricerca

Lo sviluppo di modelli fondamentali grafici richiede compiti di pre-addestramento auto-supervisionato efficaci
Le applicazioni consapevoli della struttura richiedono metodi di pre-addestramento che catturino la struttura grafica sottostante
Applicazioni come la previsione delle proprietà molecolari dipendono dalla comprensione della struttura globale del grafico

Limitazioni dei Metodi Esistenti

Metodi contrastivi: Utilizzano principalmente stimatori Jensen-Shannon o funzioni obiettivo InfoNCE, mancando di modellazione diretta delle informazioni strutturali
Metodi predittivi: La maggior parte si concentra su compiti di ricostruzione grafica, con pochi metodi basati sulla previsione delle proprietà grafiche
Capacità di rappresentazione strutturale: I metodi esistenti hanno difficoltà a catturare efficacemente le informazioni sulla struttura globale del grafico

Contributi Principali

Proposta del framework LELM: Primo metodo che utilizza gli autovettori del laplaciano grafico come obiettivo di pre-addestramento
Design architetturale innovativo: Introduce una testa MLP a livello grafico, consentendo alle GNN di catturare strutture su larga scala senza richiedere reti molto profonde
Miglioramento delle caratteristiche dei nodi: Propone caratteristiche potenziate basate sull'operatore di diffusione grafica, superando i limiti della capacità espressiva delle GNN
Verifica sperimentale: Dimostra l'efficacia del metodo su dataset molecolari, funzionando sia come metodo di pre-addestramento indipendente che come componente aggiuntiva per pipeline esistenti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un grafico $G = (V,E)$ , l'obiettivo è pre-addestrare un modello GNN in modo che possa prevedere i $k$ autovettori a frequenza più bassa della matrice laplaciana $L = D - A$ , ovvero $\psi_1, \psi_2, \ldots, \psi_k$ , dove $L\psi_i = \lambda_i\psi_i$ .

Architettura del Modello

Il framework LELM contiene tre componenti principali:

1. Miglioramento delle Caratteristiche dei Nodi

Codifica Posizionale Wavelet: Codifica le informazioni sulla posizione relativa tra i nodi

Selezionare casualmente due nodi $i, j$ , costruire segnali di Dirac $\delta_i, \delta_j$
Applicare l'operatore wavelet $\Psi_k = P^{2^{j-1}} - P^{2^j}$ , dove $P = D^{-1}A$ è l'operatore di diffusione
Codifica posizionale wavelet per il nodo $m$ : $w_m = [w_{m,1} \ldots w_{m,J}]$

Codifica Dirac di Diffusione: Codifica la struttura di connettività locale

Per ogni nodo $m$ , calcolare $d_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T$
Codifica Dirac di diffusione: $d_m = [d_{m,1} \ldots d_{m,J}]$

2. MLP a Livello Grafico

GNN di base: Elabora il grafico con caratteristiche potenziate, generando rappresentazioni dei nodi
Aggregazione a livello grafico: Concatena tutte le rappresentazioni dei nodi in un vettore a livello grafico $Z = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}$
Testa di previsione MLP: $\tilde{U} = \text{MLP}(Z)$ produce gli autovettori previsti

3. Previsione degli Autovettori

Impone vincoli di ortogonalità tramite decomposizione QR: $\hat{U} = \text{QR}(\tilde{U})$

Funzione di Perdita:

Perdita di energia: $L_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i$
Perdita di autovettori: $L_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|$
Perdita totale: $L = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}$

Punti di Innovazione Tecnica

Design MLP a livello grafico: Evita il problema che l'MLP a livello di nodo non può apprendere interazioni a lunga distanza
Obiettivo di autovettori: Gli autovettori laplaciani a bassa frequenza codificano naturalmente la struttura grafica globale, regionale e locale
Miglioramento dell'operatore di diffusione: Fornisce informazioni di contesto strutturale, migliorando la capacità espressiva delle GNN
Meccanismo di doppia perdita: La perdita di energia assicura la correttezza del sottospazio, mentre la perdita di autovettori assicura l'ordinamento rigoroso

Configurazione Sperimentale

Dataset

ZINC-12k: 12.000 grafi molecolari
ZINC-250k: 250.000 grafi molecolari
QM9: 134.000 grafi molecolari, contenenti molteplici proprietà chimiche quantistiche

Metriche di Valutazione

MAE (Mean Absolute Error): Metrica di valutazione principale
ROC-AUC: Utilizzato per compiti di classificazione binaria

Metodi di Confronto

Modelli di base: Modelli GIN e GPS non pre-addestrati
Obiettivi di pre-addestramento alternativi: Grado del nodo, coefficiente di clustering locale, conteggio dei cicli, autovalori laplaciani
Metodi di pre-addestramento esistenti: ContextPred, Masking, ecc.

Dettagli di Implementazione

Epoche di pre-addestramento: 100-200 cicli
Epoche di fine-tuning: 150-500 cicli
Numero di autovettori: $k = 6$
Pesi della perdita: $\alpha = 2, \beta = 1$ (esperimento principale)
Ottimizzatore: Adam
Tasso di apprendimento: 0.001

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni su dataset ZINC e QM9:

Modello	ZINC full	ZINC subset	QM9 μ	QM9 α	QM9 εHOMO
GIN + LELM	0.130	0.353	0.484	0.489	0.00353
GIN (baseline)	0.228	0.438	0.472	1.132	0.00386
GPS + LELM	0.104	0.210	0.502	0.592	0.00372
GPS (baseline)	0.150	0.358	0.413	0.718	0.00434

LELM ha migliorato significativamente le prestazioni nella maggior parte dei compiti, con miglioramenti particolarmente evidenti sul dataset ZINC.

Esperimenti di Ablazione

MLP a livello grafico vs MLP a livello di nodo:

Modello	ZINC full	ZINC subset
GIN + LELM (livello grafico)	0.130	0.353
GIN + LELM (livello nodo)	0.152	0.435
GPS + LELM (livello grafico)	0.104	0.210
GPS + LELM (livello nodo)	0.126	0.261

L'MLP a livello grafico ha significativamente superato l'MLP a livello di nodo in entrambe le architetture.

Confronto di obiettivi di pre-addestramento strutturato alternativi:

Obiettivo di Pre-addestramento	ZINC full	ZINC subset
LELM	0.130	0.353
Grado del nodo	0.238	0.471
Coefficiente di clustering locale	1.493	1.551
Conteggio dei cicli	0.285	0.420
Autovalori laplaciani	0.250	0.520

LELM ha chiaramente superato altri obiettivi di pre-addestramento strutturato.

Miglioramento dei Metodi di Pre-addestramento Esistenti

Aggiungendo LELM come componente aggiuntiva ai pipeline di pre-addestramento esistenti nei compiti di previsione molecolare:

Masking + LELM: Miglioramenti su tutti e 5 i dataset
ContextPred + LELM: Miglioramenti nella maggior parte dei compiti

Scoperte Sperimentali

Importanza dell'architettura a livello grafico: L'MLP a livello grafico può efficacemente apprendere dipendenze a lunga distanza
Superiorità degli autovettori: Gli autovettori laplaciani sono più adatti di altri obiettivi strutturali per il pre-addestramento
Universalità: LELM può essere combinato con metodi di pre-addestramento esistenti
Scalabilità: Il metodo è applicabile a diverse architetture GNN (GIN, GPS)

Lavori Correlati

Classificazione dei Metodi di Pre-addestramento Grafico

Metodi contrastivi:
- Contrasto grafico-nodo (Deep Graph Infomax, ecc.)
- Contrasto sottografo-nodo (InfoGraph, ecc.)
- Contrasto sottografo-sottografo (GraphCL, ecc.)
Metodi predittivi:
- Ricostruzione grafica (mascheramento nodo/arco, autoencoder)
- Previsione di proprietà (connettività k-hop, metapercorsi)

Applicazioni degli Autovettori Laplaciani

Codifica posizionale: Codifica posizionale standard nei Graph Transformer
Reti neurali grafiche spettrali: Apprendimento di filtri nel dominio del segnale
Clustering spettrale: Generazione di embedding a bassa dimensione per il clustering
Partizione grafica: Vettore di Fiedler per la generazione di partizioni grafiche ottimali

Posizionamento del Contributo

LELM è il primo metodo di previsione di proprietà che utilizza gli autovettori del laplaciano grafico come obiettivo di pre-addestramento, colmando il vuoto nei metodi di pre-addestramento strutturato.

Conclusioni e Discussione

Conclusioni Principali

Verifica dell'efficacia: LELM ha significativamente migliorato le prestazioni delle GNN nei compiti di previsione delle proprietà molecolari
Innovazione architetturale: L'MLP a livello grafico risolve efficacemente il problema dell'eccessivo livellamento
Framework universale: Può funzionare sia come metodo indipendente che come componente di miglioramento per pipeline esistenti
Garanzie teoriche: La funzione di perdita possiede le necessarie invarianze di segno e base

Limitazioni

Capacità di apprendimento per trasferimento non esplorata: Attualmente verificata solo su dataset nello stesso dominio o correlati
Complessità computazionale: Richiede la decomposizione degli autovalori del laplaciano, che potrebbe essere impegnativa per grafi di grandi dimensioni
Generalizzazione cross-dominio: L'effetto su grafi sintetici o dataset cross-dominio rimane sconosciuto
Significatività statistica: A causa dei costi computazionali, non sono stati riportati intervalli di errore

Direzioni Future

Pre-addestramento cross-dominio: Esplorare gli effetti del pre-addestramento su grafi sintetici o dataset cross-dominio
Applicazioni su larga scala: Investigare la scalabilità su grafi di dimensioni maggiori
Analisi teorica: Analizzare più profondamente perché gli autovettori laplaciani sono un buon obiettivo di pre-addestramento
Ottimizzazione architetturale: Ulteriore ottimizzazione del design dell'MLP a livello grafico

Valutazione Approfondita

Punti di Forza

Forte innovatività: Primo utilizzo degli autovettori laplaciani per il pre-addestramento di GNN, con un approccio originale
Fondamenti teorici solidi: Gli autovettori laplaciani hanno basi teoriche profonde nella teoria dei grafi
Design architetturale ingegnoso: L'MLP a livello grafico risolve efficacemente il problema dell'apprendimento delle dipendenze a lunga distanza
Esperimenti completi: Include molteplici esperimenti di confronto, ablazione e miglioramento
Buona universalità: Può essere combinato con diverse architetture GNN e metodi di pre-addestramento esistenti

Insufficienze

Dominio di applicazione limitato: Principalmente verificato su dati molecolari, l'effetto su altri tipi di grafi rimane sconosciuto
Costi computazionali: Il costo computazionale della decomposizione degli autovalori potrebbe limitare le applicazioni su larga scala
Sensibilità ai iperparametri: La scelta dei pesi della funzione di perdita e altri iperparametri manca di analisi sistematica
Spiegazione teorica insufficiente: Manca un'analisi teorica approfondita del perché il metodo è efficace

Impatto

Valore accademico: Fornisce una nuova direzione di ricerca per il pre-addestramento grafico
Valore pratico: Ha potenziale valore in applicazioni pratiche come la previsione delle proprietà molecolari
Riproducibilità: Fornisce codice completo e configurazioni sperimentali
Capacità ispirativa: Potrebbe ispirare più metodi di pre-addestramento basati su proprietà spettrali grafiche

Scenari di Applicazione

Previsione delle proprietà molecolari: Scenario di applicazione già verificato come efficace
Analisi di reti sociali: Compiti che richiedono la comprensione della struttura globale
Grafi di conoscenza: Compiti di inferenza grafica dove le informazioni strutturali sono importanti
Reti biologiche: Applicazioni biologiche come reti di interazione proteica

Bibliografia

L'articolo cita molteplici lavori correlati importanti, inclusi:

Hu et al. (2019): "Strategies for pre-training graph neural networks" - Lavoro classico nel pre-addestramento grafico
Shaham et al. (2018): "SpectralNet" - Metodo di rete neurale per il clustering spettrale
Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - Apprendimento di rappresentazioni strutturali e posizionali
Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - Architettura GPS

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un innovativo metodo di pre-addestramento per reti neurali grafiche. Sebbene vi siano spazi per miglioramenti in alcuni aspetti, l'idea centrale è innovativa, la verifica sperimentale è completa, e il contributo al campo del pre-addestramento grafico è significativo. L'universalità e la scalabilità del metodo gli conferiscono buone prospettive di applicazione pratica.