The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
- ID Articolo: 2509.02803
- Titolo: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
- Autori: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
- Classificazione: cs.LG (Machine Learning)
- Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2509.02803v2
Questo articolo propone un metodo di pre-addestramento per reti neurali grafiche basato su autovettori del laplaciano grafico. Affrontando l'insufficienza dei metodi di pre-addestramento strutturato nei modelli fondamentali grafici (GFMs), gli autori hanno sviluppato il modulo di apprendimento degli autovettori laplaciani (LELM), che esegue il pre-addestramento prevedendo gli autovettori a bassa frequenza del laplaciano grafico. Il metodo introduce un innovativo design architetturale che supera il problema dell'eccessivo livellamento, consentendo ai modelli GNN di apprendere dipendenze a lunga distanza. Gli esperimenti dimostrano che i modelli pre-addestrati utilizzando questo framework superano i modelli di base nei compiti di previsione delle proprietà molecolari.
- Insufficienza dei metodi di pre-addestramento strutturato: I metodi di pre-addestramento attuali per le reti neurali grafiche si basano principalmente sulla ricostruzione delle caratteristiche e sull'apprendimento contrastivo, mentre i metodi basati sulle proprietà strutturali del grafico sono stati relativamente poco esplorati.
- Problema dell'eccessivo livellamento: Le GNN tradizionali basate sul passaggio di messaggi affrontano sfide nel catturare la struttura globale e regionale, con il fenomeno dell'eccessivo livellamento che aumenta con la profondità della rete.
- Difficoltà nell'apprendimento delle dipendenze a lunga distanza: Le architetture GNN attuali hanno limitazioni nella capacità espressiva nell'apprendimento delle relazioni di interdipendenza a lunga distanza nei grafi.
- Lo sviluppo di modelli fondamentali grafici richiede compiti di pre-addestramento auto-supervisionato efficaci
- Le applicazioni consapevoli della struttura richiedono metodi di pre-addestramento che catturino la struttura grafica sottostante
- Applicazioni come la previsione delle proprietà molecolari dipendono dalla comprensione della struttura globale del grafico
- Metodi contrastivi: Utilizzano principalmente stimatori Jensen-Shannon o funzioni obiettivo InfoNCE, mancando di modellazione diretta delle informazioni strutturali
- Metodi predittivi: La maggior parte si concentra su compiti di ricostruzione grafica, con pochi metodi basati sulla previsione delle proprietà grafiche
- Capacità di rappresentazione strutturale: I metodi esistenti hanno difficoltà a catturare efficacemente le informazioni sulla struttura globale del grafico
- Proposta del framework LELM: Primo metodo che utilizza gli autovettori del laplaciano grafico come obiettivo di pre-addestramento
- Design architetturale innovativo: Introduce una testa MLP a livello grafico, consentendo alle GNN di catturare strutture su larga scala senza richiedere reti molto profonde
- Miglioramento delle caratteristiche dei nodi: Propone caratteristiche potenziate basate sull'operatore di diffusione grafica, superando i limiti della capacità espressiva delle GNN
- Verifica sperimentale: Dimostra l'efficacia del metodo su dataset molecolari, funzionando sia come metodo di pre-addestramento indipendente che come componente aggiuntiva per pipeline esistenti
Dato un grafico G=(V,E), l'obiettivo è pre-addestrare un modello GNN in modo che possa prevedere i k autovettori a frequenza più bassa della matrice laplaciana L=D−A, ovvero ψ1,ψ2,…,ψk, dove Lψi=λiψi.
Il framework LELM contiene tre componenti principali:
Codifica Posizionale Wavelet: Codifica le informazioni sulla posizione relativa tra i nodi
- Selezionare casualmente due nodi i,j, costruire segnali di Dirac δi,δj
- Applicare l'operatore wavelet Ψk=P2j−1−P2j, dove P=D−1A è l'operatore di diffusione
- Codifica posizionale wavelet per il nodo m: wm=[wm,1…wm,J]
Codifica Dirac di Diffusione: Codifica la struttura di connettività locale
- Per ogni nodo m, calcolare dm,k=Ψk(m,⋅)P(m,⋅)T
- Codifica Dirac di diffusione: dm=[dm,1…dm,J]
- GNN di base: Elabora il grafico con caratteristiche potenziate, generando rappresentazioni dei nodi
- Aggregazione a livello grafico: Concatena tutte le rappresentazioni dei nodi in un vettore a livello grafico Z=[z1,…,zn]∈Rnd
- Testa di previsione MLP: U~=MLP(Z) produce gli autovettori previsti
Impone vincoli di ortogonalità tramite decomposizione QR: U^=QR(U~)
Funzione di Perdita:
- Perdita di energia: Lenergy=k1∑i=1ku^iTLu^i
- Perdita di autovettori: Leigvec=k1∑i=1k∥Lu^i−λiu^i∥
- Perdita totale: L=α⋅Lenergy+β⋅Leigvec
- Design MLP a livello grafico: Evita il problema che l'MLP a livello di nodo non può apprendere interazioni a lunga distanza
- Obiettivo di autovettori: Gli autovettori laplaciani a bassa frequenza codificano naturalmente la struttura grafica globale, regionale e locale
- Miglioramento dell'operatore di diffusione: Fornisce informazioni di contesto strutturale, migliorando la capacità espressiva delle GNN
- Meccanismo di doppia perdita: La perdita di energia assicura la correttezza del sottospazio, mentre la perdita di autovettori assicura l'ordinamento rigoroso
- ZINC-12k: 12.000 grafi molecolari
- ZINC-250k: 250.000 grafi molecolari
- QM9: 134.000 grafi molecolari, contenenti molteplici proprietà chimiche quantistiche
- MAE (Mean Absolute Error): Metrica di valutazione principale
- ROC-AUC: Utilizzato per compiti di classificazione binaria
- Modelli di base: Modelli GIN e GPS non pre-addestrati
- Obiettivi di pre-addestramento alternativi: Grado del nodo, coefficiente di clustering locale, conteggio dei cicli, autovalori laplaciani
- Metodi di pre-addestramento esistenti: ContextPred, Masking, ecc.
- Epoche di pre-addestramento: 100-200 cicli
- Epoche di fine-tuning: 150-500 cicli
- Numero di autovettori: k=6
- Pesi della perdita: α=2,β=1 (esperimento principale)
- Ottimizzatore: Adam
- Tasso di apprendimento: 0.001
Confronto delle prestazioni su dataset ZINC e QM9:
| Modello | ZINC full | ZINC subset | QM9 μ | QM9 α | QM9 εHOMO |
|---|
| GIN + LELM | 0.130 | 0.353 | 0.484 | 0.489 | 0.00353 |
| GIN (baseline) | 0.228 | 0.438 | 0.472 | 1.132 | 0.00386 |
| GPS + LELM | 0.104 | 0.210 | 0.502 | 0.592 | 0.00372 |
| GPS (baseline) | 0.150 | 0.358 | 0.413 | 0.718 | 0.00434 |
LELM ha migliorato significativamente le prestazioni nella maggior parte dei compiti, con miglioramenti particolarmente evidenti sul dataset ZINC.
MLP a livello grafico vs MLP a livello di nodo:
| Modello | ZINC full | ZINC subset |
|---|
| GIN + LELM (livello grafico) | 0.130 | 0.353 |
| GIN + LELM (livello nodo) | 0.152 | 0.435 |
| GPS + LELM (livello grafico) | 0.104 | 0.210 |
| GPS + LELM (livello nodo) | 0.126 | 0.261 |
L'MLP a livello grafico ha significativamente superato l'MLP a livello di nodo in entrambe le architetture.
Confronto di obiettivi di pre-addestramento strutturato alternativi:
| Obiettivo di Pre-addestramento | ZINC full | ZINC subset |
|---|
| LELM | 0.130 | 0.353 |
| Grado del nodo | 0.238 | 0.471 |
| Coefficiente di clustering locale | 1.493 | 1.551 |
| Conteggio dei cicli | 0.285 | 0.420 |
| Autovalori laplaciani | 0.250 | 0.520 |
LELM ha chiaramente superato altri obiettivi di pre-addestramento strutturato.
Aggiungendo LELM come componente aggiuntiva ai pipeline di pre-addestramento esistenti nei compiti di previsione molecolare:
- Masking + LELM: Miglioramenti su tutti e 5 i dataset
- ContextPred + LELM: Miglioramenti nella maggior parte dei compiti
- Importanza dell'architettura a livello grafico: L'MLP a livello grafico può efficacemente apprendere dipendenze a lunga distanza
- Superiorità degli autovettori: Gli autovettori laplaciani sono più adatti di altri obiettivi strutturali per il pre-addestramento
- Universalità: LELM può essere combinato con metodi di pre-addestramento esistenti
- Scalabilità: Il metodo è applicabile a diverse architetture GNN (GIN, GPS)
- Metodi contrastivi:
- Contrasto grafico-nodo (Deep Graph Infomax, ecc.)
- Contrasto sottografo-nodo (InfoGraph, ecc.)
- Contrasto sottografo-sottografo (GraphCL, ecc.)
- Metodi predittivi:
- Ricostruzione grafica (mascheramento nodo/arco, autoencoder)
- Previsione di proprietà (connettività k-hop, metapercorsi)
- Codifica posizionale: Codifica posizionale standard nei Graph Transformer
- Reti neurali grafiche spettrali: Apprendimento di filtri nel dominio del segnale
- Clustering spettrale: Generazione di embedding a bassa dimensione per il clustering
- Partizione grafica: Vettore di Fiedler per la generazione di partizioni grafiche ottimali
LELM è il primo metodo di previsione di proprietà che utilizza gli autovettori del laplaciano grafico come obiettivo di pre-addestramento, colmando il vuoto nei metodi di pre-addestramento strutturato.
- Verifica dell'efficacia: LELM ha significativamente migliorato le prestazioni delle GNN nei compiti di previsione delle proprietà molecolari
- Innovazione architetturale: L'MLP a livello grafico risolve efficacemente il problema dell'eccessivo livellamento
- Framework universale: Può funzionare sia come metodo indipendente che come componente di miglioramento per pipeline esistenti
- Garanzie teoriche: La funzione di perdita possiede le necessarie invarianze di segno e base
- Capacità di apprendimento per trasferimento non esplorata: Attualmente verificata solo su dataset nello stesso dominio o correlati
- Complessità computazionale: Richiede la decomposizione degli autovalori del laplaciano, che potrebbe essere impegnativa per grafi di grandi dimensioni
- Generalizzazione cross-dominio: L'effetto su grafi sintetici o dataset cross-dominio rimane sconosciuto
- Significatività statistica: A causa dei costi computazionali, non sono stati riportati intervalli di errore
- Pre-addestramento cross-dominio: Esplorare gli effetti del pre-addestramento su grafi sintetici o dataset cross-dominio
- Applicazioni su larga scala: Investigare la scalabilità su grafi di dimensioni maggiori
- Analisi teorica: Analizzare più profondamente perché gli autovettori laplaciani sono un buon obiettivo di pre-addestramento
- Ottimizzazione architetturale: Ulteriore ottimizzazione del design dell'MLP a livello grafico
- Forte innovatività: Primo utilizzo degli autovettori laplaciani per il pre-addestramento di GNN, con un approccio originale
- Fondamenti teorici solidi: Gli autovettori laplaciani hanno basi teoriche profonde nella teoria dei grafi
- Design architetturale ingegnoso: L'MLP a livello grafico risolve efficacemente il problema dell'apprendimento delle dipendenze a lunga distanza
- Esperimenti completi: Include molteplici esperimenti di confronto, ablazione e miglioramento
- Buona universalità: Può essere combinato con diverse architetture GNN e metodi di pre-addestramento esistenti
- Dominio di applicazione limitato: Principalmente verificato su dati molecolari, l'effetto su altri tipi di grafi rimane sconosciuto
- Costi computazionali: Il costo computazionale della decomposizione degli autovalori potrebbe limitare le applicazioni su larga scala
- Sensibilità ai iperparametri: La scelta dei pesi della funzione di perdita e altri iperparametri manca di analisi sistematica
- Spiegazione teorica insufficiente: Manca un'analisi teorica approfondita del perché il metodo è efficace
- Valore accademico: Fornisce una nuova direzione di ricerca per il pre-addestramento grafico
- Valore pratico: Ha potenziale valore in applicazioni pratiche come la previsione delle proprietà molecolari
- Riproducibilità: Fornisce codice completo e configurazioni sperimentali
- Capacità ispirativa: Potrebbe ispirare più metodi di pre-addestramento basati su proprietà spettrali grafiche
- Previsione delle proprietà molecolari: Scenario di applicazione già verificato come efficace
- Analisi di reti sociali: Compiti che richiedono la comprensione della struttura globale
- Grafi di conoscenza: Compiti di inferenza grafica dove le informazioni strutturali sono importanti
- Reti biologiche: Applicazioni biologiche come reti di interazione proteica
L'articolo cita molteplici lavori correlati importanti, inclusi:
- Hu et al. (2019): "Strategies for pre-training graph neural networks" - Lavoro classico nel pre-addestramento grafico
- Shaham et al. (2018): "SpectralNet" - Metodo di rete neurale per il clustering spettrale
- Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - Apprendimento di rappresentazioni strutturali e posizionali
- Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - Architettura GPS
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un innovativo metodo di pre-addestramento per reti neurali grafiche. Sebbene vi siano spazi per miglioramenti in alcuni aspetti, l'idea centrale è innovativa, la verifica sperimentale è completa, e il contributo al campo del pre-addestramento grafico è significativo. L'universalità e la scalabilità del metodo gli conferiscono buone prospettive di applicazione pratica.