2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.
The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
academic

Un Metodo di Pre-addestramento Basato su Autovettori del Laplaciano Grafico per Reti Neurali Grafiche

Informazioni Fondamentali

  • ID Articolo: 2509.02803
  • Titolo: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
  • Autori: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2509.02803v2

Riassunto

Questo articolo propone un metodo di pre-addestramento per reti neurali grafiche basato su autovettori del laplaciano grafico. Affrontando l'insufficienza dei metodi di pre-addestramento strutturato nei modelli fondamentali grafici (GFMs), gli autori hanno sviluppato il modulo di apprendimento degli autovettori laplaciani (LELM), che esegue il pre-addestramento prevedendo gli autovettori a bassa frequenza del laplaciano grafico. Il metodo introduce un innovativo design architetturale che supera il problema dell'eccessivo livellamento, consentendo ai modelli GNN di apprendere dipendenze a lunga distanza. Gli esperimenti dimostrano che i modelli pre-addestrati utilizzando questo framework superano i modelli di base nei compiti di previsione delle proprietà molecolari.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Insufficienza dei metodi di pre-addestramento strutturato: I metodi di pre-addestramento attuali per le reti neurali grafiche si basano principalmente sulla ricostruzione delle caratteristiche e sull'apprendimento contrastivo, mentre i metodi basati sulle proprietà strutturali del grafico sono stati relativamente poco esplorati.
  2. Problema dell'eccessivo livellamento: Le GNN tradizionali basate sul passaggio di messaggi affrontano sfide nel catturare la struttura globale e regionale, con il fenomeno dell'eccessivo livellamento che aumenta con la profondità della rete.
  3. Difficoltà nell'apprendimento delle dipendenze a lunga distanza: Le architetture GNN attuali hanno limitazioni nella capacità espressiva nell'apprendimento delle relazioni di interdipendenza a lunga distanza nei grafi.

Importanza della Ricerca

  • Lo sviluppo di modelli fondamentali grafici richiede compiti di pre-addestramento auto-supervisionato efficaci
  • Le applicazioni consapevoli della struttura richiedono metodi di pre-addestramento che catturino la struttura grafica sottostante
  • Applicazioni come la previsione delle proprietà molecolari dipendono dalla comprensione della struttura globale del grafico

Limitazioni dei Metodi Esistenti

  • Metodi contrastivi: Utilizzano principalmente stimatori Jensen-Shannon o funzioni obiettivo InfoNCE, mancando di modellazione diretta delle informazioni strutturali
  • Metodi predittivi: La maggior parte si concentra su compiti di ricostruzione grafica, con pochi metodi basati sulla previsione delle proprietà grafiche
  • Capacità di rappresentazione strutturale: I metodi esistenti hanno difficoltà a catturare efficacemente le informazioni sulla struttura globale del grafico

Contributi Principali

  1. Proposta del framework LELM: Primo metodo che utilizza gli autovettori del laplaciano grafico come obiettivo di pre-addestramento
  2. Design architetturale innovativo: Introduce una testa MLP a livello grafico, consentendo alle GNN di catturare strutture su larga scala senza richiedere reti molto profonde
  3. Miglioramento delle caratteristiche dei nodi: Propone caratteristiche potenziate basate sull'operatore di diffusione grafica, superando i limiti della capacità espressiva delle GNN
  4. Verifica sperimentale: Dimostra l'efficacia del metodo su dataset molecolari, funzionando sia come metodo di pre-addestramento indipendente che come componente aggiuntiva per pipeline esistenti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un grafico G=(V,E)G = (V,E), l'obiettivo è pre-addestrare un modello GNN in modo che possa prevedere i kk autovettori a frequenza più bassa della matrice laplaciana L=DAL = D - A, ovvero ψ1,ψ2,,ψk\psi_1, \psi_2, \ldots, \psi_k, dove Lψi=λiψiL\psi_i = \lambda_i\psi_i.

Architettura del Modello

Il framework LELM contiene tre componenti principali:

1. Miglioramento delle Caratteristiche dei Nodi

Codifica Posizionale Wavelet: Codifica le informazioni sulla posizione relativa tra i nodi

  • Selezionare casualmente due nodi i,ji, j, costruire segnali di Dirac δi,δj\delta_i, \delta_j
  • Applicare l'operatore wavelet Ψk=P2j1P2j\Psi_k = P^{2^{j-1}} - P^{2^j}, dove P=D1AP = D^{-1}A è l'operatore di diffusione
  • Codifica posizionale wavelet per il nodo mm: wm=[wm,1wm,J]w_m = [w_{m,1} \ldots w_{m,J}]

Codifica Dirac di Diffusione: Codifica la struttura di connettività locale

  • Per ogni nodo mm, calcolare dm,k=Ψk(m,)P(m,)Td_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T
  • Codifica Dirac di diffusione: dm=[dm,1dm,J]d_m = [d_{m,1} \ldots d_{m,J}]

2. MLP a Livello Grafico

  • GNN di base: Elabora il grafico con caratteristiche potenziate, generando rappresentazioni dei nodi
  • Aggregazione a livello grafico: Concatena tutte le rappresentazioni dei nodi in un vettore a livello grafico Z=[z1,,zn]RndZ = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}
  • Testa di previsione MLP: U~=MLP(Z)\tilde{U} = \text{MLP}(Z) produce gli autovettori previsti

3. Previsione degli Autovettori

Impone vincoli di ortogonalità tramite decomposizione QR: U^=QR(U~)\hat{U} = \text{QR}(\tilde{U})

Funzione di Perdita:

  • Perdita di energia: Lenergy=1ki=1ku^iTLu^iL_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i
  • Perdita di autovettori: Leigvec=1ki=1kLu^iλiu^iL_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|
  • Perdita totale: L=αLenergy+βLeigvecL = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}

Punti di Innovazione Tecnica

  1. Design MLP a livello grafico: Evita il problema che l'MLP a livello di nodo non può apprendere interazioni a lunga distanza
  2. Obiettivo di autovettori: Gli autovettori laplaciani a bassa frequenza codificano naturalmente la struttura grafica globale, regionale e locale
  3. Miglioramento dell'operatore di diffusione: Fornisce informazioni di contesto strutturale, migliorando la capacità espressiva delle GNN
  4. Meccanismo di doppia perdita: La perdita di energia assicura la correttezza del sottospazio, mentre la perdita di autovettori assicura l'ordinamento rigoroso

Configurazione Sperimentale

Dataset

  • ZINC-12k: 12.000 grafi molecolari
  • ZINC-250k: 250.000 grafi molecolari
  • QM9: 134.000 grafi molecolari, contenenti molteplici proprietà chimiche quantistiche

Metriche di Valutazione

  • MAE (Mean Absolute Error): Metrica di valutazione principale
  • ROC-AUC: Utilizzato per compiti di classificazione binaria

Metodi di Confronto

  • Modelli di base: Modelli GIN e GPS non pre-addestrati
  • Obiettivi di pre-addestramento alternativi: Grado del nodo, coefficiente di clustering locale, conteggio dei cicli, autovalori laplaciani
  • Metodi di pre-addestramento esistenti: ContextPred, Masking, ecc.

Dettagli di Implementazione

  • Epoche di pre-addestramento: 100-200 cicli
  • Epoche di fine-tuning: 150-500 cicli
  • Numero di autovettori: k=6k = 6
  • Pesi della perdita: α=2,β=1\alpha = 2, \beta = 1 (esperimento principale)
  • Ottimizzatore: Adam
  • Tasso di apprendimento: 0.001

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni su dataset ZINC e QM9:

ModelloZINC fullZINC subsetQM9 μQM9 αQM9 εHOMO
GIN + LELM0.1300.3530.4840.4890.00353
GIN (baseline)0.2280.4380.4721.1320.00386
GPS + LELM0.1040.2100.5020.5920.00372
GPS (baseline)0.1500.3580.4130.7180.00434

LELM ha migliorato significativamente le prestazioni nella maggior parte dei compiti, con miglioramenti particolarmente evidenti sul dataset ZINC.

Esperimenti di Ablazione

MLP a livello grafico vs MLP a livello di nodo:

ModelloZINC fullZINC subset
GIN + LELM (livello grafico)0.1300.353
GIN + LELM (livello nodo)0.1520.435
GPS + LELM (livello grafico)0.1040.210
GPS + LELM (livello nodo)0.1260.261

L'MLP a livello grafico ha significativamente superato l'MLP a livello di nodo in entrambe le architetture.

Confronto di obiettivi di pre-addestramento strutturato alternativi:

Obiettivo di Pre-addestramentoZINC fullZINC subset
LELM0.1300.353
Grado del nodo0.2380.471
Coefficiente di clustering locale1.4931.551
Conteggio dei cicli0.2850.420
Autovalori laplaciani0.2500.520

LELM ha chiaramente superato altri obiettivi di pre-addestramento strutturato.

Miglioramento dei Metodi di Pre-addestramento Esistenti

Aggiungendo LELM come componente aggiuntiva ai pipeline di pre-addestramento esistenti nei compiti di previsione molecolare:

  • Masking + LELM: Miglioramenti su tutti e 5 i dataset
  • ContextPred + LELM: Miglioramenti nella maggior parte dei compiti

Scoperte Sperimentali

  1. Importanza dell'architettura a livello grafico: L'MLP a livello grafico può efficacemente apprendere dipendenze a lunga distanza
  2. Superiorità degli autovettori: Gli autovettori laplaciani sono più adatti di altri obiettivi strutturali per il pre-addestramento
  3. Universalità: LELM può essere combinato con metodi di pre-addestramento esistenti
  4. Scalabilità: Il metodo è applicabile a diverse architetture GNN (GIN, GPS)

Lavori Correlati

Classificazione dei Metodi di Pre-addestramento Grafico

  1. Metodi contrastivi:
    • Contrasto grafico-nodo (Deep Graph Infomax, ecc.)
    • Contrasto sottografo-nodo (InfoGraph, ecc.)
    • Contrasto sottografo-sottografo (GraphCL, ecc.)
  2. Metodi predittivi:
    • Ricostruzione grafica (mascheramento nodo/arco, autoencoder)
    • Previsione di proprietà (connettività k-hop, metapercorsi)

Applicazioni degli Autovettori Laplaciani

  • Codifica posizionale: Codifica posizionale standard nei Graph Transformer
  • Reti neurali grafiche spettrali: Apprendimento di filtri nel dominio del segnale
  • Clustering spettrale: Generazione di embedding a bassa dimensione per il clustering
  • Partizione grafica: Vettore di Fiedler per la generazione di partizioni grafiche ottimali

Posizionamento del Contributo

LELM è il primo metodo di previsione di proprietà che utilizza gli autovettori del laplaciano grafico come obiettivo di pre-addestramento, colmando il vuoto nei metodi di pre-addestramento strutturato.

Conclusioni e Discussione

Conclusioni Principali

  1. Verifica dell'efficacia: LELM ha significativamente migliorato le prestazioni delle GNN nei compiti di previsione delle proprietà molecolari
  2. Innovazione architetturale: L'MLP a livello grafico risolve efficacemente il problema dell'eccessivo livellamento
  3. Framework universale: Può funzionare sia come metodo indipendente che come componente di miglioramento per pipeline esistenti
  4. Garanzie teoriche: La funzione di perdita possiede le necessarie invarianze di segno e base

Limitazioni

  1. Capacità di apprendimento per trasferimento non esplorata: Attualmente verificata solo su dataset nello stesso dominio o correlati
  2. Complessità computazionale: Richiede la decomposizione degli autovalori del laplaciano, che potrebbe essere impegnativa per grafi di grandi dimensioni
  3. Generalizzazione cross-dominio: L'effetto su grafi sintetici o dataset cross-dominio rimane sconosciuto
  4. Significatività statistica: A causa dei costi computazionali, non sono stati riportati intervalli di errore

Direzioni Future

  1. Pre-addestramento cross-dominio: Esplorare gli effetti del pre-addestramento su grafi sintetici o dataset cross-dominio
  2. Applicazioni su larga scala: Investigare la scalabilità su grafi di dimensioni maggiori
  3. Analisi teorica: Analizzare più profondamente perché gli autovettori laplaciani sono un buon obiettivo di pre-addestramento
  4. Ottimizzazione architetturale: Ulteriore ottimizzazione del design dell'MLP a livello grafico

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Primo utilizzo degli autovettori laplaciani per il pre-addestramento di GNN, con un approccio originale
  2. Fondamenti teorici solidi: Gli autovettori laplaciani hanno basi teoriche profonde nella teoria dei grafi
  3. Design architetturale ingegnoso: L'MLP a livello grafico risolve efficacemente il problema dell'apprendimento delle dipendenze a lunga distanza
  4. Esperimenti completi: Include molteplici esperimenti di confronto, ablazione e miglioramento
  5. Buona universalità: Può essere combinato con diverse architetture GNN e metodi di pre-addestramento esistenti

Insufficienze

  1. Dominio di applicazione limitato: Principalmente verificato su dati molecolari, l'effetto su altri tipi di grafi rimane sconosciuto
  2. Costi computazionali: Il costo computazionale della decomposizione degli autovalori potrebbe limitare le applicazioni su larga scala
  3. Sensibilità ai iperparametri: La scelta dei pesi della funzione di perdita e altri iperparametri manca di analisi sistematica
  4. Spiegazione teorica insufficiente: Manca un'analisi teorica approfondita del perché il metodo è efficace

Impatto

  1. Valore accademico: Fornisce una nuova direzione di ricerca per il pre-addestramento grafico
  2. Valore pratico: Ha potenziale valore in applicazioni pratiche come la previsione delle proprietà molecolari
  3. Riproducibilità: Fornisce codice completo e configurazioni sperimentali
  4. Capacità ispirativa: Potrebbe ispirare più metodi di pre-addestramento basati su proprietà spettrali grafiche

Scenari di Applicazione

  1. Previsione delle proprietà molecolari: Scenario di applicazione già verificato come efficace
  2. Analisi di reti sociali: Compiti che richiedono la comprensione della struttura globale
  3. Grafi di conoscenza: Compiti di inferenza grafica dove le informazioni strutturali sono importanti
  4. Reti biologiche: Applicazioni biologiche come reti di interazione proteica

Bibliografia

L'articolo cita molteplici lavori correlati importanti, inclusi:

  • Hu et al. (2019): "Strategies for pre-training graph neural networks" - Lavoro classico nel pre-addestramento grafico
  • Shaham et al. (2018): "SpectralNet" - Metodo di rete neurale per il clustering spettrale
  • Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - Apprendimento di rappresentazioni strutturali e posizionali
  • Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - Architettura GPS

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un innovativo metodo di pre-addestramento per reti neurali grafiche. Sebbene vi siano spazi per miglioramenti in alcuni aspetti, l'idea centrale è innovativa, la verifica sperimentale è completa, e il contributo al campo del pre-addestramento grafico è significativo. L'universalità e la scalabilità del metodo gli conferiscono buone prospettive di applicazione pratica.