2025-11-24T18:07:18.072734

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

Dai, Njenga, Madhu et al.

The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.

academic

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

基本信息

论文ID: 2509.02803
标题: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
作者: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
分类: cs.LG (Machine Learning)
发表时间: 2025年10月11日 (arXiv preprint)
论文链接: https://arxiv.org/abs/2509.02803v2

摘要

本文提出了一种基于图拉普拉斯特征向量的图神经网络预训练方法。针对图基础模型(GFMs)中结构化预训练方法不足的问题，作者开发了拉普拉斯特征向量学习模块(LELM)，通过预测图拉普拉斯的低频特征向量来进行预训练。该方法引入了新颖的架构设计，克服了过度平滑问题，使GNN模型能够学习长距离依赖关系。实验表明，使用该框架预训练的模型在分子性质预测任务上优于基线模型。

研究背景与动机

问题定义

结构化预训练方法不足：现有的图神经网络预训练方法主要基于特征重构和对比学习，而基于图结构性质的预训练方法相对较少探索。
过度平滑问题：传统的消息传递GNN在捕获全局和区域结构时面临挑战，随着网络深度增加，容易出现过度平滑现象。
长距离依赖学习困难：现有GNN架构在学习图中的长距离相互依赖关系方面存在表达能力限制。

研究重要性

图基础模型的发展需要有效的自监督预训练任务
结构感知的下游应用需要能够捕获底层图结构的预训练方法
分子性质预测等应用依赖于对图全局结构的理解

现有方法局限性

对比方法：主要使用Jensen-Shannon估计器或InfoNCE目标函数，缺乏对结构信息的直接建模
预测方法：大多数集中在图重构任务，基于图性质预测的方法较少
结构表示能力：现有方法难以有效捕获图的全局结构信息

核心贡献

提出LELM框架：首个使用图拉普拉斯特征向量作为预训练目标的方法
创新架构设计：引入图级别MLP头，使GNN能够捕获大规模结构而无需过深的网络
节点特征增强：基于图扩散算子提出增强节点特征，克服GNN的表达能力限制
实验验证：在分子数据集上证明了方法的有效性，可作为独立预训练方法或现有管道的插件

方法详解

任务定义

给定图 $G = (V,E)$ ，目标是预训练GNN模型，使其能够预测图拉普拉斯矩阵 $L = D - A$ 的 $k$ 个最低频特征向量 $\psi_1, \psi_2, \ldots, \psi_k$ ，其中 $L\psi_i = \lambda_i\psi_i$ 。

模型架构

LELM框架包含三个核心组件：

1. 节点特征增强

小波位置编码：编码节点间的相对位置信息

随机选择两个节点 $i, j$ ，构造狄拉克信号 $\delta_i, \delta_j$
应用小波算子 $\Psi_k = P^{2^{j-1}} - P^{2^j}$ ，其中 $P = D^{-1}A$ 是扩散算子
节点 $m$ 的小波位置编码： $w_m = [w_{m,1} \ldots w_{m,J}]$

扩散狄拉克编码：编码局部连通结构

对每个节点 $m$ ，计算 $d_{m,k} = \Psi_k(m, \cdot) P(m, \cdot)^T$
扩散狄拉克编码： $d_m = [d_{m,1} \ldots d_{m,J}]$

2. 图级别MLP

基础GNN：处理增强特征的图，生成节点表示
图级别聚合：将所有节点表示连接成图级别向量 $Z = [z_1, \ldots, z_n] \in \mathbb{R}^{nd}$
MLP预测头： $\tilde{U} = \text{MLP}(Z)$ 输出预测的特征向量

3. 特征向量预测

通过QR分解施加正交性约束： $\hat{U} = \text{QR}(\tilde{U})$

损失函数：

能量损失： $L_{\text{energy}} = \frac{1}{k}\sum_{i=1}^k \hat{u}_i^T L \hat{u}_i$
特征向量损失： $L_{\text{eigvec}} = \frac{1}{k}\sum_{i=1}^k \|L\hat{u}_i - \lambda_i\hat{u}_i\|$
总损失： $L = \alpha \cdot L_{\text{energy}} + \beta \cdot L_{\text{eigvec}}$

技术创新点

图级别MLP设计：避免了节点级别MLP无法学习长距离交互的问题
特征向量目标：低频拉普拉斯特征向量天然编码全局、区域和局部图结构
扩散算子增强：提供结构上下文信息，增强GNN表达能力
双重损失机制：能量损失确保子空间正确性，特征向量损失确保严格排序

实验设置

数据集

ZINC-12k：12,000个分子图
ZINC-250k：250,000个分子图
QM9：134,000个分子图，包含多个量子化学性质

评价指标

MAE (Mean Absolute Error)：主要评价指标
ROC-AUC：用于二分类任务

对比方法

基线模型：未预训练的GIN和GPS模型
替代预训练目标：节点度数、局部聚类系数、环计数、拉普拉斯特征值
现有预训练方法：ContextPred、Masking等

实现细节

预训练epochs：100-200轮
微调epochs：150-500轮
特征向量数量： $k = 6$
损失权重： $\alpha = 2, \beta = 1$ （主实验）
优化器：Adam
学习率：0.001

实验结果

主要结果

ZINC和QM9数据集性能对比：

模型	ZINC full	ZINC subset	QM9 μ	QM9 α	QM9 εHOMO
GIN + LELM	0.130	0.353	0.484	0.489	0.00353
GIN (baseline)	0.228	0.438	0.472	1.132	0.00386
GPS + LELM	0.104	0.210	0.502	0.592	0.00372
GPS (baseline)	0.150	0.358	0.413	0.718	0.00434

LELM在大多数任务上显著提升了性能，特别是在ZINC数据集上改进明显。

消融实验

图级别MLP vs 节点级别MLP：

模型	ZINC full	ZINC subset
GIN + LELM (图级别)	0.130	0.353
GIN + LELM (节点级别)	0.152	0.435
GPS + LELM (图级别)	0.104	0.210
GPS + LELM (节点级别)	0.126	0.261

图级别MLP在两种架构上都显著优于节点级别MLP。

替代结构预训练目标对比：

预训练目标	ZINC full	ZINC subset
LELM	0.130	0.353
节点度数	0.238	0.471
局部聚类系数	1.493	1.551
环计数	0.285	0.420
拉普拉斯特征值	0.250	0.520

LELM明显优于其他结构化预训练目标。

增强现有预训练方法

在分子预测任务上，将LELM作为插件添加到现有预训练管道中：

Masking + LELM：在所有5个数据集上都有提升
ContextPred + LELM：在大部分任务上有改进

实验发现

图级别架构的重要性：图级别MLP能有效学习长距离依赖
特征向量的优越性：拉普拉斯特征向量比其他结构目标更适合预训练
通用性：LELM可以与现有预训练方法结合使用
可扩展性：方法适用于不同的GNN架构（GIN、GPS）

结论与讨论

主要结论

有效性验证：LELM在分子性质预测任务上显著提升了GNN性能
架构创新：图级别MLP有效解决了过度平滑问题
通用框架：可作为独立方法或现有管道的增强组件
理论保证：损失函数具有必要的符号和基不变性

局限性

迁移学习能力未探索：目前仅在相同或相关领域数据集上验证
计算复杂度：需要计算拉普拉斯特征分解，对大图可能有挑战
跨域泛化性：在合成图或跨域数据集上的效果未知
统计显著性：由于计算成本限制，未报告误差条

未来方向

跨域预训练：探索在合成图或跨域数据集上的预训练效果
大规模应用：研究在更大规模图上的可扩展性
理论分析：深入分析为什么拉普拉斯特征向量是好的预训练目标
架构优化：进一步优化图级别MLP的设计

深度评价

优点

创新性强：首次将拉普拉斯特征向量用于GNN预训练，思路新颖
理论基础扎实：拉普拉斯特征向量在图论中有深厚理论基础
架构设计巧妙：图级别MLP有效解决了长距离依赖学习问题
实验充分：包含多种对比实验、消融实验和增强实验
通用性好：可与不同GNN架构和现有预训练方法结合

不足

应用领域有限：主要在分子数据上验证，其他图类型的效果未知
计算开销：特征分解的计算成本可能限制大规模应用
超参数敏感性：损失函数权重等超参数的选择缺乏系统分析
理论解释不足：缺乏对为什么该方法有效的深入理论分析

影响力

学术价值：为图预训练提供了新的研究方向
实用价值：在分子性质预测等实际应用中有潜在价值
可复现性：提供了完整的代码和实验设置
启发性：可能启发更多基于图谱性质的预训练方法

适用场景

分子性质预测：已验证有效的应用场景
社交网络分析：需要理解全局结构的任务
知识图谱：结构信息重要的图推理任务
生物网络：蛋白质相互作用网络等生物应用

参考文献

论文引用了多个重要的相关工作，包括：

Hu et al. (2019): "Strategies for pre-training graph neural networks" - 图预训练的经典工作
Shaham et al. (2018): "SpectralNet" - 谱聚类的神经网络方法
Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - 结构位置表示学习
Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - GPS架构

总体评价：这是一篇高质量的研究论文，提出了创新的图神经网络预训练方法。虽然在某些方面还有改进空间，但其核心思想新颖，实验验证充分，为图预训练领域做出了重要贡献。该方法的通用性和可扩展性使其具有较好的应用前景。

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks

基本信息

摘要

研究背景与动机

问题定义

研究重要性

现有方法局限性

核心贡献

方法详解

任务定义

模型架构

1. 节点特征增强

2. 图级别MLP

3. 特征向量预测

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

消融实验

增强现有预训练方法

实验发现

相关工作

图预训练方法分类

拉普拉斯特征向量应用

本文贡献定位

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献