2025-11-13T10:52:11.188844

What Do Temporal Graph Learning Models Learn?

Hayes, Schumacher, Strohmaier
Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
academic

What Do Temporal Graph Learning Models Learn?

基本信息

  • 论文ID: 2510.09416
  • 标题: What Do Temporal Graph Learning Models Learn?
  • 作者: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
  • 分类: cs.LG cs.SI
  • 发表时间: 2025年10月10日(arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09416

摘要

时间图学习已成为图表示学习的核心主题,众多基准测试表明最先进模型具有强劲性能。然而,最近的研究对基准结果的可靠性提出了担忧,指出了常用评估协议的问题以及简单启发式方法令人惊讶的竞争力。这种对比引发了一个问题:时间图学习模型实际使用底层图的哪些属性来形成预测?本文通过系统评估七个模型捕获与时间图链接结构相关的八个基本属性的能力来解决这一问题。这些属性包括密度等结构特征、近期性等时间模式,以及同质性等边形成机制。使用合成和真实世界数据集,分析模型学习这些属性的效果。研究发现呈现混合图景:模型能很好地捕获某些属性,但无法再现其他属性,从而暴露了重要的局限性。

研究背景与动机

问题背景

  1. 基准评估的可靠性问题:尽管时间图学习模型在各种基准测试中表现出色,但最近研究发现评估协议存在缺陷,包括测试集和评估指标的问题导致不现实的结果。
  2. 简单启发式的竞争力:令人惊讶的是,预测涉及最近活跃和全局流行节点的边等简单启发式方法,其性能与许多最先进模型相当。
  3. 模型可解释性缺失:即使特定模型在给定基准数据集上表现良好,也不清楚哪些因素促成了这种性能,更具体地说,模型利用哪些图属性来形成预测。

研究动机

本研究旨在退一步评估流行图学习模型学习时间图简单、可解释属性的能力,为时间图学习模型的实际应用提供实用见解,并推动更注重可解释性的评估。

核心贡献

  1. 提出了新颖的评估框架:系统评估时间图学习模型捕获直观时间网络属性的能力
  2. 识别了现有模型的局限性:发现模型在区分边的方向、检测周期模式或强调最近观察到的图动态方面存在局限
  3. 提供了实践指导:为深度图学习模型的实际应用提供见解
  4. 建立了可解释性基准:为时间图学习模型更注重可解释性的评估提供基准,补充现有的面向性能的基准

方法详解

任务定义

本文评估七个最先进时间图学习模型学习八个基本图属性的能力:

  • 一般图特征:时间粒度、边方向、密度
  • 时间模式:持久性、周期性、近期性
  • 边形成机制:同质性、优先连接

评估框架

模型选择

评估了七个代表性模型:

  • DyGFormer:基于Transformer的动态图模型
  • GraphMixer:简化架构的时间网络模型
  • DyRep:基于循环神经网络的表示学习
  • JODIE:联合动态用户和项目嵌入
  • TGN:时间图网络
  • TCL:基于对比学习的Transformer动态图建模
  • TGAT:归纳时间图表示学习

数据集设计

  1. 真实数据集:Enron邮件网络、UCI消息网络、Wikipedia编辑网络
  2. 合成数据集:针对特定属性设计的人工图,如随机块模型(SBM)用于同质性测试,Barabási-Albert模型用于优先连接测试

评估方法

对每个属性设计专门的实验:

  • 使用合成和真实数据集的组合
  • 控制变量以隔离特定属性的影响
  • 通过概率分数、准确率等指标评估模型性能

技术创新点

  1. 系统性评估方法:首次系统性地评估时间图模型对基本图属性的学习能力
  2. 多维度属性分析:涵盖结构、时间和机制三个维度的属性
  3. 合成数据验证:通过精心设计的合成数据集验证模型对特定属性的学习能力
  4. 可解释性导向:从可解释性角度而非纯性能角度评估模型

实验设置

数据集详情

数据集节点数连续边数离散边数唯一边数离散时间步
Enron184125,23510,4723,12545(月)
UCI1,89959,83526,62820,29629(周)
Wikipedia9,277157,47465,08518,257745(时)

评价指标

  • ROC-AUC:用于链接预测性能评估
  • 平衡准确率:用于分类任务
  • 概率分数分布:用于分析模型预测行为
  • 边分组统计:用于特定属性的定量分析

实现细节

  • 学习率:1e-4
  • 批大小:200
  • 损失函数:BCELoss
  • 优化器:Adam
  • 最大训练轮数:300
  • 早停容忍度:1e-6
  • 时间特征维度:100

实验结果

主要发现总结

图属性DyGFormerDyRepJODIEGraphMixerTCLTGATTGN
时间粒度
方向
密度
持久性
周期性
近期性
同质性
优先连接

详细结果分析

1. 时间粒度

  • 扁平化时间戳严重损害性能,表明模型确实利用时间信息
  • GraphMixer和DyRep在时间戳离散化时性能下降最多
  • TGAT在离散时间步上表现更好

2. 边方向

  • 关键发现:所有模型都无法有效区分边的方向
  • 约50%的边,正向边和反向边的预测概率差异小于0.02
  • 即使在双向训练中,大多数模型仍产生近似对称的预测

3. 密度

  • 重要局限:所有模型都无法学习图的密度
  • 预测密度通常比真实密度低几个数量级
  • 模型倾向于预测所有边为负,当看到大量负样本时

4. 持久性

  • DyGFormer和TGAT能够学习持久图
  • JODIE和TGN在这个简单任务上表现不佳

5. 周期性

  • GraphMixer和TCL能够很好地区分奇偶时间步
  • DyGFormer无法区分时间步,类似EdgeBank基线的行为

6. 近期性

  • 令人惊讶的结果:所有模型都不强调最近观察到的边
  • 边的平均概率分数不因最后观察时间而变化
  • 这与基于最近活跃节点的启发式方法的成功形成对比

7. 同质性

  • DyGFormer和TCL能够平衡地预测组内链接
  • JODIE极度偏向群组0
  • 大多数模型更倾向于预测群组1内的链接

8. 优先连接

  • 一致成功:所有模型都学会了优先连接
  • 高度节点的边获得更高的平均概率
  • 遵循幂律度分布模式

相关工作

动态图学习基准

  • Temporal Graph Benchmark (TGB):评估时间图神经网络质量
  • BenchTemp:专注于时间图数据的基准
  • 统一框架:连接离散时间和连续时间模型

时间链接预测模型的局限性

  • EdgeBank基线:简单基线与最先进方法性能相似
  • 时间模式学习局限:时间戳扰动对性能影响很小
  • 启发式方法的成功:基于流行度和近期活跃度的启发式超越复杂模型

结论与讨论

主要结论

  1. 混合表现:模型在某些属性上表现良好(如优先连接),但在其他方面存在严重局限(如方向区分、密度预测)
  2. 一致性局限:所有模型都无法区分边的方向,不强调近期性,无法准确预测密度
  3. 模型差异:不同模型在学习特定属性方面存在显著差异,为实际应用中的模型选择提供指导

局限性

  1. 数据集限制:由于实验的广泛性,使用的数据集数量有限,可能不能代表所有网络相关的图数据集
  2. 属性选择:评估的八个属性并非详尽无遗,还有其他重要的图属性值得考虑
  3. 模型范围:仅包括连续时间模型,未涵盖离散时间设置的模型

未来方向

  1. 模型改进:针对发现的局限性(密度、方向、近期性)设计新的模型
  2. 框架扩展
    • 添加更多图属性评估
    • 包括离散时间模型
    • 考虑异构网络
  3. 应用指导:基于属性学习能力为不同应用场景推荐合适的模型

深度评价

优点

  1. 系统性强:首次系统性地从可解释性角度评估时间图学习模型,填补了重要空白
  2. 方法严谨:通过合成和真实数据集的结合,控制变量的实验设计确保了结果的可靠性
  3. 发现重要:揭示了看似强大的模型在基本属性学习方面的严重局限,具有重要的实践价值
  4. 应用导向:为模型选择和应用提供了实用指导,而非仅关注基准性能

不足

  1. 理论分析不足:缺乏对为什么某些模型在特定属性上失败的深入理论分析
  2. 改进方案缺失:主要指出了问题但没有提供具体的改进建议或方法
  3. 评估指标单一:某些实验可能需要更多样化的评估指标来全面评估模型能力

影响力

  1. 学术价值:为时间图学习领域引入了新的评估视角,可能影响未来的模型设计和评估标准
  2. 实用价值:为实践者选择合适的模型提供了重要参考,避免盲目追求基准性能
  3. 研究启发:暴露的局限性为未来研究提供了明确的改进方向

适用场景

  1. 模型选择:在特定应用中需要考虑边方向、密度预测等属性时的模型选择指导
  2. 基准设计:为设计更全面的时间图学习基准提供参考
  3. 模型开发:为开发新的时间图学习模型提供改进目标和评估标准

参考文献

论文引用了广泛的相关工作,包括:

  • 时间图基准测试相关工作(TGB, BenchTemp等)
  • 时间图学习模型的局限性研究
  • 图学习评估方法的批评性研究
  • 经典图模型(随机块模型、Barabási-Albert模型等)

总体评价:这是一篇具有重要价值的研究工作,通过系统性的可解释性评估揭示了时间图学习模型的重要局限性。研究方法严谨,发现具有实践意义,为领域发展提供了新的视角和改进方向。虽然在理论分析和解决方案方面还有改进空间,但其贡献足以推动领域向更注重可解释性和实用性的方向发展。