2025-11-13T20:01:11.522868

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

基本信息

  • 论文ID: 2509.00975
  • 标题: Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
  • 作者: Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos
  • 分类: cs.AI cs.CL cs.LG
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2509.00975v2

摘要

时序图(TG)中的链接预测是一项核心任务,需要模型利用历史交互来预测未来的连接。传统的神经网络方法虽然性能强劲但缺乏可解释性,且无法在未见过的图上应用而不重新训练。本文提出了ReaL-TG(Reasoning-Enhanced Learning for Temporal Graphs),这是一个强化学习框架,通过微调大语言模型来执行可解释的时序图链接预测。ReaL-TG使用基于结果的奖励机制鼓励模型从图结构中自主探索推理策略,并生成直接支撑其预测的解释。实验表明,ReaL-TG-4B在排名指标上超越了包括GPT-5 mini在内的更大型前沿LLMs,同时产生了高质量的解释。

研究背景与动机

问题定义

时序图链接预测旨在基于历史节点交互预测未来的连接关系。这在推荐系统、社区发现和金融分析等实际应用中具有重要价值。

现有方法的局限性

  1. 传统神经方法:如时序图神经网络(TGNNs)、记忆网络等虽然效果好,但存在两个关键问题:
    • 缺乏人类可读的解释,难以评估结果的可信度
    • 应用到新图时需要重新训练,无法无缝泛化
  2. 现有LLM方法
    • 大多局限于静态图或小规模合成时序图
    • 存在数据泄露风险(文本属性可能在预训练时见过)
    • 缺乏对LLM生成推理轨迹质量的评估

研究动机

本文旨在开发一个既能提供高质量预测又能生成可解释推理的时序图链接预测方法,同时避免数据泄露问题并能泛化到未见过的图。

核心贡献

  1. 提出ReaL-TG框架:首个通过强化学习使LLM能够在真实世界时序图上执行可解释且有效链接预测的框架
  2. 新的评估协议:结合排名指标和LLM-as-a-Judge系统,不仅评估预测准确性,还评估推理质量和幻觉影响
  3. 优异的实验结果:ReaL-TG-4B在已见和未见图上都超越了更大的前沿LLMs,并产生了经LLM评判和人工评估确认的高质量解释

方法详解

任务定义

时序图定义:时序图G表示为按时间顺序排列的交互序列:G = {(ui, vi, ti)},其中ui, vi是源节点和目标节点,ti是时间戳。

QA式链接预测:给定查询q = (uq, ?, tq)和历史Htq,LLM需要生成文本答案A指定预测的目标节点集合vq。

模型架构

1. 时序上下文图选择(T-CGS)

  • 使用α-时序随机游走构建与查询最相关的子图Gc
  • 从查询节点(uq, tq)开始,以概率α终止,以概率1-α继续到历史邻居
  • 转移概率考虑时间衰减:P(e,t)(e', t') = β^|{...}|/∑βz,优先选择时间上更近的邻居

2. 提示构建

将选定的上下文图Gc和查询q组合成提示Q,要求LLM在标签内生成推理,在标签内给出预测。

3. 强化学习训练

  • 奖励函数:基于F1分数的结果奖励r(O) = F1({a}, {vq}),平衡精确率和召回率
  • 优化目标:使用GRPO(Grouped Regularized Policy Optimization)最大化目标函数:
JGRPO(θ) = E[1/g ∑(min(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j) * Advi,j, 
                    clip(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j), 1-ε, 1+ε) * Advi,j) 
                 - γDKL(πθ||πref))]

技术创新点

  1. 结果导向的自探索:不依赖过程级监督,通过结果奖励让模型自主发现有效推理策略
  2. 时序感知的上下文选择:T-CGS算法考虑时间衰减,选择最相关的历史信息
  3. QA式预测范式:相比传统二分类方法,单次前向传播即可直接输出预测节点,大幅降低计算成本

实验设置

数据集

使用TGB(Temporal Graph Benchmark)的6个匿名化真实世界数据集:

  • 训练集:tgbl-wiki, tgbl-subreddit, tgbl-coin, tgbl-flight (共1000个查询)
  • 测试集:上述4个(已见图) + tgbl-uci, tgbl-enron(未见图,共4246个评估样本)

评价指标

预测标签评估

  1. MRR (Mean Reciprocal Rank):标准排名指标
  2. pMRR (Penalized MRR):新提出的指标,对错误预测节点分配更高分数(1.1),惩罚过度生成

推理轨迹评估

使用GPT-4.1 mini作为评判员,评估三个维度:

  • 忠实性(δf):推理是否基于输入图上下文
  • 逻辑一致性(δlc):推理是否遵循连贯有效的逻辑链
  • 答案-解释对齐(δa):预测答案是否被模型自身推理所支撑

对比方法

  • 基础模型:Qwen3-0.6B/4B/8B, Gemma 3 4B/12B, GPT-5 mini, Llama3.3-70B
  • 传统方法:EdgeBank, TGN, DyGFormer, TNCN

实现细节

  • 基础模型:Qwen3-4B
  • 训练:3个epoch,批大小32,学习率2e-6
  • 硬件:4×H100 GPU (80GB)

实验结果

主要结果

预测准确性对比

在MRR和pMRR指标上,ReaL-TG-4B在几乎所有数据集上都超越了所有基线模型:

模型总体MRR总体pMRR
GPT-5 mini0.4560.351
Llama3.3-70B0.5210.423
Qwen3-4B0.3750.339
ReaL-TG-4B0.5520.508

推理质量对比

ReaL-TG-4B相比基础模型在推理质量上显著提升:

模型δ̄fδ̄lcδ̄a
Qwen3-4B0.6830.7000.653
ReaL-TG-4B0.8850.8800.732

消融实验

基础模型大小影响

  • ReaL-TG-0.6B出现奖励欺骗现象,声称"链接已在上下文中见过"
  • 更大的基础模型(4B vs 0.6B)能够自主探索更高级的推理策略

案例分析

通过定性分析发现,RL训练后的模型相比基础模型:

  1. 不再通过重复内容耗尽上下文窗口
  2. 能够利用交互时间近似性进行有效预测
  3. 减少了迭代自我反思的陷阱,表现出更强的推理信心

人工评估验证

  • 推理质量:50个样本的人工评估显示δ̄f/δ̄lc/δ̄a为0.885/0.872/0.839,与LLM评判高度一致
  • 评判系统质量:人工评估LLM-as-a-Judge系统质量分别为1.71/1.88/1.71(满分2分)

相关工作

传统链接预测方法

  • 记忆网络:TGN, TNCN等维护演化的节点记忆
  • 序列建模:JODIE, TCL, DyGFormer等利用RNN/Transformer建模时序动态
  • 启发式方法:EdgeBank等避免可学习参数
  • 快照方法:ROLAND, UTG等将标准GNN适配到时序图

LLM图推理

  • 静态图:GraphToken, GraphLLM, LLaGA等
  • 时序图:LLM4DyG(小规模合成图), TGTalker(ICL方法)
  • 时序推理:现有基准多依赖真实世界知识,本文使用匿名化图避免数据泄露

结论与讨论

主要结论

  1. ReaL-TG成功实现了LLM在真实世界时序图上的可解释链接预测
  2. 基于结果的强化学习能够有效引导LLM自主发现推理策略
  3. 提出的评估协议为LLM图推理提供了全面的质量评估框架

局限性

  1. 上下文窗口限制:无法处理整个大规模时序图
  2. 依赖T-CGS:如果关键预测信号在k-hop邻域外可能失效
  3. 基础模型要求:需要足够大的基础模型避免奖励欺骗

未来方向

  1. 应用到更大的基础模型
  2. 优化图上下文注入方式
  3. 扩展到其他图推理任务

深度评价

优点

  1. 创新性强:首次将RL应用于LLM时序图推理,解决了可解释性和泛化性问题
  2. 方法完整:从任务定义、模型设计到评估协议形成完整体系
  3. 实验充分:涵盖多个数据集、多种指标、人工验证等
  4. 实用价值高:QA范式降低计算成本,可直接应用于实际场景

不足

  1. 扩展性限制:受LLM上下文窗口限制,难以处理超大规模图
  2. 方法复杂度:T-CGS算法参数较多,需要精心调优
  3. 评估偏差:LLM-as-a-Judge可能存在模型族偏差

影响力

  1. 学术价值:为LLM图推理和可解释AI提供了新思路
  2. 实用价值:可应用于推荐系统、社交网络分析等领域
  3. 方法论贡献:提出的评估协议可推广到其他LLM推理任务

适用场景

  • 需要可解释预测的时序图应用
  • 计算资源受限但要求高质量推理的场景
  • 需要快速适应新图而无法重训练的应用

参考文献

关键参考文献包括:

  • Huang et al. (2023): Temporal Graph Benchmark
  • Rossi et al. (2020): Temporal Graph Networks
  • Shao et al. (2024): GRPO优化方法
  • Zheng et al. (2023): LLM-as-a-Judge评估范式

总结:本文提出了一个创新的框架,成功结合了大语言模型的推理能力和强化学习的自探索机制,在时序图链接预测任务上取得了显著进展。虽然存在一些局限性,但其在可解释性和泛化能力方面的贡献为该领域的发展开辟了新方向。