2025-11-13T20:01:11.522868

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic

強化学習による時系列グラフの説明可能なリンク予測のための自己探索言語モデル

基本情報

  • 論文ID: 2509.00975
  • タイトル: Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
  • 著者: Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos
  • 分類: cs.AI cs.CL cs.LG
  • 発表日: 2025年10月13日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2509.00975v2

概要

時系列グラフ(TG)におけるリンク予測は、過去の相互作用を活用して将来の接続を予測する必要がある中核的なタスクです。従来のニューラルネットワーク手法は性能が優れている一方で、解釈可能性に欠け、未見のグラフに対して再学習なしに適用できません。本論文では、ReaL-TG(Reasoning-Enhanced Learning for Temporal Graphs)を提案します。これは大規模言語モデル(LLM)を微調整して説明可能な時系列グラフリンク予測を実行する強化学習フレームワークです。ReaL-TGは結果ベースの報酬メカニズムを使用して、モデルがグラフ構造から推論戦略を自律的に探索し、その予測を直接支持する説明を生成するよう促します。実験により、ReaL-TG-4BはGPT-5 miniを含むより大規模な最先端LLMを上回るランキング指標を達成しながら、高品質の説明を生成することが示されました。

研究背景と動機

問題定義

時系列グラフリンク予測は、過去のノード相互作用に基づいて将来の接続関係を予測することを目的としています。これは推奨システム、コミュニティ検出、金融分析などの実用的なアプリケーションで重要な価値があります。

既存手法の限界

  1. 従来のニューラル手法:時系列グラフニューラルネットワーク(TGNNs)やメモリネットワークなどは効果的ですが、2つの重要な問題があります:
    • 人間が読める説明に欠け、結果の信頼性を評価することが困難
    • 新しいグラフへの適用時に再学習が必要であり、シームレスな汎化ができない
  2. 既存のLLM手法
    • ほとんどが静的グラフまたは小規模な合成時系列グラフに限定
    • データ漏洩のリスク(テキスト属性が事前学習時に見られている可能性)
    • LLMが生成する推論軌跡の品質評価が不足

研究動機

本論文は、高品質の予測と解釈可能な推論の両方を提供できる時系列グラフリンク予測手法を開発することを目指しており、データ漏洩問題を回避しながら未見のグラフに汎化できます。

核心的貢献

  1. ReaL-TGフレームワークの提案:強化学習を通じてLLMが実世界の時系列グラフ上で説明可能かつ効果的なリンク予測を実行できるようにする初めてのフレームワーク
  2. 新しい評価プロトコル:ランキング指標とLLM-as-a-Judge システムを組み合わせ、予測精度だけでなく推論品質と幻覚の影響も評価
  3. 優れた実験結果:ReaL-TG-4Bは見たことのあるグラフと未見のグラフの両方でより大規模な最先端LLMを上回り、LLM評価と人間評価で確認された高品質の説明を生成

方法の詳細

タスク定義

時系列グラフの定義:時系列グラフGは時系列順に並べられた相互作用シーケンスとして表現されます:G = {(ui, vi, ti)}、ここでui、viはソースノードとターゲットノード、tiはタイムスタンプです。

QA形式のリンク予測:クエリq = (uq, ?, tq)と履歴Htqが与えられた場合、LLMは予測されたターゲットノード集合vqを指定するテキスト回答Aを生成する必要があります。

モデルアーキテクチャ

1. 時系列コンテキストグラフ選択(T-CGS)

  • α-時系列ランダムウォークを使用してクエリに最も関連するサブグラフGcを構築
  • クエリノード(uq, tq)から開始し、確率αで終了、確率1-αで過去の隣接ノードに継続
  • 遷移確率は時間減衰を考慮:P(e,t)(e', t') = β^|{...}|/∑βz、時間的に近い隣接ノードを優先

2. プロンプト構築

選択されたコンテキストグラフGcとクエリqを組み合わせてプロンプトQを構成し、LLMにタグ内で推論を生成し、タグ内で予測を提供するよう要求します。

3. 強化学習訓練

  • 報酬関数:F1スコアベースの結果報酬 r(O) = F1({a}, {vq})、精度と再現率のバランスを取ります
  • 最適化目標:GRPO(Grouped Regularized Policy Optimization)を使用して目的関数を最大化:
JGRPO(θ) = E[1/g ∑(min(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j) * Advi,j, 
                    clip(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j), 1-ε, 1+ε) * Advi,j) 
                 - γDKL(πθ||πref))]

技術的革新点

  1. 結果志向の自己探索:プロセスレベルの監督に依存せず、結果報酬を通じてモデルが有効な推論戦略を自律的に発見
  2. 時系列認識のコンテキスト選択:T-CGSアルゴリズムは時間減衰を考慮し、最も関連する履歴情報を選択
  3. QA形式の予測パラダイム:従来の二値分類手法と比較して、単一の前方パスで予測ノードを直接出力でき、計算コストを大幅に削減

実験設定

データセット

TGB(Temporal Graph Benchmark)の6つの匿名化された実世界データセットを使用:

  • 訓練セット:tgbl-wiki, tgbl-subreddit, tgbl-coin, tgbl-flight (合計1000クエリ)
  • テストセット:上記4つ(見たことのあるグラフ) + tgbl-uci, tgbl-enron(未見グラフ、合計4246評価サンプル)

評価指標

予測ラベル評価

  1. MRR (Mean Reciprocal Rank):標準的なランキング指標
  2. pMRR (Penalized MRR):新たに提案された指標で、誤った予測ノードにより高いスコア(1.1)を割り当て、過度な生成にペナルティを与える

推論軌跡評価

GPT-4.1 miniを評判者として使用し、3つの次元を評価:

  • 忠実性(δf):推論が入力グラフコンテキストに基づいているかどうか
  • 論理的一貫性(δlc):推論が一貫性のある有効な論理チェーンに従うかどうか
  • 回答-説明の整合性(δa):予測回答がモデル自身の推論によって支持されているかどうか

比較手法

  • 基本モデル:Qwen3-0.6B/4B/8B, Gemma 3 4B/12B, GPT-5 mini, Llama3.3-70B
  • 従来の手法:EdgeBank, TGN, DyGFormer, TNCN

実装詳細

  • 基本モデル:Qwen3-4B
  • 訓練:3エポック、バッチサイズ32、学習率2e-6
  • ハードウェア:4×H100 GPU (80GB)

実験結果

主要結果

予測精度の比較

MRRおよびpMRR指標において、ReaL-TG-4Bはほぼすべてのデータセットで全てのベースラインモデルを上回りました:

モデル全体MRR全体pMRR
GPT-5 mini0.4560.351
Llama3.3-70B0.5210.423
Qwen3-4B0.3750.339
ReaL-TG-4B0.5520.508

推論品質の比較

ReaL-TG-4Bは基本モデルと比較して推論品質が大幅に向上:

モデルδ̄fδ̄lcδ̄a
Qwen3-4B0.6830.7000.653
ReaL-TG-4B0.8850.8800.732

アブレーション実験

基本モデルサイズの影響

  • ReaL-TG-0.6Bは報酬ハッキング現象を示し、「リンクはコンテキストで既に見られている」と主張
  • より大規模な基本モデル(4B対0.6B)はより高度な推論戦略を自律的に探索できる

ケーススタディ

定性分析を通じて、RL訓練後のモデルは基本モデルと比較して以下のことが判明:

  1. コンテキストウィンドウを消費するためにコンテンツを繰り返すことはなくなった
  2. 相互作用の時間近接性を利用して効果的な予測を行うことができる
  3. 反復的な自己反省の罠を減らし、より強い推論の確信を示す

人間による評価検証

  • 推論品質:50サンプルの人間評価はδ̄f/δ̄lc/δ̄aが0.885/0.872/0.839であり、LLM評価と高度に一致
  • 評判システム品質:LLM-as-a-Judge システム品質の人間評価は各々1.71/1.88/1.71(満点2点)

関連研究

従来のリンク予測手法

  • メモリネットワーク:TGN、TCNNなどが進化するノードメモリを維持
  • シーケンスモデリング:JODIE、TCL、DyGFormerなどがRNN/Transformerを使用して時系列ダイナミクスをモデル化
  • ヒューリスティック手法:EdgeBankなどが学習可能なパラメータを回避
  • スナップショット手法:ROLAND、UTGなどが標準GNNを時系列グラフに適応

LLMグラフ推論

  • 静的グラフ:GraphToken、GraphLLM、LLaGAなど
  • 時系列グラフ:LLM4DyG(小規模合成グラフ)、TGTalker(ICL手法)
  • 時系列推論:既存ベンチマークは実世界知識に依存することが多く、本論文は匿名化グラフを使用してデータ漏洩を回避

結論と考察

主要な結論

  1. ReaL-TGは実世界の時系列グラフ上でのLLMによる説明可能なリンク予測の実装に成功
  2. 結果ベースの強化学習はLLMが推論戦略を自律的に発見するのに効果的
  3. 提案された評価プロトコルはLLMグラフ推論の包括的な品質評価フレームワークを提供

限界

  1. コンテキストウィンドウの制限:全体的な大規模時系列グラフを処理できない
  2. T-CGSへの依存:重要な予測信号がk-ホップ隣域外にある場合、失効する可能性
  3. 基本モデルの要件:報酬ハッキングを回避するために十分に大規模な基本モデルが必要

今後の方向性

  1. より大規模な基本モデルへの適用
  2. グラフコンテキスト注入方法の最適化
  3. 他のグラフ推論タスクへの拡張

深い評価

強み

  1. 革新性が高い:RL をLLM時系列グラフ推論に初めて適用し、解釈可能性と汎化性の問題を解決
  2. 方法が完全:タスク定義、モデル設計から評価プロトコルまで完全なシステムを形成
  3. 実験が充分:複数のデータセット、多様な指標、人間検証を含む
  4. 実用価値が高い:QA パラダイムは計算コストを削減し、実際のシナリオに直接適用可能

不足点

  1. スケーラビリティの制限:LLMコンテキストウィンドウの制限により、超大規模グラフの処理が困難
  2. 方法の複雑性:T-CGSアルゴリズムはパラメータが多く、慎重な調整が必要
  3. 評価バイアス:LLM-as-a-Judge はモデルファミリーバイアスが存在する可能性

影響力

  1. 学術的価値:LLMグラフ推論と説明可能なAIに新しい視点を提供
  2. 実用的価値:推奨システム、ソーシャルネットワーク分析などに適用可能
  3. 方法論的貢献:提案された評価プロトコルは他のLLM推論タスクに推広可能

適用シーン

  • 説明可能な予測が必要な時系列グラフアプリケーション
  • 計算リソースが限定されているが高品質の推論が必要なシーン
  • 再訓練なしに新しいグラフに迅速に適応する必要があるアプリケーション

参考文献

主要な参考文献には以下が含まれます:

  • Huang et al. (2023): Temporal Graph Benchmark
  • Rossi et al. (2020): Temporal Graph Networks
  • Shao et al. (2024): GRPO最適化手法
  • Zheng et al. (2023): LLM-as-a-Judge評価パラダイム

要約:本論文は、大規模言語モデルの推論能力と強化学習の自己探索メカニズムを成功裏に組み合わせた革新的なフレームワークを提案し、時系列グラフリンク予測タスクで顕著な進展を達成しました。いくつかの限界がありますが、解釈可能性と汎化能力の面での貢献は、この分野の発展に新しい方向性を開きました。