Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic
Modèles de Langage Auto-Exploratoires pour la Prédiction de Liens Explicable sur Graphes Temporels via Apprentissage par Renforcement
La prédiction de liens dans les graphes temporels (GT) est une tâche fondamentale nécessitant que les modèles exploitent les interactions historiques pour prédire les connexions futures. Bien que les méthodes de réseaux de neurones traditionnels offrent des performances robustes, elles manquent d'interprétabilité et ne peuvent pas être appliquées à des graphes non vus sans réentraînement. Cet article propose ReaL-TG (Reasoning-Enhanced Learning for Temporal Graphs), un cadre d'apprentissage par renforcement qui affine les grands modèles de langage pour effectuer une prédiction de liens explicable sur graphes temporels. ReaL-TG utilise un mécanisme de récompense basé sur les résultats pour encourager le modèle à explorer autonomiquement des stratégies de raisonnement à partir de la structure du graphe et à générer des explications soutenant directement ses prédictions. Les expériences montrent que ReaL-TG-4B surpasse les modèles de langage de pointe plus volumineux, y compris GPT-5 mini, sur les métriques de classement, tout en produisant des explications de haute qualité.
La prédiction de liens sur graphes temporels vise à prédire les connexions futures basées sur les interactions historiques entre nœuds. Cela revêt une importance significative dans les applications pratiques telles que les systèmes de recommandation, la détection de communautés et l'analyse financière.
Méthodes de réseaux de neurones traditionnels: Bien que les réseaux de neurones de graphes temporels (TGNNs) et les réseaux de mémoire offrent de bonnes performances, ils présentent deux problèmes critiques:
Absence d'explications lisibles par l'homme, rendant difficile l'évaluation de la fiabilité des résultats
Nécessité de réentraînement lors de l'application à de nouveaux graphes, incapacité à généraliser de manière transparente
Méthodes LLM existantes:
Plupart limitées aux graphes statiques ou aux petits graphes temporels synthétiques
Risque de fuite de données (les attributs textuels peuvent avoir été vus lors de la préformation)
Absence d'évaluation de la qualité des trajectoires de raisonnement générées par les LLM
Cet article vise à développer une méthode de prédiction de liens sur graphes temporels capable de fournir à la fois des prédictions de haute qualité et un raisonnement explicable, tout en évitant les problèmes de fuite de données et en généralisant à des graphes non vus.
Proposition du cadre ReaL-TG: Premier cadre permettant aux LLM d'effectuer une prédiction de liens explicable et efficace sur des graphes temporels du monde réel via l'apprentissage par renforcement
Nouveau protocole d'évaluation: Combinant des métriques de classement et un système LLM-as-a-Judge, évaluant non seulement la précision des prédictions mais aussi la qualité du raisonnement et l'impact des hallucinations
Résultats expérimentaux exceptionnels: ReaL-TG-4B surpasse les LLM de pointe plus volumineux sur les graphes vus et non vus, produisant des explications de haute qualité confirmées par évaluation LLM et humaine
Définition du graphe temporel: Un graphe temporel G est représenté comme une séquence d'interactions ordonnées temporellement: G = {(u_i, v_i, t_i)}, où u_i, v_i sont les nœuds source et cible, et t_i est l'horodatage.
Prédiction de liens au format QA: Étant donné une requête q = (u_q, ?, t_q) et l'historique H_, le LLM doit générer une réponse textuelle A spécifiant l'ensemble des nœuds cibles prédits v_q.
Utilise une marche aléatoire α-temporelle pour construire un sous-graphe G_c pertinent par rapport à la requête
Commence à partir du nœud de requête (u_q, t_q), se termine avec probabilité α, continue vers les voisins historiques avec probabilité 1-α
La probabilité de transition considère la décroissance temporelle: P_{(e,t)}(e', t') = β^|{...}|/∑β^z, privilégiant les voisins temporellement plus proches
Combine le graphe contextuel sélectionné G_c et la requête q en un prompt Q, demandant au LLM de générer le raisonnement dans les balises et la prédiction dans les balises .
Auto-exploration orientée par les résultats: N'utilisant pas de supervision au niveau du processus, le modèle découvre autonomiquement des stratégies de raisonnement efficaces via des récompenses basées sur les résultats
Sélection de contexte sensible au temps: L'algorithme T-CGS considère la décroissance temporelle, sélectionnant les informations historiques les plus pertinentes
Paradigme de prédiction au format QA: Comparé aux méthodes de classification binaire traditionnelles, un seul passage avant produit directement les nœuds prédits, réduisant considérablement le coût de calcul
Qualité du raisonnement: L'évaluation humaine sur 50 échantillons montre δ̄_f/δ̄_lc/δ̄_a de 0.885/0.872/0.839, hautement cohérente avec l'évaluation LLM
Qualité du système d'évaluation: L'évaluation humaine de la qualité du système LLM-as-a-Judge est respectivement de 1.71/1.88/1.71 (sur 2 points)
Raisonnement temporel: Les repères existants s'appuient principalement sur les connaissances du monde réel; cet article utilise des graphes anonymisés pour éviter la fuite de données
Innovation forte: Première application de l'RL au raisonnement LLM sur graphes temporels, résolvant les problèmes d'interprétabilité et de généralisation
Méthode complète: Formant un système complet de la définition de tâche, conception de modèle à protocole d'évaluation
Expérimentation approfondie: Couvrant plusieurs ensembles de données, multiples métriques, vérification humaine, etc.
Valeur pratique élevée: Le paradigme QA réduit le coût de calcul, applicable directement à des scénarios réels
Zheng et al. (2023): Paradigme d'évaluation LLM-as-a-Judge
Résumé: Cet article propose un cadre innovant combinant avec succès les capacités de raisonnement des grands modèles de langage et le mécanisme d'auto-exploration de l'apprentissage par renforcement, réalisant des progrès significatifs dans la tâche de prédiction de liens sur graphes temporels. Bien que présentant certaines limitations, ses contributions en matière d'interprétabilité et de capacité de généralisation ouvrent de nouvelles directions pour le développement du domaine.