Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic
Selbsterkundende Sprachmodelle für erklärbare Linkvorhersage in zeitlichen Graphen mittels Reinforcement Learning
Die Linkvorhersage in zeitlichen Graphen (TG) ist eine Kernaufgabe, die es Modellen ermöglicht, zukünftige Verbindungen basierend auf historischen Interaktionen vorherzusagen. Obwohl traditionelle neuronale Netzwerkmethoden starke Leistungen zeigen, mangelt es ihnen an Interpretierbarkeit und sie können nicht auf unbekannten Graphen angewendet werden, ohne neu trainiert zu werden. Dieser Artikel präsentiert ReaL-TG (Reasoning-Enhanced Learning for Temporal Graphs), ein Reinforcement-Learning-Framework, das große Sprachmodelle durch Feinabstimmung zur Durchführung erklärbarer Linkvorhersagen in zeitlichen Graphen befähigt. ReaL-TG nutzt einen ergebnisbasierten Belohnungsmechanismus, um Modelle zu ermutigen, Inferenzstrategien aus der Graphstruktur eigenständig zu erkunden und Erklärungen zu generieren, die ihre Vorhersagen direkt unterstützen. Experimente zeigen, dass ReaL-TG-4B Ranking-Metriken übertrifft, einschließlich größerer hochmoderner LLMs wie GPT-5 mini, während gleichzeitig hochwertige Erklärungen produziert werden.
Die Linkvorhersage in zeitlichen Graphen zielt darauf ab, zukünftige Verbindungen basierend auf historischen Knoteninteraktionen vorherzusagen. Dies hat praktischen Wert in Anwendungen wie Empfehlungssystemen, Gemeinschaftserkennung und Finanzanalyse.
Traditionelle neuronale Methoden: Wie zeitliche Graphneuronale Netze (TGNNs) und Speichernetzwerke zeigen gute Ergebnisse, weisen aber zwei kritische Probleme auf:
Mangel an menschenlesbaren Erklärungen, was es schwierig macht, die Vertrauenswürdigkeit der Ergebnisse zu bewerten
Erfordern Neutraining bei Anwendung auf neue Graphen, keine nahtlose Verallgemeinerung
Bestehende LLM-Methoden:
Meist auf statische Graphen oder kleine synthetische zeitliche Graphen beschränkt
Risiko von Datenlecks (Textattribute könnten während des Vortrainings gesehen worden sein)
Mangelnde Bewertung der Qualität von LLM-generierten Inferenztrajektorien
Dieser Artikel zielt darauf ab, eine Methode zur Linkvorhersage in zeitlichen Graphen zu entwickeln, die sowohl hochwertige Vorhersagen als auch erklärbare Inferenzen liefert, während Datenlecks vermieden werden und auf unbekannte Graphen verallgemeinert werden können.
Präsentation des ReaL-TG-Frameworks: Das erste Framework, das LLMs durch Reinforcement Learning befähigt, erklärbare und effektive Linkvorhersagen auf realen zeitlichen Graphen durchzuführen
Neues Evaluierungsprotokoll: Kombiniert Ranking-Metriken und ein LLM-as-a-Judge-System, das nicht nur Vorhersagegenauigkeit, sondern auch Inferenzqualität und Halluzinationseffekte bewertet
Hervorragende experimentelle Ergebnisse: ReaL-TG-4B übertrifft größere hochmoderne LLMs sowohl auf bekannten als auch unbekannten Graphen und produziert hochwertige Erklärungen, die durch LLM-Bewertung und menschliche Evaluierung bestätigt werden
Zeitliche Graphdefinition: Ein zeitlicher Graph G wird als zeitlich geordnete Interaktionssequenz dargestellt: G = {(ui, vi, ti)}, wobei ui, vi Quell- und Zielknoten sind und ti der Zeitstempel ist.
QA-basierte Linkvorhersage: Gegeben eine Abfrage q = (uq, ?, tq) und die Historie Htq, muss das LLM eine Textantwort A generieren, die die Menge der vorhergesagten Zielknoten vq angibt.
Der ausgewählte Kontextgraph Gc und die Abfrage q werden zu einem Prompt Q kombiniert, der das LLM auffordert, Inferenzen innerhalb von -Tags zu generieren und Vorhersagen innerhalb von -Tags zu geben.
Ergebnisgerichtete Selbsterkundung: Nicht abhängig von Überwachung auf Prozessebene, ermöglicht es Modellen, effektive Inferenzstrategien durch Ergebnisbelohnungen eigenständig zu entdecken
Zeitlich bewusste Kontextauswahl: Der T-CGS-Algorithmus berücksichtigt zeitlichen Verfall und wählt die relevantesten historischen Informationen aus
QA-basiertes Vorhersageparadigma: Im Vergleich zu traditionellen binären Klassifizierungsmethoden können vorhergesagte Knoten in einem einzigen Vorwärtsdurchlauf direkt ausgegeben werden, was die Rechenkosten erheblich senkt
Zeitliche Inferenz: Bestehende Benchmarks verlassen sich auf echtes Weltwissen, dieser Artikel nutzt anonymisierte Graphen zur Vermeidung von Datenlecks
Zheng et al. (2023): LLM-as-a-Judge-Bewertungsparadigma
Zusammenfassung: Dieser Artikel präsentiert ein innovatives Framework, das erfolgreich die Inferenzfähigkeiten großer Sprachmodelle mit dem Selbsterkundungsmechanismus des Reinforcement Learning kombiniert und bei der Linkvorhersageaufgabe in zeitlichen Graphen erhebliche Fortschritte erzielt. Obwohl es einige Einschränkungen gibt, eröffnen seine Beiträge zur Interpretierbarkeit und Verallgemeinerungsfähigkeit neue Richtungen für die Entwicklung dieses Feldes.