2025-11-13T20:01:11.522868

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

Ding, Huang, Cao et al.

Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.

academic

सुदृढ़ भाषा मॉडल द्वारा सुदृढ़ अधिगम के माध्यम से अस्थायी ग्राफ़ पर व्याख्यायोग्य लिंक पूर्वानुमान

मूल जानकारी

पेपर ID: 2509.00975
शीर्षक: Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
लेखक: Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos
वर्गीकरण: cs.AI cs.CL cs.LG
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2509.00975v2

सारांश

अस्थायी ग्राफ़ (TG) में लिंक पूर्वानुमान एक मुख्य कार्य है जिसके लिए मॉडल को ऐतिहासिक अंतःक्रियाओं का उपयोग करके भविष्य के कनेक्शन की भविष्यवाणी करनी होती है। पारंपरिक तंत्रिका नेटवर्क विधियाँ शक्तिशाली प्रदर्शन प्रदान करती हैं लेकिन व्याख्यायोग्यता की कमी है और पुनः प्रशिक्षण के बिना अदेखे ग्राफ़ पर लागू नहीं की जा सकतीं। यह पेपर ReaL-TG (Reasoning-Enhanced Learning for Temporal Graphs) प्रस्तावित करता है, जो एक सुदृढ़ अधिगम ढांचा है जो बड़े भाषा मॉडल (LLM) को सूक्ष्म-समायोजित करके व्याख्यायोग्य अस्थायी ग्राफ़ लिंक पूर्वानुमान करने में सक्षम बनाता है। ReaL-TG परिणाम-आधारित पुरस्कार तंत्र का उपयोग करता है जो मॉडल को ग्राफ़ संरचना से स्वायत्त रूप से तर्क रणनीतियों की खोज करने और अपनी भविष्यवाणियों का समर्थन करने वाली व्याख्याएं उत्पन्न करने के लिए प्रोत्साहित करता है। प्रयोग दर्शाते हैं कि ReaL-TG-4B रैंकिंग मेट्रिक्स पर GPT-5 mini सहित बड़े अग्रणी LLM को पार करता है, साथ ही उच्च गुणवत्ता की व्याख्याएं भी प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अस्थायी ग्राफ़ लिंक पूर्वानुमान ऐतिहासिक नोड अंतःक्रियाओं के आधार पर भविष्य के कनेक्शन संबंधों की भविष्यवाणी करना है। यह अनुशंसा प्रणालियों, सामुदायिक खोज और वित्तीय विश्लेषण जैसे व्यावहारिक अनुप्रयोगों में महत्वपूर्ण मूल्य रखता है।

मौजूदा विधियों की सीमाएं

पारंपरिक तंत्रिका विधियाँ: अस्थायी ग्राफ़ तंत्रिका नेटवर्क (TGNNs), स्मृति नेटवर्क आदि अच्छे परिणाम देते हैं लेकिन दो महत्वपूर्ण समस्याएं हैं:
- मानव-पठनीय व्याख्याओं की कमी, परिणामों की विश्वसनीयता का आकलन करना कठिन है
- नए ग्राफ़ पर लागू करते समय पुनः प्रशिक्षण की आवश्यकता, निर्बाध सामान्यीकरण नहीं हो सकता
मौजूदा LLM विधियाँ:
- अधिकांश स्थिर ग्राफ़ या छोटे पैमाने के सिंथेटिक अस्थायी ग्राफ़ तक सीमित हैं
- डेटा रिसाव का जोखिम (पाठ विशेषताएं पूर्व-प्रशिक्षण के दौरान देखी जा सकती हैं)
- LLM द्वारा उत्पन्न तर्क प्रक्षेपवक्र की गुणवत्ता का मूल्यांकन नहीं

अनुसंधान प्रेरणा

यह पेपर एक ऐसी विधि विकसित करने का लक्ष्य रखता है जो उच्च गुणवत्ता की भविष्यवाणियाँ प्रदान करे और व्याख्यायोग्य तर्क उत्पन्न करे, साथ ही डेटा रिसाव समस्या से बचे और अदेखे ग्राफ़ पर सामान्यीकृत हो।

मुख्य योगदान

ReaL-TG ढांचा प्रस्तावित करना: पहला ढांचा जो सुदृढ़ अधिगम के माध्यम से LLM को वास्तविक दुनिया के अस्थायी ग्राफ़ पर व्याख्यायोग्य और प्रभावी लिंक पूर्वानुमान करने में सक्षम बनाता है
नया मूल्यांकन प्रोटोकॉल: रैंकिंग मेट्रिक्स और LLM-as-a-Judge प्रणाली को संयोजित करता है, जो न केवल पूर्वानुमान सटीकता का मूल्यांकन करता है बल्कि तर्क गुणवत्ता और भ्रम प्रभाव का भी मूल्यांकन करता है
उत्कृष्ट प्रायोगिक परिणाम: ReaL-TG-4B देखे गए और अदेखे दोनों ग्राफ़ पर बड़े अग्रणी LLM को पार करता है, और LLM मूल्यांकन और मानव मूल्यांकन द्वारा पुष्टि की गई उच्च गुणवत्ता की व्याख्याएं प्रदान करता है

विधि विवरण

कार्य परिभाषा

अस्थायी ग्राफ़ परिभाषा: अस्थायी ग्राफ़ G को समय-क्रमबद्ध अंतःक्रिया अनुक्रम के रूप में दर्शाया जाता है: G = {(ui, vi, ti)}, जहाँ ui, vi स्रोत और लक्ष्य नोड हैं, ti समय मुहर है।

QA-शैली लिंक पूर्वानुमान: क्वेरी q = (uq, ?, tq) और इतिहास Htq दिया गया है, LLM को पाठ उत्तर A उत्पन्न करना होता है जो पूर्वानुमानित लक्ष्य नोड सेट vq को निर्दिष्ट करता है।

मॉडल आर्किटेक्चर

1. अस्थायी संदर्भ ग्राफ़ चयन (T-CGS)

α-अस्थायी यादृच्छिक चलना का उपयोग करके क्वेरी के साथ सबसे प्रासंगिक उप-ग्राफ़ Gc का निर्माण करता है
क्वेरी नोड (uq, tq) से शुरू करके, संभावना α के साथ समाप्त करता है, संभावना 1-α के साथ ऐतिहासिक पड़ोसियों को जारी रखता है
संक्रमण संभावना समय क्षय पर विचार करता है: P(e,t)(e', t') = β^|{...}|/∑βz, समय में करीब पड़ोसियों को प्राथमिकता देता है

2. प्रॉम्प्ट निर्माण

चयनित संदर्भ ग्राफ़ Gc और क्वेरी q को प्रॉम्प्ट Q में संयोजित करता है, LLM को टैग के अंदर तर्क उत्पन्न करने और टैग के अंदर भविष्यवाणी देने के लिए आवश्यकता है।

3. सुदृढ़ अधिगम प्रशिक्षण

पुरस्कार फलन: F1 स्कोर-आधारित परिणाम पुरस्कार r(O) = F1({a}, {vq}), सटीकता और पुनः प्राप्ति को संतुलित करता है
अनुकूलन उद्देश्य: GRPO (Grouped Regularized Policy Optimization) का उपयोग करके उद्देश्य फलन को अधिकतम करता है:

JGRPO(θ) = E[1/g ∑(min(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j) * Advi,j, 
                    clip(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j), 1-ε, 1+ε) * Advi,j) 
                 - γDKL(πθ||πref))]

तकनीकी नवाचार बिंदु

परिणाम-उन्मुख स्व-अन्वेषण: प्रक्रिया-स्तरीय पर्यवेक्षण पर निर्भर नहीं, परिणाम पुरस्कार के माध्यम से मॉडल को स्वायत्त रूप से प्रभावी तर्क रणनीतियों की खोज करने देता है
अस्थायी-जागरूक संदर्भ चयन: T-CGS एल्गोरिथ्म समय क्षय पर विचार करता है, सबसे प्रासंगिक ऐतिहासिक जानकारी का चयन करता है
QA-शैली पूर्वानुमान प्रतिमान: पारंपरिक द्विआधारी वर्गीकरण विधि की तुलना में, एकल अग्रगामी पास सीधे पूर्वानुमानित नोड आउटपुट कर सकता है, कम्प्यूटेशनल लागत में भारी कमी

प्रायोगिक सेटअप

डेटासेट

TGB (Temporal Graph Benchmark) के 6 अनामित वास्तविक दुनिया डेटासेट का उपयोग:

प्रशिक्षण सेट: tgbl-wiki, tgbl-subreddit, tgbl-coin, tgbl-flight (कुल 1000 क्वेरी)
परीक्षण सेट: उपरोक्त 4 (देखे गए ग्राफ़) + tgbl-uci, tgbl-enron (अदेखे ग्राफ़, कुल 4246 मूल्यांकन नमूने)

मूल्यांकन मेट्रिक्स

पूर्वानुमान लेबल मूल्यांकन

MRR (Mean Reciprocal Rank): मानक रैंकिंग मेट्रिक
pMRR (Penalized MRR): नया प्रस्तावित मेट्रिक, गलत पूर्वानुमान नोड को उच्च स्कोर (1.1) आवंटित करता है, अत्यधिक उत्पादन को दंडित करता है

तर्क प्रक्षेपवक्र मूल्यांकन

GPT-4.1 mini को न्यायाधीश के रूप में उपयोग करता है, तीन आयामों का मूल्यांकन करता है:

विश्वसनीयता (δf): क्या तर्क इनपुट ग्राफ़ संदर्भ पर आधारित है
तार्किक सुसंगतता (δlc): क्या तर्क सुसंगत वैध तार्किक श्रृंखला का पालन करता है
उत्तर-व्याख्या संरेखण (δa): क्या पूर्वानुमानित उत्तर मॉडल के स्वयं के तर्क द्वारा समर्थित है

तुलनात्मक विधियाँ

आधार मॉडल: Qwen3-0.6B/4B/8B, Gemma 3 4B/12B, GPT-5 mini, Llama3.3-70B
पारंपरिक विधियाँ: EdgeBank, TGN, DyGFormer, TNCN

कार्यान्वयन विवरण

आधार मॉडल: Qwen3-4B
प्रशिक्षण: 3 epoch, बैच आकार 32, सीखने की दर 2e-6
हार्डवेयर: 4×H100 GPU (80GB)

प्रायोगिक परिणाम

मुख्य परिणाम

पूर्वानुमान सटीकता तुलना

MRR और pMRR मेट्रिक्स पर, ReaL-TG-4B लगभग सभी डेटासेट पर सभी आधार मॉडल को पार करता है:

मॉडल	कुल MRR	कुल pMRR
GPT-5 mini	0.456	0.351
Llama3.3-70B	0.521	0.423
Qwen3-4B	0.375	0.339
ReaL-TG-4B	0.552	0.508

तर्क गुणवत्ता तुलना

ReaL-TG-4B आधार मॉडल की तुलना में तर्क गुणवत्ता में महत्वपूर्ण सुधार:

मॉडल	δ̄f	δ̄lc	δ̄a
Qwen3-4B	0.683	0.700	0.653
ReaL-TG-4B	0.885	0.880	0.732

विलोपन प्रयोग

आधार मॉडल आकार प्रभाव

ReaL-TG-0.6B पुरस्कार धोखाधड़ी की घटना दिखाता है, दावा करता है "लिंक पहले से संदर्भ में देखा गया है"
बड़े आधार मॉडल (4B बनाम 0.6B) स्वायत्त रूप से उच्च स्तरीय तर्क रणनीतियों की खोज कर सकते हैं

केस विश्लेषण

गुणात्मक विश्लेषण के माध्यम से पाया गया कि RL प्रशिक्षण के बाद मॉडल आधार मॉडल की तुलना में:

संदर्भ विंडो को दोहराए गए सामग्री से समाप्त करना बंद करता है
अंतःक्रिया समय निकटता का उपयोग करके प्रभावी भविष्यवाणी कर सकता है
पुनरावृत्ति स्व-प्रतिबिंब के जाल को कम करता है, मजबूत तर्क आत्मविश्वास दिखाता है

मानव मूल्यांकन सत्यापन

तर्क गुणवत्ता: 50 नमूनों का मानव मूल्यांकन δ̄f/δ̄lc/δ̄a को 0.885/0.872/0.839 दिखाता है, LLM मूल्यांकन के साथ उच्च सहमति
न्यायाधीश प्रणाली गुणवत्ता: LLM-as-a-Judge प्रणाली की मानव मूल्यांकन गुणवत्ता क्रमशः 1.71/1.88/1.71 (पूर्ण अंक 2)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ReaL-TG वास्तविक दुनिया के अस्थायी ग्राफ़ पर LLM के व्याख्यायोग्य लिंक पूर्वानुमान को सफलतापूर्वक लागू करता है
परिणाम-आधारित सुदृढ़ अधिगम LLM को स्वायत्त रूप से तर्क रणनीतियों की खोज करने के लिए प्रभावी रूप से निर्देशित कर सकता है
प्रस्तावित मूल्यांकन प्रोटोकॉल LLM ग्राफ़ तर्क के लिए व्यापक गुणवत्ता मूल्यांकन ढांचा प्रदान करता है

सीमाएं

संदर्भ विंडो सीमा: पूरे बड़े पैमाने के अस्थायी ग्राफ़ को संभाल नहीं सकता
T-CGS पर निर्भरता: यदि महत्वपूर्ण पूर्वानुमान संकेत k-hop पड़ोस के बाहर हो तो विफल हो सकता है
आधार मॉडल आवश्यकता: पुरस्कार धोखाधड़ी से बचने के लिए पर्याप्त बड़े आधार मॉडल की आवश्यकता है

भविष्य की दिशाएं

बड़े आधार मॉडल पर लागू करना
ग्राफ़ संदर्भ इंजेक्शन विधि को अनुकूलित करना
अन्य ग्राफ़ तर्क कार्यों तक विस्तार करना

गहन मूल्यांकन

शक्तियाँ

मजबूत नवाचार: पहली बार RL को LLM अस्थायी ग्राफ़ तर्क पर लागू करना, व्याख्यायोग्यता और सामान्यीकरण समस्याओं को हल करना
पूर्ण विधि: कार्य परिभाषा, मॉडल डिजाइन से मूल्यांकन प्रोटोकॉल तक पूर्ण प्रणाली बनाता है
पर्याप्त प्रयोग: कई डेटासेट, कई मेट्रिक्स, मानव सत्यापन आदि शामिल
उच्च व्यावहारिक मूल्य: QA प्रतिमान कम्प्यूटेशनल लागत को कम करता है, वास्तविक परिदृश्यों में सीधे लागू किया जा सकता है

कमियाँ

विस्तारशीलता सीमा: LLM संदर्भ विंडो सीमा से प्रभावित, अति-बड़े पैमाने के ग्राफ़ को संभालना कठिन
विधि जटिलता: T-CGS एल्गोरिथ्म में कई पैरामीटर हैं, सावधानीपूर्वक ट्यूनिंग की आवश्यकता है
मूल्यांकन पूर्वाग्रह: LLM-as-a-Judge मॉडल परिवार पूर्वाग्रह से ग्रस्त हो सकता है

प्रभाव

शैक्षणिक मूल्य: LLM ग्राफ़ तर्क और व्याख्यायोग्य AI के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: अनुशंसा प्रणाली, सामाजिक नेटवर्क विश्लेषण आदि में लागू किया जा सकता है
पद्धति योगदान: प्रस्तावित मूल्यांकन प्रोटोकॉल अन्य LLM तर्क कार्यों तक विस्तारित किया जा सकता है

लागू परिदृश्य

व्याख्यायोग्य पूर्वानुमान की आवश्यकता वाले अस्थायी ग्राफ़ अनुप्रयोग
सीमित कम्प्यूटेशनल संसाधन लेकिन उच्च गुणवत्ता तर्क की आवश्यकता वाले परिदृश्य
नए ग्राफ़ के लिए तेजी से अनुकूलन की आवश्यकता जहाँ पुनः प्रशिक्षण संभव नहीं है

संदर्भ

मुख्य संदर्भ साहित्य में शामिल हैं:

Huang et al. (2023): Temporal Graph Benchmark
Rossi et al. (2020): Temporal Graph Networks
Shao et al. (2024): GRPO अनुकूलन विधि
Zheng et al. (2023): LLM-as-a-Judge मूल्यांकन प्रतिमान

सारांश: यह पेपर एक नवाचारी ढांचा प्रस्तावित करता है जो बड़े भाषा मॉडल की तर्क क्षमता और सुदृढ़ अधिगम की स्व-अन्वेषण तंत्र को सफलतापूर्वक संयोजित करता है, अस्थायी ग्राफ़ लिंक पूर्वानुमान कार्य पर महत्वपूर्ण प्रगति प्राप्त करता है। हालांकि कुछ सीमाएं हैं, लेकिन व्याख्यायोग्यता और सामान्यीकरण क्षमता में इसका योगदान इस क्षेत्र के विकास के लिए नई दिशा खोलता है।