Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic
نماذج اللغة ذاتية الاستكشاف للتنبؤ بالروابط القابل للتفسير على الرسوم البيانية الزمنية عبر التعلم المعزز
التنبؤ بالروابط في الرسوم البيانية الزمنية (TG) هو مهمة أساسية تتطلب من النموذج الاستفادة من التفاعلات التاريخية للتنبؤ بالاتصالات المستقبلية. على الرغم من أن الطرق العصبية التقليدية تتمتع بأداء قوية، إلا أنها تفتقر إلى القابلية للتفسير ولا يمكن تطبيقها على رسوم بيانية غير مرئية دون إعادة التدريب. تقدم هذه الورقة ReaL-TG (التعلم المحسّن بالاستدلال للرسوم البيانية الزمنية)، وهو إطار عمل للتعلم المعزز يقوم بضبط نماذج اللغة الكبيرة لتنفيذ التنبؤ القابل للتفسير بالروابط على الرسوم البيانية الزمنية. يستخدم ReaL-TG آلية مكافآت قائمة على النتائج لتشجيع النموذج على استكشاف استراتيجيات استدلالية ذاتية من بنية الرسم البياني، وإنشاء تفسيرات تدعم توقعاته بشكل مباشر. تظهر التجارب أن ReaL-TG-4B يتفوق على نماذج لغة كبيرة أكثر تقدماً وأكبر حجماً، بما في ذلك GPT-5 mini، في مقاييس الترتيب، مع إنتاج تفسيرات عالية الجودة.
يهدف التنبؤ بالروابط في الرسوم البيانية الزمنية إلى التنبؤ بعلاقات الاتصال المستقبلية بناءً على التفاعلات التاريخية للعقد. هذا له قيمة مهمة في التطبيقات العملية مثل أنظمة التوصيات واكتشاف المجتمعات والتحليل المالي.
تهدف هذه الورقة إلى تطوير طريقة للتنبؤ بالروابط على الرسوم البيانية الزمنية يمكنها توفير تنبؤات عالية الجودة وإنشاء استدلالات قابلة للتفسير، مع تجنب مشاكل تسرب البيانات والقدرة على التعميم على رسوم بيانية غير مرئية.
اقتراح إطار عمل ReaL-TG: الإطار الأول الذي يمكّن نماذج اللغة الكبيرة من تنفيذ التنبؤ القابل للتفسير والفعال بالروابط على الرسوم البيانية الزمنية الحقيقية من خلال التعلم المعزز
بروتوكول تقييم جديد: يجمع بين مقاييس الترتيب ونظام LLM-as-a-Judge، لا يقيّم فقط دقة التنبؤ بل أيضاً جودة الاستدلال وتأثير الهلوسة
نتائج تجريبية متفوقة: يتفوق ReaL-TG-4B على نماذج لغة كبيرة أكثر تقدماً وأكبر حجماً على الرسوم البيانية المرئية وغير المرئية، وينتج تفسيرات عالية الجودة تم التحقق منها من خلال تقييم LLM والتقييم البشري
تعريف الرسم البياني الزمني: يتم تمثيل الرسم البياني الزمني G كسلسلة من التفاعلات مرتبة زمنياً: G = {(ui, vi, ti)}، حيث ui و vi هما عقدة المصدر والهدف، و ti هو الطابع الزمني.
التنبؤ بالروابط بصيغة الأسئلة والأجوبة: بالنظر إلى استعلام q = (uq, ?, tq) والسجل Htq، يجب على نموذج اللغة الكبيرة إنشاء إجابة نصية A تحدد مجموعة عقد الهدف المتنبأ بها vq.
الاستكشاف الذاتي الموجه بالنتائج: لا يعتمد على الإشراف على مستوى العملية، بل يسمح للنموذج باكتشاف استراتيجيات استدلالية فعالة من خلال مكافآت النتائج
اختيار السياق الزمني الحساس: تأخذ خوارزمية T-CGS في الاعتبار التحلل الزمني وتختار المعلومات التاريخية الأكثر صلة
نموذج التنبؤ بصيغة الأسئلة والأجوبة: مقارنة بطرق التصنيف الثنائي التقليدية، يمكن إخراج عقد التنبؤ مباشرة في تمريرة أمامية واحدة، مما يقلل بشكل كبير من التكلفة الحسابية
Rossi et al. (2020): شبكات الرسوم البيانية الزمنية
Shao et al. (2024): طريقة تحسين GRPO
Zheng et al. (2023): نموذج تقييم LLM-as-a-Judge
الملخص: تقدم هذه الورقة إطار عمل مبتكراً يجمع بنجاح بين قدرات الاستدلال لنماذج اللغة الكبيرة وآلية الاستكشاف الذاتي للتعلم المعزز، محققاً تقدماً كبيراً في مهمة التنبؤ بالروابط على الرسوم البيانية الزمنية. على الرغم من وجود بعض القيود، فإن مساهماتها في القابلية للتفسير والقدرة على التعميم تفتح اتجاهات جديدة لتطور هذا المجال.