2025-11-13T20:01:11.522868

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic

نماذج اللغة ذاتية الاستكشاف للتنبؤ بالروابط القابل للتفسير على الرسوم البيانية الزمنية عبر التعلم المعزز

المعلومات الأساسية

  • معرّف الورقة: 2509.00975
  • العنوان: Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
  • المؤلفون: Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos
  • التصنيف: cs.AI cs.CL cs.LG
  • تاريخ النشر: 13 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2509.00975v2

الملخص

التنبؤ بالروابط في الرسوم البيانية الزمنية (TG) هو مهمة أساسية تتطلب من النموذج الاستفادة من التفاعلات التاريخية للتنبؤ بالاتصالات المستقبلية. على الرغم من أن الطرق العصبية التقليدية تتمتع بأداء قوية، إلا أنها تفتقر إلى القابلية للتفسير ولا يمكن تطبيقها على رسوم بيانية غير مرئية دون إعادة التدريب. تقدم هذه الورقة ReaL-TG (التعلم المحسّن بالاستدلال للرسوم البيانية الزمنية)، وهو إطار عمل للتعلم المعزز يقوم بضبط نماذج اللغة الكبيرة لتنفيذ التنبؤ القابل للتفسير بالروابط على الرسوم البيانية الزمنية. يستخدم ReaL-TG آلية مكافآت قائمة على النتائج لتشجيع النموذج على استكشاف استراتيجيات استدلالية ذاتية من بنية الرسم البياني، وإنشاء تفسيرات تدعم توقعاته بشكل مباشر. تظهر التجارب أن ReaL-TG-4B يتفوق على نماذج لغة كبيرة أكثر تقدماً وأكبر حجماً، بما في ذلك GPT-5 mini، في مقاييس الترتيب، مع إنتاج تفسيرات عالية الجودة.

الخلفية البحثية والدافع

تعريف المشكلة

يهدف التنبؤ بالروابط في الرسوم البيانية الزمنية إلى التنبؤ بعلاقات الاتصال المستقبلية بناءً على التفاعلات التاريخية للعقد. هذا له قيمة مهمة في التطبيقات العملية مثل أنظمة التوصيات واكتشاف المجتمعات والتحليل المالي.

قيود الطرق الموجودة

  1. الطرق العصبية التقليدية: مثل الشبكات العصبية للرسوم البيانية الزمنية (TGNNs) والشبكات الذاكرة، على الرغم من فعاليتها، تعاني من مشكلتين رئيسيتين:
    • تفتقر إلى التفسيرات القابلة للقراءة من قبل الإنسان، مما يصعب تقييم موثوقية النتائج
    • عند التطبيق على رسوم بيانية جديدة، تتطلب إعادة تدريب ولا يمكنها التعميم بسلاسة
  2. طرق نماذج اللغة الكبيرة الموجودة:
    • معظمها مقتصر على الرسوم البيانية الثابتة أو الرسوم البيانية الزمنية الاصطناعية الصغيرة
    • توجد مخاطر تسرب البيانات (قد تكون الخصائص النصية قد شوهدت أثناء التدريب المسبق)
    • تفتقر إلى تقييم جودة مسارات الاستدلال التي تنتجها نماذج اللغة الكبيرة

الدافع البحثي

تهدف هذه الورقة إلى تطوير طريقة للتنبؤ بالروابط على الرسوم البيانية الزمنية يمكنها توفير تنبؤات عالية الجودة وإنشاء استدلالات قابلة للتفسير، مع تجنب مشاكل تسرب البيانات والقدرة على التعميم على رسوم بيانية غير مرئية.

المساهمات الأساسية

  1. اقتراح إطار عمل ReaL-TG: الإطار الأول الذي يمكّن نماذج اللغة الكبيرة من تنفيذ التنبؤ القابل للتفسير والفعال بالروابط على الرسوم البيانية الزمنية الحقيقية من خلال التعلم المعزز
  2. بروتوكول تقييم جديد: يجمع بين مقاييس الترتيب ونظام LLM-as-a-Judge، لا يقيّم فقط دقة التنبؤ بل أيضاً جودة الاستدلال وتأثير الهلوسة
  3. نتائج تجريبية متفوقة: يتفوق ReaL-TG-4B على نماذج لغة كبيرة أكثر تقدماً وأكبر حجماً على الرسوم البيانية المرئية وغير المرئية، وينتج تفسيرات عالية الجودة تم التحقق منها من خلال تقييم LLM والتقييم البشري

شرح الطريقة

تعريف المهمة

تعريف الرسم البياني الزمني: يتم تمثيل الرسم البياني الزمني G كسلسلة من التفاعلات مرتبة زمنياً: G = {(ui, vi, ti)}، حيث ui و vi هما عقدة المصدر والهدف، و ti هو الطابع الزمني.

التنبؤ بالروابط بصيغة الأسئلة والأجوبة: بالنظر إلى استعلام q = (uq, ?, tq) والسجل Htq، يجب على نموذج اللغة الكبيرة إنشاء إجابة نصية A تحدد مجموعة عقد الهدف المتنبأ بها vq.

معمارية النموذج

1. اختيار الرسم البياني السياقي الزمني (T-CGS)

  • استخدام المشي العشوائي α-الزمني لبناء رسم بياني فرعي Gc ذي صلة بالاستعلام
  • البدء من عقدة الاستعلام (uq, tq)، مع احتمالية α للإنهاء واحتمالية 1-α للمتابعة إلى الجيران التاريخيين
  • تأخذ احتمالية الانتقال في الاعتبار التحلل الزمني: P(e,t)(e', t') = β^|{...}|/∑βz، مع إعطاء الأولوية للجيران الأقرب زمنياً

2. بناء المطالبة

دمج الرسم البياني السياقي المختار Gc والاستعلام q في مطالبة Q، مع طلب من نموذج اللغة الكبيرة إنشاء استدلال داخل علامات وإعطاء التنبؤ داخل علامات .

3. تدريب التعلم المعزز

  • دالة المكافآت: مكافآت قائمة على النتائج بناءً على درجة F1: r(O) = F1({a}, {vq})، مع موازنة الدقة والاستدعاء
  • الهدف الأمثل: استخدام GRPO (تحسين السياسة المنتظمة المجمعة) لتعظيم دالة الهدف:
JGRPO(θ) = E[1/g ∑(min(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j) * Advi,j, 
                    clip(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j), 1-ε, 1+ε) * Advi,j) 
                 - γDKL(πθ||πref))]

نقاط الابتكار التقني

  1. الاستكشاف الذاتي الموجه بالنتائج: لا يعتمد على الإشراف على مستوى العملية، بل يسمح للنموذج باكتشاف استراتيجيات استدلالية فعالة من خلال مكافآت النتائج
  2. اختيار السياق الزمني الحساس: تأخذ خوارزمية T-CGS في الاعتبار التحلل الزمني وتختار المعلومات التاريخية الأكثر صلة
  3. نموذج التنبؤ بصيغة الأسئلة والأجوبة: مقارنة بطرق التصنيف الثنائي التقليدية، يمكن إخراج عقد التنبؤ مباشرة في تمريرة أمامية واحدة، مما يقلل بشكل كبير من التكلفة الحسابية

إعداد التجربة

مجموعات البيانات

استخدام 6 مجموعات بيانات حقيقية مجهولة الهوية من TGB (معيار الرسم البياني الزمني):

  • مجموعة التدريب: tgbl-wiki, tgbl-subreddit, tgbl-coin, tgbl-flight (إجمالي 1000 استعلام)
  • مجموعة الاختبار: المجموعات الأربع أعلاه (رسوم بيانية مرئية) + tgbl-uci, tgbl-enron (رسوم بيانية غير مرئية، إجمالي 4246 عينة تقييم)

مقاييس التقييم

تقييم تسميات التنبؤ

  1. MRR (متوسط الترتيب المتبادل): مقياس ترتيب قياسي
  2. pMRR (MRR المعاقب): مقياس مقترح جديد، يخصص درجات أعلى لعقد التنبؤ الخاطئة (1.1)، ويعاقب الإنتاج المفرط

تقييم مسارات الاستدلال

استخدام GPT-4.1 mini كمقيّم، تقييم ثلاثة أبعاد:

  • الإخلاص (δf): هل الاستدلال مبني على سياق الرسم البياني المدخل
  • الاتساق المنطقي (δlc): هل يتبع الاستدلال سلسلة منطقية متماسكة وصحيحة
  • محاذاة الإجابة والتفسير (δa): هل يتم دعم إجابة التنبؤ بالاستدلال الذي ينتجه النموذج نفسه

طرق المقارنة

  • النماذج الأساسية: Qwen3-0.6B/4B/8B, Gemma 3 4B/12B, GPT-5 mini, Llama3.3-70B
  • الطرق التقليدية: EdgeBank, TGN, DyGFormer, TNCN

تفاصيل التنفيذ

  • النموذج الأساسي: Qwen3-4B
  • التدريب: 3 حقب، حجم الدفعة 32، معدل التعلم 2e-6
  • الأجهزة: 4×H100 GPU (80GB)

نتائج التجربة

النتائج الرئيسية

مقارنة دقة التنبؤ

على مقاييس MRR و pMRR، يتفوق ReaL-TG-4B على جميع نماذج الأساس تقريباً على جميع مجموعات البيانات:

النموذجإجمالي MRRإجمالي pMRR
GPT-5 mini0.4560.351
Llama3.3-70B0.5210.423
Qwen3-4B0.3750.339
ReaL-TG-4B0.5520.508

مقارنة جودة الاستدلال

يحقق ReaL-TG-4B تحسناً كبيراً في جودة الاستدلال مقارنة بالنموذج الأساسي:

النموذجδ̄fδ̄lcδ̄a
Qwen3-4B0.6830.7000.653
ReaL-TG-4B0.8850.8800.732

تجارب الاستئصال

تأثير حجم النموذج الأساسي

  • يظهر ReaL-TG-0.6B ظاهرة خداع المكافآت، حيث يدّعي أن "الرابط قد شوهد بالفعل في السياق"
  • النماذج الأساسية الأكبر (4B مقابل 0.6B) يمكنها استكشاف استراتيجيات استدلالية أكثر تقدماً بشكل مستقل

تحليل الحالات

من خلال التحليل النوعي، تم اكتشاف أن النموذج بعد تدريب التعلم المعزز مقارنة بالنموذج الأساسي:

  1. لم يعد يستنزف نافذة السياق من خلال تكرار المحتوى
  2. يمكنه الاستفادة من قرب وقت التفاعل للتنبؤ الفعال
  3. يقلل من فخاخ التأمل الذاتي المتكرر، ويظهر ثقة استدلالية أقوى

التحقق من التقييم البشري

  • جودة الاستدلال: يظهر التقييم البشري لـ 50 عينة أن δ̄f/δ̄lc/δ̄a هي 0.885/0.872/0.839، مع اتساق عالي مع تقييم LLM
  • جودة نظام التقييم: يقيّم التقييم البشري لجودة نظام LLM-as-a-Judge بـ 1.71/1.88/1.71 (من أصل 2)

الأعمال ذات الصلة

طرق التنبؤ بالروابط التقليدية

  • شبكات الذاكرة: TGN, TNCN وغيرها تحافظ على ذاكرة العقدة المتطورة
  • نمذجة التسلسل: JODIE, TCL, DyGFormer وغيرها تستخدم RNN/Transformer لنمذجة الديناميكيات الزمنية
  • الطرق الاستكشافية: EdgeBank وغيرها تتجنب المعاملات القابلة للتعلم
  • طرق اللقطات: ROLAND, UTG وغيرها تكيف GNN القياسي مع الرسوم البيانية الزمنية

استدلال الرسوم البيانية لنماذج اللغة الكبيرة

  • الرسوم البيانية الثابتة: GraphToken, GraphLLM, LLaGA وغيرها
  • الرسوم البيانية الزمنية: LLM4DyG (رسوم بيانية اصطناعية صغيرة)، TGTalker (طريقة ICL)
  • الاستدلال الزمني: تعتمد المعايير الموجودة في الغالب على المعرفة الحقيقية، تستخدم هذه الورقة رسوم بيانية مجهولة الهوية لتجنب تسرب البيانات

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. نجح ReaL-TG في تحقيق التنبؤ القابل للتفسير بالروابط على الرسوم البيانية الزمنية الحقيقية باستخدام نماذج اللغة الكبيرة
  2. يمكن للتعلم المعزز القائم على النتائج أن يوجه بفعالية نماذج اللغة الكبيرة لاكتشاف استراتيجيات استدلالية بشكل مستقل
  3. يوفر بروتوكول التقييم المقترح إطار عمل شاملاً لتقييم جودة استدلال الرسوم البيانية لنماذج اللغة الكبيرة

القيود

  1. قيود نافذة السياق: لا يمكن معالجة الرسوم البيانية الزمنية الكاملة الكبيرة جداً
  2. الاعتماد على T-CGS: قد تفشل إذا كانت إشارات التنبؤ الرئيسية خارج الحي k-hop
  3. متطلبات النموذج الأساسي: تتطلب نموذج أساسي كبير بما يكفي لتجنب خداع المكافآت

الاتجاهات المستقبلية

  1. التطبيق على نماذج أساسية أكبر
  2. تحسين طريقة حقن السياق الرسم البياني
  3. التوسع إلى مهام استدلال رسوم بيانية أخرى

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول تطبيق للتعلم المعزز على استدلال الرسوم البيانية الزمنية لنماذج اللغة الكبيرة، حل مشاكل القابلية للتفسير والتعميم
  2. طريقة شاملة: تشكل نظام متكامل من تعريف المهمة وتصميم النموذج إلى بروتوكول التقييم
  3. تجارب شاملة: تغطي مجموعات بيانات متعددة ومقاييس متنوعة والتحقق البشري
  4. قيمة عملية عالية: يقلل نموذج الأسئلة والأجوبة من التكلفة الحسابية ويمكن تطبيقه مباشرة على السيناريوهات الفعلية

أوجه القصور

  1. قيود التوسع: محدود بنافذة السياق لنماذج اللغة الكبيرة، يصعب التعامل مع الرسوم البيانية الكبيرة جداً
  2. تعقيد الطريقة: خوارزمية T-CGS لها معاملات عديدة وتتطلب ضبطاً دقيقاً
  3. انحياز التقييم: قد يكون لنظام LLM-as-a-Judge انحياز عائلة نموذج

التأثير

  1. القيمة الأكاديمية: توفير أفكار جديدة لاستدلال الرسوم البيانية لنماذج اللغة الكبيرة والذكاء الاصطناعي القابل للتفسير
  2. القيمة العملية: يمكن تطبيقها على أنظمة التوصيات وتحليل الشبكات الاجتماعية وغيرها
  3. مساهمة منهجية: يمكن تعميم بروتوكول التقييم المقترح على مهام استدلال نماذج اللغة الكبيرة الأخرى

السيناريوهات المطبقة

  • تطبيقات الرسوم البيانية الزمنية التي تتطلب تنبؤات قابلة للتفسير
  • السيناريوهات التي تكون فيها موارد الحوسبة محدودة لكن تتطلب استدلالاً عالي الجودة
  • التطبيقات التي تحتاج إلى التكيف السريع مع رسوم بيانية جديدة دون إمكانية إعادة التدريب

المراجع

تشمل المراجع الرئيسية:

  • Huang et al. (2023): معيار الرسم البياني الزمني
  • Rossi et al. (2020): شبكات الرسوم البيانية الزمنية
  • Shao et al. (2024): طريقة تحسين GRPO
  • Zheng et al. (2023): نموذج تقييم LLM-as-a-Judge

الملخص: تقدم هذه الورقة إطار عمل مبتكراً يجمع بنجاح بين قدرات الاستدلال لنماذج اللغة الكبيرة وآلية الاستكشاف الذاتي للتعلم المعزز، محققاً تقدماً كبيراً في مهمة التنبؤ بالروابط على الرسوم البيانية الزمنية. على الرغم من وجود بعض القيود، فإن مساهماتها في القابلية للتفسير والقدرة على التعميم تفتح اتجاهات جديدة لتطور هذا المجال.