Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
academic- معرّف الورقة: 2510.09416
- العنوان: What Do Temporal Graph Learning Models Learn?
- المؤلفون: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
- التصنيف: cs.LG cs.SI
- تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2510.09416
أصبح التعلم على الرسوم البيانية الزمنية موضوعاً أساسياً في تعلم تمثيل الرسوم البيانية، حيث تُظهر العديد من الاختبارات الأداء القوي للنماذج المتقدمة. ومع ذلك، أثارت الأبحاث الحديثة مخاوف بشأن موثوقية نتائج الاختبارات، مشيرة إلى مشاكل في بروتوكولات التقييم المستخدمة على نطاق واسع والقدرة التنافسية المفاجئة للطرق الاستدلالية البسيطة. يثير هذا التناقض سؤالاً: ما الخصائص الأساسية للرسم البياني الزمني التي تستخدمها نماذج التعلم فعلياً لتشكيل التنبؤات؟ تعالج هذه الورقة هذا السؤال من خلال التقييم المنهجي لقدرة سبعة نماذج على التقاط ثماني خصائص أساسية مرتبطة بهيكل الربط في الرسوم البيانية الزمنية. تشمل هذه الخصائص الخصائص الهيكلية مثل الكثافة، والأنماط الزمنية مثل الحداثة، وآليات تشكيل الحافة مثل التجانس. باستخدام مجموعات البيانات الاصطناعية والحقيقية، يتم تحليل فعالية النماذج في تعلم هذه الخصائص. تُظهر النتائج صورة مختلطة: النماذج قادرة على التقاط خصائص معينة بشكل جيد، لكنها تفشل في إعادة إنتاج خصائص أخرى، مما يكشف عن قيود مهمة.
- مشاكل موثوقية التقييم المعياري: على الرغم من أن نماذج التعلم على الرسوم البيانية الزمنية تُظهر أداءً ممتازاً في مختلف الاختبارات المعيارية، إلا أن الأبحاث الحديثة كشفت عن عيوب في بروتوكولات التقييم، بما في ذلك مشاكل في مجموعات الاختبار والمقاييس التقييمية التي تؤدي إلى نتائج غير واقعية.
- القدرة التنافسية للطرق الاستدلالية البسيطة: بشكل مفاجئ، تُظهر الطرق الاستدلالية البسيطة، مثل التنبؤ بالحواف التي تتضمن العقد النشطة مؤخراً والعقد الشهيرة عالمياً، أداءً مماثلاً للعديد من النماذج المتقدمة.
- غياب قابلية التفسير للنموذج: حتى عندما يُظهر نموذج معين أداءً جيداً على مجموعة بيانات معيارية معينة، من غير الواضح ما العوامل التي ساهمت في هذا الأداء، وبشكل أكثر تحديداً، ما خصائص الرسم البياني التي يستخدمها النموذج لتشكيل التنبؤات.
تهدف هذه الدراسة إلى التراجع خطوة للوراء وتقييم قدرة نماذج التعلم على الرسوم البيانية الشهيرة على تعلم الخصائص البسيطة والقابلة للتفسير للرسوم البيانية الزمنية، وتوفير رؤى عملية للتطبيقات الفعلية لنماذج التعلم على الرسوم البيانية الزمنية، وتعزيز التقييم الذي يركز أكثر على قابلية التفسير.
- اقتراح إطار عمل تقييم جديد: تقييم منهجي لقدرة نماذج التعلم على الرسوم البيانية الزمنية على التقاط خصائص الشبكات الزمنية البديهية
- تحديد قيود النماذج الحالية: اكتشاف أن النماذج تعاني من قيود في تمييز اتجاه الحواف، والكشف عن الأنماط الدورية، أو التأكيد على ديناميكيات الرسم البياني المرصودة مؤخراً
- توفير إرشادات عملية: توفير رؤى للتطبيقات الفعلية لنماذج التعلم العميق على الرسوم البيانية
- إنشاء معايير قابلية التفسير: توفير معايير للتقييم الذي يركز أكثر على قابلية التفسير لنماذج التعلم على الرسوم البيانية الزمنية، مما يكمل المعايير الموجهة نحو الأداء الحالية
تقيّم هذه الورقة قدرة سبعة نماذج متقدمة على الرسوم البيانية الزمنية على تعلم ثماني خصائص أساسية للرسم البياني:
- الخصائص العامة للرسم البياني: الحبيبية الزمنية، اتجاه الحافة، الكثافة
- الأنماط الزمنية: الاستمرارية، الدورية، الحداثة
- آليات تشكيل الحافة: التجانس، الاتصال المفضل
تم تقييم سبعة نماذج تمثيلية:
- DyGFormer: نموذج الرسم البياني الديناميكي القائم على Transformer
- GraphMixer: نموذج الشبكة الزمنية بهندسة مبسطة
- DyRep: تعلم التمثيل القائم على الشبكات العصبية المتكررة
- JODIE: التضمين الديناميكي المشترك للمستخدم والعنصر
- TGN: شبكة الرسم البياني الزمني
- TCL: نمذجة الرسم البياني الديناميكي القائم على Transformer مع التعلم المتناقض
- TGAT: تعلم التمثيل الاستقرائي للرسم البياني الزمني
- مجموعات البيانات الحقيقية: شبكة بريد Enron، شبكة رسائل UCI، شبكة تحرير Wikipedia
- مجموعات البيانات الاصطناعية: رسوم بيانية اصطناعية مصممة لخصائص محددة، مثل نموذج الكتلة العشوائية (SBM) لاختبار التجانس، ونموذج Barabási-Albert لاختبار الاتصال المفضل
تصميم تجارب متخصصة لكل خاصية:
- استخدام مزيج من مجموعات البيانات الاصطناعية والحقيقية
- التحكم في المتغيرات لعزل تأثير خاصية محددة
- تقييم أداء النموذج من خلال درجات احتمالية، دقة، وغيرها من المقاييس
- طريقة التقييم المنهجية: أول تقييم منهجي لقدرة نماذج الرسوم البيانية الزمنية على تعلم الخصائص الأساسية للرسم البياني
- تحليل الخصائص متعددة الأبعاد: يغطي الخصائص عبر ثلاثة أبعاد: هيكلية وزمنية وآلية
- التحقق من البيانات الاصطناعية: التحقق من قدرة النموذج على تعلم خصائص محددة من خلال مجموعات بيانات اصطناعية مصممة بعناية
- التوجه نحو قابلية التفسير: تقييم النماذج من منظور قابلية التفسير بدلاً من منظور الأداء البحت
| مجموعة البيانات | عدد العقد | الحواف المستمرة | الحواف المنفصلة | الحواف الفريدة | خطوات زمنية منفصلة |
|---|
| Enron | 184 | 125,235 | 10,472 | 3,125 | 45 (شهر) |
| UCI | 1,899 | 59,835 | 26,628 | 20,296 | 29 (أسبوع) |
| Wikipedia | 9,277 | 157,474 | 65,085 | 18,257 | 745 (ساعة) |
- ROC-AUC: لتقييم أداء التنبؤ بالربط
- الدقة المتوازنة: للمهام التصنيفية
- توزيع درجات الاحتمالية: لتحليل سلوك التنبؤ للنموذج
- إحصائيات تجميع الحواف: للخصائص المحددة
- معدل التعلم: 1e-4
- حجم الدفعة: 200
- دالة الخسارة: BCELoss
- المحسّن: Adam
- أقصى عدد حقب تدريب: 300
- تسامح الإيقاف المبكر: 1e-6
- بُعد الميزات الزمنية: 100
| خاصية الرسم البياني | DyGFormer | DyRep | JODIE | GraphMixer | TCL | TGAT | TGN |
|---|
| الحبيبية الزمنية | ∼ | ✓ | ✓ | ✓ | ∼ | ∼ | ✓ |
| الاتجاه | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| الكثافة | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| الاستمرارية | ✓ | ✗ | ✗ | ∼ | ∼ | ✓ | ✗ |
| الدورية | ✗ | ✗ | ✗ | ✓ | ✓ | ∼ | ∼ |
| الحداثة | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| التجانس | ✓ | ∼ | ✗ | ∼ | ✓ | ∼ | ∼ |
| الاتصال المفضل | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- تسطيح الطوابع الزمنية يضر الأداء بشكل خطير، مما يشير إلى أن النموذج يستخدم فعلاً المعلومات الزمنية
- يُظهر GraphMixer و DyRep أكبر انخفاض في الأداء عند تقسيم الطوابع الزمنية
- يُظهر TGAT أداءً أفضل على الخطوات الزمنية المنفصلة
- الاكتشاف الرئيسي: جميع النماذج غير قادرة على تمييز اتجاه الحواف بفعالية
- بالنسبة لحوالي 50% من الحواف، الفرق في احتمالية التنبؤ بين الحافة الأمامية والخلفية أقل من 0.02
- حتى مع التدريب ثنائي الاتجاه، ينتج معظم النماذج تنبؤات متقاربة تقريباً
- قيد مهم: جميع النماذج غير قادرة على تعلم كثافة الرسم البياني
- عادة ما تكون الكثافة المتنبأ بها أقل بعدة رتب من الحجم من الكثافة الحقيقية
- يميل النموذج إلى التنبؤ بجميع الحواف كسالبة عند رؤية عدد كبير من العينات السالبة
- يمكن لـ DyGFormer و TGAT تعلم الرسوم البيانية المستمرة
- يُظهر JODIE و TGN أداءً ضعيفاً في هذه المهمة البسيطة
- يمكن لـ GraphMixer و TCL تمييز خطوات زمنية فردية وزوجية بشكل جيد
- لا يمكن لـ DyGFormer تمييز الخطوات الزمنية، مع سلوك مشابه لخط الأساس EdgeBank
- نتيجة مفاجئة: جميع النماذج لا تؤكد على الحواف المرصودة مؤخراً
- لا يتغير متوسط درجة الاحتمالية للحافة بناءً على وقت آخر ملاحظة
- هذا يتناقض مع نجاح الطرق الاستدلالية القائمة على العقد النشطة مؤخراً
- يمكن لـ DyGFormer و TCL التنبؤ بشكل متوازن بالروابط داخل المجموعة
- يميل JODIE بشدة نحو المجموعة 0
- تميل معظم النماذج إلى التنبؤ بالروابط داخل المجموعة 1
- نجاح متسق: جميع النماذج تعلمت الاتصال المفضل
- تحصل حواف العقد ذات الدرجة العالية على درجات احتمالية أعلى في المتوسط
- تتبع نمط توزيع قانون القوة
- Temporal Graph Benchmark (TGB): تقييم جودة الشبكات العصبية للرسوم البيانية الزمنية
- BenchTemp: معايير تركز على بيانات الرسوم البيانية الزمنية
- إطار عمل موحد: ربط نماذج الوقت المنفصل والمستمر
- خط الأساس EdgeBank: خط أساس بسيط بأداء مماثلة للطرق المتقدمة
- قيود تعلم الأنماط الزمنية: تأثير صغير لاضطراب الطوابع الزمنية على الأداء
- نجاح الطرق الاستدلالية: الطرق الاستدلالية القائمة على الشهرة والنشاط الحديث تتفوق على النماذج المعقدة
- أداء مختلط: النماذج تُظهر أداءً جيداً على خصائص معينة (مثل الاتصال المفضل)، لكنها تعاني من قيود خطيرة في جوانب أخرى (مثل تمييز الاتجاه، التنبؤ بالكثافة)
- قيود متسقة: جميع النماذج غير قادرة على تمييز اتجاه الحواف، ولا تؤكد على الحداثة، ولا يمكنها التنبؤ بدقة بالكثافة
- اختلافات النموذج: توجد اختلافات كبيرة بين النماذج المختلفة في تعلم خصائص محددة، مما يوفر إرشادات لاختيار النموذج في التطبيقات العملية
- قيود مجموعة البيانات: نظراً لاتساع التجارب، عدد مجموعات البيانات المستخدمة محدود، وقد لا تمثل جميع مجموعات البيانات المتعلقة بالشبكات
- اختيار الخصائص: الخصائص الثماني المقيمة ليست شاملة، وهناك خصائص رسم بياني مهمة أخرى تستحق الاعتبار
- نطاق النموذج: يشمل فقط نماذج الوقت المستمر، ولم يغطِ النماذج في إعدادات الوقت المنفصل
- تحسين النموذج: تصميم نماذج جديدة للقيود المكتشفة (الكثافة، الاتجاه، الحداثة)
- توسيع الإطار:
- إضافة تقييمات خصائص رسم بياني أكثر
- تضمين نماذج الوقت المنفصل
- النظر في الشبكات غير المتجانسة
- إرشادات التطبيق: التوصية بنماذج مناسبة لسيناريوهات تطبيقات مختلفة بناءً على قدرة تعلم الخصائص
- قوة منهجية عالية: أول تقييم منهجي لنماذج التعلم على الرسوم البيانية الزمنية من منظور قابلية التفسير، ملء فجوة مهمة
- صرامة الطريقة: يضمن تصميم التجارب مع التحكم في المتغيرات من خلال مزيج من مجموعات البيانات الاصطناعية والحقيقية موثوقية النتائج
- أهمية الاكتشافات: يكشف عن قيود خطيرة في تعلم الخصائص الأساسية للنماذج التي تبدو قوية، مما له قيمة عملية مهمة
- التوجه نحو التطبيق: توفير إرشادات عملية لاختيار النموذج والتطبيق، بدلاً من التركيز فقط على أداء المعايير
- نقص التحليل النظري: افتقار إلى تحليل نظري عميق لسبب فشل نماذج معينة في خصائص محددة
- غياب حلول التحسين: يركز بشكل أساسي على الإشارة إلى المشاكل دون تقديم اقتراحات أو طرق تحسين محددة
- وحدة مقاييس التقييم: قد تحتاج بعض التجارب إلى مقاييس تقييم أكثر تنوعاً لتقييم قدرات النموذج بشكل شامل
- القيمة الأكاديمية: إدخال منظور تقييم جديد لمجال التعلم على الرسوم البيانية الزمنية، قد يؤثر على تصميم النماذج والمعايير التقييمية في المستقبل
- القيمة العملية: توفير مرجع مهم لاختيار النماذج المناسبة في التطبيقات العملية، تجنب المتابعة العمياء لأداء المعايير
- الإلهام البحثي: توفير اتجاهات تحسين واضحة للأبحاث المستقبلية من خلال القيود المكتشفة
- اختيار النموذج: إرشادات لاختيار النموذج عند الحاجة إلى النظر في خصائص مثل اتجاه الحافة والتنبؤ بالكثافة في تطبيقات محددة
- تصميم المعايير: توفير مرجع لتصميم معايير أكثر شمولاً للتعلم على الرسوم البيانية الزمنية
- تطوير النموذج: توفير أهداف تحسين ومعايير تقييم لتطوير نماذج جديدة للتعلم على الرسوم البيانية الزمنية
تستشهد الورقة بمجموعة واسعة من الأعمال ذات الصلة، بما في ذلك:
- الأعمال المتعلقة باختبار الرسوم البيانية الزمنية (TGB و BenchTemp وغيرها)
- أبحاث قيود نماذج التعلم على الرسوم البيانية الزمنية
- الدراسات النقدية لطرق تقييم التعلم على الرسوم البيانية
- النماذج الكلاسيكية للرسوم البيانية (نموذج الكتلة العشوائية، نموذج Barabási-Albert وغيرها)
التقييم الشامل: هذا عمل بحثي ذو قيمة مهمة، يكشف عن القيود المهمة لنماذج التعلم على الرسوم البيانية الزمنية من خلال تقييم منهجي لقابلية التفسير. تتمتع طريقة البحث بصرامة عالية، والاكتشافات ذات أهمية عملية، وتوفر منظوراً جديداً واتجاهات تحسين لتطور المجال. على الرغم من وجود مجال للتحسين في التحليل النظري والحلول، فإن مساهماتها كافية لدفع المجال نحو اتجاه يركز أكثر على قابلية التفسير والعملية.