There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
- معرّف الورقة: 2505.15370
- العنوان: نمذجة انتشار المعلومات الجديدة على الشبكات الاجتماعية
- المؤلفون: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
- التصنيف: cs.SI (الشبكات الاجتماعية والمعلومات)
- تاريخ النشر: 14 أكتوبر 2025 (arXiv v3)
- رابط الورقة: https://arxiv.org/abs/2505.15370v3
تتناول هذه الورقة مشكلة التنبؤ بانتشار المعلومات الجديدة على الشبكات الاجتماعية، أي التنبؤ بما إذا كان المستخدم سيعيد نشر معلومات حول موضوع لم يره من قبل. عادة ما تقوم الدراسات الحالية بتعيين المعلومات والمستخدمين بشكل عشوائي إلى مجموعات التدريب والاختبار، مما يضمن أن كلا المجموعتين تأتيان من نفس التوزيع. في الواقع، مشكلة انتشار المعلومات الجديدة هي مهمة تصنيف تعميم خارج التوزيع. تُظهر النتائج التجريبية أنه عندما يكون توزيع التدريب والاختبار متطابقاً، تعمل الخوارزميات الحالية التي تستخدم بشكل أساسي ميزات محتوى الرسالة بشكل جيد، لكن الأداء تنخفض بشكل كبير عندما يكون مجموعة الاختبار خارج التوزيع (أي أن الموضوعات في بيانات الاختبار غير موجودة في بيانات التدريب). يكتشف البحث أنه عند استكمال أو استبدال ميزات الرسالة بميزات ملف تعريف المستخدم والسلوك التاريخي، تتحسن أداء التنبؤ خارج التوزيع بشكل كبير، حيث يرتفع درجة F1 من 0.117 إلى 0.705. تشير النتائج إلى أن سلوك إعادة النشر للموضوعات غير المرئية يمكن التنبؤ به إلى حد كبير من خلال ملف تعريف المستخدم والسلوك التاريخي، وأنه مستقل بشكل أساسي عن المحتوى.
المشكلة الأساسية التي تعالجها هذه الورقة هي التنبؤ بانتشار المعلومات الجديدة، أي التنبؤ بما إذا كان المستخدم سيعيد نشر معلومات حول موضوع لم يره من قبل. هذه مشكلة نموذجية للتعميم خارج التوزيع، لأن الموضوعات المتضمنة في بيانات الاختبار غير موجودة تماماً في بيانات التدريب.
- الأهمية متعددة التخصصات: يتمتع التنبؤ بانتشار المعلومات بأهمية كبيرة لعدة مجالات بما في ذلك علوم الحاسوب والعلوم الاجتماعية والعلوم السياسية والتسويق
- القيمة التطبيقية العملية: له تطبيقات مهمة في الحملات التسويقية والدعاية السياسية ونشر المعلومات الكاذبة والشائعات
- الأهمية النظرية: يساعد على فهم الآليات الداخلية لانتشار المعلومات على وسائل التواصل الاجتماعي
- الاعتماد المفرط على محتوى الرسالة: تستخدم الخوارزميات الحالية بشكل أساسي الميزات المستخرجة من محتوى نص الرسالة
- غياب التقييم خارج التوزيع: عادة ما تعتمد الدراسات الحالية على طريقة التقسيم العشوائي للمجموعات البيانية، مما يضمن أن بيانات التدريب والاختبار تأتي من نفس التوزيع
- إهمال البيانات المتعلقة بالمستخدم: يتم التقليل من شأن المعلومات المهمة مثل ملف تعريف المستخدم وقائمة المتابعين والسلوك التاريخي
غالباً ما تظهر موضوعات جديدة على منصات وسائل التواصل الاجتماعي (مثل الأخبار العاجلة)، لذلك بالإضافة إلى التصنيف التقليدي ذي التوزيع المتطابق، هناك حاجة إلى القدرة على التنبؤ خارج التوزيع، وهو أكثر تحدياً وقيمة في التطبيقات العملية.
- اقتراح نموذج تقييم جديد: يميز بوضوح للمرة الأولى بين التنبؤ ذي التوزيع المتطابق والتنبؤ خارج التوزيع، مما يوفر إطار تقييم أكثر شمولاً لبحث التنبؤ بإعادة النشر
- بناء نظام ميزات شامل: تحديد وبناء 303 ميزة، بما في ذلك 78 ميزة متعلقة بالرسالة و225 ميزة متعلقة بالمستخدم
- الكشف عن أهمية ميزات المستخدم: تثبت التجارب أن ميزات المستخدم حاسمة للتنبؤ خارج التوزيع، حيث يرتفع درجة F1 من 0.117 إلى 0.705
- توفير رؤى نظرية مهمة: اكتشاف أن سلوك إعادة النشر مستقل إلى حد كبير عن المحتوى ويتحدد بشكل أساسي بميزات المستخدم ("إنه من نحن، وليس ما نراه")
يتم تعريف التنبؤ بإعادة النشر كالتنبؤ بما إذا كان المستقبل سيعيد نشر رسالة يتلقاها من المرسل:
f:{M,US,UR}→y∈{0,1}
حيث:
- M: الرسالة
- US: المرسل
- UR: المستقبل
- y=1: سيعيد المستقبل نشر الرسالة، y=0: لن يعيد النشر
تحتوي على محتوى نصي لـ 111,401 رسالة من منصة X (تويتر السابقة)، مع استخراج 78 ميزة متعلقة بالرسالة:
- ميزات الموضوع (39 ميزة): تحديد موضوع الرسالة باستخدام نماذج Twitter-roBERTa و LDA
- الميزات اللغوية (10 ميزات): الصحة النحوية والقطبية والذاتية وغيرها
- ميزات القراءة (11 ميزة): مؤشر Flesch للقراءة وفهرس SMOG وغيرها
- ميزات المشاعر (5 ميزات): درجات المشاعر الإيجابية والسلبية والمحايدة
- ميزات الانفعالات (8 ميزات): احتمالات الغضب والفرح والخوف وغيرها
- ميزات خطاب الكراهية (4 ميزات): مقاييس الهجومية والكراهية
- ميزات الوسوم (1 ميزة): وجود وسم معين
تحتوي على ثلاث فئات من البيانات المتعلقة بالمستخدم:
بيانات ملف تعريف المستخدم Data(U-P):
- ملف تعريف المستخدم وقائمة المتابعين
- استخراج 30 ميزة: عدد المتابعين ومقاييس التأثير والعلاقات الشبكية وغيرها
بيانات السلوك التاريخي للمستخدم Data(U-HA):
- بيانات وصفية لآخر 50 رسالة تاريخية
- استخراج 38 ميزة: معدل إعادة النشر وأنماط التفاعل والتفاعلات بين المستخدمين وغيرها
بيانات الرسائل التاريخية للمستخدم Data(U-HM):
- محتوى نصي لآخر 50 رسالة تاريخية
- استخراج 157 ميزة: ميزات مجمعة للرسائل التاريخية وتشابه الموضوع وغيرها
استخدام شجرة القرار XGBoost، مع اكتشاف الدور الرئيسي لميزات المستخدم من خلال تحليل أهمية الميزات. المعاملات الفائقة الرئيسية:
- الحد الأقصى للعمق: 8
- معدل التعلم: 0.3
- عدد المقدرات: 100
موسع من نموذج SUA-ACNN الأساسي، مع إضافة مكون MLP لمعالجة بيانات المستخدم:
- NN-M: استخدام بيانات الرسالة فقط
- NN-U: استخدام بيانات المستخدم فقط
- NN-ALL: استخدام جميع أنواع البيانات
استخدام BERT-base لمعالجة نص الرسالة، وإنشاء تضمينات دلالية للتنبؤ.
- تصميم التقييم خارج التوزيع: لكل وسم، استخدام بيانات 13 وسم آخر للتدريب والاختبار على هذا الوسم
- استراتيجية توليد العينات السلبية: اختيار أكثر العينات السلبية تشابهاً لكل عينة موجبة، مما يضمن صلة التقييم
- نظام ميزات متعدد المستويات: استخراج منهجي للميزات من أبعاد متعددة مثل الرسالة وملف تعريف المستخدم والسلوك التاريخي
- مصدر البيانات: واجهة برمجية أكاديمية لمنصة X
- نطاق الوقت: من 27 يوليو إلى 14 أغسطس 2022
- حجم البيانات:
- 111,401 رسالة
- 44,014 حدث إعادة نشر (عينات موجبة)
- 79,707 مستخدم فريد
- 3.8 مليون رسالة تاريخية
- تغطية الموضوع: 14 وسم شهير
إنشاء ثلاث مجموعات بيانات بنسب عينات موجبة وسلبية مختلفة:
- مجموعة 1:1: كل عينة موجبة مع عينة سلبية واحدة الأكثر تشابهاً
- مجموعة 1:5: كل عينة موجبة مع 5 عينات سلبية الأكثر تشابهاً
- مجموعة 1:10: كل عينة موجبة مع 5 عينات سلبية متشابهة و5 عينات سلبية عشوائية
استخدام درجة F1 بشكل أساسي:
F1=TP+21(FP+FN)TP
بالنسبة للنتائج عبر عدة وسوم، يتم حساب المتوسط الإجمالي والانحراف المعياري.
إجراء ثلاث فئات من التجارب:
- التجربة الأولى: التنبؤ ذي التوزيع المتطابق مع وسوم مختلطة
- التجربة الثانية: التنبؤ ذي التوزيع المتطابق لوسم واحد
- التجربة الثالثة: التنبؤ خارج التوزيع
درجات F1 على مجموعة البيانات 1:5:
| النموذج | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| درجة F1 | 0.884±0.002 | 0.852±0.005 | 0.758±0.002 | 0.844±0.009 | 0.835±0.004 | 0.740±0.003 | 0.740±0.010 |
درجة F1 الإجمالية (μ̄±σ̄):
| النموذج | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| درجة F1 | 0.697±0.076 | 0.705±0.084 | 0.117±0.131 | 0.623±0.109 | 0.702±0.071 | 0.108±0.055 | 0.091±0.101 |
- الدور الحاسم لميزات المستخدم:
- تنخفض أداء النماذج التي تستخدم ميزات الرسالة فقط بشكل حاد في التنبؤ خارج التوزيع
- تعمل النماذج التي تستخدم ميزات المستخدم فقط بشكل مماثل للنماذج التي تستخدم جميع الميزات في التنبؤ خارج التوزيع
- تحليل أهمية الميزات:
- من بين أفضل 20 ميزة أهمية، تشكل ميزات المستخدم 17 منها
- الميزة الأكثر أهمية هي "هل يتابع المستقبل المرسل" (U-P_R_FollowS)
- تحسن الأداء الكبير:
- ارتفاع درجة F1 للتنبؤ خارج التوزيع من 0.117 إلى 0.705 (تحسن بنسبة 502%)
- يثبت أهمية ميزات المستخدم للتنبؤ بالموضوعات الجديدة
من خلال تجارب المقارنة بين مجموعات ميزات مختلفة، تم اكتشاف:
- ميزات U-P و U-HA: تساهم بشكل أكبر في التنبؤ خارج التوزيع
- ميزات U-HM: تعمل بشكل مماثل لميزات الرسالة، مع أداء محدودة خارج التوزيع
- ميزات الرسالة: تفقد فعاليتها تقريباً في إعدادات خارج التوزيع
تنقسم الدراسات الموجودة إلى عدة فئات:
- التنبؤ بشهرة الرسالة: التنبؤ بحجم انتشار الرسالة
- التنبؤ بشجرة الانتشار: التنبؤ بمسار الانتشار والوقت
- التنبؤ بإعادة النشر: التنبؤ بسلوك إعادة النشر لمستخدم معين
- الاعتماد على الميزات: الاعتماد المفرط على ميزات نص الرسالة
- قيود التقييم: غياب التقييم خارج التوزيع
- استخدام البيانات غير الكافي: إهمال قيمة بيانات ملف تعريف المستخدم وبيانات السلوك
- إجراء تقييم منهجي خارج التوزيع للمرة الأولى
- النظر الشامل في ميزات المستخدم
- توفير سيناريو تقييم أكثر واقعية
- استقلالية المحتوى: سلوك إعادة النشر مستقل إلى حد كبير عن المحتوى المحدد ويتحدد بشكل أساسي بميزات المستخدم
- القدرة على التعميم لميزات المستخدم: يتمتع ملف تعريف المستخدم والسلوك التاريخي بقدرة على التعميم عبر الموضوعات
- أهمية نموذج التقييم: يتمتع التقييم خارج التوزيع بأهمية أكبر للتطبيقات العملية
- قيود المنصة: يعتمد البحث فقط على بيانات منصة X
- نافذة زمنية: يأخذ في الاعتبار فقط سلوك إعادة النشر خلال 24 ساعة
- هندسة الميزات: يعتمد استخراج بعض الميزات على أدوات ونماذج محددة
- الخلفية الثقافية: لم يتم النظر في الاختلافات السلوكية عبر الخلفيات الثقافية المختلفة
- البحث عبر المنصات: التوسع إلى منصات وسائل التواصل الاجتماعي الأخرى
- النمذجة الديناميكية: النظر في التطور الزمني لسلوك المستخدم
- الاستدلال السببي: فهم أعمق للعلاقة السببية بين ميزات المستخدم وسلوك إعادة النشر
- التطبيقات في الوقت الفعلي: تطوير أنظمة التنبؤ في الوقت الفعلي
- الابتكار في تعريف المشكلة:
- اقتراح مشكلة التنبؤ بإعادة النشر خارج التوزيع بوضوح للمرة الأولى
- أقرب إلى سيناريوهات التطبيق العملي
- تصميم التجربة الدقيق:
- مقارنة نماذج متعددة للتحقق
- تجارب حذف تفصيلية
- تحليل الدلالة الإحصائية
- هندسة ميزات شاملة:
- بناء منهجي لـ 303 ميزة
- تحليل أهمية الميزات متعدد الأبعاد
- مساهمة نظرية عميقة:
- الرؤية المهمة "إنه من نحن، وليس ما نراه"
- توفير منظور جديد لفهم السلوك على وسائل التواصل الاجتماعي
- تمثيل البيانات:
- استخدام 14 وسم فقط قد لا يكون شاملاً بما يكفي
- نطاق زمني قصير، يفتقر إلى الملاحظة طويلة الأجل
- قابلية تفسير الميزات:
- الآليات النفسية لبعض ميزات المستخدم غير واضحة بما يكفي
- نقص التحليل العميق للتفاعلات بين الميزات
- الاعتبارات العملية:
- قد يكون الحصول على بيانات السلوك التاريخي الكاملة للمستخدم صعباً في التطبيقات العملية
- عدم كفاية الاعتبارات المتعلقة بحماية الخصوصية
- تعقيد النموذج:
- قد تكون 303 ميزة تحتوي على تكرار
- نقص تحليل اختيار الميزات والتقليل من الأبعاد
- المساهمة الأكاديمية:
- توفير نموذج تقييم جديد لبحث انتشار المعلومات
- تحدي الافتراضات الموجودة في الطرق الحالية
- القيمة العملية:
- توجيه خوارزميات التوصية على منصات وسائل التواصل الاجتماعي
- توفير أفكار جديدة للتسويق الرقمي ومراقبة الرأي العام
- قابلية التكرار:
- وصف تفصيلي لإعدادات التجربة والمعاملات
- طريقة هندسة ميزات مفتوحة
- منصات وسائل التواصل الاجتماعي: التنبؤ بسلوك المستخدم وتوصيات المحتوى
- التسويق الرقمي: تحديد المستخدمين المستهدفين واستراتيجيات المحتوى
- مراقبة الرأي العام: التنبؤ بانتشار الموضوعات الساخنة
- البحث الأكاديمي: تحليل الشبكات الاجتماعية والنمذجة السلوكية
تستشهد الورقة بـ 48 مرجعاً ذا صلة، تغطي:
- أبحاث نظرية انتشار المعلومات
- تطبيقات طرق التعلم الآلي
- تحليل سلوك وسائل التواصل الاجتماعي
- تقنيات معالجة اللغة الطبيعية
تشمل المراجع الرئيسية الأعمال الكلاسيكية في التنبؤ بإعادة النشر والنماذج العصبية (مثل BERT و SUA-ACNN) والأبحاث الأساسية في تحليل الشبكات الاجتماعية.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة بمساهمات ملحوظة في تعريف المشكلة والابتكار في الطريقة والتحقق التجريبي. خاصة اقتراح التنبؤ خارج التوزيع واكتشاف أهمية ميزات المستخدم، مما يفتح اتجاهاً جديداً لأبحاث انتشار المعلومات على وسائل التواصل الاجتماعي. على الرغم من وجود بعض القيود، إلا أن قيمتها النظرية والعملية بارزة جداً، ومن المتوقع أن يكون لها تأثير مهم على المجالات ذات الصلة.