2025-11-17T00:04:13.380329

Modelling the Spread of New Information on Social Networks

Xu, Zhou, Lampos et al.

There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.

academic

सामाजिक नेटवर्क पर नई जानकारी के प्रसार का मॉडलिंग

मूल जानकारी

पेपर ID: 2505.15370
शीर्षक: सामाजिक नेटवर्क पर नई जानकारी के प्रसार का मॉडलिंग
लेखक: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
वर्गीकरण: cs.SI (सामाजिक और सूचना नेटवर्क)
प्रकाशन समय: 25 अक्टूबर, 2025 (arXiv v3)
पेपर लिंक: https://arxiv.org/abs/2505.15370v3

सारांश

यह पेपर सामाजिक नेटवर्क में नई जानकारी के प्रसार की भविष्यवाणी की समस्या का अध्ययन करता है, अर्थात् यह भविष्यवाणी करना कि उपयोगकर्ता पहले कभी न देखे गए विषय के बारे में जानकारी को साझा करेंगे या नहीं। मौजूदा अनुसंधान आमतौर पर जानकारी और उपयोगकर्ताओं को प्रशिक्षण और परीक्षण सेट में यादृच्छिक रूप से आवंटित करते हैं, यह सुनिश्चित करते हुए कि दोनों सेट समान वितरण से आते हैं। नई जानकारी प्रसार समस्या वास्तव में एक वितरण-बाहर सामान्यीकरण वर्गीकरण कार्य है। प्रयोगात्मक परिणाम दिखाते हैं कि जब प्रशिक्षण और परीक्षण वितरण समान हों, तो मुख्य रूप से संदेश सामग्री विशेषताओं का उपयोग करने वाले मौजूदा एल्गोरिदम अच्छा प्रदर्शन करते हैं, लेकिन परीक्षण सेट वितरण-बाहर (अर्थात् परीक्षण डेटा के विषय प्रशिक्षण डेटा में मौजूद नहीं हैं) होने पर प्रदर्शन में उल्लेखनीय गिरावट आती है। अनुसंधान से पता चलता है कि उपयोगकर्ता प्रोफ़ाइल और ऐतिहासिक व्यवहार विशेषताओं के साथ संदेश विशेषताओं को पूरक या प्रतिस्थापित करने के बाद, वितरण-बाहर भविष्यवाणी प्रदर्शन में काफी सुधार होता है, F1 स्कोर 0.117 से 0.705 तक बढ़ जाता है। परिणाम दर्शाते हैं कि अदेखे विषयों के लिए साझाकरण व्यवहार को बड़े हिस्से में उपयोगकर्ता प्रोफ़ाइल और ऐतिहासिक व्यवहार द्वारा भविष्यवाणी की जा सकती है, और यह मूलतः सामग्री से स्वतंत्र है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. हल की जाने वाली मूल समस्या

इस पेपर की मूल समस्या नई जानकारी प्रसार भविष्यवाणी है, अर्थात् यह भविष्यवाणी करना कि उपयोगकर्ता पहले कभी न देखे गए विषय के बारे में जानकारी को साझा करेंगे या नहीं। यह एक विशिष्ट वितरण-बाहर सामान्यीकरण समस्या है, क्योंकि परीक्षण डेटा में शामिल विषय प्रशिक्षण डेटा में पूरी तरह से अनुपस्थित हैं।

2. समस्या की महत्ता

अंतःविषय महत्व: जानकारी प्रसार भविष्यवाणी कंप्यूटर विज्ञान, सामाजिक विज्ञान, राजनीति विज्ञान और विपणन सहित कई क्षेत्रों के लिए महत्वपूर्ण है
व्यावहारिक अनुप्रयोग मूल्य: विपणन अभियान, राजनीतिक प्रचार, गलत सूचना और अफवाह प्रसार जैसे परिदृश्यों में महत्वपूर्ण अनुप्रयोग मूल्य है
सैद्धांतिक महत्व: सामाजिक मीडिया पर जानकारी प्रसार के आंतरिक तंत्र को समझने में सहायता करता है

3. मौजूदा विधियों की सीमाएं

संदेश सामग्री पर अत्यधिक निर्भरता: मौजूदा एल्गोरिदम मुख्य रूप से संदेश पाठ सामग्री से निकाली गई विशेषताओं का उपयोग करते हैं
वितरण-बाहर मूल्यांकन की कमी: मौजूदा अनुसंधान आमतौर पर डेटासेट को यादृच्छिक रूप से विभाजित करने का तरीका अपनाते हैं, यह सुनिश्चित करते हुए कि प्रशिक्षण और परीक्षण डेटा समान वितरण से आते हैं
उपयोगकर्ता संबंधित डेटा को नजरअंदाज करना: उपयोगकर्ता प्रोफ़ाइल, अनुसरण सूची और ऐतिहासिक व्यवहार जैसी महत्वपूर्ण जानकारी को कम आंका जाता है

4. अनुसंधान प्रेरणा

सामाजिक मीडिया प्लेटफॉर्म पर अक्सर नए विषय (जैसे तेजी से समाचार) दिखाई देते हैं, इसलिए पारंपरिक समान-वितरण वर्गीकरण के अलावा, वितरण-बाहर भविष्यवाणी क्षमता की आवश्यकता है, जो व्यावहारिक अनुप्रयोगों में अधिक चुनौतीपूर्ण और मूल्यवान है।

मूल योगदान

नया मूल्यांकन प्रतिमान प्रस्तावित किया: पहली बार स्पष्ट रूप से समान-वितरण भविष्यवाणी और वितरण-बाहर भविष्यवाणी को अलग किया, साझाकरण भविष्यवाणी अनुसंधान के लिए एक अधिक व्यापक मूल्यांकन ढांचा प्रदान किया
व्यापक विशेषता प्रणाली का निर्माण: 303 विशेषताओं की पहचान और निर्माण किया, जिसमें 78 संदेश-संबंधित विशेषताएं और 225 उपयोगकर्ता-संबंधित विशेषताएं शामिल हैं
उपयोगकर्ता विशेषताओं की महत्ता का खुलासा: प्रयोग से साबित किया कि उपयोगकर्ता-संबंधित विशेषताएं वितरण-बाहर भविष्यवाणी के लिए महत्वपूर्ण हैं, F1 स्कोर 0.117 से 0.705 तक बढ़ गया
महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि प्रदान की: पाया कि साझाकरण व्यवहार बड़े हिस्से में सामग्री से स्वतंत्र है, मुख्य रूप से उपयोगकर्ता विशेषताओं द्वारा निर्धारित है ("यह हम कौन हैं, न कि हम क्या देखते हैं")

विधि विवरण

कार्य परिभाषा

साझाकरण भविष्यवाणी को यह भविष्यवाणी करने के रूप में परिभाषित किया जाता है कि प्राप्तकर्ता भेजने वाले से प्राप्त संदेश को साझा करेगा या नहीं:

$f : \{M, U_S, U_R\} \rightarrow y \in \{0, 1\}$

जहां:

$M$ : संदेश
$U_S$ : भेजने वाला
$U_R$ : प्राप्तकर्ता
$y=1$ : प्राप्तकर्ता संदेश साझा करेगा, $y=0$ : साझा नहीं करेगा

डेटा आर्किटेक्चर

1. संदेश डेटा Data(M)

X (Twitter) के 111,401 संदेशों की पाठ सामग्री शामिल है, 78 संदेश-संबंधित विशेषताएं निकाली गई हैं:

विषय विशेषताएं (39): Twitter-roBERTa और LDA मॉडल का उपयोग करके संदेश विषय की पहचान की गई
भाषा विशेषताएं (10): व्याकरणिक सही, ध्रुवीयता, व्यक्तिपरकता आदि
पठनीयता विशेषताएं (11): Flesch पठनीयता कठिनाई, SMOG सूचकांक आदि
भावना विशेषताएं (5): सकारात्मक, नकारात्मक, तटस्थ भावना स्कोर
भाव विशेषताएं (8): क्रोध, खुशी, भय आदि भाव संभावनाएं
घृणा भाषण विशेषताएं (4): आक्रामकता, घृणा माप
टैग विशेषताएं (1): विशिष्ट हैशटैग की उपस्थिति

2. उपयोगकर्ता डेटा Data(U)

तीन प्रकार के उपयोगकर्ता-संबंधित डेटा शामिल हैं:

उपयोगकर्ता प्रोफ़ाइल डेटा Data(U-P):

उपयोगकर्ता प्रोफ़ाइल और अनुसरण सूची
30 विशेषताएं निकाली गई: अनुयायियों की संख्या, प्रभाव माप, नेटवर्क संबंध आदि

उपयोगकर्ता ऐतिहासिक व्यवहार डेटा Data(U-HA):

हाल के 50 ऐतिहासिक संदेशों के मेटाडेटा
38 विशेषताएं निकाली गई: साझाकरण दर, इंटरैक्शन पैटर्न, उपयोगकर्ता के बीच इंटरैक्शन आदि

उपयोगकर्ता ऐतिहासिक संदेश डेटा Data(U-HM):

हाल के 50 ऐतिहासिक संदेशों की पाठ सामग्री
157 विशेषताएं निकाली गई: ऐतिहासिक संदेशों की एकत्रित विशेषताएं, विषय समानता आदि

मॉडल आर्किटेक्चर

1. निर्णय वृक्ष (DT) मॉडल

XGBoost निर्णय वृक्ष का उपयोग किया गया, विशेषता महत्व विश्लेषण के माध्यम से उपयोगकर्ता विशेषताओं की महत्वपूर्ण भूमिका की खोज की गई। मुख्य हाइपरपैरामीटर:

अधिकतम गहराई: 8
सीखने की दर: 0.3
अनुमानकर्ताओं की संख्या: 100

2. तंत्रिका नेटवर्क (NN) मॉडल

SUA-ACNN मॉडल के आधार पर विस्तारित, उपयोगकर्ता डेटा को संभालने के लिए MLP घटक जोड़े गए:

NN-M: केवल संदेश डेटा का उपयोग
NN-U: केवल उपयोगकर्ता डेटा का उपयोग
NN-ALL: सभी डेटा प्रकारों का उपयोग

3. BERT मॉडल

BERT-base का उपयोग संदेश पाठ को संभालने के लिए किया गया, भविष्यवाणी के लिए शब्दार्थ एम्बेडिंग उत्पन्न किए गए।

तकनीकी नवाचार बिंदु

वितरण-बाहर मूल्यांकन डिजाइन: प्रत्येक हैशटैग के लिए, अन्य 13 हैशटैग के डेटा का उपयोग प्रशिक्षण के लिए किया जाता है, उस हैशटैग पर परीक्षण किया जाता है
नकारात्मक नमूना उत्पादन रणनीति: प्रत्येक सकारात्मक नमूने के लिए सबसे समान नकारात्मक नमूना चुना जाता है, मूल्यांकन की प्रासंगिकता सुनिश्चित करते हुए
बहु-स्तरीय विशेषता प्रणाली: संदेश, उपयोगकर्ता प्रोफ़ाइल, ऐतिहासिक व्यवहार आदि कई आयामों से व्यवस्थित रूप से विशेषताएं निकाली गई हैं

प्रयोगात्मक सेटअप

डेटासेट

डेटा स्रोत: X प्लेटफॉर्म (पूर्व Twitter) अकादमिक API
समय सीमा: 27 जुलाई से 14 अगस्त, 2022
डेटा स्केल:
- 111,401 संदेश
- 44,014 साझाकरण घटनाएं (सकारात्मक नमूने)
- 79,707 अद्वितीय उपयोगकर्ता
- 3.8 मिलियन ऐतिहासिक संदेश
विषय कवरेज: 14 लोकप्रिय हैशटैग

डेटासेट निर्माण

तीन अलग-अलग सकारात्मक-नकारात्मक नमूना अनुपात के साथ डेटासेट बनाए गए:

1:1 डेटासेट: प्रत्येक सकारात्मक नमूने के साथ एक सबसे समान नकारात्मक नमूना
1:5 डेटासेट: प्रत्येक सकारात्मक नमूने के साथ 5 सबसे समान नकारात्मक नमूने
1:10 डेटासेट: प्रत्येक सकारात्मक नमूने के साथ 5 समान + 5 यादृच्छिक नकारात्मक नमूने

मूल्यांकन मेट्रिक्स

मुख्य रूप से F1 स्कोर का उपयोग किया गया: $F1 = \frac{TP}{TP + \frac{1}{2}(FP + FN)}$

कई हैशटैग के परिणामों के लिए, समग्र माध्य और मानक विचलन की गणना की गई।

प्रयोगात्मक डिजाइन

तीन प्रकार के प्रयोग किए गए:

प्रयोग I: मिश्रित हैशटैग की समान-वितरण भविष्यवाणी
प्रयोग II: एकल हैशटैग की समान-वितरण भविष्यवाणी
प्रयोग III: वितरण-बाहर भविष्यवाणी

प्रयोगात्मक परिणाम

मुख्य परिणाम

समान-वितरण भविष्यवाणी (प्रयोग I)

1:5 डेटासेट पर F1 स्कोर:

मॉडल	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
F1 स्कोर	0.884±0.002	0.852±0.005	0.758±0.002	0.844±0.009	0.835±0.004	0.740±0.003	0.740±0.010

वितरण-बाहर भविष्यवाणी (प्रयोग III)

समग्र F1 स्कोर (μ̄±σ̄):

मॉडल	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
F1 स्कोर	0.697±0.076	0.705±0.084	0.117±0.131	0.623±0.109	0.702±0.071	0.108±0.055	0.091±0.101

मुख्य निष्कर्ष

उपयोगकर्ता विशेषताओं की महत्वपूर्ण भूमिका:
- केवल संदेश विशेषताओं का उपयोग करने वाले मॉडल की वितरण-बाहर भविष्यवाणी में प्रदर्शन में तेजी से गिरावट आती है
- केवल उपयोगकर्ता विशेषताओं का उपयोग करने वाले मॉडल की वितरण-बाहर भविष्यवाणी में सभी विशेषताओं का उपयोग करने वाले मॉडल के समान प्रदर्शन है
विशेषता महत्व विश्लेषण:
- शीर्ष 20 सबसे महत्वपूर्ण विशेषताओं में, उपयोगकर्ता-संबंधित विशेषताएं 17 हैं
- सबसे महत्वपूर्ण विशेषता "क्या प्राप्तकर्ता भेजने वाले को अनुसरण करता है" है (U-P_R_FollowS)
प्रदर्शन में उल्लेखनीय सुधार:
- वितरण-बाहर भविष्यवाणी F1 स्कोर 0.117 से 0.705 तक बढ़ा (502% सुधार)
- नए विषय भविष्यवाणी के लिए उपयोगकर्ता विशेषताओं की महत्ता साबित करता है

विशेषता हटाने के प्रयोग

विभिन्न विशेषता संयोजनों के तुलनात्मक प्रयोगों के माध्यम से, पाया गया:

U-P और U-HA विशेषताएं: वितरण-बाहर भविष्यवाणी में सबसे बड़ा योगदान
U-HM विशेषताएं: संदेश विशेषताओं के समान प्रदर्शन, वितरण-बाहर प्रदर्शन सीमित
संदेश विशेषताएं: वितरण-बाहर सेटिंग में लगभग अप्रभावी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सामग्री स्वतंत्रता: साझाकरण व्यवहार बड़े हिस्से में विशिष्ट सामग्री से स्वतंत्र है, मुख्य रूप से उपयोगकर्ता विशेषताओं द्वारा निर्धारित है
उपयोगकर्ता विशेषताओं की सामान्यीकरण क्षमता: उपयोगकर्ता प्रोफ़ाइल और ऐतिहासिक व्यवहार में विषयों के बीच सामान्यीकरण क्षमता है
मूल्यांकन प्रतिमान की महत्ता: वितरण-बाहर मूल्यांकन व्यावहारिक अनुप्रयोगों के लिए अधिक महत्वपूर्ण है

सीमाएं

प्लेटफॉर्म सीमाएं: अनुसंधान केवल X प्लेटफॉर्म डेटा पर आधारित है
समय विंडो: केवल 24 घंटे के भीतर साझाकरण व्यवहार पर विचार किया गया
विशेषता इंजीनियरिंग: कुछ विशेषता निष्कर्षण विशिष्ट उपकरण और मॉडल पर निर्भर हैं
सांस्कृतिक पृष्ठभूमि: विभिन्न सांस्कृतिक पृष्ठभूमि में व्यवहार अंतर पर विचार नहीं किया गया

भविष्य की दिशाएं

क्रॉस-प्लेटफॉर्म अनुसंधान: अन्य सामाजिक मीडिया प्लेटफॉर्म तक विस्तार
गतिशील मॉडलिंग: उपयोगकर्ता व्यवहार के समय विकास पर विचार
कारणात्मक अनुमान: उपयोगकर्ता विशेषताओं और साझाकरण व्यवहार के बीच कारणात्मक संबंध को गहराई से समझना
वास्तविक समय अनुप्रयोग: वास्तविक समय भविष्यवाणी प्रणाली विकसित करना

गहन मूल्यांकन

शक्तियां

समस्या सेटिंग नवाचार:
- पहली बार स्पष्ट रूप से वितरण-बाहर साझाकरण भविष्यवाणी समस्या प्रस्तावित की गई
- व्यावहारिक अनुप्रयोग परिदृश्यों के अधिक करीब
कठोर प्रयोगात्मक डिजाइन:
- कई मॉडलों की तुलनात्मक सत्यापन
- विस्तृत विशेषता हटाने के प्रयोग
- सांख्यिकीय महत्व विश्लेषण
व्यापक विशेषता इंजीनियरिंग:
- 303 विशेषताओं का व्यवस्थित निर्माण
- बहु-आयामी विशेषता महत्व विश्लेषण
गहन सैद्धांतिक योगदान:
- "यह हम कौन हैं, न कि हम क्या देखते हैं" की महत्वपूर्ण अंतर्दृष्टि
- सामाजिक मीडिया व्यवहार को समझने के लिए नया दृष्टिकोण प्रदान करता है

कमियां

डेटा प्रतिनिधित्व:
- केवल 14 हैशटैग का उपयोग, पूरी तरह से व्यापक नहीं हो सकता
- समय अवधि छोटी है, दीर्घकालीन अवलोकन की कमी
विशेषता व्याख्या:
- कुछ उपयोगकर्ता विशेषताओं के मनोवैज्ञानिक तंत्र पूरी तरह स्पष्ट नहीं हैं
- विशेषता इंटरैक्शन प्रभावों का गहन विश्लेषण की कमी
व्यावहारिक विचार:
- व्यावहारिक अनुप्रयोगों में पूर्ण उपयोगकर्ता ऐतिहासिक डेटा प्राप्त करना कठिन हो सकता है
- गोपनीयता सुरक्षा पहलुओं पर अपर्याप्त विचार
मॉडल जटिलता:
- 303 विशेषताओं में संभावित अनावश्यकता हो सकती है
- विशेषता चयन और आयाम कमी विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान:
- सूचना प्रसार अनुसंधान के लिए नया मूल्यांकन प्रतिमान प्रदान करता है
- मौजूदा विधियों की धारणाओं को चुनौती देता है
व्यावहारिक मूल्य:
- सामाजिक मीडिया प्लेटफॉर्म की सिफारिश एल्गोरिदम के लिए मार्गदर्शन
- विपणन और जनमत निगरानी के लिए नई सोच
पुनरुत्पादनीयता:
- विस्तृत प्रयोगात्मक सेटअप और पैरामीटर विवरण
- खुली विशेषता इंजीनियरिंग विधि

लागू परिदृश्य

सामाजिक मीडिया प्लेटफॉर्म: सामग्री सिफारिश और उपयोगकर्ता व्यवहार भविष्यवाणी
डिजिटल विपणन: लक्षित उपयोगकर्ता पहचान और सामग्री रणनीति
जनमत निगरानी: लोकप्रिय विषय प्रसार भविष्यवाणी
शैक्षणिक अनुसंधान: सामाजिक नेटवर्क विश्लेषण और व्यवहार मॉडलिंग

संदर्भ

पेपर में 48 संबंधित संदर्भ उद्धृत किए गए हैं, जिनमें शामिल हैं:

सूचना प्रसार सिद्धांत अनुसंधान
मशीन लर्निंग विधि अनुप्रयोग
सामाजिक मीडिया व्यवहार विश्लेषण
प्राकृतिक भाषा प्रसंस्करण तकनीकें

मुख्य संदर्भ साझाकरण भविष्यवाणी के शास्त्रीय कार्य, तंत्रिका नेटवर्क मॉडल (जैसे BERT, SUA-ACNN) और सामाजिक नेटवर्क विश्लेषण के मौलिक अनुसंधान शामिल हैं।

समग्र मूल्यांकन: यह समस्या सेटिंग, विधि नवाचार और प्रयोगात्मक सत्यापन के संदर्भ में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है। विशेष रूप से वितरण-बाहर भविष्यवाणी का प्रस्ताव और उपयोगकर्ता विशेषताओं की महत्ता की खोज, सामाजिक मीडिया सूचना प्रसार अनुसंधान के लिए नई दिशा खोलता है। हालांकि कुछ सीमाएं हैं, लेकिन इसका सैद्धांतिक मूल्य और व्यावहारिक महत्व दोनों बहुत अधिक हैं, और यह संबंधित क्षेत्रों पर महत्वपूर्ण प्रभाव डालने की उम्मीद है।