2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

जब या क्या? डिजिटल प्लेटफॉर्म पर उपभोक्ता सहभागिता को समझना

मूल जानकारी

  • पेपर आईडी: 2510.10474
  • शीर्षक: When or What? Understanding Consumer Engagement on Digital Platforms
  • लेखक: Jingyi Wu (झेजियांग विश्वविद्यालय), Junying Liang (झेजियांग विश्वविद्यालय)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.CY (कंप्यूटर और समाज)
  • प्रकाशन समय: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.10474

सारांश

यह अध्ययन डिजिटल प्लेटफॉर्म पर उपभोक्ता सहभागिता के चालकों की जांच करता है। पूर्ववर्ती शोध मुख्य रूप से सामग्री विशेषताओं की भूमिका पर जोर देते हैं, लेकिन सामग्री निर्माता अक्सर दर्शकों की वास्तविक आवश्यकताओं का गलत अनुमान लगाते हैं। यह पेपर बड़े पैमाने पर TED व्याख्यान कॉर्पस का विश्लेषण करने के लिए लेटेंट डिरिचलेट एलोकेशन (LDA) मॉडल का उपयोग करता है, इस प्लेटफॉर्म को निर्माता (वक्ता) और उपभोक्ता (दर्शक) के बीच बातचीत के डिजिटल सेवा मामले के रूप में देखता है। निर्माता के विषय आपूर्ति और दर्शक सहभागिता द्वारा व्यक्त की गई मांग की तुलना करके, अनुसंधान निर्माता आपूर्ति और उपभोक्ता वरीयता के बीच निरंतर बेमेल की पहचान करता है। अनुदैर्ध्य विश्लेषण आगे प्रकट करता है कि समय गतिशीलता उपभोक्ता सहभागिता को विषय सामग्री की तुलना में अधिक प्रभावित करती है, जो सुझाता है कि सामग्री को "कब" प्रदान करना "क्या" प्रदान करने से अधिक महत्वपूर्ण हो सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल प्रश्न

इस अनुसंधान का मूल प्रश्न है: डिजिटल प्लेटफॉर्म पर, क्या सामग्री विशेषताएं ("क्या") या समय कारक ("कब") उपभोक्ता सहभागिता को अधिक चलाते हैं?

समस्या की महत्ता

  1. आर्थिक मूल्य: YouTube पर 1 मिलियन से अधिक दृश्य वाले वीडियो आमतौर पर 2000सेअधिकविज्ञापनराजस्वउत्पन्नकरतेहैं,शीर्षनिर्माताओंकीवार्षिकआय2000 से अधिक विज्ञापन राजस्व उत्पन्न करते हैं, शीर्ष निर्माताओं की वार्षिक आय 54 मिलियन तक पहुंचती है
  2. तीव्र प्रतिस्पर्धा: YouTube के पास 51 मिलियन से अधिक चैनल हैं, लेकिन केवल कुछ ही मिलियन सदस्यता माइलस्टोन तक पहुंचते हैं
  3. व्यावहारिक आवश्यकता: सामग्री निर्माता, प्लेटफॉर्म प्रबंधक और विपणन पेशेवरों को दर्शक सहभागिता रणनीति को अनुकूलित करने के तरीके को समझने की तत्काल आवश्यकता है

मौजूदा पद्धति की सीमाएं

  1. सामग्री विशेषताओं पर अत्यधिक ध्यान: मौजूदा शोध मुख्य रूप से सामग्री गुणवत्ता, विषय चयन जैसे आंतरिक कारकों पर केंद्रित है
  2. आपूर्ति-मांग बेमेल को नजरअंदाज करना: निर्माता आपूर्ति और दर्शक मांग के अंतर का मात्रात्मक विश्लेषण की कमी
  3. समय कारक को कम आंकना: सामग्री प्रकाशन समय और समय गतिशीलता के प्रभाव की समझ अपर्याप्त है

अनुसंधान प्रेरणा

चयनात्मक जोखिम सिद्धांत और ध्यान अर्थशास्त्र के आधार पर, यह अनुसंधान मानता है कि निर्माता और दर्शकों के बीच व्यवस्थित वरीयता अंतर मौजूद है, और समय कारक सामग्री से अधिक महत्वपूर्ण हो सकता है।

मूल योगदान

  1. "अंतर सूचकांक" (Difference Index) पद्धति प्रस्तावित की: निर्माता और दर्शकों के बीच वरीयता अंतर को मात्रा निर्धारित करता है
  2. सामग्री-प्रथम परंपरागत धारणा को चुनौती दी: समय गतिशीलता विषय सामग्री की तुलना में दर्शक सहभागिता को अधिक प्रभावित करती है
  3. बड़े पैमाने पर TED व्याख्यान डेटासेट का निर्माण: 2006-2022 के 4,475 व्याख्यान, कुल 8,065,104 शब्द
  4. व्यावहारिक रणनीति मार्गदर्शन प्रदान: सामग्री निर्माता, प्लेटफॉर्म प्रबंधकों के लिए डेटा-आधारित अनुकूलन सुझाव

विधि विवरण

कार्य परिभाषा

इनपुट: TED व्याख्यान प्रतिलेख पाठ, दृश्य संख्या, प्रकाशन वर्ष आउटपुट: विषय वितरण, वरीयता अंतर परिमाणीकरण, समय और विषय का सहभागिता पर सापेक्ष प्रभाव बाधाएं: विश्लेषण 2006-2022 के अंग्रेजी TED व्याख्यान तक सीमित

मॉडल आर्किटेक्चर

1. LDA विषय मॉडलिंग

दस्तावेज़ → पूर्व-प्रसंस्करण → LDA मॉडल → 14 विषय
  • पूर्व-प्रसंस्करण: क्रिया, संज्ञा, विशेषण, क्रिया विशेषण को बनाए रखें; स्टॉप शब्दों को हटाएं; टोकनाइजेशन प्रसंस्करण
  • विषय संख्या: भ्रम पर आधारित 14 विषय चुने गए
  • विषय एनोटेशन: उच्च-आवृत्ति शब्दों के आधार पर विषय शब्दार्थ को मैन्युअल रूप से एनोटेट किया गया

2. वरीयता परिमाणीकरण पद्धति

निर्माता वरीयता: किसी विषय के वीडियो की संख्या उस वर्ष की कुल संख्या का अनुपात दर्शक वरीयता: किसी विषय के औसत दृश्य संख्या का लॉग-रूपांतरण मूल्य

3. अंतर सूचकांक गणना

Difference Index_{विषय,वर्ष} = |औसत दृश्य संख्या_{विषय,वर्ष}/कुल दृश्य संख्या_{वर्ष} - वीडियो संख्या_{विषय,वर्ष}/कुल वीडियो संख्या_{वर्ष}|

Difference Index_{वर्ष} = ∑_{विषय} Difference Index_{विषय,वर्ष}

तकनीकी नवाचार बिंदु

  1. बहु-आयामी विश्लेषण ढांचा: विषय सामग्री और समय गतिशीलता के दोहरे प्रभाव पर विचार करता है
  2. आपूर्ति-मांग बेमेल परिमाणीकरण: पहली बार निर्माता आपूर्ति और दर्शक मांग के अंतर को व्यवस्थित रूप से परिमाणित करता है
  3. अनुदैर्ध्य तुलनात्मक विश्लेषण: 17 वर्ष की अवधि का गतिशील प्रवृत्ति विश्लेषण
  4. सांख्यिकीय मॉडलिंग सत्यापन: विषय और समय कारकों के सापेक्ष महत्व को सत्यापित करने के लिए बीटा प्रतिगमन मॉडल का उपयोग

प्रायोगिक सेटअप

डेटासेट

  • डेटा स्रोत: TED आधिकारिक वेबसाइट, उपयोग शर्तों का कड़ाई से पालन
  • आकार: 4,475 व्याख्यान, 8,065,104 शब्द
  • समय अवधि: 2006-2022
  • चर: व्याख्यान प्रतिलेख, दृश्य संख्या, प्रकाशन वर्ष

डेटा पूर्व-प्रसंस्करण

  1. पाठ सफाई: 3 वर्णों से कम लंबाई वाले शब्दों को हटाएं
  2. स्टॉप शब्द प्रसंस्करण: NLTK पैकेज के स्टॉप शब्द सूची के आधार पर, अतिरिक्त रूप से 'kind', 'little', 'sort' आदि को हटाएं
  3. डेटा मानकीकरण: दृश्य संख्या के लिए प्राकृतिक लॉग रूपांतरण विषम वितरण को संभालने के लिए

मूल्यांकन मेट्रिक्स

  • विषय सामंजस्य: उच्च-आवृत्ति शब्दों के शब्दार्थ सुसंगतता के आधार पर
  • मॉडल फिटिंग: भ्रम (Perplexity)
  • सांख्यिकीय महत्व: ची-स्क्वायर परीक्षण, Kruskal-Wallis H परीक्षण
  • मॉडल व्याख्या शक्ति: बीटा प्रतिगमन का छद्म R²

सांख्यिकीय विश्लेषण पद्धति

  • स्वतंत्रता परीक्षण: विषय और वर्ष की संबद्धता का मूल्यांकन करने के लिए ची-स्क्वायर परीक्षण
  • गैर-पैरामीट्रिक परीक्षण: विषयों के बीच दृश्य अंतर की तुलना के लिए Kruskal-Wallis H परीक्षण
  • प्रतिगमन विश्लेषण: विषय और समय कारकों के सापेक्ष प्रभाव का मूल्यांकन करने के लिए बीटा प्रतिगमन
  • सहसंबंध विश्लेषण: निर्माता और दर्शक वरीयता की संबद्धता के लिए Spearman सहसंबंध परीक्षण

प्रायोगिक परिणाम

मुख्य परिणाम

1. विषय वितरण खोज

14 विषयों की पहचान की गई, वितरण अत्यंत असमान:

  • लोकप्रिय विषय: भावनाएं (20.02%), सामाजिक संपर्क (14.03%)
  • विज्ञान विषय: ब्रह्मांड (5.92%), प्रौद्योगिकी (5.90%), मस्तिष्क (5.34%)
  • अलोकप्रिय विषय: अल्पसंख्यक (1.09%)

2. निर्माता वरीयता विश्लेषण

  • विषय कारक अधिक महत्वपूर्ण: बीटा प्रतिगमन छद्म R²=0.361, विषय गुणांक आमतौर पर वर्ष गुणांक से अधिक
  • वरीयता स्थिरता: भावनाएं (β=2.695) और सामाजिक संपर्क (β=2.231) के गुणांक सर्वोच्च
  • समय संवेदनशीलता: जलवायु ऊर्जा और राजनीतिक विषय समय से महत्वपूर्ण रूप से प्रभावित

3. दर्शक वरीयता विश्लेषण

  • समय कारक अधिक महत्वपूर्ण: बीटा प्रतिगमन छद्म R²=0.249, वर्ष गुणांक आमतौर पर विषय गुणांक से अधिक
  • लोकप्रिय विषय: मस्तिष्क, सामाजिक संपर्क, अल्पसंख्यक सर्वोच्च औसत दृश्य संख्या
  • आपूर्ति-मांग बेमेल: अल्पसंख्यक विषय सबसे कम आपूर्ति लेकिन सर्वोच्च मांग

4. वरीयता अंतर परिमाणीकरण

  • समग्र कमजोर सहसंबंध: Spearman सहसंबंध गुणांक r=0.143 (p=0.028)
  • अंतर में बड़ा उतार-चढ़ाव: वार्षिक अंतर सूचकांक में कोई स्पष्ट प्रवृत्ति नहीं, महत्वपूर्ण उतार-चढ़ाव
  • विषय अंतर: भावनाएं, अल्पसंख्यक, मस्तिष्क विषय सर्वोच्च अंतर सूचकांक

विलोपन प्रयोग

अवशेष विश्लेषण परिणाम

  • स्थिर विषय: कला, स्वास्थ्य सेवा समय से प्रभावित नहीं
  • संवेदनशील विषय: जलवायु ऊर्जा 2009, 2021, 2022 में महत्वपूर्ण रूप से बढ़ी
  • घटना-संचालित: राजनीतिक विषय 2020 में शिखर पर पहुंचे (महामारी प्रभाव)

बीटा प्रतिगमन मॉडल तुलना

कारक प्रकारनिर्माता वरीयतादर्शक वरीयता
विषय प्रभावमजबूत (बड़े गुणांक)मध्यम
समय प्रभावकमजोर (छोटे गुणांक)मजबूत
मॉडल व्याख्या शक्ति36.1%24.9%

केस विश्लेषण

सफल मिलान केस

  • राजनीतिक विषय: निर्माता और दर्शक वरीयता वक्र अपेक्षाकृत स्थिर, कम अंतर सूचकांक
  • स्वास्थ्य सेवा: सार्वभौमिक चिंता विषय के रूप में, अच्छी आपूर्ति-मांग मिलान

बेमेल विशिष्ट केस

  • अल्पसंख्यक विषय: गंभीर आपूर्ति की कमी (1.09%) लेकिन उच्च दृश्य मांग
  • भावनाएं विषय: निर्माता द्वारा अत्यधिक आपूर्ति (20.02%) लेकिन दर्शक रुचि सामान्य
  • मस्तिष्क विज्ञान: 2016-2019 में महत्वपूर्ण आपूर्ति-मांग अंतर

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. सामाजिक नेटवर्क प्रभाव: वास्तविक सामाजिक नेटवर्क का ऑनलाइन लोकप्रियता पर प्रभाव तंत्र
  2. सामग्री विशेषता विश्लेषण: टैग, विषय के आधार पर लोकप्रियता भविष्यवाणी
  3. चयनात्मक जोखिम सिद्धांत: उपयोगकर्ता वरीयता और सामग्री चयन का संबंध
  4. अनुशंसा एल्गोरिदम प्रभाव: सामग्री दृश्यता पर एल्गोरिदम का आकार देने वाला प्रभाव

इस पेपर के नवाचार बिंदु

  1. द्विदिशात्मक विश्लेषण: पहली बार निर्माता आपूर्ति और दर्शक मांग की व्यवस्थित तुलना
  2. समय आयाम: समय गतिशीलता के महत्व पर जोर, सामग्री-प्रथम धारणा को चुनौती
  3. परिमाणीकरण पद्धति: अंतर सूचकांक जैसे संचालन योग्य माप उपकरण प्रस्तावित
  4. व्यावहारिक उन्मुखीकरण: शुद्ध सैद्धांतिक विश्लेषण के बजाय विशिष्ट रणनीति सुझाव प्रदान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. समय सामग्री से अधिक महत्वपूर्ण: दर्शकों के लिए, "कब" सहभागिता को "क्या" से अधिक प्रभावित करता है
  2. व्यवस्थित आपूर्ति-मांग बेमेल: निर्माता वरीयता और दर्शक मांग में निरंतर अंतर मौजूद है
  3. विषय अंतर महत्वपूर्ण: विभिन्न विषयों की आपूर्ति-मांग मिलान डिग्री में विशाल अंतर
  4. परंपरागत धारणा में संशोधन आवश्यक: सामग्री गुणवत्ता लोकप्रियता का एकमात्र या मुख्य चालक नहीं है

सीमाएं

  1. प्लेटफॉर्म सीमा: केवल TED प्लेटफॉर्म पर आधारित, सामान्यीकरण योग्यता सत्यापन की प्रतीक्षा में
  2. अधूरे चर: पसंद, साझाकरण जैसे अन्य संपर्क मेट्रिक्स पर विचार नहीं किया गया
  3. अंतःक्रिया प्रभाव: मॉडल अभिसरण समस्याएं विषय-समय अंतःक्रिया विश्लेषण को सीमित करती हैं
  4. कारण संबंध: सहसंबंध विश्लेषण कारण संबंध निर्धारित नहीं कर सकता

भविष्य की दिशाएं

  1. बहु-प्लेटफॉर्म सत्यापन: YouTube, पॉडकास्ट जैसे अन्य प्लेटफॉर्म तक विस्तार
  2. अंतःक्रिया प्रभाव मॉडलिंग: जटिल अंतःक्रिया को संभालने के लिए सांख्यिकीय मॉडल में सुधार
  3. वास्तविक समय भविष्यवाणी प्रणाली: समय गतिशीलता के आधार पर लोकप्रियता भविष्यवाणी उपकरण विकसित करें
  4. सामग्री अनुकूलन रणनीति: कथा संरचना, अभिव्यक्ति पद्धति के अनुकूलन पर शोध

गहन मूल्यांकन

शक्तियां

  1. पद्धति नवाचार मजबूत: अंतर सूचकांक अवधारणा नवीन है, आपूर्ति-मांग विश्लेषण के लिए परिमाणीकरण उपकरण प्रदान करता है
  2. डेटा स्केल बड़ा: 17 वर्ष की अवधि, 4475 नमूने, सांख्यिकीय शक्ति पर्याप्त
  3. खोज प्रति-सहज: सामग्री-प्रथम धारणा को चुनौती देता है, समय-प्राथमिकता परिकल्पना प्रस्तावित करता है
  4. व्यावहारिक मूल्य उच्च: सामग्री निर्माताओं के लिए विशिष्ट संचालन योग्य सुझाव प्रदान करता है
  5. विश्लेषण व्यापक: गुणात्मक और मात्रात्मक पद्धति को जोड़ता है, बहु-कोण से निष्कर्ष सत्यापित करता है

कमियां

  1. सैद्धांतिक आधार कमजोर: समय कारक अधिक महत्वपूर्ण क्यों है इसके गहन तंत्र की व्याख्या की कमी
  2. पद्धति सीमा: LDA विषय संख्या चयन में व्यक्तिपरकता मजबूत है, परिणाम स्थिरता को प्रभावित कर सकता है
  3. बाहरी वैधता समस्या: TED प्लेटफॉर्म की विशेषता निष्कर्षों की सार्वभौमिकता को सीमित कर सकती है
  4. चर लोप: वक्ता प्रतिष्ठा, वीडियो गुणवत्ता जैसे महत्वपूर्ण प्रभावकारी कारकों को नजरअंदाज किया गया
  5. कारण अनुमान अपर्याप्त: मुख्य रूप से सहसंबंध विश्लेषण पर आधारित, कारण पहचान रणनीति की कमी

प्रभाव

  1. शैक्षणिक योगदान: डिजिटल प्लेटफॉर्म अनुसंधान के लिए नई विश्लेषण ढांचा प्रदान करता है
  2. व्यावहारिक मूल्य: सामग्री विपणन, प्लेटफॉर्म संचालन के लिए सीधा मार्गदर्शन
  3. अंतः-विषय महत्व: संचार, कम्प्यूटेशनल भाषाविज्ञान, उपभोक्ता व्यवहार को जोड़ता है
  4. नीति निहितार्थ: प्लेटफॉर्म शासन, सामग्री नियमन के लिए डेटा समर्थन प्रदान करता है

लागू दृश्य

  1. सामग्री प्लेटफॉर्म: YouTube, Bilibili जैसे वीडियो प्लेटफॉर्म की सामग्री रणनीति निर्माण
  2. विपणन क्षेत्र: ब्रांड सामग्री विपणन का समय चयन और विषय योजना
  3. शैक्षणिक अनुसंधान: डिजिटल संचार, उपभोक्ता व्यवहार का अनुभवजन्य अनुसंधान
  4. प्लेटफॉर्म शासन: सामग्री अनुशंसा एल्गोरिदम का अनुकूलन और पूर्वाग्रह पहचान

संदर्भ

यह पेपर 89 संबंधित संदर्भों का हवाला देता है, जिसमें शामिल हैं:

  • सामाजिक नेटवर्क विश्लेषण शास्त्रीय साहित्य (Kwak et al., 2010)
  • विषय मॉडलिंग पद्धति साहित्य (Blei et al., 2003)
  • चयनात्मक जोखिम सिद्धांत साहित्य (Stroud, 2010)
  • डिजिटल संचार अनुभवजन्य अनुसंधान (Cinelli et al., 2021)

समग्र मूल्यांकन: यह एक नवीन और व्यावहारिक मूल्य वाला अनुसंधान पेपर है जो बड़े पैमाने पर डेटा विश्लेषण के माध्यम से परंपरागत सामग्री-संचालित धारणा को चुनौती देता है, समय-प्राथमिकता का नया दृष्टिकोण प्रस्तावित करता है। यद्यपि सैद्धांतिक गहराई और पद्धति पूर्णता के पहलुओं में सुधार की गुंजाइश है, लेकिन इसके मूल निष्कर्ष शैक्षणिक और व्यावहारिक क्षेत्रों दोनों के लिए महत्वपूर्ण निहितार्थ रखते हैं।