2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

متى أم ماذا؟ فهم تفاعل المستهلكين على المنصات الرقمية

المعلومات الأساسية

  • معرّف الورقة البحثية: 2510.10474
  • العنوان: When or What? Understanding Consumer Engagement on Digital Platforms
  • المؤلفون: Jingyi Wu (جامعة تشجيانج)، Junying Liang (جامعة تشجيانج)
  • التصنيف: cs.CL (معالجة اللغات الطبيعية)، cs.CY (الحوسبة والمجتمع)
  • تاريخ النشر: 12 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.10474

الملخص

تستكشف هذه الدراسة العوامل التي تحفز تفاعل المستهلكين على المنصات الرقمية. ركزت الأبحاث السابقة بشكل أساسي على دور خصائص المحتوى، لكن منشئي المحتوى غالباً ما يسيئون تقدير الاحتياجات الحقيقية للجمهور. تستخدم هذه الورقة نموذج تخصيص ديريشليه الكامن (LDA) لتحليل مجموعة بيانات واسعة من محاضرات TED، حيث تعتبر المنصة حالة دراسية لتفاعل المنشئين (المتحدثين) مع المستهلكين (الجمهور). من خلال مقارنة العرض الموضوعي للمنشئين مع الطلب الذي يعبر عنه تفاعل الجمهور، تحدد الدراسة عدم توافق مستمر بين عرض المنتجين وتفضيلات المستهلكين. يكشف التحليل الطولي الإضافي أن الديناميكيات الزمنية لها تأثير أقوى على تفاعل المستهلكين من محتوى الموضوع، مما يشير إلى أن "متى" يتم نقل المحتوى قد يكون أهم من "ماذا" يتم نقله.

السياق البحثي والدافع

المشكلة الأساسية

المشكلة الأساسية التي تسعى هذه الدراسة إلى حلها هي: على المنصات الرقمية، هل خصائص المحتوى ("ماذا") أم العوامل الزمنية ("متى") هي التي تحفز تفاعل المستهلكين بشكل أكبر؟

أهمية المشكلة

  1. القيمة الاقتصادية: مقاطع الفيديو على YouTube التي تحصل على أكثر من مليون مشاهدة عادة ما تحقق إيرادات إعلانية تتجاوز 2000 دولار، وأعلى منشئي محتوى يحققون إيرادات سنوية تصل إلى 54 مليون دولار
  2. المنافسة الشديدة: يضم YouTube أكثر من 51 مليون قناة، لكن عدداً قليلاً جداً يصل إلى معلم المليون مشترك
  3. الاحتياجات العملية: منشئو المحتوى ومديرو المنصات والمسوقون يحتاجون بشدة إلى فهم كيفية تحسين استراتيجيات تفاعل الجمهور

قيود الطرق الموجودة

  1. التركيز المفرط على خصائص المحتوى: تركز الأبحاث الموجودة بشكل أساسي على جودة المحتوى واختيار الموضوعات والعوامل الداخلية الأخرى
  2. تجاهل عدم توافق العرض والطلب: نقص في التحليل الكمي للفروقات بين عرض المنشئين وطلب الجمهور
  3. التقليل من أهمية العوامل الزمنية: فهم غير كافٍ لتأثير توقيت نشر المحتوى والديناميكيات الزمنية

الدافع البحثي

بناءً على نظرية التعرض الانتقائي واقتصاديات الانتباه، تفترض هذه الدراسة وجود فروقات منهجية في التفضيلات بين المنشئين والجمهور، وأن العوامل الزمنية قد تكون أهم من المحتوى نفسه.

المساهمات الأساسية

  1. اقتراح طريقة "مؤشر الفرق" (Difference Index):تحديد كمي للفروقات في التفضيلات بين المنشئين والجمهور
  2. تحدي المفهوم التقليدي للمحتوى أولاً: اكتشاف أن الديناميكيات الزمنية لها تأثير أكبر على تفاعل الجمهور من محتوى الموضوع
  3. بناء مجموعة بيانات واسعة النطاق لمحاضرات TED: تتضمن 4,475 محاضرة من 2006-2022، بإجمالي 8,065,104 كلمة
  4. توفير إرشادات استراتيجية عملية: تقديم توصيات قائمة على البيانات لمنشئي المحتوى ومديري المنصات

شرح الطريقة

تعريف المهمة

المدخلات: نصوص محاضرات TED، عدد المشاهدات، سنة النشر المخرجات: توزيع الموضوعات، تحديد كمي لفروقات التفضيلات، التأثير النسبي للعوامل الزمنية والموضوعية على درجة التفاعل القيود: يقتصر نطاق التحليل على محاضرات TED باللغة الإنجليزية من 2006-2022

بنية النموذج

1. نمذجة الموضوعات باستخدام LDA

المستند → المعالجة المسبقة → نموذج LDA → 14 موضوعاً
  • المعالجة المسبقة: الاحتفاظ بالأفعال والأسماء والصفات والظروف؛ إزالة كلمات التوقف؛ معالجة التحويل إلى كلمات أساسية
  • عدد الموضوعات: تم اختيار 14 موضوعاً بناءً على درجة الارتباك (Perplexity)
  • تسمية الموضوعات: تسمية يدوية للموضوعات بناءً على الكلمات عالية التكرار

2. طريقة تحديد التفضيلات كمياً

تفضيلات المنشئين: نسبة عدد مقاطع الفيديو لموضوع معين من إجمالي عدد المقاطع في السنة تفضيلات الجمهور: القيمة اللوغاريتمية المحولة لمتوسط عدد المشاهدات لموضوع معين

3. حساب مؤشر الفرق

Difference Index_{topic,year} = |Average View Count_{topic,year}/Total View Counts_{year} - Video Counts_{topic,year}/Total Video Counts_{year}|

Difference Index_{year} = ∑_{topics} Difference Index_{topic,year}

نقاط الابتكار التقني

  1. إطار تحليل متعدد الأبعاد: يأخذ في الاعتبار التأثير المزدوج لمحتوى الموضوع والديناميكيات الزمنية
  2. تحديد كمي لعدم توافق العرض والطلب: أول تحديد منهجي كمي للفروقات بين عرض المنشئين وطلب الجمهور
  3. تحليل المقارنة الطولية: تحليل الاتجاهات الديناميكية على مدى 17 سنة
  4. التحقق من النمذجة الإحصائية: استخدام نموذج الانحدار بيتا للتحقق من الأهمية النسبية للعوامل الموضوعية والزمنية

إعداد التجربة

مجموعة البيانات

  • مصدر البيانات: موقع TED الرسمي، مع الامتثال الصارم لشروط الاستخدام
  • الحجم: 4,475 محاضرة، 8,065,104 كلمة
  • الفترة الزمنية: 2006-2022
  • المتغيرات: نصوص المحاضرات، عدد المشاهدات، سنة النشر

المعالجة المسبقة للبيانات

  1. تنظيف النص: إزالة الكلمات التي يقل طولها عن 3 أحرف
  2. معالجة كلمات التوقف: بناءً على قائمة كلمات التوقف من حزمة NLTK، مع إزالة إضافية لـ 'kind', 'little', 'sort' وغيرها
  3. تطبيع البيانات: تحويل لوغاريتمي طبيعي لعدد المشاهدات للتعامل مع التوزيع المنحرف

مؤشرات التقييم

  • اتساق الموضوع: بناءً على الترابط الدلالي للكلمات عالية التكرار
  • جودة ملاءمة النموذج: درجة الارتباك (Perplexity)
  • الدلالة الإحصائية: اختبار كاي تربيع، اختبار Kruskal-Wallis H
  • قوة تفسير النموذج: الـ R² الزائف لانحدار بيتا

طرق التحليل الإحصائي

  • اختبار الاستقلالية: اختبار كاي تربيع لتقييم الارتباط بين الموضوع والسنة
  • الاختبار غير المعياري: اختبار Kruskal-Wallis H لمقارنة الفروقات في المشاهدات بين الموضوعات
  • تحليل الانحدار: انحدار بيتا لتقييم التأثير النسبي للعوامل الموضوعية والزمنية
  • تحليل الارتباط: اختبار ارتباط Spearman لفحص الارتباط بين تفضيلات المنشئين والجمهور

نتائج التجربة

النتائج الرئيسية

1. اكتشافات توزيع الموضوعات

تم تحديد 14 موضوعاً بتوزيع غير متساوٍ جداً:

  • الموضوعات الشهيرة: العاطفة (20.02%)، التفاعل الاجتماعي (14.03%)
  • الموضوعات العلمية: الكون (5.92%)، التكنولوجيا (5.90%)، الدماغ (5.34%)
  • الموضوعات النادرة: الأقليات (1.09%)

2. تحليل تفضيلات المنشئين

  • العامل الموضوعي أكثر أهمية: الـ R² الزائف لانحدار بيتا = 0.361، معاملات الموضوع أكبر بشكل عام من معاملات السنة
  • استقرار التفضيلات: معاملات العاطفة (β=2.695) والتفاعل الاجتماعي (β=2.231) الأعلى
  • الحساسية الزمنية: موضوعات المناخ والطاقة والسياسة تتأثر بشكل كبير بالعوامل الزمنية

3. تحليل تفضيلات الجمهور

  • العامل الزمني أكثر أهمية: الـ R² الزائف لانحدار بيتا = 0.249، معاملات السنة أكبر بشكل عام من معاملات الموضوع
  • الموضوعات الشهيرة: الدماغ والتفاعل الاجتماعي والأقليات لديها أعلى متوسط مشاهدات
  • عدم توافق العرض والطلب: موضوعات الأقليات لديها أقل عرض لكن أعلى طلب

4. تحديد كمي لفروقات التفضيلات

  • الارتباط الضعيف الإجمالي: معامل ارتباط Spearman r=0.143 (p=0.028)
  • تقلبات الفروقات الكبيرة: مؤشر الفرق السنوي بدون اتجاه واضح، تقلبات كبيرة
  • فروقات الموضوع: موضوعات العاطفة والأقليات والدماغ لديها أكبر مؤشرات فرق

تجارب الاستبعاد

نتائج تحليل البواقي

  • الموضوعات المستقرة: الفن والرعاية الصحية لا تتأثر بالعوامل الزمنية
  • الموضوعات الحساسة: موضوعات المناخ والطاقة تزداد بشكل ملحوظ في 2009 و 2021 و 2022
  • مدفوعة بالأحداث: موضوعات السياسة تصل إلى ذروتها في 2020 (تأثير الجائحة)

مقارنة نموذج انحدار بيتا

نوع العاملتفضيلات المنشئينتفضيلات الجمهور
تأثير الموضوعقوي (معاملات كبيرة)متوسط
تأثير الزمنضعيف (معاملات صغيرة)قوي
قوة تفسير النموذج36.1%24.9%

تحليل الحالات

حالات التطابق الناجح

  • موضوعات السياسة: منحنيات تفضيلات المنشئين والجمهور مستقرة نسبياً، مؤشر فرق منخفض
  • الرعاية الصحية: كموضوع يحظى باهتمام عام، التطابق بين العرض والطلب جيد

حالات عدم التطابق النموذجية

  • موضوعات الأقليات: نقص حاد في العرض (1.09%) لكن طلب مشاهدات عالي
  • موضوعات العاطفة: عرض مفرط من المنشئين (20.02%) لكن اهتمام الجمهور عام
  • علوم الدماغ: فروقات عرض وطلب كبيرة من 2016-2019

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. تأثير الشبكات الاجتماعية: آليات تأثير الشبكات الاجتماعية الحقيقية على الشهرة عبر الإنترنت
  2. تحليل خصائص المحتوى: التنبؤ بالشهرة بناءً على الوسوم والموضوعات
  3. نظرية التعرض الانتقائي: العلاقة بين تفضيلات المستخدمين واختيار المحتوى
  4. تأثير خوارزميات التوصية: كيفية تشكيل الخوارزميات لرؤية المحتوى

نقاط الابتكار في هذه الورقة

  1. التحليل ثنائي الاتجاه: أول مقارنة منهجية بين عرض المنشئين وطلب الجمهور
  2. البعد الزمني: التركيز على أهمية الديناميكيات الزمنية، تحدي مفهوم المحتوى أولاً
  3. الطرق الكمية: اقتراح أدوات قياس قابلة للتطبيق مثل مؤشر الفرق
  4. التوجه العملي: توفير توصيات استراتيجية محددة بدلاً من التحليل النظري البحت

الخلاصات والنقاش

الخلاصات الرئيسية

  1. الزمن أهم من المحتوى: بالنسبة للجمهور، "متى" أكثر تأثيراً من "ماذا" في درجة التفاعل
  2. عدم توافق منهجي بين العرض والطلب: وجود فروقات مستمرة بين تفضيلات المنشئين واحتياجات الجمهور
  3. فروقات موضوعية كبيرة: درجات التطابق بين العرض والطلب تختلف بشكل كبير حسب الموضوع
  4. الحاجة إلى تعديل المفاهيم التقليدية: جودة المحتوى ليست العامل الوحيد أو الرئيسي لدفع الشهرة

القيود

  1. قيود المنصة: يعتمد فقط على منصة TED، والقابلية للتعميم تحتاج إلى التحقق
  2. عدم اكتمال المتغيرات: لم يتم أخذ مؤشرات التفاعل الأخرى مثل الإعجابات والمشاركات في الاعتبار
  3. التأثيرات التفاعلية: مشاكل تقارب النموذج تحد من تحليل التأثيرات التفاعلية بين الموضوع والزمن
  4. العلاقات السببية: يعتمد التحليل بشكل أساسي على الارتباط، يفتقر إلى استراتيجيات تحديد السببية

الاتجاهات المستقبلية

  1. التحقق متعدد المنصات: توسيع النطاق ليشمل منصات أخرى مثل YouTube والبودكاست
  2. نمذجة التأثيرات التفاعلية: تحسين النماذج الإحصائية للتعامل مع التأثيرات المعقدة
  3. أنظمة التنبؤ في الوقت الفعلي: تطوير أدوات للتنبؤ بالشهرة بناءً على الديناميكيات الزمنية
  4. استراتيجيات تحسين المحتوى: البحث في طرق تحسين البنية السردية وأساليب التعبير

التقييم المتعمق

المزايا

  1. قوة الابتكار المنهجي: مفهوم مؤشر الفرق جديد، يوفر أداة كمية لتحليل العرض والطلب
  2. حجم البيانات الكبير: 17 سنة من البيانات، 4475 عينة، قوة إحصائية كافية
  3. النتائج المضادة للحدس: تحدي مفهوم المحتوى أولاً، اقتراح فرضية أولوية الزمن
  4. القيمة العملية العالية: توفير توصيات محددة وقابلة للتطبيق لمنشئي المحتوى
  5. التحليل الشامل: دمج الطرق الكمية والنوعية، التحقق متعدد الزوايا من الاستنتاجات

أوجه القصور

  1. ضعف الأساس النظري: نقص في شرح الآليات العميقة لسبب أهمية العوامل الزمنية أكثر
  2. قيود الطريقة: اختيار عدد موضوعات LDA يتسم بالذاتية، قد يؤثر على استقرار النتائج
  3. مشاكل الصحة الخارجية: الخصائص الفريدة لمنصة TED قد تحد من عمومية الاستنتاجات
  4. حذف المتغيرات: تجاهل عوامل مهمة مثل سمعة المتحدث وجودة الفيديو
  5. عدم كفاية الاستدلال السببي: يعتمد بشكل أساسي على تحليل الارتباط، يفتقر إلى استراتيجيات تحديد السببية

التأثير والأهمية

  1. المساهمة الأكاديمية: توفير إطار تحليل جديد لأبحاث المنصات الرقمية
  2. القيمة العملية: لها دلالة توجيهية مباشرة على تسويق المحتوى وإدارة المنصات
  3. الأهمية متعددة التخصصات: ربط مجالات الاتصالات ومعالجة اللغات الطبيعية وسلوك المستهلك
  4. الآثار السياسية: توفير دعم بيانات لحوكمة المنصات وتنظيم المحتوى

السيناريوهات القابلة للتطبيق

  1. منصات المحتوى: استراتيجيات المحتوى على منصات الفيديو مثل YouTube وBilibili
  2. مجال التسويق: اختيار التوقيت المناسب لنشر محتوى العلامة التجارية وتخطيط الموضوعات
  3. البحث الأكاديمي: الدراسات التجريبية في الاتصالات الرقمية وسلوك المستهلك
  4. حوكمة المنصات: تحسين خوارزميات التوصية وتحديد الانحيازات

المراجع

تستشهد هذه الورقة بـ 89 مرجعاً ذا صلة، تغطي:

  • الأدبيات الكلاسيكية في تحليل الشبكات الاجتماعية (Kwak et al., 2010)
  • أوراق منهجية نمذجة الموضوعات (Blei et al., 2003)
  • أدبيات نظرية التعرض الانتقائي (Stroud, 2010)
  • الدراسات التجريبية للاتصالات الرقمية (Cinelli et al., 2021)

التقييم الإجمالي: هذه ورقة بحثية مبتكرة وذات قيمة عملية، تطعن في المفهوم التقليدي للمحتوى كمحرك أساسي من خلال تحليل البيانات الضخمة، وتقترح منظوراً جديداً يعطي الأولوية للزمن. على الرغم من أن هناك مجالاً للتحسن في العمق النظري واكتمال الطريقة، فإن النتائج الأساسية لها دلالة توجيهية مهمة للأوساط الأكاديمية والعملية على حد سواء.