2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

When or What? Understanding Consumer Engagement on Digital Platforms

基本信息

  • 论文ID: 2510.10474
  • 标题: When or What? Understanding Consumer Engagement on Digital Platforms
  • 作者: Jingyi Wu (浙江大学), Junying Liang (浙江大学)
  • 分类: cs.CL (计算语言学), cs.CY (计算机与社会)
  • 发表时间: 2025年10月12日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10474

摘要

本研究探讨了数字平台上消费者参与的驱动因素。以往研究主要强调内容特征的作用,但内容创作者往往误判了受众的真实需求。本文采用潜在狄利克雷分配(LDA)模型分析大规模TED演讲语料库,将该平台视为创作者(演讲者)与消费者(受众)互动的数字服务案例。通过比较创作者的主题供给与受众参与度所表达的需求,研究识别出生产者供给与消费者偏好之间的持续性错配。纵向分析进一步揭示,时间动态对消费者参与的影响比主题内容更强,表明"何时"传递内容可能比传递"什么"内容更重要。

研究背景与动机

核心问题

本研究要解决的核心问题是:在数字平台上,是内容特征("什么")还是时间因素("何时")更能驱动消费者参与?

问题重要性

  1. 经济价值:YouTube上超过100万观看的视频通常能产生超过2000美元的广告收入,最高收入创作者年收入达5400万美元
  2. 竞争激烈:YouTube拥有超过5100万个频道,但只有极少数达到百万订阅里程碑
  3. 实用需求:内容创作者、平台管理者和营销人员迫切需要了解如何优化受众参与策略

现有方法局限性

  1. 过度关注内容特征:现有研究主要关注内容质量、话题选择等内在因素
  2. 忽视供需错配:缺乏对创作者供给与受众需求差异的量化分析
  3. 时间因素被低估:对内容发布时机和时间动态的影响认识不足

研究动机

基于选择性暴露理论和注意力经济学,本研究假设创作者与受众之间存在系统性的偏好差异,且时间因素可能比内容本身更重要。

核心贡献

  1. 提出了"差异指数"(Difference Index)方法:量化创作者与受众之间的偏好差异
  2. 挑战了内容至上的传统观念:发现时间动态比主题内容对受众参与的影响更大
  3. 构建了大规模TED演讲数据集:包含2006-2022年4,475场演讲,总计8,065,104个词
  4. 提供了实用的策略指导:为内容创作者、平台管理者提供基于数据的优化建议

方法详解

任务定义

输入:TED演讲转录文本、观看次数、发布年份 输出:主题分布、偏好差异量化、时间与主题对参与度的相对影响 约束:分析范围限定为2006-2022年的英文TED演讲

模型架构

1. LDA主题建模

文档 → 预处理 → LDA模型 → 14个主题
  • 预处理:保留动词、名词、形容词、副词;移除停用词;词元化处理
  • 主题数量:基于困惑度选择14个主题
  • 主题标注:基于高频词人工标注主题语义

2. 偏好量化方法

创作者偏好:某主题视频数量占当年总数的比例 受众偏好:某主题平均观看次数的对数变换值

3. 差异指数计算

Difference Index_{topic,year} = |Average View Count_{topic,year}/Total View Counts_{year} - Video Counts_{topic,year}/Total Video Counts_{year}|

Difference Index_{year} = ∑_{topics} Difference Index_{topic,year}

技术创新点

  1. 多维度分析框架:同时考虑主题内容和时间动态的双重影响
  2. 供需错配量化:首次系统性量化创作者供给与受众需求的差异
  3. 纵向比较分析:17年跨度的动态趋势分析
  4. 统计建模验证:采用Beta回归模型验证主题和时间因素的相对重要性

实验设置

数据集

  • 数据来源:TED官方网站,严格遵守使用条款
  • 规模:4,475场演讲,8,065,104个词
  • 时间跨度:2006-2022年
  • 变量:演讲转录、观看次数、发布年份

数据预处理

  1. 文本清理:移除长度小于3个字符的词汇
  2. 停用词处理:基于NLTK包的停用词列表,额外移除'kind', 'little', 'sort'等
  3. 数据标准化:观看次数采用自然对数变换处理偏态分布

评价指标

  • 主题一致性:基于高频词的语义连贯性
  • 模型拟合度:困惑度 (Perplexity)
  • 统计显著性:卡方检验、Kruskal-Wallis H检验
  • 模型解释力:Beta回归的伪R²

统计分析方法

  • 独立性检验:卡方检验评估主题与年份的关联性
  • 非参数检验:Kruskal-Wallis H检验比较主题间观看差异
  • 回归分析:Beta回归评估主题和时间因素的相对影响
  • 相关性分析:Spearman相关检验创作者与受众偏好的关联

实验结果

主要结果

1. 主题分布发现

识别出14个主题,分布极不均匀:

  • 热门主题:情感(20.02%)、社交互动(14.03%)
  • 科学主题:宇宙(5.92%)、技术(5.90%)、大脑(5.34%)
  • 冷门主题:少数群体(1.09%)

2. 创作者偏好分析

  • 主题因素更重要:Beta回归伪R²=0.361,主题系数普遍大于年份系数
  • 偏好稳定性:情感(β=2.695)和社交互动(β=2.231)系数最高
  • 时间敏感性:气候能源和政治主题受时间影响显著

3. 受众偏好分析

  • 时间因素更重要:Beta回归伪R²=0.249,年份系数普遍高于主题系数
  • 热门主题:大脑、社交互动、少数群体平均观看次数最高
  • 供需错配:少数群体话题供给最少但需求最高

4. 偏好差异量化

  • 整体相关性弱:Spearman相关系数r=0.143 (p=0.028)
  • 差异波动大:年度差异指数无明显趋势,波动显著
  • 主题差异:情感、少数群体、大脑话题差异指数最大

消融实验

残差分析结果

  • 稳定主题:艺术、健康护理不受时间影响
  • 敏感主题:气候能源在2009、2021、2022年显著增加
  • 事件驱动:政治话题在2020年达到峰值(疫情影响)

Beta回归模型对比

因素类型创作者偏好受众偏好
主题影响强 (大系数)中等
时间影响弱 (小系数)
模型解释力36.1%24.9%

案例分析

成功匹配案例

  • 政治话题:创作者和受众偏好曲线相对稳定,差异指数较低
  • 健康护理:作为普遍关注话题,供需匹配良好

错配典型案例

  • 少数群体话题:供给严重不足(1.09%)但观看需求高
  • 情感话题:创作者过度供给(20.02%)但受众兴趣一般
  • 大脑科学:2016-2019年供需差异显著

相关工作

主要研究方向

  1. 社交网络影响:真实社交网络对在线流行度的影响机制
  2. 内容特征分析:基于标签、话题的流行度预测
  3. 选择性暴露理论:用户偏好与内容选择的关系
  4. 推荐算法影响:算法对内容可见性的塑造作用

本文创新点

  1. 双向分析:首次系统比较创作者供给与受众需求
  2. 时间维度:强调时间动态的重要性,挑战内容至上观念
  3. 量化方法:提出差异指数等可操作的测量工具
  4. 实用导向:提供具体的策略建议而非纯理论分析

结论与讨论

主要结论

  1. 时间比内容更重要:对受众而言,"何时"比"什么"更能影响参与度
  2. 系统性供需错配:创作者偏好与受众需求存在持续性差异
  3. 主题差异显著:不同主题的供需匹配程度差异巨大
  4. 传统观念需要修正:内容质量并非流行度的唯一或主要驱动因素

局限性

  1. 平台局限性:仅基于TED平台,泛化性有待验证
  2. 变量不完整:未考虑点赞、分享等互动指标
  3. 交互效应:模型收敛问题限制了主题-时间交互项分析
  4. 因果关系:相关性分析无法确定因果关系

未来方向

  1. 多平台验证:扩展到YouTube、播客等其他平台
  2. 交互效应建模:改进统计模型处理复杂交互
  3. 实时预测系统:开发基于时间动态的流行度预测工具
  4. 内容优化策略:研究叙事结构、表达方式的优化方法

深度评价

优点

  1. 方法创新性强:差异指数概念新颖,为供需分析提供了量化工具
  2. 数据规模大:17年跨度、4475个样本,统计power充足
  3. 发现反直觉:挑战内容至上观念,提出时间优先假设
  4. 实用价值高:为内容创作者提供了具体可操作的建议
  5. 分析全面:结合定性和定量方法,多角度验证结论

不足

  1. 理论基础薄弱:缺乏对时间因素为何更重要的深层机制解释
  2. 方法局限:LDA主题数量选择主观性强,可能影响结果稳定性
  3. 外部效度问题:TED平台的特殊性可能限制结论的普适性
  4. 变量遗漏:忽略了演讲者声誉、视频质量等重要影响因素
  5. 因果推断不足:主要基于相关分析,缺乏因果识别策略

影响力

  1. 学术贡献:为数字平台研究提供了新的分析框架
  2. 实践价值:对内容营销、平台运营有直接指导意义
  3. 跨学科意义:连接了传播学、计算语言学、消费者行为学
  4. 政策启示:为平台治理、内容监管提供了数据支持

适用场景

  1. 内容平台:YouTube、B站等视频平台的内容策略制定
  2. 营销领域:品牌内容营销的时机选择和话题规划
  3. 学术研究:数字传播、消费者行为的实证研究
  4. 平台治理:内容推荐算法的优化和偏见识别

参考文献

本文引用了89篇相关文献,涵盖:

  • 社交网络分析经典文献 (Kwak et al., 2010)
  • 主题建模方法论文献 (Blei et al., 2003)
  • 选择性暴露理论文献 (Stroud, 2010)
  • 数字传播实证研究 (Cinelli et al., 2021)

总体评价:这是一篇具有创新性和实用价值的研究论文,通过大规模数据分析挑战了传统的内容驱动观念,提出了时间优先的新视角。尽管在理论深度和方法完善性方面还有提升空间,但其核心发现对学术界和实践界都具有重要启示意义。