2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

デジタルプラットフォームにおける消費者エンゲージメントの理解:「いつ」か「何か」か

基本情報

  • 論文ID: 2510.10474
  • タイトル: When or What? Understanding Consumer Engagement on Digital Platforms
  • 著者: Jingyi Wu (浙江大学), Junying Liang (浙江大学)
  • 分類: cs.CL (計算言語学), cs.CY (コンピュータと社会)
  • 発表日: 2025年10月12日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10474

要旨

本研究は、デジタルプラットフォーム上における消費者エンゲージメントの駆動要因を検討している。先行研究はコンテンツ特性の役割を強調してきたが、コンテンツ制作者はしばしば視聴者の真のニーズを誤判している。本論文は、潜在ディリクレ配分(LDA)モデルを用いて大規模なTED講演コーパスを分析し、同プラットフォームを制作者(講演者)と消費者(視聴者)の相互作用を行うデジタルサービスの事例として捉えている。制作者のトピック供給と視聴者エンゲージメント度で表現されるニーズを比較することで、本研究は生産者供給と消費者選好の間に継続的なミスマッチが存在することを明らかにした。縦断分析はさらに、時間動態がコンテンツトピックよりも消費者エンゲージメントに強い影響を及ぼすことを示唆しており、コンテンツを「何」伝えるかよりも「いつ」伝えるかの方が重要である可能性を示唆している。

研究背景と動機

核心的問題

本研究が解決しようとする核心的問題は以下の通りである:デジタルプラットフォーム上では、コンテンツ特性(「何か」)と時間要因(「いつ」)のいずれが消費者エンゲージメントをより強く駆動するのか?

問題の重要性

  1. 経済的価値:YouTube上で100万回以上の再生数を獲得する動画は通常2,000ドル以上の広告収入を生成し、最高収入のクリエイターの年収は5,400万ドルに達する
  2. 激しい競争:YouTubeは510万以上のチャネルを有しているが、百万購読者のマイルストーンに達するのはごく少数である
  3. 実践的ニーズ:コンテンツクリエイター、プラットフォーム管理者、マーケティング担当者は、視聴者エンゲージメント戦略の最適化方法を理解する必要がある

既存方法の限界

  1. コンテンツ特性への過度な焦点:既存研究はコンテンツ品質、トピック選択などの内在的要因に主に焦点を当てている
  2. 供給需要ミスマッチの見落とし:制作者供給と視聴者ニーズの差異の定量分析が不足している
  3. 時間要因の過小評価:コンテンツ公開時期と時間動態の影響に対する理解が不十分である

研究動機

選択的露出理論と注意経済学に基づき、本研究は制作者と視聴者の間に体系的な選好差異が存在し、時間要因がコンテンツ自体よりも重要である可能性があると仮定している。

核心的貢献

  1. 「差異指数」(Difference Index)方法の提案:制作者と視聴者の間の選好差異を定量化する
  2. コンテンツ至上主義の伝統的観念への異議:時間動態がトピックコンテンツよりも視聴者エンゲージメントに大きな影響を及ぼすことを発見
  3. 大規模TED講演データセットの構築:2006年から2022年の4,475講演、合計8,065,104語を含む
  4. 実践的戦略指導の提供:コンテンツクリエイター、プラットフォーム管理者にデータに基づく最適化提案を提供

方法論の詳細

タスク定義

入力:TED講演の転写テキスト、再生回数、公開年 出力:トピック分布、選好差異の定量化、時間とトピックがエンゲージメント度に及ぼす相対的影響 制約:分析範囲は2006年から2022年の英語TED講演に限定

モデルアーキテクチャ

1. LDAトピックモデリング

ドキュメント → 前処理 → LDAモデル → 14トピック
  • 前処理:動詞、名詞、形容詞、副詞を保持;ストップワードを削除;トークン化処理
  • トピック数:困惑度に基づいて14トピックを選択
  • トピックラベリング:高頻度語に基づいてトピックの意味を手動でラベル付け

2. 選好定量化方法

制作者選好:特定トピックの動画数が当年の総数に占める割合 視聴者選好:特定トピックの平均再生回数の対数変換値

3. 差異指数の計算

Difference Index_{topic,year} = |Average View Count_{topic,year}/Total View Counts_{year} - Video Counts_{topic,year}/Total Video Counts_{year}|

Difference Index_{year} = ∑_{topics} Difference Index_{topic,year}

技術的革新点

  1. 多次元分析フレームワーク:トピックコンテンツと時間動態の二重影響を同時に考慮
  2. 供給需要ミスマッチの定量化:制作者供給と視聴者ニーズの差異を初めて体系的に定量化
  3. 縦断比較分析:17年間にわたる動的トレンド分析
  4. 統計モデリング検証:ベータ回帰モデルを用いてトピックと時間要因の相対的重要性を検証

実験設定

データセット

  • データソース:TED公式ウェブサイト、利用規約を厳密に遵守
  • 規模:4,475講演、8,065,104語
  • 時間範囲:2006年から2022年
  • 変数:講演転写、再生回数、公開年

データ前処理

  1. テキストクリーニング:3文字未満の単語を削除
  2. ストップワード処理:NLTKパッケージのストップワードリストに基づき、'kind', 'little', 'sort'等を追加削除
  3. データ正規化:再生回数は自然対数変換で歪度分布に対処

評価指標

  • トピック一貫性:高頻度語の意味的一貫性に基づく
  • モデル適合度:困惑度 (Perplexity)
  • 統計的有意性:カイ二乗検定、Kruskal-Wallis H検定
  • モデル説明力:ベータ回帰の疑似R²

統計分析方法

  • 独立性検定:カイ二乗検定でトピックと年の関連性を評価
  • ノンパラメトリック検定:Kruskal-Wallis H検定でトピック間の再生数差異を比較
  • 回帰分析:ベータ回帰でトピックと時間要因の相対的影響を評価
  • 相関分析:Spearman相関検定で制作者と視聴者選好の関連性を検証

実験結果

主要結果

1. トピック分布の発見

14個のトピックを特定し、分布は極めて不均一である:

  • 人気トピック:感情(20.02%)、社会的相互作用(14.03%)
  • 科学トピック:宇宙(5.92%)、技術(5.90%)、脳(5.34%)
  • 不人気トピック:少数派(1.09%)

2. 制作者選好分析

  • トピック要因がより重要:ベータ回帰疑似R²=0.361、トピック係数は年度係数を一般的に上回る
  • 選好の安定性:感情(β=2.695)と社会的相互作用(β=2.231)の係数が最も高い
  • 時間感応性:気候エネルギーと政治トピックは時間の影響を顕著に受ける

3. 視聴者選好分析

  • 時間要因がより重要:ベータ回帰疑似R²=0.249、年度係数はトピック係数を一般的に上回る
  • 人気トピック:脳、社会的相互作用、少数派の平均再生回数が最も高い
  • 供給需要ミスマッチ:少数派トピックは供給が最も少ないが需要が最も高い

4. 選好差異の定量化

  • 全体的相関が弱い:Spearman相関係数r=0.143 (p=0.028)
  • 差異変動が大きい:年間差異指数に明確なトレンドはなく、変動が顕著
  • トピック差異:感情、少数派、脳トピックの差異指数が最も大きい

アブレーション実験

残差分析結果

  • 安定トピック:芸術、ヘルスケアは時間の影響を受けない
  • 敏感トピック:気候エネルギーは2009年、2021年、2022年に顕著に増加
  • イベント駆動:政治トピックは2020年にピークに達する(パンデミック影響)

ベータ回帰モデル比較

要因タイプ制作者選好視聴者選好
トピック影響強 (大係数)中程度
時間影響弱 (小係数)
モデル説明力36.1%24.9%

ケース分析

成功マッチングケース

  • 政治トピック:制作者と視聴者選好曲線は相対的に安定し、差異指数は低い
  • ヘルスケア:普遍的な関心事として、供給需要マッチングが良好

ミスマッチの典型的ケース

  • 少数派トピック:供給が極めて不足(1.09%)だが観視需要が高い
  • 感情トピック:制作者が過度に供給(20.02%)するが視聴者の関心は一般的
  • 脳科学:2016年から2019年の供給需要差異が顕著

関連研究

主要研究方向

  1. ソーシャルネットワーク影響:実際のソーシャルネットワークがオンライン人気度に及ぼす影響メカニズム
  2. コンテンツ特性分析:タグ、トピックに基づく人気度予測
  3. 選択的露出理論:ユーザー選好とコンテンツ選択の関係
  4. 推奨アルゴリズム影響:アルゴリズムがコンテンツ可視性に及ぼす形成作用

本論文の革新点

  1. 双方向分析:制作者供給と視聴者ニーズを初めて体系的に比較
  2. 時間次元:時間動態の重要性を強調し、コンテンツ至上主義の観念に異議を唱える
  3. 定量化方法:差異指数など操作可能な測定ツールを提案
  4. 実践志向:純粋な理論分析ではなく具体的な戦略提案を提供

結論と考察

主要結論

  1. 時間がコンテンツより重要:視聴者にとって、「何か」を伝えるかよりも「いつ」伝えるかの方がエンゲージメント度に影響を及ぼす
  2. 体系的な供給需要ミスマッチ:制作者選好と視聴者ニーズの間に継続的な差異が存在
  3. トピック差異が顕著:異なるトピックの供給需要マッチング程度に巨大な差異がある
  4. 伝統的観念の修正が必要:コンテンツ品質は人気度の唯一または主要な駆動要因ではない

限界

  1. プラットフォーム限界:TEDプラットフォームのみに基づき、一般化可能性は検証待ち
  2. 変数不完全:「いいね」、シェアなどのインタラクション指標を考慮していない
  3. 交互作用効果:モデル収束問題がトピック-時間交互作用項の分析を制限
  4. 因果関係:相関分析では因果関係を確定できない

今後の方向性

  1. 複数プラットフォーム検証:YouTube、ポッドキャストなど他のプラットフォームへの拡張
  2. 交互作用効果モデリング:複雑な交互作用を処理する統計モデルの改善
  3. リアルタイム予測システム:時間動態に基づく人気度予測ツールの開発
  4. コンテンツ最適化戦略:ナレーション構造、表現方法の最適化方法の研究

深層評価

長所

  1. 方法論の革新性が強い:差異指数の概念は新規で、供給需要分析に定量ツールを提供
  2. データ規模が大きい:17年間の期間、4,475サンプルで統計的検定力が十分
  3. 発見が直感に反する:コンテンツ至上主義に異議を唱え、時間優先仮説を提案
  4. 実用価値が高い:コンテンツクリエイターに具体的で実行可能な提案を提供
  5. 分析が包括的:定性的および定量的方法を結合し、多角的に結論を検証

不足

  1. 理論基礎が薄弱:時間要因がなぜより重要なのかについての深層メカニズム説明が不足
  2. 方法限界:LDAトピック数選択の主観性が強く、結果の安定性に影響する可能性
  3. 外部妥当性の問題:TEDプラットフォームの特殊性が結論の普遍性を制限する可能性
  4. 変数漏れ:講演者の評判、動画品質など重要な影響要因を無視
  5. 因果推論不足:主に相関分析に基づき、因果識別戦略が不足

影響力

  1. 学術的貢献:デジタルプラットフォーム研究に新しい分析フレームワークを提供
  2. 実践的価値:コンテンツマーケティング、プラットフォーム運営に直接的な指導意義
  3. 学際的意義:伝播学、計算言語学、消費者行動学を連結
  4. 政策的示唆:プラットフォーム統治、コンテンツ規制にデータサポートを提供

適用場面

  1. コンテンツプラットフォーム:YouTube、Biliなど動画プラットフォームのコンテンツ戦略策定
  2. マーケティング領域:ブランドコンテンツマーケティングのタイミング選択とトピック計画
  3. 学術研究:デジタル伝播、消費者行動の実証研究
  4. プラットフォーム統治:コンテンツ推奨アルゴリズムの最適化とバイアス識別

参考文献

本論文は89篇の関連文献を引用しており、以下を含む:

  • ソーシャルネットワーク分析の古典文献 (Kwak et al., 2010)
  • トピックモデリング方法論文献 (Blei et al., 2003)
  • 選択的露出理論文献 (Stroud, 2010)
  • デジタル伝播実証研究 (Cinelli et al., 2021)

総合評価:これは革新性と実用価値を備えた研究論文である。大規模データ分析を通じて伝統的なコンテンツ駆動観念に異議を唱え、時間優先の新しい視点を提案している。理論的深さと方法的完全性の面でさらなる改善の余地があるが、その核心的発見は学術界と実践界の両方に重要な示唆をもたらす。