2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

Quand ou Quoi ? Comprendre l'engagement des consommateurs sur les plateformes numériques

Informations de base

  • ID de l'article : 2510.10474
  • Titre : When or What? Understanding Consumer Engagement on Digital Platforms
  • Auteurs : Jingyi Wu (Université du Zhejiang), Junying Liang (Université du Zhejiang)
  • Classification : cs.CL (Traitement automatique des langues), cs.CY (Informatique et société)
  • Date de publication : 12 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10474

Résumé

Cette étude explore les facteurs qui animent l'engagement des consommateurs sur les plateformes numériques. Les recherches antérieures mettaient l'accent sur le rôle des caractéristiques du contenu, mais les créateurs de contenu se trompent souvent sur les véritables besoins de leur audience. Cet article utilise le modèle d'allocation latente de Dirichlet (LDA) pour analyser un corpus volumineux de conférences TED, considérant cette plateforme comme un cas d'interaction numérique entre créateurs (conférenciers) et consommateurs (audiences). En comparant l'offre thématique des créateurs avec la demande exprimée par le niveau d'engagement du public, l'étude identifie un décalage persistant entre l'offre des producteurs et les préférences des consommateurs. L'analyse longitudinale révèle en outre que la dynamique temporelle exerce une influence plus forte sur l'engagement des consommateurs que le contenu thématique, suggérant que le « quand » de la diffusion du contenu pourrait être plus important que le « quoi ».

Contexte et motivation de la recherche

Problème fondamental

La question centrale que cette recherche vise à résoudre est : Sur les plateformes numériques, est-ce que les caractéristiques du contenu (« quoi ») ou les facteurs temporels (« quand ») animent davantage l'engagement des consommateurs ?

Importance du problème

  1. Valeur économique : Les vidéos YouTube dépassant un million de vues génèrent généralement plus de 2 000 dollars de revenus publicitaires, les créateurs les mieux rémunérés gagnant jusqu'à 54 millions de dollars par an
  2. Concurrence intense : YouTube compte plus de 51 millions de chaînes, mais seul un nombre infime atteint le cap du million d'abonnés
  3. Besoins pratiques : Les créateurs de contenu, les gestionnaires de plateformes et les professionnels du marketing ont un besoin urgent de comprendre comment optimiser les stratégies d'engagement du public

Limitations des approches existantes

  1. Accent excessif sur les caractéristiques du contenu : Les recherches existantes se concentrent principalement sur la qualité du contenu, le choix des sujets et autres facteurs intrinsèques
  2. Négligence du décalage offre-demande : Absence d'analyse quantitative des différences entre l'offre des créateurs et la demande du public
  3. Sous-estimation des facteurs temporels : Compréhension insuffisante de l'impact du moment de publication et de la dynamique temporelle

Motivation de la recherche

Fondée sur la théorie de l'exposition sélective et l'économie de l'attention, cette recherche suppose qu'il existe des différences systématiques de préférences entre créateurs et audiences, et que les facteurs temporels pourraient être plus importants que le contenu lui-même.

Contributions principales

  1. Proposition d'une méthode d'« indice de différence » : Quantification des différences de préférences entre créateurs et audiences
  2. Remise en question du paradigme du contenu prioritaire : Découverte que la dynamique temporelle a un impact plus important sur l'engagement du public que le contenu thématique
  3. Construction d'un ensemble de données volumineux de conférences TED : Comprenant 4 475 conférences de 2006 à 2022, totalisant 8 065 104 mots
  4. Fourniture de conseils stratégiques pratiques : Recommandations fondées sur les données pour les créateurs de contenu et les gestionnaires de plateformes

Explication détaillée de la méthodologie

Définition de la tâche

Entrées : Transcriptions de conférences TED, nombre de vues, année de publication Sorties : Distribution thématique, quantification des différences de préférences, impact relatif du temps et des thèmes sur le niveau d'engagement Contraintes : L'analyse se limite aux conférences TED en anglais de 2006 à 2022

Architecture du modèle

1. Modélisation thématique LDA

Document → Prétraitement → Modèle LDA → 14 thèmes
  • Prétraitement : Conservation des verbes, noms, adjectifs et adverbes ; suppression des mots vides ; tokenisation
  • Nombre de thèmes : 14 thèmes sélectionnés sur la base de la perplexité
  • Annotation thématique : Annotation sémantique manuelle basée sur les mots fréquents

2. Méthode de quantification des préférences

Préférences des créateurs : Proportion du nombre de vidéos sur un sujet par rapport au total annuel Préférences du public : Valeur transformée logarithmiquement du nombre moyen de vues par sujet

3. Calcul de l'indice de différence

Indice de Différence_{sujet,année} = |Nombre moyen de vues_{sujet,année}/Total des vues_{année} - Nombre de vidéos_{sujet,année}/Total des vidéos_{année}|

Indice de Différence_{année} = ∑_{sujets} Indice de Différence_{sujet,année}

Points d'innovation technique

  1. Cadre d'analyse multidimensionnel : Considération simultanée de l'impact double du contenu thématique et de la dynamique temporelle
  2. Quantification du décalage offre-demande : Première quantification systématique des différences entre l'offre des créateurs et la demande du public
  3. Analyse comparative longitudinale : Analyse des tendances dynamiques sur une période de 17 ans
  4. Validation par modélisation statistique : Utilisation de modèles de régression bêta pour vérifier l'importance relative des facteurs thématiques et temporels

Configuration expérimentale

Ensemble de données

  • Source des données : Site officiel de TED, conformément aux conditions d'utilisation
  • Taille : 4 475 conférences, 8 065 104 mots
  • Période couverte : 2006-2022
  • Variables : Transcriptions de conférences, nombre de vues, année de publication

Prétraitement des données

  1. Nettoyage du texte : Suppression des mots de moins de 3 caractères
  2. Traitement des mots vides : Basé sur la liste des mots vides du package NLTK, suppression supplémentaire de 'kind', 'little', 'sort', etc.
  3. Normalisation des données : Transformation logarithmique naturelle du nombre de vues pour traiter la distribution asymétrique

Métriques d'évaluation

  • Cohérence thématique : Cohérence sémantique basée sur les mots fréquents
  • Qualité d'ajustement du modèle : Perplexité
  • Significativité statistique : Test du chi-deux, test H de Kruskal-Wallis
  • Pouvoir explicatif du modèle : Pseudo-R² de la régression bêta

Méthodes d'analyse statistique

  • Test d'indépendance : Test du chi-deux pour évaluer l'association entre thème et année
  • Test non paramétrique : Test H de Kruskal-Wallis pour comparer les différences de vues entre thèmes
  • Analyse de régression : Régression bêta pour évaluer l'impact relatif des facteurs thématiques et temporels
  • Analyse de corrélation : Test de corrélation de Spearman pour examiner l'association entre préférences des créateurs et du public

Résultats expérimentaux

Résultats principaux

1. Découvertes sur la distribution thématique

Identification de 14 thèmes avec une distribution très inégale :

  • Thèmes populaires : Émotions (20,02 %), Interaction sociale (14,03 %)
  • Thèmes scientifiques : Univers (5,92 %), Technologie (5,90 %), Cerveau (5,34 %)
  • Thèmes peu populaires : Minorités (1,09 %)

2. Analyse des préférences des créateurs

  • Facteur thématique plus important : Pseudo-R² de régression bêta = 0,361, coefficients thématiques généralement supérieurs aux coefficients temporels
  • Stabilité des préférences : Coefficients les plus élevés pour Émotions (β = 2,695) et Interaction sociale (β = 2,231)
  • Sensibilité temporelle : Thèmes Climat-Énergie et Politique significativement affectés par le temps

3. Analyse des préférences du public

  • Facteur temporel plus important : Pseudo-R² de régression bêta = 0,249, coefficients temporels généralement supérieurs aux coefficients thématiques
  • Thèmes populaires : Cerveau, Interaction sociale, Minorités avec le nombre moyen de vues le plus élevé
  • Décalage offre-demande : Thèmes sur les minorités avec l'offre la plus faible mais la demande la plus élevée

4. Quantification des différences de préférences

  • Corrélation globale faible : Coefficient de corrélation de Spearman r = 0,143 (p = 0,028)
  • Fluctuations importantes des différences : Indice de différence annuel sans tendance claire, fluctuations significatives
  • Différences thématiques : Indices de différence les plus élevés pour Émotions, Minorités, Cerveau

Expériences d'ablation

Résultats de l'analyse des résidus

  • Thèmes stables : Art, Soins de santé non affectés par le temps
  • Thèmes sensibles : Climat-Énergie augmentation significative en 2009, 2021, 2022
  • Événements déclencheurs : Thèmes politiques pic en 2020 (impact de la pandémie)

Comparaison des modèles de régression bêta

Type de facteurPréférences des créateursPréférences du public
Impact thématiqueFort (grands coefficients)Moyen
Impact temporelFaible (petits coefficients)Fort
Pouvoir explicatif du modèle36,1 %24,9 %

Études de cas

Cas d'appariement réussi

  • Thèmes politiques : Courbes de préférences créateurs et public relativement stables, indice de différence faible
  • Soins de santé : Sujet d'intérêt universel, appariement offre-demande satisfaisant

Cas typiques de décalage

  • Thèmes sur les minorités : Offre gravement insuffisante (1,09 %) mais demande de visionnage élevée
  • Thèmes émotionnels : Suroffre des créateurs (20,02 %) mais intérêt du public modéré
  • Science du cerveau : Différence offre-demande significative 2016-2019

Travaux connexes

Principaux domaines de recherche

  1. Influence des réseaux sociaux : Mécanismes d'impact des réseaux sociaux réels sur la popularité en ligne
  2. Analyse des caractéristiques du contenu : Prédiction de la popularité basée sur les étiquettes et les sujets
  3. Théorie de l'exposition sélective : Relation entre préférences utilisateur et sélection de contenu
  4. Impact des algorithmes de recommandation : Façon dont les algorithmes façonnent la visibilité du contenu

Points d'innovation de cet article

  1. Analyse bidirectionnelle : Première comparaison systématique de l'offre des créateurs et de la demande du public
  2. Dimension temporelle : Accent sur l'importance de la dynamique temporelle, remise en question du paradigme du contenu prioritaire
  3. Méthode de quantification : Proposition d'outils de mesure opérationnels tels que l'indice de différence
  4. Orientation pratique : Fourniture de recommandations stratégiques concrètes plutôt que d'une analyse purement théorique

Conclusions et discussion

Conclusions principales

  1. Le temps est plus important que le contenu : Pour le public, le « quand » a plus d'influence sur l'engagement que le « quoi »
  2. Décalage systématique offre-demande : Différences persistantes entre les préférences des créateurs et la demande du public
  3. Différences thématiques significatives : Variations énormes dans le degré d'appariement offre-demande selon les thèmes
  4. Correction des idées reçues : La qualité du contenu n'est pas l'unique ou le principal facteur de popularité

Limitations

  1. Limitation de la plateforme : Basée uniquement sur TED, la généralisabilité reste à vérifier
  2. Variables incomplètes : N'a pas pris en compte les indicateurs d'interaction tels que les « j'aime » et les partages
  3. Effets d'interaction : Les problèmes de convergence du modèle limitent l'analyse des termes d'interaction thème-temps
  4. Relations causales : L'analyse de corrélation ne peut pas établir les relations causales

Directions futures

  1. Validation multi-plateformes : Extension à YouTube, podcasts et autres plateformes
  2. Modélisation des effets d'interaction : Amélioration des modèles statistiques pour traiter les interactions complexes
  3. Système de prédiction en temps réel : Développement d'outils de prédiction de popularité basés sur la dynamique temporelle
  4. Stratégies d'optimisation du contenu : Recherche sur l'optimisation de la structure narrative et des méthodes d'expression

Évaluation approfondie

Points forts

  1. Innovation méthodologique forte : Concept d'indice de différence novateur, fournissant un outil de quantification pour l'analyse offre-demande
  2. Taille de données importante : Période de 17 ans, 4 475 échantillons, puissance statistique suffisante
  3. Découvertes contre-intuitives : Remise en question du paradigme du contenu prioritaire, proposition d'une hypothèse de priorité temporelle
  4. Valeur pratique élevée : Recommandations concrètes et opérationnelles pour les créateurs de contenu
  5. Analyse complète : Combinaison de méthodes qualitatives et quantitatives, vérification multidimensionnelle des conclusions

Insuffisances

  1. Fondements théoriques faibles : Absence d'explication des mécanismes profonds expliquant pourquoi les facteurs temporels sont plus importants
  2. Limitations méthodologiques : Forte subjectivité dans le choix du nombre de thèmes LDA, pouvant affecter la stabilité des résultats
  3. Problèmes de validité externe : La spécificité de la plateforme TED peut limiter l'applicabilité générale des conclusions
  4. Variables omises : Négligence de facteurs importants tels que la réputation du conférencier et la qualité vidéo
  5. Inférence causale insuffisante : Basée principalement sur l'analyse de corrélation, manque de stratégies d'identification causale

Impact

  1. Contribution académique : Fourniture d'un nouveau cadre d'analyse pour la recherche sur les plateformes numériques
  2. Valeur pratique : Implications directes pour le marketing de contenu et la gestion de plateformes
  3. Pertinence interdisciplinaire : Connexion entre études de communication, traitement automatique des langues et comportement des consommateurs
  4. Implications politiques : Soutien factuel pour la gouvernance des plateformes et la régulation du contenu

Scénarios d'application

  1. Plateformes de contenu : Élaboration de stratégies de contenu pour YouTube, Bilibili et autres plateformes vidéo
  2. Domaine du marketing : Sélection du moment et planification thématique pour le marketing de contenu de marque
  3. Recherche académique : Recherche empirique en communication numérique et comportement des consommateurs
  4. Gouvernance de plateforme : Optimisation des algorithmes de recommandation et identification des biais

Références bibliographiques

Cet article cite 89 références pertinentes, couvrant :

  • Littérature classique en analyse de réseaux sociaux (Kwak et al., 2010)
  • Articles méthodologiques sur la modélisation thématique (Blei et al., 2003)
  • Littérature sur la théorie de l'exposition sélective (Stroud, 2010)
  • Recherche empirique en communication numérique (Cinelli et al., 2021)

Évaluation globale : Cet article de recherche est innovant et d'une grande valeur pratique. Par l'analyse de données volumineux, il remet en question le paradigme traditionnel centré sur le contenu et propose une nouvelle perspective privilégiant le facteur temporel. Bien qu'il y ait encore place pour l'amélioration en termes de profondeur théorique et de perfectionnement méthodologique, ses découvertes principales ont une importance significative pour le monde académique et la pratique professionnelle.