2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

¿Cuándo o Qué? Comprensión del Compromiso del Consumidor en Plataformas Digitales

Información Básica

  • ID del Artículo: 2510.10474
  • Título: When or What? Understanding Consumer Engagement on Digital Platforms
  • Autores: Jingyi Wu (Universidad de Zhejiang), Junying Liang (Universidad de Zhejiang)
  • Clasificación: cs.CL (Lingüística Computacional), cs.CY (Computación y Sociedad)
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10474

Resumen

Este estudio explora los factores impulsores del compromiso del consumidor en plataformas digitales. Investigaciones anteriores han enfatizado principalmente el papel de las características del contenido, pero los creadores de contenido frecuentemente malinterpretan las necesidades reales de la audiencia. Este artículo utiliza el modelo de Asignación Latente de Dirichlet (LDA) para analizar un corpus extenso de conferencias TED, considerando la plataforma como un caso de servicio digital de interacción entre creadores (oradores) y consumidores (audiencia). Al comparar la oferta temática de los creadores con la demanda expresada por el nivel de compromiso de la audiencia, el estudio identifica un desajuste persistente entre la oferta de productores y las preferencias de los consumidores. El análisis longitudinal revela además que la dinámica temporal tiene un impacto más fuerte en el compromiso del consumidor que el contenido temático, sugiriendo que "cuándo" se entrega el contenido puede ser más importante que "qué" contenido se entrega.

Antecedentes y Motivación de la Investigación

Pregunta Central

La pregunta central que este estudio aborda es: ¿En plataformas digitales, son las características del contenido ("qué") o los factores temporales ("cuándo") los que impulsan más el compromiso del consumidor?

Importancia del Problema

  1. Valor Económico: Los videos con más de un millón de visualizaciones en YouTube generan típicamente ingresos publicitarios superiores a 2,000,conloscreadoresdemayoringresoganandohasta2,000, con los creadores de mayor ingreso ganando hasta 54 millones anuales
  2. Competencia Intensa: YouTube alberga más de 51 millones de canales, pero solo una pequeña fracción alcanza el hito del millón de suscriptores
  3. Necesidad Práctica: Los creadores de contenido, administradores de plataformas y profesionales del marketing necesitan urgentemente comprender cómo optimizar las estrategias de compromiso de la audiencia

Limitaciones de Métodos Existentes

  1. Enfoque Excesivo en Características del Contenido: La investigación existente se centra principalmente en la calidad del contenido, selección de temas y otros factores intrínsecos
  2. Negligencia del Desajuste Oferta-Demanda: Falta análisis cuantitativo de las discrepancias entre la oferta de creadores y la demanda de la audiencia
  3. Subestimación de Factores Temporales: Comprensión insuficiente del impacto del momento de publicación del contenido y la dinámica temporal

Motivación de la Investigación

Basándose en la teoría de exposición selectiva y la economía de la atención, este estudio postula que existen diferencias sistemáticas de preferencias entre creadores y audiencia, y que los factores temporales pueden ser más importantes que el contenido en sí.

Contribuciones Principales

  1. Propone el método del "Índice de Diferencia": Cuantifica las discrepancias de preferencias entre creadores y audiencia
  2. Desafía la noción tradicional de primacía del contenido: Descubre que la dinámica temporal tiene un impacto mayor en el compromiso de la audiencia que el contenido temático
  3. Construye un conjunto de datos extenso de conferencias TED: Incluye 4,475 conferencias de 2006-2022, con un total de 8,065,104 palabras
  4. Proporciona orientación estratégica práctica: Ofrece recomendaciones basadas en datos para creadores de contenido y administradores de plataformas

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Transcripciones de conferencias TED, número de visualizaciones, año de publicación Salida: Distribución temática, cuantificación de discrepancias de preferencias, impacto relativo del tiempo y tema en el nivel de compromiso Restricciones: El análisis se limita a conferencias TED en inglés de 2006-2022

Arquitectura del Modelo

1. Modelado Temático con LDA

Documento → Preprocesamiento → Modelo LDA → 14 Temas
  • Preprocesamiento: Retención de verbos, sustantivos, adjetivos, adverbios; eliminación de palabras vacías; tokenización
  • Número de Temas: 14 temas seleccionados basándose en perplejidad
  • Anotación Temática: Anotación manual de semántica temática basada en palabras de alta frecuencia

2. Método de Cuantificación de Preferencias

Preferencia de Creadores: Proporción de videos de un tema respecto al total del año Preferencia de Audiencia: Valor transformado logarítmicamente del número promedio de visualizaciones de un tema

3. Cálculo del Índice de Diferencia

Índice de Diferencia_{tema,año} = |Recuento Promedio de Visualizaciones_{tema,año}/Total de Visualizaciones_{año} - Recuento de Videos_{tema,año}/Total de Videos_{año}|

Índice de Diferencia_{año} = ∑_{temas} Índice de Diferencia_{tema,año}

Puntos de Innovación Técnica

  1. Marco de Análisis Multidimensional: Considera simultáneamente el impacto dual del contenido temático y la dinámica temporal
  2. Cuantificación del Desajuste Oferta-Demanda: Primera cuantificación sistemática de discrepancias entre oferta de creadores y demanda de audiencia
  3. Análisis Comparativo Longitudinal: Análisis de tendencias dinámicas con un alcance de 17 años
  4. Validación de Modelado Estadístico: Utiliza regresión Beta para verificar la importancia relativa de factores temáticos y temporales

Configuración Experimental

Conjunto de Datos

  • Fuente de Datos: Sitio web oficial de TED, cumpliendo estrictamente con los términos de uso
  • Escala: 4,475 conferencias, 8,065,104 palabras
  • Alcance Temporal: 2006-2022
  • Variables: Transcripciones de conferencias, número de visualizaciones, año de publicación

Preprocesamiento de Datos

  1. Limpieza de Texto: Eliminación de palabras con menos de 3 caracteres
  2. Procesamiento de Palabras Vacías: Basado en la lista de palabras vacías del paquete NLTK, con eliminación adicional de 'kind', 'little', 'sort', etc.
  3. Normalización de Datos: Transformación logarítmica natural del número de visualizaciones para tratar distribuciones sesgadas

Métricas de Evaluación

  • Coherencia Temática: Coherencia semántica basada en palabras de alta frecuencia
  • Bondad de Ajuste del Modelo: Perplejidad
  • Significancia Estadística: Prueba de chi-cuadrado, prueba H de Kruskal-Wallis
  • Poder Explicativo del Modelo: Pseudo R² de regresión Beta

Métodos de Análisis Estadístico

  • Prueba de Independencia: Prueba de chi-cuadrado para evaluar la asociación entre tema y año
  • Prueba No Paramétrica: Prueba H de Kruskal-Wallis para comparar diferencias de visualizaciones entre temas
  • Análisis de Regresión: Regresión Beta para evaluar el impacto relativo de factores temáticos y temporales
  • Análisis de Correlación: Prueba de correlación de Spearman para examinar la asociación entre preferencias de creadores y audiencia

Resultados Experimentales

Resultados Principales

1. Descubrimientos de Distribución Temática

Se identificaron 14 temas con distribución altamente desigual:

  • Temas Populares: Emociones (20.02%), Interacción Social (14.03%)
  • Temas Científicos: Universo (5.92%), Tecnología (5.90%), Cerebro (5.34%)
  • Temas Poco Populares: Minorías (1.09%)

2. Análisis de Preferencias de Creadores

  • Factor Temático Más Importante: Pseudo R² de regresión Beta = 0.361, coeficientes temáticos generalmente mayores que coeficientes temporales
  • Estabilidad de Preferencias: Emociones (β=2.695) e Interacción Social (β=2.231) tienen los coeficientes más altos
  • Sensibilidad Temporal: Temas de Clima-Energía y Política se ven significativamente afectados por el tiempo

3. Análisis de Preferencias de Audiencia

  • Factor Temporal Más Importante: Pseudo R² de regresión Beta = 0.249, coeficientes temporales generalmente superiores a coeficientes temáticos
  • Temas Populares: Cerebro, Interacción Social, Minorías tienen el mayor número promedio de visualizaciones
  • Desajuste Oferta-Demanda: Temas sobre minorías tienen la menor oferta pero la mayor demanda

4. Cuantificación de Discrepancias de Preferencias

  • Correlación General Débil: Coeficiente de correlación de Spearman r=0.143 (p=0.028)
  • Fluctuación de Discrepancias Grande: El índice de diferencia anual no muestra tendencia clara, con fluctuaciones significativas
  • Discrepancia Temática: Temas de Emociones, Minorías, Cerebro tienen los mayores índices de diferencia

Experimentos de Ablación

Resultados del Análisis de Residuos

  • Temas Estables: Arte, Cuidado de la Salud no se ven afectados por el tiempo
  • Temas Sensibles: Clima-Energía aumenta significativamente en 2009, 2021, 2022
  • Impulsado por Eventos: Temas políticos alcanzan su pico en 2020 (impacto de la pandemia)

Comparación de Modelos de Regresión Beta

Tipo de FactorPreferencia de CreadoresPreferencia de Audiencia
Impacto TemáticoFuerte (Coeficientes Grandes)Moderado
Impacto TemporalDébil (Coeficientes Pequeños)Fuerte
Poder Explicativo del Modelo36.1%24.9%

Análisis de Casos

Casos de Coincidencia Exitosa

  • Temas Políticos: Las curvas de preferencias de creadores y audiencia son relativamente estables, con índices de diferencia bajos
  • Cuidado de la Salud: Como tema de interés universal, el ajuste oferta-demanda es bueno

Casos Típicos de Desajuste

  • Temas sobre Minorías: Oferta severamente insuficiente (1.09%) pero demanda de visualización alta
  • Temas de Emociones: Oferta excesiva de creadores (20.02%) pero interés general de audiencia moderado
  • Ciencia del Cerebro: Discrepancia significativa oferta-demanda en 2016-2019

Trabajos Relacionados

Direcciones Principales de Investigación

  1. Influencia de Redes Sociales: Mecanismos de impacto de redes sociales reales en la popularidad en línea
  2. Análisis de Características de Contenido: Predicción de popularidad basada en etiquetas y temas
  3. Teoría de Exposición Selectiva: Relación entre preferencias de usuarios y selección de contenido
  4. Impacto de Algoritmos de Recomendación: Cómo los algoritmos moldean la visibilidad del contenido

Puntos de Innovación de Este Artículo

  1. Análisis Bidireccional: Primera comparación sistemática de oferta de creadores versus demanda de audiencia
  2. Dimensión Temporal: Énfasis en la importancia de la dinámica temporal, desafiando la noción de primacía del contenido
  3. Método de Cuantificación: Propone herramientas de medición operables como el índice de diferencia
  4. Orientación Práctica: Proporciona recomendaciones estratégicas concretas en lugar de análisis puramente teóricos

Conclusiones y Discusión

Conclusiones Principales

  1. El Tiempo es Más Importante que el Contenido: Para la audiencia, "cuándo" tiene un impacto mayor en el compromiso que "qué"
  2. Desajuste Sistemático Oferta-Demanda: Existen discrepancias persistentes entre las preferencias de creadores y la demanda de audiencia
  3. Diferencias Temáticas Significativas: El grado de ajuste oferta-demanda varía enormemente entre diferentes temas
  4. Necesidad de Revisión de Nociones Tradicionales: La calidad del contenido no es el único ni el principal factor impulsor de popularidad

Limitaciones

  1. Limitación de Plataforma: Basado únicamente en la plataforma TED, la generalización requiere verificación
  2. Variables Incompletas: No considera indicadores de interacción como "me gusta" y "compartir"
  3. Efectos de Interacción: Los problemas de convergencia del modelo limitan el análisis de términos de interacción tema-tiempo
  4. Relaciones Causales: El análisis de correlación no puede determinar relaciones causales

Direcciones Futuras

  1. Verificación Multiplataforma: Extensión a otras plataformas como YouTube, podcasts, etc.
  2. Modelado de Efectos de Interacción: Mejora de modelos estadísticos para manejar interacciones complejas
  3. Sistema de Predicción en Tiempo Real: Desarrollo de herramientas de predicción de popularidad basadas en dinámica temporal
  4. Estrategias de Optimización de Contenido: Investigación de métodos de optimización de estructura narrativa y expresión

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Metodológica: El concepto de índice de diferencia es novedoso y proporciona herramientas cuantitativas para análisis oferta-demanda
  2. Escala de Datos Grande: Alcance de 17 años, 4,475 muestras, poder estadístico suficiente
  3. Descubrimientos Contraintuitivios: Desafía la noción de primacía del contenido, propone hipótesis de prioridad temporal
  4. Alto Valor Práctico: Proporciona recomendaciones concretas y operables para creadores de contenido
  5. Análisis Integral: Combina métodos cualitativos y cuantitativos, verificación multifacética de conclusiones

Deficiencias

  1. Fundamento Teórico Débil: Falta explicación de mecanismos profundos sobre por qué los factores temporales son más importantes
  2. Limitaciones Metodológicas: La selección del número de temas LDA tiene fuerte subjetividad, potencialmente afectando la estabilidad de resultados
  3. Problemas de Validez Externa: La naturaleza especial de la plataforma TED puede limitar la universalidad de conclusiones
  4. Omisión de Variables: Ignora factores importantes como reputación del orador, calidad de video, etc.
  5. Inferencia Causal Insuficiente: Basado principalmente en análisis de correlación, carece de estrategias de identificación causal

Impacto

  1. Contribución Académica: Proporciona nuevo marco analítico para investigación en plataformas digitales
  2. Valor Práctico: Tiene significado directo para marketing de contenido y operación de plataformas
  3. Significado Interdisciplinario: Conecta comunicación, lingüística computacional y comportamiento del consumidor
  4. Implicaciones Políticas: Proporciona apoyo de datos para gobernanza de plataformas e regulación de contenido

Escenarios Aplicables

  1. Plataformas de Contenido: Formulación de estrategia de contenido para plataformas de video como YouTube, Bilibili
  2. Campo de Marketing: Selección de momento y planificación temática para marketing de contenido de marca
  3. Investigación Académica: Investigación empírica en comunicación digital y comportamiento del consumidor
  4. Gobernanza de Plataforma: Optimización de algoritmos de recomendación de contenido e identificación de sesgos

Referencias Bibliográficas

Este artículo cita 89 referencias relacionadas, incluyendo:

  • Literatura clásica de análisis de redes sociales (Kwak et al., 2010)
  • Artículos de metodología de modelado temático (Blei et al., 2003)
  • Literatura de teoría de exposición selectiva (Stroud, 2010)
  • Investigación empírica de comunicación digital (Cinelli et al., 2021)

Evaluación General: Este es un artículo de investigación innovador y de valor práctico que desafía la noción tradicional de contenido como factor impulsor mediante análisis de datos a gran escala, proponiendo una nueva perspectiva de prioridad temporal. Aunque hay espacio para mejora en profundidad teórica y perfeccionamiento metodológico, sus descubrimientos principales tienen significado importante para la comunidad académica y la práctica profesional.