2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

Когда или Что? Понимание вовлечения потребителей на цифровых платформах

Основная информация

  • ID статьи: 2510.10474
  • Название: When or What? Understanding Consumer Engagement on Digital Platforms
  • Авторы: Jingyi Wu (Чжэцзянский университет), Junying Liang (Чжэцзянский университет)
  • Классификация: cs.CL (вычислительная лингвистика), cs.CY (компьютеры и общество)
  • Дата публикации: 12 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10474

Аннотация

В данном исследовании рассматриваются факторы, определяющие вовлечение потребителей на цифровых платформах. Предыдущие исследования в основном подчеркивали роль характеристик контента, однако создатели контента часто неправильно оценивают истинные потребности аудитории. В статье используется модель скрытого распределения Дирихле (LDA) для анализа крупного корпуса лекций TED, рассматривая платформу как пример цифрового сервиса взаимодействия между создателями (лекторами) и потребителями (аудиторией). Путем сравнения предложения тем создателями и спроса, выраженного уровнем вовлечения аудитории, исследование выявило постоянное несоответствие между предложением производителей и предпочтениями потребителей. Продольный анализ дополнительно показывает, что временная динамика оказывает более сильное влияние на вовлечение потребителей, чем содержание темы, что указывает на то, что "когда" передается контент может быть важнее, чем "что" передается.

Исследовательский контекст и мотивация

Основной вопрос исследования

Основной вопрос, который решает данное исследование: На цифровых платформах, что больше стимулирует вовлечение потребителей — характеристики контента ("что") или временные факторы ("когда")?

Важность проблемы

  1. Экономическая ценность: Видео с более чем одним миллионом просмотров на YouTube обычно генерируют доход более 2000 долларов США от рекламы, при этом доход ведущих создателей достигает 54 миллионов долларов в год
  2. Интенсивная конкуренция: YouTube имеет более 51 миллиона каналов, но только небольшая часть достигает отметки в один миллион подписчиков
  3. Практическая необходимость: Создатели контента, администраторы платформ и маркетологи срочно нуждаются в понимании того, как оптимизировать стратегии вовлечения аудитории

Ограничения существующих методов

  1. Чрезмерный акцент на характеристики контента: Существующие исследования сосредоточены в основном на качестве контента, выборе тем и других внутренних факторах
  2. Игнорирование несоответствия спроса и предложения: Отсутствует количественный анализ различий между предложением создателей и спросом аудитории
  3. Недооценка временных факторов: Недостаточное понимание влияния времени публикации контента и временной динамики

Исследовательская мотивация

На основе теории избирательного воздействия и экономики внимания данное исследование предполагает, что между создателями и аудиторией существуют систематические различия в предпочтениях, и что временные факторы могут быть более важны, чем сам контент.

Основные вклады

  1. Предложен метод "Индекса различий" (Difference Index): Количественное определение различий в предпочтениях между создателями и аудиторией
  2. Оспаривание традиционного представления о приоритете контента: Обнаружено, что временная динамика оказывает большее влияние на вовлечение аудитории, чем содержание темы
  3. Создание крупномасштабного набора данных лекций TED: Включает 4475 лекций с 2006 по 2022 год, всего 8 065 104 слова
  4. Предоставление практических рекомендаций по стратегии: Предложены основанные на данных рекомендации по оптимизации для создателей контента и администраторов платформ

Подробное описание методологии

Определение задачи

Входные данные: Текст транскрипций лекций TED, количество просмотров, год публикации Выходные данные: Распределение тем, количественное определение различий в предпочтениях, относительное влияние времени и темы на уровень вовлечения Ограничения: Анализ ограничен английскими лекциями TED с 2006 по 2022 год

Архитектура модели

1. Тематическое моделирование LDA

Документ → Предварительная обработка → Модель LDA → 14 тем
  • Предварительная обработка: Сохранение глаголов, существительных, прилагательных, наречий; удаление стоп-слов; лемматизация
  • Количество тем: 14 тем выбраны на основе показателя растерянности (perplexity)
  • Аннотирование тем: Семантическая аннотация тем на основе высокочастотных слов

2. Метод количественного определения предпочтений

Предпочтения создателей: Доля видео по определенной теме от общего количества видео в году Предпочтения аудитории: Логарифмическое преобразование среднего количества просмотров по теме

3. Расчет индекса различий

Difference Index_{тема,год} = |Среднее количество просмотров_{тема,год}/Всего просмотров_{год} - Количество видео_{тема,год}/Всего видео_{год}|

Difference Index_{год} = ∑_{темы} Difference Index_{тема,год}

Технические инновации

  1. Многомерная аналитическая структура: Одновременное рассмотрение двойного влияния содержания темы и временной динамики
  2. Количественное определение несоответствия спроса и предложения: Первое систематическое количественное определение различий между предложением создателей и спросом аудитории
  3. Продольный сравнительный анализ: Анализ динамических тенденций за 17-летний период
  4. Статистическое моделирование и проверка: Использование бета-регрессионной модели для проверки относительной важности факторов темы и времени

Экспериментальная установка

Набор данных

  • Источник данных: Официальный веб-сайт TED, строгое соблюдение условий использования
  • Масштаб: 4475 лекций, 8 065 104 слова
  • Временной диапазон: 2006-2022 годы
  • Переменные: Текст транскрипций, количество просмотров, год публикации

Предварительная обработка данных

  1. Очистка текста: Удаление слов длиной менее 3 символов
  2. Обработка стоп-слов: На основе списка стоп-слов пакета NLTK с дополнительным удалением 'kind', 'little', 'sort' и др.
  3. Нормализация данных: Логарифмическое преобразование количества просмотров для обработки асимметричного распределения

Метрики оценки

  • Согласованность темы: На основе семантической связности высокочастотных слов
  • Соответствие модели: Показатель растерянности (Perplexity)
  • Статистическая значимость: Критерий хи-квадрат, критерий H Крускала-Уоллиса
  • Объяснительная способность модели: Псевдо-R² бета-регрессии

Методы статистического анализа

  • Проверка независимости: Критерий хи-квадрат для оценки связи между темой и годом
  • Непараметрические тесты: Критерий H Крускала-Уоллиса для сравнения различий в просмотрах между темами
  • Регрессионный анализ: Бета-регрессия для оценки относительного влияния факторов темы и времени
  • Анализ корреляции: Проверка корреляции Спирмена для связи между предпочтениями создателей и аудитории

Результаты экспериментов

Основные результаты

1. Обнаружения распределения тем

Выявлены 14 тем с крайне неравномерным распределением:

  • Популярные темы: Эмоции (20,02%), социальное взаимодействие (14,03%)
  • Научные темы: Космос (5,92%), технология (5,90%), мозг (5,34%)
  • Непопулярные темы: Меньшинства (1,09%)

2. Анализ предпочтений создателей

  • Большее значение фактора темы: Псевдо-R² бета-регрессии = 0,361, коэффициенты темы в целом больше коэффициентов времени
  • Стабильность предпочтений: Коэффициенты эмоций (β=2,695) и социального взаимодействия (β=2,231) наиболее высокие
  • Временная чувствительность: Темы климата, энергетики и политики значительно подвержены влиянию времени

3. Анализ предпочтений аудитории

  • Большее значение фактора времени: Псевдо-R² бета-регрессии = 0,249, коэффициенты времени в целом выше коэффициентов темы
  • Популярные темы: Мозг, социальное взаимодействие, меньшинства имеют наибольшее среднее количество просмотров
  • Несоответствие спроса и предложения: Темы меньшинств имеют наименьшее предложение, но наибольший спрос

4. Количественное определение различий в предпочтениях

  • Слабая общая корреляция: Коэффициент корреляции Спирмена r=0,143 (p=0,028)
  • Большие колебания различий: Годовой индекс различий не показывает четкой тенденции, колебания значительны
  • Различия по темам: Темы эмоций, меньшинств и мозга имеют наибольший индекс различий

Абляционные эксперименты

Результаты анализа остатков

  • Стабильные темы: Искусство, здравоохранение не подвержены влиянию времени
  • Чувствительные темы: Климат и энергетика значительно увеличиваются в 2009, 2021, 2022 годах
  • Управляемые событиями: Политические темы достигают пика в 2020 году (влияние пандемии)

Сравнение моделей бета-регрессии

Тип фактораПредпочтения создателейПредпочтения аудитории
Влияние темыСильное (большие коэффициенты)Среднее
Влияние времениСлабое (малые коэффициенты)Сильное
Объяснительная способность модели36,1%24,9%

Анализ конкретных случаев

Случаи успешного соответствия

  • Политические темы: Кривые предпочтений создателей и аудитории относительно стабильны, индекс различий низкий
  • Здравоохранение: Как тема всеобщего интереса, предложение и спрос хорошо согласованы

Типичные случаи несоответствия

  • Темы меньшинств: Серьезный дефицит предложения (1,09%), но высокий спрос на просмотры
  • Темы эмоций: Чрезмерное предложение создателей (20,02%), но средний интерес аудитории
  • Нейронаука: Значительное несоответствие спроса и предложения в 2016-2019 годах

Связанные работы

Основные направления исследований

  1. Влияние социальных сетей: Механизмы влияния реальных социальных сетей на популярность в интернете
  2. Анализ характеристик контента: Прогнозирование популярности на основе тегов и тем
  3. Теория избирательного воздействия: Связь между предпочтениями пользователей и выбором контента
  4. Влияние алгоритмов рекомендации: Формирование видимости контента алгоритмами

Инновационные аспекты данной работы

  1. Двусторонний анализ: Первое систематическое сравнение предложения создателей и спроса аудитории
  2. Временное измерение: Подчеркивание важности временной динамики, оспаривание концепции приоритета контента
  3. Методы количественного определения: Предложение операционализируемых инструментов измерения, таких как индекс различий
  4. Практическая ориентация: Предоставление конкретных рекомендаций по стратегии, а не чисто теоретического анализа

Выводы и обсуждение

Основные выводы

  1. Время важнее контента: Для аудитории "когда" может быть более важным для влияния на вовлечение, чем "что"
  2. Систематическое несоответствие спроса и предложения: Существует постоянное различие между предпочтениями создателей и спросом аудитории
  3. Значительные различия по темам: Степень согласованности спроса и предложения сильно различается в зависимости от темы
  4. Необходимость пересмотра традиционных представлений: Качество контента не является единственным или основным фактором, определяющим популярность

Ограничения

  1. Ограничения платформы: Исследование основано только на платформе TED, обобщаемость требует проверки
  2. Неполные переменные: Не учитываются показатели взаимодействия, такие как лайки и поделиться
  3. Эффекты взаимодействия: Проблемы сходимости модели ограничивают анализ членов взаимодействия тема-время
  4. Причинно-следственные связи: Анализ корреляции не может установить причинно-следственные отношения

Направления будущих исследований

  1. Проверка на нескольких платформах: Расширение на YouTube, подкасты и другие платформы
  2. Моделирование эффектов взаимодействия: Улучшение статистических моделей для обработки сложных взаимодействий
  3. Системы прогнозирования в реальном времени: Разработка инструментов прогнозирования популярности на основе временной динамики
  4. Стратегии оптимизации контента: Исследование методов оптимизации нарративной структуры и способов выражения

Глубокая оценка

Преимущества

  1. Высокая инновационность методов: Концепция индекса различий является новой и предоставляет инструмент количественного определения для анализа спроса и предложения
  2. Крупный масштаб данных: 17-летний период, 4475 образцов, достаточная статистическая мощность
  3. Контринтуитивные открытия: Оспаривание концепции приоритета контента, предложение гипотезы о приоритете времени
  4. Высокая практическая ценность: Предоставление конкретных и операционализируемых рекомендаций для создателей контента
  5. Комплексный анализ: Сочетание качественных и количественных методов, многоаспектная проверка выводов

Недостатки

  1. Слабое теоретическое обоснование: Отсутствие глубокого объяснения механизмов, почему временные факторы более важны
  2. Ограничения методов: Выбор количества тем LDA имеет высокую субъективность, что может повлиять на стабильность результатов
  3. Проблемы внешней валидности: Специфичность платформы TED может ограничить универсальность выводов
  4. Пропущенные переменные: Игнорирование важных факторов влияния, таких как репутация лектора и качество видео
  5. Недостаточность причинного вывода: Анализ в основном основан на корреляции, отсутствуют стратегии идентификации причинности

Влияние

  1. Академический вклад: Предоставление новой аналитической структуры для исследований цифровых платформ
  2. Практическая ценность: Прямое руководство для маркетинга контента и управления платформой
  3. Междисциплинарное значение: Связь коммуникационных наук, вычислительной лингвистики и поведения потребителей
  4. Политические последствия: Предоставление данных для управления платформой и регулирования контента

Применимые сценарии

  1. Платформы контента: Разработка стратегии контента для видеоплатформ, таких как YouTube и Bilibili
  2. Область маркетинга: Выбор времени и планирование тем для маркетинга контента бренда
  3. Академические исследования: Эмпирические исследования в области цифровой коммуникации и поведения потребителей
  4. Управление платформой: Оптимизация алгоритмов рекомендации и выявление предвзятости

Библиография

Статья цитирует 89 связанных работ, охватывающих:

  • Классические работы по анализу социальных сетей (Kwak et al., 2010)
  • Методологические работы по тематическому моделированию (Blei et al., 2003)
  • Работы по теории избирательного воздействия (Stroud, 2010)
  • Эмпирические исследования цифровой коммуникации (Cinelli et al., 2021)

Общая оценка: Это инновационная и практически ценная исследовательская работа, которая через анализ крупномасштабных данных оспаривает традиционное представление о контенте как движущей силе и предлагает новую перспективу с приоритетом времени. Хотя в теоретической глубине и совершенстве методов есть место для улучшения, основные выводы имеют важное значение как для академического сообщества, так и для практиков.