2025-11-14T15:49:11.600012

When or What? Understanding Consumer Engagement on Digital Platforms

Wu, Liang
Understanding what drives popularity is critical in today's digital service economy, where content creators compete for consumer attention. Prior studies have primarily emphasized the role of content features, yet creators often misjudge what audiences actually value. This study applies Latent Dirichlet Allocation (LDA) modeling to a large corpus of TED Talks, treating the platform as a case of digital service provision in which creators (speakers) and consumers (audiences) interact. By comparing the thematic supply of creators with the demand expressed in audience engagement, we identify persistent mismatches between producer offerings and consumer preferences. Our longitudinal analysis further reveals that temporal dynamics exert a stronger influence on consumer engagement than thematic content, suggesting that when content is delivered may matter more than what is delivered. These findings challenge the dominant assumption that content features are the primary drivers of popularity and highlight the importance of timing and contextual factors in shaping consumer responses. The results provide new insights into consumer attention dynamics on digital platforms and carry practical implications for marketers, platform managers, and content creators seeking to optimize audience engagement strategies.
academic

언제인가 또는 무엇인가? 디지털 플랫폼에서의 소비자 참여 이해

기본 정보

  • 논문 ID: 2510.10474
  • 제목: When or What? Understanding Consumer Engagement on Digital Platforms
  • 저자: Jingyi Wu (저장대학교), Junying Liang (저장대학교)
  • 분류: cs.CL (계산 언어학), cs.CY (컴퓨터와 사회)
  • 발표 시간: 2025년 10월 12일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10474

초록

본 연구는 디지털 플랫폼에서 소비자 참여의 주요 동인을 탐구한다. 기존 연구는 주로 콘텐츠 특성의 역할을 강조했으나, 콘텐츠 제작자들은 종종 시청자의 실제 요구를 잘못 판단한다. 본 논문은 잠재 디리클레 할당(LDA) 모델을 사용하여 대규모 TED 강연 말뭉치를 분석하며, 이 플랫폼을 제작자(강연자)와 소비자(시청자) 간의 상호작용을 보여주는 디지털 서비스 사례로 간주한다. 제작자의 주제 공급과 시청자 참여도로 표현되는 수요를 비교함으로써, 본 연구는 생산자 공급과 소비자 선호 간의 지속적인 불일치를 파악했다. 종단 분석은 시간 동역학이 주제 콘텐츠보다 소비자 참여에 더 큰 영향을 미친다는 것을 추가로 드러내며, "언제" 콘텐츠를 전달하는 것이 "무엇을" 전달하는 것보다 더 중요할 수 있음을 시사한다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 다음과 같다: 디지털 플랫폼에서 콘텐츠 특성("무엇")과 시간 요인("언제") 중 어느 것이 소비자 참여를 더 잘 주도하는가?

문제의 중요성

  1. 경제적 가치: YouTube에서 100만 회 이상 조회된 영상은 일반적으로 2,000달러 이상의 광고 수익을 창출하며, 최고 수익 제작자의 연간 수익은 5,400만 달러에 달한다
  2. 심화된 경쟁: YouTube는 510만 개 이상의 채널을 보유하고 있으나, 극소수만이 백만 구독자 이정표에 도달한다
  3. 실무적 필요성: 콘텐츠 제작자, 플랫폼 관리자, 마케팅 담당자들은 시청자 참여 전략을 최적화하는 방법을 시급히 이해할 필요가 있다

기존 방법의 한계

  1. 콘텐츠 특성에 대한 과도한 초점: 기존 연구는 주로 콘텐츠 품질, 주제 선택 등 내재적 요인에 집중한다
  2. 공급-수요 불일치 간과: 제작자 공급과 시청자 수요 간 차이에 대한 정량적 분석이 부족하다
  3. 시간 요인 과소평가: 콘텐츠 발행 시기와 시간 동역학의 영향에 대한 이해가 부족하다

연구 동기

선택적 노출 이론과 주의력 경제학을 바탕으로, 본 연구는 제작자와 시청자 간에 체계적인 선호도 차이가 존재하며, 시간 요인이 콘텐츠 자체보다 더 중요할 수 있다고 가정한다.

핵심 기여

  1. "차이 지수"(Difference Index) 방법 제시: 제작자와 시청자 간의 선호도 차이를 정량화한다
  2. 콘텐츠 우선주의 전통 관념에 도전: 시간 동역학이 주제 콘텐츠보다 시청자 참여에 더 큰 영향을 미친다는 것을 발견했다
  3. 대규모 TED 강연 데이터셋 구축: 2006-2022년 4,475개 강연, 총 8,065,104개 단어를 포함한다
  4. 실용적 전략 지침 제공: 콘텐츠 제작자, 플랫폼 관리자를 위한 데이터 기반 최적화 제안을 제공한다

방법론 상세 설명

작업 정의

입력: TED 강연 전사 텍스트, 조회수, 발행 연도 출력: 주제 분포, 선호도 차이 정량화, 시간 및 주제가 참여도에 미치는 상대적 영향 제약: 분석 범위는 2006-2022년 영어 TED 강연으로 제한된다

모델 구조

1. LDA 주제 모델링

문서 → 전처리 → LDA 모델 → 14개 주제
  • 전처리: 동사, 명사, 형용사, 부사 보존; 불용어 제거; 토큰화 처리
  • 주제 수: 혼란도(Perplexity)를 기반으로 14개 주제 선택
  • 주제 레이블링: 고빈도 단어를 기반으로 주제 의미론적 레이블링

2. 선호도 정량화 방법

제작자 선호도: 특정 주제 영상 수가 해당 연도 총 영상 수에서 차지하는 비율 시청자 선호도: 특정 주제 평균 조회수의 로그 변환값

3. 차이 지수 계산

Difference Index_{topic,year} = |Average View Count_{topic,year}/Total View Counts_{year} - Video Counts_{topic,year}/Total Video Counts_{year}|

Difference Index_{year} = ∑_{topics} Difference Index_{topic,year}

기술적 혁신점

  1. 다차원 분석 프레임워크: 주제 콘텐츠와 시간 동역학의 이중 영향을 동시에 고려한다
  2. 공급-수요 불일치 정량화: 제작자 공급과 시청자 수요의 차이를 처음으로 체계적으로 정량화한다
  3. 종단 비교 분석: 17년 기간의 동적 추세 분석
  4. 통계 모델링 검증: 베타 회귀 모델을 사용하여 주제 및 시간 요인의 상대적 중요성을 검증한다

실험 설정

데이터셋

  • 데이터 출처: TED 공식 웹사이트, 이용 약관 엄격히 준수
  • 규모: 4,475개 강연, 8,065,104개 단어
  • 시간 범위: 2006-2022년
  • 변수: 강연 전사, 조회수, 발행 연도

데이터 전처리

  1. 텍스트 정제: 3자 미만의 단어 제거
  2. 불용어 처리: NLTK 패키지 기반 불용어 목록, 추가로 'kind', 'little', 'sort' 등 제거
  3. 데이터 표준화: 조회수는 자연 로그 변환으로 편포 처리

평가 지표

  • 주제 일관성: 고빈도 단어의 의미론적 응집성 기반
  • 모델 적합도: 혼란도(Perplexity)
  • 통계적 유의성: 카이제곱 검정, Kruskal-Wallis H 검정
  • 모델 설명력: 베타 회귀의 의사 R²

통계 분석 방법

  • 독립성 검정: 카이제곱 검정으로 주제와 연도의 연관성 평가
  • 비모수 검정: Kruskal-Wallis H 검정으로 주제 간 조회 차이 비교
  • 회귀 분석: 베타 회귀로 주제 및 시간 요인의 상대적 영향 평가
  • 상관 분석: Spearman 상관 검정으로 제작자와 시청자 선호도의 연관성 검증

실험 결과

주요 결과

1. 주제 분포 발견

14개 주제를 파악했으며, 분포가 매우 불균등하다:

  • 인기 주제: 감정(20.02%), 사회적 상호작용(14.03%)
  • 과학 주제: 우주(5.92%), 기술(5.90%), 뇌(5.34%)
  • 비인기 주제: 소수 집단(1.09%)

2. 제작자 선호도 분석

  • 주제 요인이 더 중요: 베타 회귀 의사 R²=0.361, 주제 계수가 일반적으로 연도 계수보다 크다
  • 선호도 안정성: 감정(β=2.695)과 사회적 상호작용(β=2.231)의 계수가 가장 높다
  • 시간 민감성: 기후 에너지 및 정치 주제는 시간의 영향을 크게 받는다

3. 시청자 선호도 분석

  • 시간 요인이 더 중요: 베타 회귀 의사 R²=0.249, 연도 계수가 일반적으로 주제 계수보다 크다
  • 인기 주제: 뇌, 사회적 상호작용, 소수 집단의 평균 조회수가 가장 높다
  • 공급-수요 불일치: 소수 집단 주제는 공급이 가장 적지만 수요가 가장 높다

4. 선호도 차이 정량화

  • 전체 상관성 약함: Spearman 상관계수 r=0.143 (p=0.028)
  • 차이 변동 큼: 연간 차이 지수에 명확한 추세가 없으며 변동이 크다
  • 주제별 차이: 감정, 소수 집단, 뇌 주제의 차이 지수가 가장 크다

제거 실험

잔차 분석 결과

  • 안정적 주제: 예술, 의료 보건은 시간의 영향을 받지 않는다
  • 민감한 주제: 기후 에너지는 2009년, 2021년, 2022년에 현저히 증가한다
  • 사건 주도: 정치 주제는 2020년에 정점에 도달한다(팬데믹 영향)

베타 회귀 모델 비교

요인 유형제작자 선호도시청자 선호도
주제 영향강함 (큰 계수)중간
시간 영향약함 (작은 계수)강함
모델 설명력36.1%24.9%

사례 분석

성공적 일치 사례

  • 정치 주제: 제작자와 시청자 선호도 곡선이 상대적으로 안정적이며 차이 지수가 낮다
  • 의료 보건: 보편적 관심 주제로서 공급-수요 일치가 양호하다

불일치 전형 사례

  • 소수 집단 주제: 공급이 심각하게 부족(1.09%)하지만 조회 수요는 높다
  • 감정 주제: 제작자가 과도하게 공급(20.02%)하지만 시청자 관심은 일반적이다
  • 뇌 과학: 2016-2019년 공급-수요 차이가 현저하다

관련 연구

주요 연구 방향

  1. 사회 네트워크 영향: 실제 사회 네트워크가 온라인 인기도에 미치는 영향 메커니즘
  2. 콘텐츠 특성 분석: 태그, 주제 기반 인기도 예측
  3. 선택적 노출 이론: 사용자 선호도와 콘텐츠 선택의 관계
  4. 추천 알고리즘 영향: 알고리즘이 콘텐츠 가시성에 미치는 영향

본 논문의 혁신점

  1. 양방향 분석: 제작자 공급과 시청자 수요를 처음으로 체계적으로 비교한다
  2. 시간 차원: 시간 동역학의 중요성을 강조하며 콘텐츠 우선주의에 도전한다
  3. 정량화 방법: 차이 지수 등 운영 가능한 측정 도구를 제시한다
  4. 실용 지향: 순수 이론 분석이 아닌 구체적 전략 제안을 제공한다

결론 및 논의

주요 결론

  1. 시간이 콘텐츠보다 중요: 시청자에게 있어 "언제"가 "무엇"보다 참여도에 더 큰 영향을 미친다
  2. 체계적 공급-수요 불일치: 제작자 선호도와 시청자 수요 간에 지속적인 차이가 존재한다
  3. 주제별 차이 현저: 서로 다른 주제의 공급-수요 일치 정도에 거대한 차이가 있다
  4. 전통 관념의 수정 필요: 콘텐츠 품질이 인기도의 유일하거나 주요 동인이 아니다

한계

  1. 플랫폼 한계: TED 플랫폼만을 기반으로 하며, 일반화 가능성이 검증되어야 한다
  2. 변수 불완전성: 좋아요, 공유 등 상호작용 지표를 고려하지 않았다
  3. 교호 효과: 모델 수렴 문제로 주제-시간 교호항 분석이 제한된다
  4. 인과 관계: 상관 분석으로는 인과 관계를 확정할 수 없다

향후 방향

  1. 다중 플랫폼 검증: YouTube, 팟캐스트 등 다른 플랫폼으로 확대
  2. 교호 효과 모델링: 복잡한 교호 처리를 위한 통계 모델 개선
  3. 실시간 예측 시스템: 시간 동역학 기반 인기도 예측 도구 개발
  4. 콘텐츠 최적화 전략: 서사 구조, 표현 방식의 최적화 방법 연구

심층 평가

장점

  1. 방법론 혁신성 강함: 차이 지수 개념이 새로우며 공급-수요 분석을 위한 정량화 도구를 제공한다
  2. 데이터 규모 큼: 17년 기간, 4,475개 표본으로 통계 검정력이 충분하다
  3. 발견이 직관에 반함: 콘텐츠 우선주의에 도전하고 시간 우선 가설을 제시한다
  4. 실용 가치 높음: 콘텐츠 제작자에게 구체적이고 실행 가능한 제안을 제공한다
  5. 분석 포괄적: 정성적, 정량적 방법을 결합하여 다각도로 결론을 검증한다

부족한 점

  1. 이론적 기초 약함: 시간 요인이 왜 더 중요한지에 대한 심층적 메커니즘 설명이 부족하다
  2. 방법론 한계: LDA 주제 수 선택의 주관성이 강하며 결과 안정성에 영향을 미칠 수 있다
  3. 외적 타당성 문제: TED 플랫폼의 특수성이 결론의 보편성을 제한할 수 있다
  4. 변수 누락: 강연자 명성, 영상 품질 등 중요한 영향 요인을 간과했다
  5. 인과 추론 부족: 주로 상관 분석에 기반하며 인과 식별 전략이 부족하다

영향력

  1. 학술적 기여: 디지털 플랫폼 연구에 새로운 분석 프레임워크를 제공한다
  2. 실무 가치: 콘텐츠 마케팅, 플랫폼 운영에 직접적 지도 의미를 갖는다
  3. 학제간 의의: 전파학, 계산 언어학, 소비자 행동학을 연결한다
  4. 정책 시사: 플랫폼 거버넌스, 콘텐츠 규제에 데이터 지원을 제공한다

적용 장면

  1. 콘텐츠 플랫폼: YouTube, B站 등 영상 플랫폼의 콘텐츠 전략 수립
  2. 마케팅 분야: 브랜드 콘텐츠 마케팅의 시기 선택 및 주제 기획
  3. 학술 연구: 디지털 전파, 소비자 행동의 실증 연구
  4. 플랫폼 거버넌스: 콘텐츠 추천 알고리즘 최적화 및 편향 식별

참고 문헌

본 논문은 89편의 관련 문헌을 인용하며, 다음을 포함한다:

  • 사회 네트워크 분석 고전 문헌 (Kwak et al., 2010)
  • 주제 모델링 방법론 문헌 (Blei et al., 2003)
  • 선택적 노출 이론 문헌 (Stroud, 2010)
  • 디지털 전파 실증 연구 (Cinelli et al., 2021)

종합 평가: 이는 대규모 데이터 분석을 통해 전통적인 콘텐츠 주도 관념에 도전하고 시간 우선의 새로운 관점을 제시하는 혁신적이고 실용적 가치가 있는 연구 논문이다. 이론적 깊이와 방법론적 완성도 측면에서 개선의 여지가 있지만, 핵심 발견은 학술계와 실무계 모두에 중요한 시사점을 갖는다.