There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
- 논문 ID: 2505.15370
- 제목: Modelling the Spread of New Information on Social Networks
- 저자: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
- 분류: cs.SI (Social and Information Networks)
- 발표 시간: 2025년 10월 14일 (arXiv v3)
- 논문 링크: https://arxiv.org/abs/2505.15370v3
본 논문은 사회 네트워크에서 새로운 정보 전파의 예측 문제를 연구하며, 즉 사용자가 이전에 본 적 없는 주제에 관한 정보를 재전송할지 여부를 예측하는 것이다. 기존 연구는 일반적으로 정보와 사용자를 훈련 및 테스트 세트에 무작위로 할당하여 두 세트가 동일한 분포에서 나오도록 보장한다. 반면 새로운 정보 전파 문제는 본질적으로 분포 외 일반화 분류 작업이다. 실험 결과는 훈련과 테스트 분포가 동일할 때 주로 메시지 콘텐츠 특성을 사용하는 기존 알고리즘이 좋은 성능을 보이지만, 테스트 세트 분포 외(즉, 테스트 데이터의 주제가 훈련 데이터에 존재하지 않음)에서는 성능이 현저히 저하됨을 보여준다. 연구에서는 사용자 프로필 및 역사적 행동 특성으로 메시지 특성을 보완하거나 대체한 후 분포 외 예측 성능이 대폭 향상되어 F1 점수가 0.117에서 0.705로 상승함을 발견했다. 결과는 본 적 없는 주제에 대한 재전송 행동이 사용자 프로필 및 역사적 행동으로 크게 예측될 수 있으며, 기본적으로 콘텐츠와 무관함을 시사한다.
본 논문이 해결하는 핵심 문제는 새로운 정보 전파 예측이며, 즉 사용자가 이전에 본 적 없는 주제에 관한 정보를 재전송할지 여부를 예측하는 것이다. 이는 테스트 데이터와 관련된 주제가 훈련 데이터에 완전히 존재하지 않기 때문에 전형적인 분포 외 일반화 문제이다.
- 학제 간 중요성: 정보 전파 예측은 컴퓨터 과학, 사회 과학, 정치학 및 마케팅 등 여러 분야에 중요한 의미를 가진다
- 실제 응용 가치: 마케팅 활동, 정치 선전, 허위 정보 및 루머 전파 등의 시나리오에서 중요한 응용 가치를 가진다
- 이론적 의미: 소셜 미디어에서의 정보 확산 내재 메커니즘을 이해하는 데 도움이 된다
- 메시지 콘텐츠에 대한 과도한 의존: 기존 알고리즘은 주로 메시지 텍스트 콘텐츠에서 추출한 특성을 사용한다
- 분포 외 평가 부족: 기존 연구는 일반적으로 데이터 세트를 무작위로 분할하는 방식을 채택하여 훈련 및 테스트 데이터가 동일한 분포에서 나오도록 보장한다
- 사용자 관련 데이터 무시: 사용자 프로필, 팔로우 목록 및 역사적 행동 등 중요한 정보가 과소평가된다
소셜 미디어 플랫폼에서 새로운 주제(예: 속보)가 자주 나타나므로, 전통적인 동일 분포 분류 외에도 분포 외 예측 능력이 필요하며, 이는 실제 응용에서 더욱 도전적이고 가치 있다.
- 새로운 평가 패러다임 제시: 처음으로 동일 분포 예측과 분포 외 예측을 명확히 구분하여 재전송 예측 연구에 더욱 포괄적인 평가 프레임워크를 제공한다
- 포괄적인 특성 체계 구축: 78개의 메시지 관련 특성과 225개의 사용자 관련 특성을 포함한 303개의 특성을 식별하고 구축한다
- 사용자 특성의 중요성 공개: 실험을 통해 사용자 관련 특성이 분포 외 예측에 매우 중요함을 증명하며, F1 점수가 0.117에서 0.705로 상승한다
- 중요한 이론적 통찰 제공: 재전송 행동이 콘텐츠와 무관하며 주로 사용자 특성에 의해 결정됨을 발견한다 ("It is who we are, not what we see")
재전송 예측은 수신자가 발신자로부터 받은 메시지를 재전송할지 여부를 예측하는 것으로 정의된다:
f:{M,US,UR}→y∈{0,1}
여기서:
- M: 메시지
- US: 발신자
- UR: 수신자
- y=1: 수신자가 메시지를 재전송함, y=0: 재전송하지 않음
111,401개의 X(Twitter) 메시지의 텍스트 콘텐츠를 포함하며, 78개의 메시지 관련 특성을 추출한다:
- 주제 특성(39개): Twitter-roBERTa 및 LDA 모델을 사용하여 메시지 주제 식별
- 언어 특성(10개): 문법 정확성, 극성, 주관성 등
- 가독성 특성(11개): Flesch 읽기 난이도, SMOG 지수 등
- 감정 특성(5개): 긍정, 부정, 중립 감정 점수
- 정서 특성(8개): 분노, 기쁨, 두려움 등 정서 확률
- 혐오 표현 특성(4개): 공격성, 혐오성 측정
- 태그 특성(1개): 특정 해시태그의 존재
세 가지 사용자 관련 데이터 범주를 포함한다:
사용자 프로필 데이터 Data(U-P):
- 사용자 프로필 및 팔로우 목록
- 30개 특성 추출: 팔로워 수, 영향력 측정, 네트워크 관계 등
사용자 역사적 행동 데이터 Data(U-HA):
- 최근 50개 역사적 메시지의 메타데이터
- 38개 특성 추출: 재전송율, 상호작용 패턴, 사용자 간 상호작용 등
사용자 역사적 메시지 데이터 Data(U-HM):
- 최근 50개 역사적 메시지의 텍스트 콘텐츠
- 157개 특성 추출: 역사적 메시지의 집계 특성, 주제 유사성 등
XGBoost 의사결정 트리를 사용하며, 특성 중요도 분석을 통해 사용자 특성의 핵심 역할을 발견한다. 주요 하이퍼파라미터:
- 최대 깊이: 8
- 학습률: 0.3
- 추정기 수: 100
SUA-ACNN 모델을 기반으로 확장하며, 사용자 데이터를 처리하기 위해 MLP 구성 요소를 추가한다:
- NN-M: 메시지 데이터만 사용
- NN-U: 사용자 데이터만 사용
- NN-ALL: 모든 데이터 유형 사용
BERT-base를 사용하여 메시지 텍스트를 처리하고 의미론적 임베딩을 생성하여 예측을 수행한다.
- 분포 외 평가 설계: 각 해시태그에 대해 다른 13개 해시태그의 데이터를 사용하여 훈련하고 해당 해시태그에서 테스트한다
- 음성 샘플 생성 전략: 각 양성 샘플에 대해 가장 유사한 음성 샘플을 선택하여 평가의 관련성을 보장한다
- 다층 특성 체계: 메시지, 사용자 프로필, 역사적 행동 등 여러 차원에서 체계적으로 특성을 추출한다
- 데이터 출처: X 플랫폼(이전 Twitter) 학술 API
- 시간 범위: 2022년 7월 27일 ~ 8월 14일
- 데이터 규모:
- 111,401개 메시지
- 44,014개 재전송 이벤트(양성 샘플)
- 79,707개 고유 사용자
- 380만 개 역사적 메시지
- 주제 범위: 14개 인기 해시태그
서로 다른 양성/음성 샘플 비율의 세 가지 데이터 세트 생성:
- 1:1 데이터 세트: 각 양성 샘플에 가장 유사한 음성 샘플 1개 배치
- 1:5 데이터 세트: 각 양성 샘플에 가장 유사한 음성 샘플 5개 배치
- 1:10 데이터 세트: 각 양성 샘플에 유사한 음성 샘플 5개 + 무작위 음성 샘플 5개 배치
주로 F1 점수 사용:
F1=TP+21(FP+FN)TP
여러 해시태그의 결과에 대해 전체 평균 및 표준편차를 계산한다.
세 가지 실험 수행:
- 실험 I: 혼합 해시태그의 동일 분포 예측
- 실험 II: 단일 해시태그의 동일 분포 예측
- 실험 III: 분포 외 예측
1:5 데이터 세트에서의 F1 점수:
| 모델 | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1 점수 | 0.884±0.002 | 0.852±0.005 | 0.758±0.002 | 0.844±0.009 | 0.835±0.004 | 0.740±0.003 | 0.740±0.010 |
전체 F1 점수(μ̄±σ̄):
| 모델 | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1 점수 | 0.697±0.076 | 0.705±0.084 | 0.117±0.131 | 0.623±0.109 | 0.702±0.071 | 0.108±0.055 | 0.091±0.101 |
- 사용자 특성의 핵심 역할:
- 메시지 특성만 사용하는 모델의 분포 외 예측 성능이 급격히 저하된다
- 사용자 특성만 사용하는 모델의 분포 외 예측 성능이 모든 특성을 사용하는 모델과 유사하다
- 특성 중요도 분석:
- 상위 20개 가장 중요한 특성 중 사용자 관련 특성이 17개를 차지한다
- 가장 중요한 특성은 "수신자가 발신자를 팔로우하는지 여부"(U-P_R_FollowS)이다
- 성능 향상 현저함:
- 분포 외 예측 F1 점수가 0.117에서 0.705로 상승(502% 향상)
- 사용자 특성이 새로운 주제 예측에 중요함을 증명한다
서로 다른 특성 조합의 비교 실험을 통해 다음을 발견한다:
- U-P 및 U-HA 특성: 분포 외 예측에 가장 큰 기여
- U-HM 특성: 메시지 특성과 유사한 성능, 분포 외 성능 제한적
- 메시지 특성: 분포 외 설정에서 거의 효과 없음
기존 연구는 주로 여러 범주로 나뉜다:
- 메시지 인기도 예측: 메시지의 전파 규모 예측
- 확산 트리 예측: 전파 경로 및 시간 예측
- 재전송 예측: 특정 사용자의 재전송 행동 예측
- 특성 의존성: 메시지 텍스트 특성에 대한 과도한 의존
- 평가 한계: 분포 외 평가 부족
- 데이터 활용 부족: 사용자 프로필 및 행동 데이터의 가치 무시
- 처음으로 체계적으로 분포 외 평가 수행
- 사용자 관련 특성을 전면적으로 고려
- 더욱 현실적인 평가 시나리오 제공
- 콘텐츠 무관성: 재전송 행동이 구체적인 콘텐츠와 무관하며 주로 사용자 특성에 의해 결정된다
- 사용자 특성의 일반화 능력: 사용자 프로필 및 역사적 행동이 주제 간 일반화 능력을 가진다
- 평가 패러다임의 중요성: 분포 외 평가가 실제 응용에 더욱 의미 있다
- 플랫폼 한계: 연구는 X 플랫폼 데이터만 기반으로 한다
- 시간 윈도우: 24시간 내 재전송 행동만 고려한다
- 특성 엔지니어링: 일부 특성 추출이 특정 도구 및 모델에 의존한다
- 문화적 배경: 서로 다른 문화적 배경에서의 행동 차이를 고려하지 않는다
- 교차 플랫폼 연구: 다른 소셜 미디어 플랫폼으로 확장
- 동적 모델링: 사용자 행동의 시간적 진화 고려
- 인과 추론: 사용자 특성과 재전송 행동 간의 인과 관계 심층 이해
- 실시간 응용: 실시간 예측 시스템 개발
- 문제 설정의 혁신성:
- 처음으로 분포 외 재전송 예측 문제를 명확히 제시한다
- 실제 응용 시나리오에 더욱 부합한다
- 엄격한 실험 설계:
- 다양한 모델 비교 검증
- 상세한 제거 실험
- 통계적 유의성 분석
- 포괄적인 특성 엔지니어링:
- 303개 특성의 체계적 구축
- 다차원 특성 중요도 분석
- 깊이 있는 이론적 기여:
- "It is who we are, not what we see"의 중요한 통찰
- 소셜 미디어 행동 이해에 새로운 관점 제공
- 데이터 대표성:
- 14개 해시태그만 사용하여 충분하지 않을 수 있다
- 시간 범위가 짧아 장기 관찰 부족
- 특성 해석성:
- 일부 사용자 특성의 심리학적 메커니즘이 충분히 명확하지 않다
- 특성 상호작용에 대한 심층 분석 부족
- 실용성 고려:
- 완전한 사용자 역사 데이터 획득이 실제 응용에서 어려울 수 있다
- 개인정보 보호 측면의 고려 부족
- 모델 복잡도:
- 303개 특성이 중복될 수 있다
- 특성 선택 및 차원 축소 분석 부족
- 학술적 기여:
- 정보 전파 연구에 새로운 평가 패러다임 제공
- 기존 방법의 가정에 도전
- 실용적 가치:
- 소셜 미디어 플랫폼의 추천 알고리즘에 지도 의미
- 마케팅 및 여론 모니터링에 새로운 사고방식 제공
- 재현성:
- 상세한 실험 설정 및 파라미터 설명
- 개방적인 특성 엔지니어링 방법
- 소셜 미디어 플랫폼: 콘텐츠 추천 및 사용자 행동 예측
- 디지털 마케팅: 목표 사용자 식별 및 콘텐츠 전략
- 여론 모니터링: 핫 토픽 전파 예측
- 학술 연구: 사회 네트워크 분석 및 행동 모델링
논문은 48개의 관련 문헌을 인용하며, 다음을 포함한다:
- 정보 확산 이론 연구
- 기계 학습 방법 응용
- 소셜 미디어 행동 분석
- 자연어 처리 기술
핵심 참고 문헌은 고전적인 재전송 예측 연구, 신경망 모델(BERT, SUA-ACNN 등) 및 사회 네트워크 분석의 기초 연구를 포함한다.
종합 평가: 이는 문제 설정, 방법 혁신 및 실험 검증 측면에서 모두 현저한 기여를 하는 고품질 연구 논문이다. 특히 분포 외 예측의 제시와 사용자 특성 중요성의 발견은 소셜 미디어 정보 전파 연구에 새로운 방향을 개척한다. 일부 한계가 있지만, 이론적 가치와 실용적 의미가 모두 뛰어나며, 관련 분야에 중요한 영향을 미칠 것으로 예상된다.