2025-11-17T00:04:13.380329

Modelling the Spread of New Information on Social Networks

Xu, Zhou, Lampos et al.

There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.

academic

基本信息

论文ID: 2505.15370
标题: Modelling the Spread of New Information on Social Networks
作者: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
分类: cs.SI (Social and Information Networks)
发表时间: 2025年10月14日 (arXiv v3)
论文链接: https://arxiv.org/abs/2505.15370v3

摘要

本文研究社交网络中新信息传播的预测问题，即预测用户是否会转发关于之前未见过话题的信息。现有研究通常将信息和用户随机分配到训练和测试集，确保两个集合来自相同分布。而新信息传播问题实质上是一个分布外泛化分类任务。实验结果显示，当训练和测试分布相同时，主要使用消息内容特征的现有算法表现良好，但在测试集分布外（即测试数据的话题在训练数据中不存在）时表现显著下降。研究发现，用用户档案和历史行为特征补充或替代消息特征后，分布外预测性能大幅提升，F1分数从0.117提升至0.705。结果表明，对于未见过话题的转发行为，很大程度上可以通过用户档案和历史行为预测，且基本与内容无关。

研究背景与动机

1. 要解决的问题

本文要解决的核心问题是新信息传播预测，即预测用户是否会转发关于之前未见过话题的信息。这是一个典型的分布外泛化问题，因为测试数据涉及的话题在训练数据中完全不存在。

2. 问题的重要性

跨学科重要性：信息传播预测对计算机科学、社会科学、政治学和市场营销等多个领域都具有重要意义
实际应用价值：在营销活动、政治宣传、虚假信息和谣言传播等场景中具有重要应用价值
理论意义：有助于理解社交媒体上信息扩散的内在机制

3. 现有方法的局限性

过度依赖消息内容：现有算法主要使用从消息文本内容提取的特征
缺乏分布外评估：现有研究通常采用随机划分数据集的方式，确保训练和测试数据来自相同分布
忽视用户相关数据：用户档案、关注列表和历史行为等重要信息被低估

4. 研究动机

社交媒体平台上经常出现新话题（如突发新闻），因此除了传统的同分布分类外，还需要分布外预测能力，这在实际应用中更具挑战性和价值。

核心贡献

提出了新的评估范式：首次明确区分同分布预测和分布外预测，为转发预测研究提供了更全面的评估框架
构建了综合特征体系：识别并构建了303个特征，包括78个消息相关特征和225个用户相关特征
揭示了用户特征的重要性：实验证明用户相关特征对分布外预测至关重要，F1分数从0.117提升至0.705
提供了重要理论洞察：发现转发行为很大程度上与内容无关，主要由用户特征决定（"It is who we are, not what we see"）

方法详解

任务定义

转发预测被定义为预测接收者是否会转发从发送者接收到的消息：

$f : \{M, U_S, U_R\} \rightarrow y \in \{0, 1\}$

其中：

$M$ ：消息
$U_S$ ：发送者
$U_R$ ：接收者
$y=1$ ：接收者会转发消息， $y=0$ ：不会转发

数据架构

1. 消息数据 Data(M)

包含111,401条X（Twitter）消息的文本内容，提取78个消息相关特征：

话题特征（39个）：使用Twitter-roBERTa和LDA模型识别消息话题
语言特征（10个）：语法正确性、极性、主观性等
可读性特征（11个）：Flesch阅读难度、SMOG指数等
情感特征（5个）：正面、负面、中性情感分数
情绪特征（8个）：愤怒、喜悦、恐惧等情绪概率
仇恨言论特征（4个）：攻击性、仇恨性度量
标签特征（1个）：特定hashtag的存在

2. 用户数据 Data(U)

包含三类用户相关数据：

用户档案数据 Data(U-P)：

用户档案和关注列表
提取30个特征：关注者数量、影响力度量、网络关系等

用户历史行为数据 Data(U-HA)：

最近50条历史消息的元数据
提取38个特征：转发率、互动模式、用户间交互等

用户历史消息数据 Data(U-HM)：

最近50条历史消息的文本内容
提取157个特征：历史消息的聚合特征、话题相似性等

模型架构

1. 决策树（DT）模型

使用XGBoost决策树，通过特征重要性分析发现用户特征的关键作用。主要超参数：

最大深度：8
学习率：0.3
估计器数量：100

2. 神经网络（NN）模型

基于SUA-ACNN模型扩展，增加MLP组件处理用户数据：

NN-M：仅使用消息数据
NN-U：仅使用用户数据
NN-ALL：使用所有数据类型

3. BERT模型

使用BERT-base处理消息文本，生成语义嵌入进行预测。

技术创新点

分布外评估设计：针对每个hashtag，使用其他13个hashtag的数据进行训练，在该hashtag上测试
负样本生成策略：为每个正样本选择最相似的负样本，确保评估的相关性
多层次特征体系：系统性地从消息、用户档案、历史行为等多个维度提取特征

实验设置

数据集

数据来源：X平台（前Twitter）学术API
时间范围：2022年7月27日至8月14日
数据规模：
- 111,401条消息
- 44,014个转发事件（正样本）
- 79,707个唯一用户
- 380万条历史消息
话题覆盖：14个热门hashtag

数据集构建

创建三个不同正负样本比例的数据集：

1:1数据集：每个正样本配一个最相似的负样本
1:5数据集：每个正样本配5个最相似的负样本
1:10数据集：每个正样本配5个相似+5个随机负样本

评价指标

主要使用F1分数： $F1 = \frac{TP}{TP + \frac{1}{2}(FP + FN)}$

对于多个hashtag的结果，计算总体均值和标准差。

实验设计

进行三类实验：

实验I：混合hashtag的同分布预测
实验II：单个hashtag的同分布预测
实验III：分布外预测

实验结果

主要结果

同分布预测（实验I）

在1:5数据集上的F1分数：

模型	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
F1分数	0.884±0.002	0.852±0.005	0.758±0.002	0.844±0.009	0.835±0.004	0.740±0.003	0.740±0.010

分布外预测（实验III）

总体F1分数（μ̄±σ̄）：

模型	DT-ALL	DT-U	DT-M	NN-ALL	NN-U	NN-M	BERT
F1分数	0.697±0.076	0.705±0.084	0.117±0.131	0.623±0.109	0.702±0.071	0.108±0.055	0.091±0.101

关键发现

用户特征的关键作用：
- 仅使用消息特征的模型在分布外预测中性能急剧下降
- 仅使用用户特征的模型在分布外预测中表现与使用全部特征的模型相当
特征重要性分析：
- 前20个最重要特征中，用户相关特征占17个
- 最重要的特征是"接收者是否关注发送者"（U-P_R_FollowS）
性能提升显著：
- 分布外预测F1分数从0.117提升至0.705（提升502%）
- 证明了用户特征对新话题预测的重要性

消融实验

通过不同特征组合的对比实验，发现：

U-P和U-HA特征：对分布外预测贡献最大
U-HM特征：表现类似消息特征，分布外性能有限
消息特征：在分布外设置下几乎失效

相关工作

信息扩散研究

现有研究主要分为几类：

消息流行度预测：预测消息的传播规模
扩散树预测：预测传播路径和时间
转发预测：预测特定用户的转发行为

现有方法的局限

特征依赖：过度依赖消息文本特征
评估局限：缺乏分布外评估
数据利用不足：忽视了用户档案和行为数据的价值

本文的优势

首次系统性地进行分布外评估
全面考虑用户相关特征
提供了更现实的评估场景

结论与讨论

主要结论

内容无关性：转发行为很大程度上与具体内容无关，主要由用户特征决定
用户特征的泛化能力：用户档案和历史行为具有跨话题的泛化能力
评估范式的重要性：分布外评估对于实际应用更具意义

局限性

平台局限：研究仅基于X平台数据
时间窗口：仅考虑24小时内的转发行为
特征工程：部分特征提取依赖特定工具和模型
文化背景：未考虑不同文化背景下的行为差异

未来方向

跨平台研究：扩展到其他社交媒体平台
动态建模：考虑用户行为的时间演化
因果推断：深入理解用户特征与转发行为的因果关系
实时应用：开发实时预测系统

深度评价

优点

问题设定创新：
- 首次明确提出分布外转发预测问题
- 更贴近实际应用场景
实验设计严谨：
- 多种模型对比验证
- 详细的消融实验
- 统计显著性分析
特征工程全面：
- 303个特征的系统性构建
- 多维度特征重要性分析
理论贡献深刻：
- "It is who we are, not what we see"的重要洞察
- 为理解社交媒体行为提供新视角

不足

数据代表性：
- 仅使用14个hashtag，可能不够全面
- 时间跨度较短，缺乏长期观察
特征解释性：
- 部分用户特征的心理学机制不够明确
- 缺乏对特征交互作用的深入分析
实用性考虑：
- 获取完整用户历史数据在实际应用中可能困难
- 隐私保护方面的考虑不足
模型复杂度：
- 303个特征可能存在冗余
- 缺乏特征选择和降维分析

影响力

学术贡献：
- 为信息传播研究提供新的评估范式
- 挑战了现有方法的假设
实用价值：
- 对社交媒体平台的推荐算法有指导意义
- 为营销和舆情监控提供新思路
可复现性：
- 详细的实验设置和参数描述
- 开放的特征工程方法

适用场景

社交媒体平台：内容推荐和用户行为预测
数字营销：目标用户识别和内容策略
舆情监控：热点话题传播预测
学术研究：社交网络分析和行为建模

参考文献

论文引用了48篇相关文献，涵盖：

信息扩散理论研究
机器学习方法应用
社交媒体行为分析
自然语言处理技术

关键参考文献包括经典的转发预测工作、神经网络模型（如BERT、SUA-ACNN）以及社交网络分析的基础研究。

总体评价：这是一篇高质量的研究论文，在问题设定、方法创新和实验验证方面都有显著贡献。特别是分布外预测的提出和用户特征重要性的发现，为社交媒体信息传播研究开辟了新方向。尽管存在一些局限性，但其理论价值和实用意义都很突出，预计会对相关领域产生重要影响。