There has been considerable interest in modelling the spread of information on social networks using machine learning models. Here, we consider the problem of predicting the spread of new information, i.e. when a user propagates information about a topic previously unseen by the user. In existing work, information and users are randomly assigned to a test or training set, ensuring that both sets are drawn from the same distribution. In the spread of new information, the problem becomes an out-of-distribution generalisation classification task. Our experimental results reveal that while existing algorithms, which predominantly use features derived from the content of messages, perform well when the training and test distributions are the same, these algorithms perform much worse when the test set is out-of-distribution, i.e. when the topic (hashtag) of the testing data is absent from the training data. We then show that if the message features are supplemented or replaced with features derived from users' profile and past behaviour, the out-of-distribution prediction is greatly improved, with the F1 score increasing from 0.117 to 0.705. Our experimental results suggest that a significant component of reposting behaviour for previously unseen topics can be predicted from users' profile and past behaviour, and is largely content-agnostic.
- 论文ID: 2505.15370
- 标题: Modelling the Spread of New Information on Social Networks
- 作者: Ziming Xu, Shi Zhou, Vasileios Lampos, Ingemar J. Cox
- 分类: cs.SI (Social and Information Networks)
- 发表时间: 2025年10月14日 (arXiv v3)
- 论文链接: https://arxiv.org/abs/2505.15370v3
本文研究社交网络中新信息传播的预测问题,即预测用户是否会转发关于之前未见过话题的信息。现有研究通常将信息和用户随机分配到训练和测试集,确保两个集合来自相同分布。而新信息传播问题实质上是一个分布外泛化分类任务。实验结果显示,当训练和测试分布相同时,主要使用消息内容特征的现有算法表现良好,但在测试集分布外(即测试数据的话题在训练数据中不存在)时表现显著下降。研究发现,用用户档案和历史行为特征补充或替代消息特征后,分布外预测性能大幅提升,F1分数从0.117提升至0.705。结果表明,对于未见过话题的转发行为,很大程度上可以通过用户档案和历史行为预测,且基本与内容无关。
本文要解决的核心问题是新信息传播预测,即预测用户是否会转发关于之前未见过话题的信息。这是一个典型的分布外泛化问题,因为测试数据涉及的话题在训练数据中完全不存在。
- 跨学科重要性:信息传播预测对计算机科学、社会科学、政治学和市场营销等多个领域都具有重要意义
- 实际应用价值:在营销活动、政治宣传、虚假信息和谣言传播等场景中具有重要应用价值
- 理论意义:有助于理解社交媒体上信息扩散的内在机制
- 过度依赖消息内容:现有算法主要使用从消息文本内容提取的特征
- 缺乏分布外评估:现有研究通常采用随机划分数据集的方式,确保训练和测试数据来自相同分布
- 忽视用户相关数据:用户档案、关注列表和历史行为等重要信息被低估
社交媒体平台上经常出现新话题(如突发新闻),因此除了传统的同分布分类外,还需要分布外预测能力,这在实际应用中更具挑战性和价值。
- 提出了新的评估范式:首次明确区分同分布预测和分布外预测,为转发预测研究提供了更全面的评估框架
- 构建了综合特征体系:识别并构建了303个特征,包括78个消息相关特征和225个用户相关特征
- 揭示了用户特征的重要性:实验证明用户相关特征对分布外预测至关重要,F1分数从0.117提升至0.705
- 提供了重要理论洞察:发现转发行为很大程度上与内容无关,主要由用户特征决定("It is who we are, not what we see")
转发预测被定义为预测接收者是否会转发从发送者接收到的消息:
f:{M,US,UR}→y∈{0,1}
其中:
- M:消息
- US:发送者
- UR:接收者
- y=1:接收者会转发消息,y=0:不会转发
包含111,401条X(Twitter)消息的文本内容,提取78个消息相关特征:
- 话题特征(39个):使用Twitter-roBERTa和LDA模型识别消息话题
- 语言特征(10个):语法正确性、极性、主观性等
- 可读性特征(11个):Flesch阅读难度、SMOG指数等
- 情感特征(5个):正面、负面、中性情感分数
- 情绪特征(8个):愤怒、喜悦、恐惧等情绪概率
- 仇恨言论特征(4个):攻击性、仇恨性度量
- 标签特征(1个):特定hashtag的存在
包含三类用户相关数据:
用户档案数据 Data(U-P):
- 用户档案和关注列表
- 提取30个特征:关注者数量、影响力度量、网络关系等
用户历史行为数据 Data(U-HA):
- 最近50条历史消息的元数据
- 提取38个特征:转发率、互动模式、用户间交互等
用户历史消息数据 Data(U-HM):
- 最近50条历史消息的文本内容
- 提取157个特征:历史消息的聚合特征、话题相似性等
使用XGBoost决策树,通过特征重要性分析发现用户特征的关键作用。主要超参数:
基于SUA-ACNN模型扩展,增加MLP组件处理用户数据:
- NN-M:仅使用消息数据
- NN-U:仅使用用户数据
- NN-ALL:使用所有数据类型
使用BERT-base处理消息文本,生成语义嵌入进行预测。
- 分布外评估设计:针对每个hashtag,使用其他13个hashtag的数据进行训练,在该hashtag上测试
- 负样本生成策略:为每个正样本选择最相似的负样本,确保评估的相关性
- 多层次特征体系:系统性地从消息、用户档案、历史行为等多个维度提取特征
- 数据来源:X平台(前Twitter)学术API
- 时间范围:2022年7月27日至8月14日
- 数据规模:
- 111,401条消息
- 44,014个转发事件(正样本)
- 79,707个唯一用户
- 380万条历史消息
- 话题覆盖:14个热门hashtag
创建三个不同正负样本比例的数据集:
- 1:1数据集:每个正样本配一个最相似的负样本
- 1:5数据集:每个正样本配5个最相似的负样本
- 1:10数据集:每个正样本配5个相似+5个随机负样本
主要使用F1分数:
F1=TP+21(FP+FN)TP
对于多个hashtag的结果,计算总体均值和标准差。
进行三类实验:
- 实验I:混合hashtag的同分布预测
- 实验II:单个hashtag的同分布预测
- 实验III:分布外预测
在1:5数据集上的F1分数:
| 模型 | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1分数 | 0.884±0.002 | 0.852±0.005 | 0.758±0.002 | 0.844±0.009 | 0.835±0.004 | 0.740±0.003 | 0.740±0.010 |
总体F1分数(μ̄±σ̄):
| 模型 | DT-ALL | DT-U | DT-M | NN-ALL | NN-U | NN-M | BERT |
|---|
| F1分数 | 0.697±0.076 | 0.705±0.084 | 0.117±0.131 | 0.623±0.109 | 0.702±0.071 | 0.108±0.055 | 0.091±0.101 |
- 用户特征的关键作用:
- 仅使用消息特征的模型在分布外预测中性能急剧下降
- 仅使用用户特征的模型在分布外预测中表现与使用全部特征的模型相当
- 特征重要性分析:
- 前20个最重要特征中,用户相关特征占17个
- 最重要的特征是"接收者是否关注发送者"(U-P_R_FollowS)
- 性能提升显著:
- 分布外预测F1分数从0.117提升至0.705(提升502%)
- 证明了用户特征对新话题预测的重要性
通过不同特征组合的对比实验,发现:
- U-P和U-HA特征:对分布外预测贡献最大
- U-HM特征:表现类似消息特征,分布外性能有限
- 消息特征:在分布外设置下几乎失效
现有研究主要分为几类:
- 消息流行度预测:预测消息的传播规模
- 扩散树预测:预测传播路径和时间
- 转发预测:预测特定用户的转发行为
- 特征依赖:过度依赖消息文本特征
- 评估局限:缺乏分布外评估
- 数据利用不足:忽视了用户档案和行为数据的价值
- 首次系统性地进行分布外评估
- 全面考虑用户相关特征
- 提供了更现实的评估场景
- 内容无关性:转发行为很大程度上与具体内容无关,主要由用户特征决定
- 用户特征的泛化能力:用户档案和历史行为具有跨话题的泛化能力
- 评估范式的重要性:分布外评估对于实际应用更具意义
- 平台局限:研究仅基于X平台数据
- 时间窗口:仅考虑24小时内的转发行为
- 特征工程:部分特征提取依赖特定工具和模型
- 文化背景:未考虑不同文化背景下的行为差异
- 跨平台研究:扩展到其他社交媒体平台
- 动态建模:考虑用户行为的时间演化
- 因果推断:深入理解用户特征与转发行为的因果关系
- 实时应用:开发实时预测系统
- 问题设定创新:
- 实验设计严谨:
- 特征工程全面:
- 理论贡献深刻:
- "It is who we are, not what we see"的重要洞察
- 为理解社交媒体行为提供新视角
- 数据代表性:
- 仅使用14个hashtag,可能不够全面
- 时间跨度较短,缺乏长期观察
- 特征解释性:
- 部分用户特征的心理学机制不够明确
- 缺乏对特征交互作用的深入分析
- 实用性考虑:
- 获取完整用户历史数据在实际应用中可能困难
- 隐私保护方面的考虑不足
- 模型复杂度:
- 学术贡献:
- 为信息传播研究提供新的评估范式
- 挑战了现有方法的假设
- 实用价值:
- 对社交媒体平台的推荐算法有指导意义
- 为营销和舆情监控提供新思路
- 可复现性:
- 社交媒体平台:内容推荐和用户行为预测
- 数字营销:目标用户识别和内容策略
- 舆情监控:热点话题传播预测
- 学术研究:社交网络分析和行为建模
论文引用了48篇相关文献,涵盖:
- 信息扩散理论研究
- 机器学习方法应用
- 社交媒体行为分析
- 自然语言处理技术
关键参考文献包括经典的转发预测工作、神经网络模型(如BERT、SUA-ACNN)以及社交网络分析的基础研究。
总体评价:这是一篇高质量的研究论文,在问题设定、方法创新和实验验证方面都有显著贡献。特别是分布外预测的提出和用户特征重要性的发现,为社交媒体信息传播研究开辟了新方向。尽管存在一些局限性,但其理论价值和实用意义都很突出,预计会对相关领域产生重要影响。