Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
academic- 论文ID: 2211.13003
- 标题: Detecting Conspiracy Theory Against COVID-19 Vaccines
- 作者: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (University of Houston)
- 分类: cs.CY (Computers and Society), cs.AI, cs.CL, cs.LG, cs.SI
- 发表时间: 2022年11月20日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2211.13003
自疫苗试验开始以来,社交媒体充斥着反疫苗言论和阴谋论信念。随着COVID-19病例数量的增加,在线平台和一些新闻门户网站传播各种阴谋论。最流行的阴谋论包括5G网络传播COVID-19、中国政府将病毒作为生物武器传播等,这些最初引发了种族仇恨。虽然某些不信任对社会影响较小,但其他一些造成了巨大破坏。例如,5G阴谋论导致了5G基站被烧毁,对中国生物武器故事的信念促进了对亚裔美国人的攻击。另一个流行的阴谋论是比尔·盖茨通过启动大规模疫苗接种计划来追踪每个人从而传播COVID-19。这种阴谋论信念在普通民众中造成了不信任问题并导致疫苗犹豫。本研究旨在发现社交平台上针对疫苗的阴谋论。研究者对598条与COVID-19疫苗相关的独特样本评论进行了情感分析,使用BERT和Perspective API两种不同模型来识别句子对COVID-19疫苗的情感和毒性。
本研究要解决的核心问题是如何自动检测和识别社交媒体上针对COVID-19疫苗的阴谋论言论。具体包括:
- 识别反疫苗情绪和阴谋论观点
- 评估评论的毒性和攻击性程度
- 理解公众对疫苗的态度分布
该问题具有重要的社会意义:
- 公共健康威胁:根据WHO数据,截至2022年9月,全球已有6.13亿人感染COVID-19,超过650万人死亡
- 社会破坏性:阴谋论导致实际暴力事件,如5G基站被烧毁、亚裔美国人遭受攻击
- 疫苗犹豫:虚假信息造成公众对疫苗的不信任,阻碍大规模疫苗接种计划
- 信息传播速度:研究显示假新闻的传播速度比真实新闻快100万倍
- 检测复杂性:社交媒体用户使用表情符号、独特术语和符号表达观点,增加了文本分类的复杂性
- 语言结构多样性:不同语言的句子结构和情感表达方式差异很大
- 标注困难:某些情况下很难区分哪些评论是有效的,哪些是虚假的
- 构建了COVID-19疫苗阴谋论检测数据集:收集并标注了598条来自北美地区社交媒体的英文评论
- 提出了双模型检测框架:结合BERT模型和Google Perspective API进行情感分析和毒性检测
- 进行了全面的对比实验:使用三种不同分类器(逻辑回归、XGBoost、高斯朴素贝叶斯)评估模型性能
- 提供了阴谋论检测的基准结果:为后续研究提供了可参考的基线性能
- 输入:社交媒体上关于COVID-19疫苗的文本评论
- 输出:二分类标签(0:中性或支持疫苗,1:反对疫苗/阴谋论)
- 附加输出:毒性评分、攻击性评分等多维度评估指标
- 数据收集:
- 初始收集950条用户评论
- 来源:各种在线新闻门户网站及其Facebook页面
- 采用人工收集方式
- 数据清洗:
- 移除重复和近似重复的评论
- 过滤非英文评论
- 最终保留598条样本评论
- 数据标注:
- 人工阅读并标注所有评论
- 二分类标签:0(中性/支持)和1(反对/阴谋论)
- 确保标签分布均衡
- 预处理步骤:
- 移除噪声和停用词
- 转换为小写
- 修正常见缩写(如vac→vaccine, CVD→Covid)
- 模型选择:BERT-Base, Uncased
- 架构参数:
- 12层transformer
- 768个隐藏单元
- 12个注意力头
- 1.1亿参数
- 特点:
- 双向编码器表示
- 使用WordPiece嵌入,词汇量30,000
- 句子级向量训练,从上下文中提取更多信息
- 功能:使用机器学习技术识别滥用评论
- 检测维度:
- 毒性(Toxicity)
- 严重性(Severe)
- 身份攻击(Identity Attack)
- 侮辱(Insult)
- 亵渎(Profanity)
- 威胁(Threat)
- 性暗示(Sexually Explicit)
- 调情(Flirtation)
- 输出:每个维度的0-1评分
使用三种不同的分类器进行对比:
- 逻辑回归(LR)
- XGBoost
- 高斯朴素贝叶斯(NB)
- 总样本数:598条评论
- 标签分布:均衡分布(约50%支持,50%反对)
- 地理范围:主要来自北美地区
- 语言:仅英文评论
- 隐私保护:不包含个人信息(姓名、位置、性别等)
- 准确率(Accuracy)
- F1分数(F1-Score)
- 精确率(Precision)
- 召回率(Recall)
- 10折交叉验证:确保结果的可靠性和泛化能力
- 训练-验证集划分:评估模型性能
| 分类器 | 准确率 | F1分数 | 精确率 | 召回率 |
|---|
| 逻辑回归 | 69% | 68% | 67% | 68% |
| XGBoost | 66% | 66% | 67% | 65% |
| 朴素贝叶斯 | 51% | 51% | 52% | 51% |
| 分类器 | 准确率 | F1分数 | 精确率 | 召回率 |
|---|
| 逻辑回归 | 55% | 53% | 55% | 55% |
| XGBoost | 65% | 63% | 65% | 65% |
| 朴素贝叶斯 | 75% | 70% | 75% | 75% |
- 最佳性能:Google Perspective API + 高斯朴素贝叶斯达到75%的准确率
- BERT表现:BERT + 逻辑回归组合达到69%的准确率
- 数据量影响:将数据量从400增加到598后,两个模型的性能都提升了8-9%
- 毒性检测能力:Perspective API能够有效识别评论的滥用程度和毒性水平
论文提供了具体的毒性评分案例,显示了不同类型评论的多维度评分情况,为理解模型行为提供了直观的洞察。
- 流行程度:北美约1/4到1/3的人口表达与阴谋论相关的观点
- COVID-19相关:2020年美国调查显示约5%的人认为COVID-19是预先计划的,20%认为可能是真的
- 传播机制:社交媒体比传统交流方式更容易影响人们的观点
- 文本挖掘:是检测阴谋论的流行方法
- 深度学习:在语义内容识别方面表现良好
- 情感分析工具:BERT和Perspective API在情感、毒性检测方面的应用
- 政治因素:政治议程在疫苗犹豫中发挥重要作用
- 媒体影响:主流电视新闻和政治议程对阴谋论信念有重大影响
- 心理机制:阴谋论传播的心理学基础研究
- 检测可行性:使用机器学习方法可以有效检测COVID-19疫苗相关的阴谋论
- 模型选择重要性:不同模型和分类器组合的性能差异显著
- 数据质量影响:增加数据量能够显著提升模型性能
- 社会态度洞察:支持疫苗的评论数量低于反对疫苗的评论
- 地理局限性:样本数据主要来自北美地区,不能准确反映其他地区人群的想法
- 数据规模:手动收集的样本数据不够大,无法代表全球范围的阴谋论
- 用户信息缺失:未收集用户信息,无法进行年龄等人口统计学分析
- 标注主观性:某些情况下很难判断评论的真实性
- 扩大数据规模:收集更大规模、更多样化的数据集
- 多语言支持:扩展到其他语言和文化背景
- 用户画像分析:结合用户人口统计学信息进行更深入的分析
- 实时监测系统:开发实时的阴谋论检测和预警系统
- 问题重要性:针对COVID-19疫苗阴谋论这一重要社会问题
- 方法对比充分:使用两种不同的技术路线进行对比验证
- 实验设计合理:采用10折交叉验证,使用多个评价指标
- 结果透明:提供了具体的性能数值和案例分析
- 社会价值:研究结果对公共卫生政策制定有参考意义
- 数据集规模限制:598个样本相对较小,可能影响模型的泛化能力
- 地理和文化偏差:仅限于北美地区的英文评论,缺乏全球代表性
- 标注质量:人工标注可能存在主观性,缺乏标注者间一致性评估
- 技术创新有限:主要是现有模型的应用,缺乏方法论上的创新
- 深度分析不足:对阴谋论的类型、传播机制等缺乏更深入的分析
- 学术贡献:为COVID-19相关的计算社会科学研究提供了基础数据和方法
- 实用价值:可为社交媒体平台的内容审核提供技术支持
- 政策参考:为公共卫生部门制定反阴谋论策略提供数据支撑
- 可复现性:作者承诺在GitHub上提供数据和代码,增强了研究的可复现性
- 社交媒体监控:实时检测和标记疫苗相关的阴谋论内容
- 公共卫生传播:评估疫苗推广活动的效果和公众反应
- 政策制定支持:为政府部门提供公众态度的量化分析
- 研究基础:为后续的阴谋论检测和分析研究提供基准数据集
论文引用了46篇相关文献,涵盖了阴谋论心理学、社交媒体分析、自然语言处理、公共卫生等多个领域,体现了研究的跨学科特点和理论基础的扎实性。
总体评价:这是一项针对重要社会问题的应用性研究,虽然在技术创新方面相对有限,但具有重要的社会价值和实用意义。研究方法合理,实验设计相对完善,结果具有一定的参考价值。未来需要在数据规模、地域覆盖和技术创新方面进一步改进。