2025-11-12T03:37:09.269038

Detecting Conspiracy Theory Against COVID-19 Vaccines

Amin, Madanu, Lavu et al.
Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
academic

COVID-19ワクチンに対する陰謀論の検出

基本情報

  • 論文ID: 2211.13003
  • タイトル: Detecting Conspiracy Theory Against COVID-19 Vaccines
  • 著者: Md Hasibul Amin、Harika Madanu、Sahithi Lavu、Hadi Mansourifar、Dana Alsagheer、Weidong Shi(ヒューストン大学)
  • 分類: cs.CY(コンピュータと社会)、cs.AI、cs.CL、cs.LG、cs.SI
  • 発表日: 2022年11月20日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2211.13003

概要

ワクチン試験の開始以来、ソーシャルメディアは反ワクチン言論と陰謀論の信念で溢れている。COVID-19感染者数の増加に伴い、オンラインプラットフォームと一部のニュースポータルサイトは様々な陰謀論を拡散している。最も流行している陰謀論には、5Gネットワークによる COVID-19の伝播、中国政府による生物兵器としてのウイルス拡散などが含まれており、これらは当初、人種差別を引き起こした。特定の不信感は社会への影響が限定的だが、他のものは甚大な被害をもたらしている。例えば、5G陰謀論は5G基地局の焼却につながり、中国の生物兵器説への信念はアジア系アメリカ人への攻撃を助長した。もう一つの流行している陰謀論は、ビル・ゲイツが大規模ワクチン接種プログラムを通じて全員を追跡し、COVID-19を拡散させているというものである。この陰謀論の信念は一般市民の間に不信感を生じさせ、ワクチン躊躇につながっている。本研究は、ソーシャルプラットフォーム上のワクチンに対する陰謀論を発見することを目的としている。研究者は、COVID-19ワクチンに関連する598件の独自のサンプルコメントに対して感情分析を実施し、BERT と Perspective API の2つの異なるモデルを使用して、文のCOVID-19ワクチンに対する感情と毒性を識別した。

研究背景と動機

問題定義

本研究が解決しようとしている中核的な問題は、ソーシャルメディア上のCOVID-19ワクチンに対する陰謀論言論を自動的に検出・識別する方法である。具体的には以下を含む:

  1. 反ワクチン感情と陰謀論的観点の識別
  2. コメントの毒性と攻撃性の程度の評価
  3. ワクチンに対する公衆の態度分布の理解

問題の重要性

この問題は重要な社会的意義を持つ:

  1. 公衆衛生上の脅威:WHO データによると、2022年9月までに世界中で6億1300万人がCOVID-19に感染し、650万人以上が死亡している
  2. 社会的破壊性:陰謀論は実際の暴力事件につながり、5G基地局の焼却やアジア系アメリカ人への攻撃などが発生している
  3. ワクチン躊躇:虚偽情報は公衆のワクチンに対する不信感を生じさせ、大規模ワクチン接種計画を阻害している
  4. 情報伝播速度:研究によると、偽ニュースは真実のニュースより100万倍速く伝播する

既存手法の限界

  1. 検出の複雑性:ソーシャルメディアユーザーは絵文字、独特の用語、記号を使用して意見を表現し、テキスト分類の複雑性を増加させている
  2. 言語構造の多様性:異なる言語の文構造と感情表現方法は大きく異なる
  3. ラベリングの困難性:どのコメントが有効で、どのコメントが虚偽であるかを区別することが難しい場合がある

核心的貢献

  1. COVID-19ワクチン陰謀論検出データセットの構築:北米地域のソーシャルメディアから収集・ラベル付けした598件の英語コメント
  2. 二重モデル検出フレームワークの提案:BERT モデルと Google Perspective API を組み合わせた感情分析と毒性検出
  3. 包括的な比較実験の実施:3つの異なる分類器(ロジスティック回帰、XGBoost、ガウス朴素ベイズ)を使用したモデル性能の評価
  4. 陰謀論検出のベンチマーク結果の提供:後続研究の参考となるベースライン性能

方法の詳細

タスク定義

  • 入力:ソーシャルメディア上のCOVID-19ワクチンに関するテキストコメント
  • 出力:二値分類ラベル(0:中立またはワクチン支持、1:ワクチン反対/陰謀論)
  • 追加出力:毒性スコア、攻撃性スコアなどの多次元評価指標

データ収集と前処理

  1. データ収集
    • 初期段階で950件のユーザーコメントを収集
    • ソース:様々なオンラインニュースポータルサイトとそのFacebookページ
    • 手動収集方式を採用
  2. データクリーニング
    • 重複および近似重複コメントの削除
    • 非英語コメントのフィルタリング
    • 最終的に598件のサンプルコメントを保持
  3. データラベリング
    • すべてのコメントを手動で読み込み、ラベル付け
    • 二値分類ラベル:0(中立/支持)および1(反対/陰謀論)
    • ラベル分布のバランスを確保
  4. 前処理ステップ
    • ノイズと停止語の削除
    • 小文字への変換
    • 一般的な略語の修正(例:vac→vaccine、CVD→Covid)

モデルアーキテクチャ

BERT モデル

  • モデル選択:BERT-Base、Uncased
  • アーキテクチャパラメータ
    • 12層のトランスフォーマー
    • 768個の隠れユニット
    • 12個の注意ヘッド
    • 1億1000万パラメータ
  • 特徴
    • 双方向エンコーダ表現
    • WordPiece埋め込みを使用、語彙サイズ30,000
    • 文レベルベクトルトレーニング、コンテキストからより多くの情報を抽出

Google Perspective API

  • 機能:機械学習技術を使用した不適切なコメントの識別
  • 検出次元
    • 毒性(Toxicity)
    • 重大性(Severe)
    • 身元攻撃(Identity Attack)
    • 侮辱(Insult)
    • 冒涜(Profanity)
    • 脅迫(Threat)
    • 性的露骨性(Sexually Explicit)
    • 浮気(Flirtation)
  • 出力:各次元の0~1スコア

分類器の設定

比較検証のために3つの異なる分類器を使用:

  1. ロジスティック回帰(LR)
  2. XGBoost
  3. ガウス朴素ベイズ(NB)

実験設定

データセットの特徴

  • 総サンプル数:598件のコメント
  • ラベル分布:均衡分布(約50%支持、50%反対)
  • 地理的範囲:主に北米地域
  • 言語:英語コメントのみ
  • プライバシー保護:個人情報(名前、位置、性別など)を含まない

評価指標

  • 正確度(Accuracy)
  • F1スコア(F1-Score)
  • 適合率(Precision)
  • 再現率(Recall)

検証方法

  • 10分割交差検証:結果の信頼性と汎化能力を確保
  • 訓練-検証セット分割:モデル性能の評価

実験結果

主要結果の比較

BERT モデルの性能

分類器正確度F1スコア適合率再現率
ロジスティック回帰69%68%67%68%
XGBoost66%66%67%65%
朴素ベイズ51%51%52%51%

Perspective API の性能

分類器正確度F1スコア適合率再現率
ロジスティック回帰55%53%55%55%
XGBoost65%63%65%65%
朴素ベイズ75%70%75%75%

主要な発見

  1. 最高性能:Google Perspective API + ガウス朴素ベイズが75%の正確度を達成
  2. BERT の性能:BERT + ロジスティック回帰の組み合わせが69%の正確度を達成
  3. データ量の影響:データ量を400から598に増加させた後、両モデルの性能が8~9%向上
  4. 毒性検出能力:Perspective API はコメントの不適切さと毒性レベルを効果的に識別できる

Perspective API 毒性スコアの例

論文は具体的な毒性スコアの事例を提供し、異なるタイプのコメントの多次元スコアを示し、モデルの動作を理解するための直感的な洞察を提供している。

関連研究

陰謀論研究の現状

  1. 流行度:北米の人口の約1/4~1/3が陰謀論関連の観点を表現している
  2. COVID-19関連:2020年のアメリカ調査では、約5%の人がCOVID-19は事前に計画されたものだと考え、20%がそうである可能性があると考えている
  3. 伝播メカニズム:ソーシャルメディアは従来のコミュニケーション方法よりも人々の観点に影響を与えやすい

技術的手法

  1. テキストマイニング:陰謀論検出の流行している方法
  2. 深層学習:意味的コンテンツ識別において良好な性能を発揮
  3. 感情分析ツール:感情と毒性検出における BERT と Perspective API の応用

社会的影響研究

  1. 政治的要因:政治的議題はワクチン躊躇において重要な役割を果たす
  2. メディア影響:主流テレビニュースと政治的議題は陰謀論の信念に大きな影響を与える
  3. 心理的メカニズム:陰謀論伝播の心理学的基礎研究

結論と考察

主要な結論

  1. 検出の実現可能性:機械学習手法を使用してCOVID-19ワクチン関連の陰謀論を効果的に検出できる
  2. モデル選択の重要性:異なるモデルと分類器の組み合わせの性能差は顕著である
  3. データ品質の影響:データ量の増加はモデル性能を大幅に向上させることができる
  4. 社会的態度の洞察:ワクチン支持のコメント数はワクチン反対のコメント数より少ない

限界

  1. 地理的限界:サンプルデータは主に北米地域からのものであり、他の地域の人々の考えを正確に反映することはできない
  2. データ規模:手動収集されたサンプルデータは十分に大きくなく、世界規模の陰謀論を代表することはできない
  3. ユーザー情報の欠落:ユーザー情報が収集されていないため、年齢などの人口統計学的分析を実施できない
  4. ラベリングの主観性:コメントの真実性を判断することが難しい場合がある

今後の方向性

  1. データ規模の拡大:より大規模で多様なデータセットの収集
  2. 多言語対応:他の言語と文化背景への拡張
  3. ユーザープロファイル分析:ユーザーの人口統計学情報を組み合わせた、より深い分析
  4. リアルタイム監視システム:陰謀論の検出と警告のためのリアルタイムシステムの開発

深い評価

利点

  1. 問題の重要性:COVID-19ワクチン陰謀論という重要な社会問題に対応
  2. 方法の比較が充分:2つの異なる技術ルートを使用した比較検証
  3. 実験設計が合理的:10分割交差検証と複数の評価指標を採用
  4. 結果の透明性:具体的な性能数値とケース分析を提供
  5. 社会的価値:研究結果は公衆衛生政策立案の参考になる

不足点

  1. データセット規模の制限:598個のサンプルは比較的小さく、モデルの汎化能力に影響を与える可能性がある
  2. 地理的・文化的偏り:北米地域の英語コメントのみに限定され、グローバルな代表性が不足している
  3. ラベリング品質:手動ラベリングは主観性を持つ可能性があり、ラベラー間の一致性評価が不足している
  4. 技術的革新の限定:主に既存モデルの応用であり、方法論的な革新が不足している
  5. 深い分析の不足:陰謀論のタイプ、伝播メカニズムなどについてのより深い分析が不足している

影響力

  1. 学術的貢献:COVID-19関連の計算社会科学研究に基礎データと方法を提供
  2. 実用的価値:ソーシャルメディアプラットフォームのコンテンツモデレーションに技術サポートを提供できる
  3. 政策参考:公衆衛生部門が反陰謀論戦略を立案するためのデータサポートを提供
  4. 再現性:著者は GitHub でデータとコードを提供することを約束し、研究の再現性を強化している

適用シナリオ

  1. ソーシャルメディア監視:ワクチン関連の陰謀論コンテンツをリアルタイムで検出・標識
  2. 公衆衛生コミュニケーション:ワクチン推進活動の効果と公衆反応を評価
  3. 政策立案支援:政府部門に公衆態度の定量分析を提供
  4. 研究基礎:後続の陰謀論検出・分析研究のためのベンチマークデータセットを提供

参考文献

論文は46件の関連文献を引用しており、陰謀論心理学、ソーシャルメディア分析、自然言語処理、公衆衛生など複数の分野をカバーしており、研究の学際的特性と理論的基礎の堅牢性を反映している。


総合評価:これは重要な社会問題に対応した応用研究であり、技術的革新の面では相対的に限定的であるが、重要な社会的価値と実用的意義を持つ。研究方法は合理的で、実験設計は比較的完全であり、結果は一定の参考価値を持つ。今後、データ規模、地域カバレッジ、技術的革新の面でさらなる改善が必要である。