2025-11-12T03:37:09.269038

Detecting Conspiracy Theory Against COVID-19 Vaccines

Amin, Madanu, Lavu et al.
Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
academic

COVID-19 백신 음모론 탐지

기본 정보

  • 논문 ID: 2211.13003
  • 제목: Detecting Conspiracy Theory Against COVID-19 Vaccines
  • 저자: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (휴스턴 대학교)
  • 분류: cs.CY (컴퓨터와 사회), cs.AI, cs.CL, cs.LG, cs.SI
  • 발표 시간: 2022년 11월 20일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2211.13003

초록

백신 시험 시작 이후, 소셜 미디어는 반백신 언론과 음모론 신념으로 가득 차 있습니다. COVID-19 사례 수 증가에 따라 온라인 플랫폼과 일부 뉴스 포털에서 다양한 음모론이 확산되고 있습니다. 가장 널리 퍼진 음모론으로는 5G 네트워크가 COVID-19를 전파한다는 주장, 중국 정부가 바이러스를 생물무기로 퍼뜨렸다는 주장 등이 있으며, 이들은 초기에 인종 혐오를 야기했습니다. 일부 불신은 사회에 미치는 영향이 적지만, 다른 것들은 막대한 피해를 초래했습니다. 예를 들어, 5G 음모론은 5G 기지국 방화로 이어졌고, 중국 생물무기 이야기에 대한 신념은 아시아계 미국인에 대한 공격을 조장했습니다. 또 다른 널리 퍼진 음모론은 빌 게이츠가 대규모 백신 접종 프로그램을 시작하여 모든 사람을 추적함으로써 COVID-19를 전파한다는 것입니다. 이러한 음모론 신념은 일반 대중 사이에서 불신 문제를 야기했으며 백신 주저함으로 이어졌습니다. 본 연구는 소셜 플랫폼에서 백신을 겨냥한 음모론을 발견하는 것을 목표로 합니다. 연구자들은 COVID-19 백신과 관련된 598개의 고유한 샘플 댓글에 대해 감정 분석을 수행했으며, BERT와 Perspective API 두 가지 다른 모델을 사용하여 문장의 COVID-19 백신에 대한 감정과 독성을 식별했습니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 소셜 미디어에서 COVID-19 백신을 겨냥한 음모론 언론을 자동으로 탐지하고 식별하는 방법입니다. 구체적으로 다음을 포함합니다:

  1. 반백신 감정 및 음모론 관점 식별
  2. 댓글의 독성 및 공격성 정도 평가
  3. 백신에 대한 공중 태도 분포 이해

문제의 중요성

이 문제는 중요한 사회적 의미를 가집니다:

  1. 공중 보건 위협: WHO 데이터에 따르면 2022년 9월까지 전 세계적으로 6억 1,300만 명이 COVID-19에 감염되었고 650만 명 이상이 사망했습니다
  2. 사회적 파괴성: 음모론은 5G 기지국 방화, 아시아계 미국인 공격 등 실제 폭력 사건을 초래합니다
  3. 백신 주저함: 허위 정보는 백신에 대한 공중의 불신을 야기하여 대규모 백신 접종 프로그램을 방해합니다
  4. 정보 전파 속도: 연구에 따르면 가짜 뉴스는 실제 뉴스보다 100만 배 빠르게 전파됩니다

기존 방법의 한계

  1. 탐지 복잡성: 소셜 미디어 사용자는 이모지, 고유한 용어 및 기호를 사용하여 의견을 표현하므로 텍스트 분류의 복잡성이 증가합니다
  2. 언어 구조 다양성: 다양한 언어의 문장 구조와 감정 표현 방식이 크게 다릅니다
  3. 주석 어려움: 어떤 댓글이 유효한지, 어떤 댓글이 거짓인지 구분하기 어려운 경우가 있습니다

핵심 기여

  1. COVID-19 백신 음모론 탐지 데이터셋 구축: 북미 지역 소셜 미디어에서 수집하고 주석을 달은 598개의 영어 댓글
  2. 이중 모델 탐지 프레임워크 제안: BERT 모델과 Google Perspective API를 결합한 감정 분석 및 독성 탐지
  3. 포괄적인 비교 실험 수행: 세 가지 다른 분류기(로지스틱 회귀, XGBoost, 가우스 나이브 베이즈)를 사용하여 모델 성능 평가
  4. 음모론 탐지의 기준 결과 제공: 후속 연구를 위한 참고 가능한 기준 성능 제공

방법론 상세 설명

작업 정의

  • 입력: 소셜 미디어의 COVID-19 백신에 관한 텍스트 댓글
  • 출력: 이진 분류 레이블 (0: 중립 또는 백신 지지, 1: 백신 반대/음모론)
  • 추가 출력: 독성 점수, 공격성 점수 등 다차원 평가 지표

데이터 수집 및 전처리

  1. 데이터 수집:
    • 초기 950개 사용자 댓글 수집
    • 출처: 다양한 온라인 뉴스 포털 및 Facebook 페이지
    • 수동 수집 방식 채택
  2. 데이터 정제:
    • 중복 및 유사 중복 댓글 제거
    • 영어가 아닌 댓글 필터링
    • 최종 598개 샘플 댓글 보유
  3. 데이터 주석:
    • 모든 댓글을 수동으로 읽고 주석
    • 이진 분류 레이블: 0 (중립/지지) 및 1 (반대/음모론)
    • 레이블 분포 균형 보장
  4. 전처리 단계:
    • 노이즈 및 불용어 제거
    • 소문자로 변환
    • 일반적인 약어 수정 (예: vac→vaccine, CVD→Covid)

모델 아키텍처

BERT 모델

  • 모델 선택: BERT-Base, Uncased
  • 아키텍처 매개변수:
    • 12개 트랜스포머 계층
    • 768개 숨겨진 단위
    • 12개 주의 헤드
    • 1.1억 개 매개변수
  • 특징:
    • 양방향 인코더 표현
    • WordPiece 임베딩 사용, 어휘 크기 30,000
    • 문장 수준 벡터 훈련, 문맥에서 더 많은 정보 추출

Google Perspective API

  • 기능: 기계학습 기술을 사용하여 학대 댓글 식별
  • 탐지 차원:
    • 독성 (Toxicity)
    • 심각성 (Severe)
    • 신원 공격 (Identity Attack)
    • 모욕 (Insult)
    • 욕설 (Profanity)
    • 위협 (Threat)
    • 성적 노골성 (Sexually Explicit)
    • 작업 (Flirtation)
  • 출력: 각 차원의 0-1 점수

분류기 설정

비교를 위해 세 가지 다른 분류기 사용:

  1. 로지스틱 회귀 (LR)
  2. XGBoost
  3. 가우스 나이브 베이즈 (NB)

실험 설정

데이터셋 특성

  • 총 샘플 수: 598개 댓글
  • 레이블 분포: 균형 분포 (약 50% 지지, 50% 반대)
  • 지리적 범위: 주로 북미 지역
  • 언어: 영어 댓글만
  • 개인정보 보호: 개인 정보 미포함 (이름, 위치, 성별 등)

평가 지표

  • 정확도 (Accuracy)
  • F1 점수 (F1-Score)
  • 정밀도 (Precision)
  • 재현율 (Recall)

검증 방법

  • 10-폴드 교차 검증: 결과의 신뢰성 및 일반화 능력 보장
  • 훈련-검증 세트 분할: 모델 성능 평가

실험 결과

주요 결과 비교

BERT 모델 성능

분류기정확도F1 점수정밀도재현율
로지스틱 회귀69%68%67%68%
XGBoost66%66%67%65%
나이브 베이즈51%51%52%51%

Perspective API 성능

분류기정확도F1 점수정밀도재현율
로지스틱 회귀55%53%55%55%
XGBoost65%63%65%65%
나이브 베이즈75%70%75%75%

주요 발견

  1. 최고 성능: Google Perspective API + 가우스 나이브 베이즈 조합이 75%의 정확도 달성
  2. BERT 성능: BERT + 로지스틱 회귀 조합이 69%의 정확도 달성
  3. 데이터량 영향: 데이터량을 400에서 598로 증가시킨 후 두 모델의 성능이 8-9% 향상됨
  4. 독성 탐지 능력: Perspective API는 댓글의 학대 정도 및 독성 수준을 효과적으로 식별할 수 있음

Perspective API 독성 점수 예시

논문은 구체적인 독성 점수 사례를 제공하여 다양한 유형의 댓글에 대한 다차원 점수를 보여주며, 모델 동작을 이해하기 위한 직관적인 통찰력을 제공합니다.

관련 연구

음모론 연구 현황

  1. 유행 정도: 북미 인구의 약 1/4에서 1/3이 음모론 관련 관점을 표현합니다
  2. COVID-19 관련: 2020년 미국 조사에 따르면 약 5%가 COVID-19가 사전에 계획되었다고 생각하고, 20%는 사실일 가능성이 있다고 생각합니다
  3. 전파 메커니즘: 소셜 미디어는 전통적인 의사소통 방식보다 사람들의 관점에 더 쉽게 영향을 미칩니다

기술 방법

  1. 텍스트 마이닝: 음모론 탐지의 인기 있는 방법입니다
  2. 심층 학습: 의미 내용 식별에서 좋은 성능을 보입니다
  3. 감정 분석 도구: 감정 및 독성 탐지에서 BERT 및 Perspective API의 응용

사회적 영향 연구

  1. 정치적 요인: 정치 의제는 백신 주저함에서 중요한 역할을 합니다
  2. 미디어 영향: 주류 텔레비전 뉴스 및 정치 의제는 음모론 신념에 중대한 영향을 미칩니다
  3. 심리 메커니즘: 음모론 전파의 심리학적 기초 연구

결론 및 논의

주요 결론

  1. 탐지 가능성: 기계학습 방법을 사용하여 COVID-19 백신 관련 음모론을 효과적으로 탐지할 수 있습니다
  2. 모델 선택의 중요성: 다양한 모델 및 분류기 조합의 성능 차이가 상당합니다
  3. 데이터 품질 영향: 데이터량 증가는 모델 성능을 크게 향상시킵니다
  4. 사회 태도 통찰: 백신을 지지하는 댓글의 수가 백신을 반대하는 댓글보다 적습니다

한계

  1. 지리적 한계: 샘플 데이터는 주로 북미 지역에서 수집되어 다른 지역 인구의 생각을 정확히 반영할 수 없습니다
  2. 데이터 규모: 수동으로 수집한 샘플 데이터가 충분히 크지 않아 전 세계 음모론을 대표할 수 없습니다
  3. 사용자 정보 부재: 사용자 정보를 수집하지 않아 연령 등 인구통계학적 분석을 수행할 수 없습니다
  4. 주석 주관성: 댓글의 진정성을 판단하기 어려운 경우가 있습니다

향후 방향

  1. 데이터 규모 확대: 더 크고 다양한 데이터셋 수집
  2. 다국어 지원: 다른 언어 및 문화 배경으로 확장
  3. 사용자 프로필 분석: 사용자 인구통계학 정보를 결합한 더 깊이 있는 분석
  4. 실시간 모니터링 시스템: 실시간 음모론 탐지 및 경고 시스템 개발

심층 평가

장점

  1. 문제의 중요성: COVID-19 백신 음모론이라는 중요한 사회 문제에 대응
  2. 충분한 방법 비교: 두 가지 다른 기술 경로를 사용한 비교 검증
  3. 합리적인 실험 설계: 10-폴드 교차 검증 채택, 다양한 평가 지표 사용
  4. 결과 투명성: 구체적인 성능 수치 및 사례 분석 제공
  5. 사회적 가치: 연구 결과는 공중 보건 정책 수립에 참고 가치가 있습니다

부족한 점

  1. 데이터셋 규모 제한: 598개 샘플은 상대적으로 작아 모델의 일반화 능력에 영향을 미칠 수 있습니다
  2. 지리적 및 문화적 편향: 북미 지역의 영어 댓글만으로 제한되어 전 세계 대표성이 부족합니다
  3. 주석 품질: 수동 주석에 주관성이 있을 수 있으며, 주석자 간 일치도 평가가 부족합니다
  4. 기술 혁신 제한: 주로 기존 모델의 응용으로 방법론상 혁신이 부족합니다
  5. 심층 분석 부족: 음모론의 유형, 전파 메커니즘 등에 대한 더 깊이 있는 분석이 부족합니다

영향력

  1. 학술 기여: COVID-19 관련 계산 사회과학 연구에 기초 데이터 및 방법 제공
  2. 실용적 가치: 소셜 미디어 플랫폼의 콘텐츠 검토에 기술 지원 가능
  3. 정책 참고: 공중 보건 부서가 반음모론 전략을 수립하기 위한 데이터 지원
  4. 재현성: 저자는 GitHub에서 데이터 및 코드 제공을 약속하여 연구의 재현성 향상

적용 시나리오

  1. 소셜 미디어 모니터링: 백신 관련 음모론 콘텐츠의 실시간 탐지 및 표시
  2. 공중 보건 커뮤니케이션: 백신 홍보 활동의 효과 및 공중 반응 평가
  3. 정책 수립 지원: 정부 부서에 공중 태도의 정량적 분석 제공
  4. 연구 기초: 후속 음모론 탐지 및 분석 연구를 위한 기준 데이터셋 제공

참고 문헌

논문은 음모론 심리학, 소셜 미디어 분석, 자연어 처리, 공중 보건 등 여러 분야를 포괄하는 46개의 관련 문헌을 인용하여 연구의 학제 간 특성과 이론적 기초의 견고성을 보여줍니다.


종합 평가: 이것은 중요한 사회 문제를 다루는 응용 연구로, 기술 혁신 측면에서는 상대적으로 제한적이지만 중요한 사회적 가치와 실용적 의미를 가지고 있습니다. 연구 방법은 합리적이고 실험 설계는 상대적으로 완전하며 결과는 일정한 참고 가치를 가집니다. 향후 데이터 규모, 지역 범위 및 기술 혁신 측면에서 추가 개선이 필요합니다.