2025-11-12T03:37:09.269038

Detecting Conspiracy Theory Against COVID-19 Vaccines

Amin, Madanu, Lavu et al.

Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.

academic

Обнаружение теорий заговора против вакцин COVID-19

Основная информация

ID статьи: 2211.13003
Название: Detecting Conspiracy Theory Against COVID-19 Vaccines
Авторы: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (Университет Хьюстона)
Классификация: cs.CY (Компьютеры и общество), cs.AI, cs.CL, cs.LG, cs.SI
Дата публикации: 20 ноября 2022 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2211.13003

Аннотация

С момента начала испытаний вакцин социальные сети переполнены антивакцинными высказываниями и убеждениями в теории заговора. По мере увеличения количества случаев COVID-19 различные теории заговора распространяются на онлайн-платформах и некоторых новостных порталах. Наиболее популярные теории заговора включают распространение COVID-19 через сети 5G, распространение вируса правительством Китая в качестве биологического оружия и другие, которые первоначально вызвали расовую ненависть. Хотя некоторое недоверие имеет минимальное социальное воздействие, другие причинили огромный ущерб. Например, теория заговора 5G привела к сжиганию вышек 5G, а убеждение в истории о биологическом оружии Китая способствовало нападениям на американцев азиатского происхождения. Еще одна популярная теория заговора заключается в том, что Билл Гейтс распространяет COVID-19, отслеживая каждого человека через инициирование программ массовой вакцинации. Такие убеждения в теории заговора создали проблемы недоверия среди широкой общественности и привели к колебаниям в отношении вакцинации. Данное исследование направлено на выявление теорий заговора против вакцин на социальных платформах. Исследователи провели анализ настроений 598 уникальных образцов комментариев, связанных с вакциной COVID-19, используя две различные модели — BERT и Perspective API — для выявления настроений и токсичности предложений в отношении вакцины COVID-19.

Предпосылки и мотивация исследования

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как автоматически обнаруживать и идентифицировать высказывания о теориях заговора против вакцин COVID-19 в социальных сетях. В частности, это включает:

Выявление антивакцинных настроений и точек зрения, связанных с теориями заговора
Оценку степени токсичности и агрессивности комментариев
Понимание распределения общественного отношения к вакцинам

Значимость проблемы

Данная проблема имеет важное социальное значение:

Угроза общественному здоровью: По данным ВОЗ, по состоянию на сентябрь 2022 года глобально инфицировано 613 миллионов человек COVID-19, более 6,5 миллионов человек умерли
Социальный ущерб: Теории заговора привели к реальным актам насилия, таким как сжигание вышек 5G и нападения на американцев азиатского происхождения
Колебания в отношении вакцинации: Дезинформация создает недоверие общественности к вакцинам, препятствуя программам массовой вакцинации
Скорость распространения информации: Исследования показывают, что поддельные новости распространяются в 1 миллион раз быстрее, чем достоверные новости

Ограничения существующих методов

Сложность обнаружения: Пользователи социальных сетей используют эмодзи, уникальные термины и символы для выражения мнений, что усложняет классификацию текста
Разнообразие языковых структур: Структуры предложений и способы выражения настроений значительно различаются между языками
Сложность аннотирования: В некоторых случаях сложно различить, какие комментарии являются достоверными, а какие — ложными

Основные вклады

Создание набора данных для обнаружения теорий заговора о COVID-19: Собрано и аннотировано 598 английских комментариев из социальных сетей Северной Америки
Предложение двухмодельной системы обнаружения: Интеграция модели BERT и Google Perspective API для анализа настроений и обнаружения токсичности
Проведение комплексных сравнительных экспериментов: Оценка производительности модели с использованием трех различных классификаторов (логистическая регрессия, XGBoost, гауссовский наивный байесовский классификатор)
Предоставление базовых результатов для обнаружения теорий заговора: Установление эталонной производительности для последующих исследований

Подробное описание методологии

Определение задачи

Входные данные: Текстовые комментарии о вакцине COVID-19 из социальных сетей
Выходные данные: Бинарные метки классификации (0: нейтральное или поддерживающее вакцину, 1: против вакцины/теория заговора)
Дополнительные выходные данные: Оценки токсичности, оценки агрессивности и другие многомерные метрики оценки

Сбор и предварительная обработка данных

Сбор данных:
- Первоначально собрано 950 пользовательских комментариев
- Источники: различные онлайн-новостные порталы и их страницы Facebook
- Применен метод ручного сбора
Очистка данных:
- Удаление дублирующихся и приблизительно дублирующихся комментариев
- Фильтрация комментариев на иностранных языках
- Окончательное сохранение 598 образцов комментариев
Аннотирование данных:
- Ручное прочтение и аннотирование всех комментариев
- Бинарные метки: 0 (нейтральное/поддерживающее) и 1 (против/теория заговора)
- Обеспечение сбалансированного распределения меток
Этапы предварительной обработки:
- Удаление шума и стоп-слов
- Преобразование в нижний регистр
- Исправление распространенных сокращений (например, vac→vaccine, CVD→Covid)

Архитектура модели

Модель BERT

Выбор модели: BERT-Base, Uncased
Параметры архитектуры:
- 12 слоев трансформера
- 768 скрытых единиц
- 12 голов внимания
- 110 миллионов параметров
Характеристики:
- Двусторонний кодировщик представлений
- Использование встраивания WordPiece с словарем из 30 000 слов
- Обучение векторов на уровне предложений для извлечения большего количества информации из контекста

Google Perspective API

Функциональность: Использование технологии машинного обучения для выявления оскорбительных комментариев
Измеряемые параметры:
- Токсичность (Toxicity)
- Серьезность (Severe)
- Атака на личность (Identity Attack)
- Оскорбление (Insult)
- Ругань (Profanity)
- Угроза (Threat)
- Сексуально откровенное содержание (Sexually Explicit)
- Флирт (Flirtation)
Выходные данные: Оценка от 0 до 1 для каждого параметра

Конфигурация классификаторов

Использование трех различных классификаторов для сравнения:

Логистическая регрессия (LR)
XGBoost
Гауссовский наивный байесовский классификатор (NB)

Экспериментальная установка

Характеристики набора данных

Общее количество образцов: 598 комментариев
Распределение меток: Сбалансированное распределение (примерно 50% поддерживающих, 50% против)
Географический охват: Преимущественно из Северной Америки
Язык: Только английские комментарии
Защита конфиденциальности: Отсутствие личной информации (имена, местоположение, пол и т.д.)

Метрики оценки

Точность (Accuracy)
F1-мера (F1-Score)
Полнота (Precision)
Полнота отзыва (Recall)

Методы валидации

10-кратная перекрестная валидация: Обеспечение надежности результатов и способности к обобщению
Разделение на обучающий и валидационный наборы: Оценка производительности модели

Результаты экспериментов

Основные результаты сравнения

Производительность модели BERT

Классификатор	Точность	F1-мера	Полнота	Полнота отзыва
Логистическая регрессия	69%	68%	67%	68%
XGBoost	66%	66%	67%	65%
Наивный байесовский классификатор	51%	51%	52%	51%

Производительность Perspective API

Классификатор	Точность	F1-мера	Полнота	Полнота отзыва
Логистическая регрессия	55%	53%	55%	55%
XGBoost	65%	63%	65%	65%
Наивный байесовский классификатор	75%	70%	75%	75%

Ключевые выводы

Лучшая производительность: Google Perspective API + гауссовский наивный байесовский классификатор достигли точности 75%
Производительность BERT: Комбинация BERT + логистическая регрессия достигла точности 69%
Влияние объема данных: Увеличение объема данных с 400 до 598 привело к повышению производительности обеих моделей на 8-9%
Способность обнаружения токсичности: Perspective API эффективно выявляет степень оскорбительности и уровень токсичности комментариев

Примеры оценок токсичности Perspective API

В статье приводятся конкретные примеры оценок токсичности, демонстрирующие многомерные оценки различных типов комментариев, обеспечивая интуитивное понимание поведения модели.

Связанные работы

Современное состояние исследований теорий заговора

Распространенность: Примерно 1/4 - 1/3 населения Северной Америки выражают точки зрения, связанные с теориями заговора
COVID-19 связанные: Опрос в США в 2020 году показал, что примерно 5% людей считают COVID-19 предварительно спланированным, 20% считают это возможным
Механизмы распространения: Социальные сети оказывают большее влияние на мнения людей, чем традиционные средства коммуникации

Технические методы

Интеллектуальный анализ текста: Популярный метод обнаружения теорий заговора
Глубокое обучение: Хорошие результаты в выявлении семантического содержания
Инструменты анализа настроений: Применение BERT и Perspective API в обнаружении настроений и токсичности

Исследования социального воздействия

Политические факторы: Политическая повестка играет важную роль в колебаниях в отношении вакцинации
Влияние средств массовой информации: Основные телевизионные новости и политическая повестка оказывают значительное влияние на убеждения в теории заговора
Психологические механизмы: Исследование психологических основ распространения теорий заговора

Выводы и обсуждение

Основные выводы

Осуществимость обнаружения: Методы машинного обучения могут эффективно обнаруживать теории заговора, связанные с вакциной COVID-19
Важность выбора модели: Производительность различных комбинаций моделей и классификаторов значительно различается
Влияние качества данных: Увеличение объема данных может значительно повысить производительность модели
Понимание общественного отношения: Количество комментариев, поддерживающих вакцину, ниже, чем комментариев, выступающих против вакцины

Ограничения

Географические ограничения: Данные образцов в основном поступают из Северной Америки и не могут точно отражать мнения других регионов
Масштаб данных: Вручную собранные данные образцов недостаточно велики, чтобы представлять теории заговора в глобальном масштабе
Отсутствие информации о пользователях: Информация о пользователях не собиралась, что препятствует демографическому анализу, такому как возраст
Субъективность аннотирования: В некоторых случаях сложно определить достоверность комментариев

Направления будущих исследований

Расширение масштаба данных: Сбор более крупных и разнообразных наборов данных
Поддержка многоязычности: Расширение на другие языки и культурные контексты
Анализ профилей пользователей: Более глубокий анализ с использованием демографической информации пользователей
Системы мониторинга в реальном времени: Разработка систем обнаружения и предупреждения о теориях заговора в реальном времени

Глубокая оценка

Преимущества

Важность проблемы: Решение важной социальной проблемы теорий заговора о вакцинах COVID-19
Достаточное сравнение методов: Использование двух различных технических подходов для сравнительной проверки
Разумный дизайн экспериментов: Применение 10-кратной перекрестной валидации и использование нескольких метрик оценки
Прозрачность результатов: Предоставление конкретных значений производительности и анализа примеров
Социальная ценность: Результаты исследования имеют справочное значение для разработки политики в области общественного здравоохранения

Недостатки

Ограничение размера набора данных: 598 образцов относительно небольшие, что может повлиять на способность модели к обобщению
Географическое и культурное смещение: Ограничение только английскими комментариями из Северной Америки, отсутствие глобальной репрезентативности
Качество аннотирования: Ручное аннотирование может содержать субъективность, отсутствует оценка согласованности между аннотаторами
Ограниченная техническая инновация: Преимущественно применение существующих моделей, отсутствие инноваций в методологии
Недостаточный глубокий анализ: Отсутствие более глубокого анализа типов теорий заговора и механизмов их распространения

Влияние

Академический вклад: Предоставление базовых данных и методов для исследований вычислительной социальной науки, связанных с COVID-19
Практическая ценность: Может обеспечить техническую поддержку для модерации контента на платформах социальных сетей
Справочное значение для политики: Предоставление количественного анализа общественного отношения для поддержки государственных органов здравоохранения в разработке стратегий противодействия теориям заговора
Воспроизводимость: Авторы обещают предоставить данные и код на GitHub, повышая воспроизводимость исследования

Сценарии применения

Мониторинг социальных сетей: Обнаружение и маркировка контента о теориях заговора, связанных с вакцинами, в реальном времени
Коммуникация в области общественного здравоохранения: Оценка эффективности кампаний по продвижению вакцин и общественной реакции
Поддержка разработки политики: Предоставление количественного анализа общественного отношения для государственных органов
Основа для исследований: Предоставление эталонного набора данных для последующих исследований обнаружения и анализа теорий заговора

Библиография

В статье цитируется 46 соответствующих источников, охватывающих психологию теорий заговора, анализ социальных сетей, обработку естественного языка, общественное здравоохранение и другие области, отражая междисциплинарный характер исследования и прочную теоретическую базу.

Общая оценка: Это прикладное исследование, посвященное важной социальной проблеме. Хотя оно относительно ограничено в техническом инновационном плане, оно имеет важное социальное значение и практическую ценность. Методология исследования разумна, экспериментальный дизайн относительно совершенен, а результаты имеют определенное справочное значение. В будущем необходимо дальнейшее совершенствование в области масштаба данных, географического охвата и технических инноваций.