2025-11-12T03:37:09.269038

Detecting Conspiracy Theory Against COVID-19 Vaccines

Amin, Madanu, Lavu et al.

Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.

academic

Detección de Teorías de Conspiración Contra las Vacunas COVID-19

Información Básica

ID del Artículo: 2211.13003
Título: Detecting Conspiracy Theory Against COVID-19 Vaccines
Autores: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (Universidad de Houston)
Clasificación: cs.CY (Computadoras y Sociedad), cs.AI, cs.CL, cs.LG, cs.SI
Fecha de Publicación: 20 de noviembre de 2022 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2211.13003

Resumen

Desde el inicio de los ensayos de vacunas, las redes sociales se han saturado de discursos antivacunas y creencias conspirativas. Con el aumento del número de casos de COVID-19, diversas plataformas en línea y algunos portales de noticias han propagado varias teorías de conspiración. Las teorías de conspiración más populares incluyen que las redes 5G propagan COVID-19 y que el gobierno chino difundió el virus como arma biológica, lo que inicialmente generó odio racial. Aunque cierta desconfianza tiene un impacto social menor, otras han causado daños significativos. Por ejemplo, la teoría de conspiración 5G resultó en la quema de torres 5G, y la creencia en la historia del arma biológica china promovió ataques contra estadounidenses de origen asiático. Otra teoría de conspiración popular es que Bill Gates propaga COVID-19 mediante el seguimiento de todas las personas a través de programas masivos de vacunación. Esta creencia conspirativa ha generado problemas de desconfianza entre el público en general y ha provocado vacilación vacunal. Este estudio tiene como objetivo descubrir teorías de conspiración dirigidas contra vacunas en plataformas sociales. Los investigadores realizaron análisis de sentimientos en 598 comentarios únicos relacionados con vacunas COVID-19, utilizando dos modelos diferentes: BERT y la API de Perspectiva de Google para identificar el sentimiento y la toxicidad de las oraciones hacia las vacunas COVID-19.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que este estudio aborda es cómo detectar e identificar automáticamente discursos conspiradores dirigidos contra las vacunas COVID-19 en redes sociales. Específicamente incluye:

Identificar sentimientos antivacunas y perspectivas conspirativas
Evaluar el grado de toxicidad y agresividad de los comentarios
Comprender la distribución de actitudes públicas hacia las vacunas

Importancia del Problema

Este problema tiene una importancia social significativa:

Amenaza para la Salud Pública: Según datos de la OMS, a septiembre de 2022, 613 millones de personas en todo el mundo se han infectado con COVID-19, con más de 6.5 millones de muertes
Disrupción Social: Las teorías de conspiración han causado eventos de violencia real, como la quema de torres 5G y ataques contra estadounidenses de origen asiático
Vacilación Vacunal: La desinformación genera desconfianza pública en las vacunas, obstaculizando programas masivos de vacunación
Velocidad de Propagación de Información: La investigación muestra que las noticias falsas se propagan 1 millón de veces más rápido que las noticias verdaderas

Limitaciones de Métodos Existentes

Complejidad de Detección: Los usuarios de redes sociales utilizan emojis, términos únicos y símbolos para expresar opiniones, aumentando la complejidad de la clasificación de texto
Diversidad de Estructuras Lingüísticas: Las estructuras de oraciones y formas de expresión de sentimientos varían significativamente entre diferentes idiomas
Dificultad de Anotación: En algunos casos es difícil distinguir qué comentarios son válidos y cuáles son falsos

Contribuciones Principales

Construcción de un Conjunto de Datos para Detección de Teorías de Conspiración sobre COVID-19: Se recopilaron y anotaron 598 comentarios en inglés de redes sociales de América del Norte
Propuesta de un Marco de Detección Dual: Se combinaron el modelo BERT y la API de Perspectiva de Google para análisis de sentimientos y detección de toxicidad
Realización de Experimentos Comparativos Exhaustivos: Se evaluó el desempeño del modelo utilizando tres clasificadores diferentes (regresión logística, XGBoost, Naive Bayes gaussiano)
Provisión de Resultados de Referencia para Detección de Teorías de Conspiración: Se proporcionaron resultados de desempeño de línea base para investigaciones posteriores

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Comentarios de texto sobre vacunas COVID-19 en redes sociales
Salida: Etiquetas de clasificación binaria (0: neutral o pro-vacuna, 1: anti-vacuna/teoría de conspiración)
Salida Adicional: Puntuaciones de toxicidad, puntuaciones de agresividad y otras métricas de evaluación multidimensionales

Recopilación y Preprocesamiento de Datos

Recopilación de Datos:
- Recopilación inicial de 950 comentarios de usuarios
- Fuentes: Diversos portales de noticias en línea y sus páginas de Facebook
- Método de recopilación manual
Limpieza de Datos:
- Eliminación de comentarios duplicados y casi duplicados
- Filtrado de comentarios no en inglés
- Retención final de 598 comentarios de muestra
Anotación de Datos:
- Lectura manual y anotación de todos los comentarios
- Etiquetas binarias: 0 (neutral/pro-vacuna) y 1 (anti-vacuna/teoría de conspiración)
- Garantía de distribución equilibrada de etiquetas
Pasos de Preprocesamiento:
- Eliminación de ruido y palabras vacías
- Conversión a minúsculas
- Corrección de abreviaturas comunes (por ejemplo, vac→vaccine, CVD→Covid)

Arquitectura del Modelo

Modelo BERT

Selección del Modelo: BERT-Base, Uncased
Parámetros de Arquitectura:
- 12 capas de transformador
- 768 unidades ocultas
- 12 cabezas de atención
- 110 millones de parámetros
Características:
- Representación de codificador bidireccional
- Uso de incrustación WordPiece, vocabulario de 30,000 palabras
- Entrenamiento de vectores a nivel de oración, extrayendo más información del contexto

API de Perspectiva de Google

Funcionalidad: Utiliza tecnología de aprendizaje automático para identificar comentarios abusivos
Dimensiones de Detección:
- Toxicidad (Toxicity)
- Severidad (Severe)
- Ataque de Identidad (Identity Attack)
- Insulto (Insult)
- Profanidad (Profanity)
- Amenaza (Threat)
- Contenido Sexualmente Explícito (Sexually Explicit)
- Coqueteo (Flirtation)
Salida: Puntuación de 0-1 para cada dimensión

Configuración de Clasificadores

Se utilizaron tres clasificadores diferentes para comparación:

Regresión Logística (LR)
XGBoost
Naive Bayes Gaussiano (NB)

Configuración Experimental

Características del Conjunto de Datos

Número Total de Muestras: 598 comentarios
Distribución de Etiquetas: Distribución equilibrada (aproximadamente 50% pro-vacuna, 50% anti-vacuna)
Rango Geográfico: Principalmente de América del Norte
Idioma: Solo comentarios en inglés
Protección de Privacidad: No incluye información personal (nombres, ubicación, género, etc.)

Métricas de Evaluación

Precisión (Accuracy)
Puntuación F1 (F1-Score)
Exactitud (Precision)
Sensibilidad (Recall)

Método de Validación

Validación Cruzada de 10 Pliegues: Garantiza la confiabilidad y capacidad de generalización de los resultados
División Entrenamiento-Validación: Evaluación del desempeño del modelo

Resultados Experimentales

Comparación de Resultados Principales

Desempeño del Modelo BERT

Clasificador	Precisión	Puntuación F1	Exactitud	Sensibilidad
Regresión Logística	69%	68%	67%	68%
XGBoost	66%	66%	67%	65%
Naive Bayes	51%	51%	52%	51%

Desempeño de la API de Perspectiva

Clasificador	Precisión	Puntuación F1	Exactitud	Sensibilidad
Regresión Logística	55%	53%	55%	55%
XGBoost	65%	63%	65%	65%
Naive Bayes	75%	70%	75%	75%

Hallazgos Clave

Mejor Desempeño: API de Perspectiva de Google + Naive Bayes Gaussiano alcanzó una precisión del 75%
Desempeño de BERT: La combinación BERT + Regresión Logística alcanzó una precisión del 69%
Impacto del Volumen de Datos: Al aumentar el volumen de datos de 400 a 598, el desempeño de ambos modelos mejoró 8-9%
Capacidad de Detección de Toxicidad: La API de Perspectiva puede identificar efectivamente el grado de abuso y nivel de toxicidad de los comentarios

Ejemplos de Puntuación de Toxicidad de la API de Perspectiva

El artículo proporciona casos específicos de puntuación de toxicidad, mostrando puntuaciones multidimensionales de diferentes tipos de comentarios, proporcionando información intuitiva para comprender el comportamiento del modelo.

Trabajo Relacionado

Estado Actual de la Investigación sobre Teorías de Conspiración

Prevalencia: Aproximadamente 1/4 a 1/3 de la población de América del Norte expresa perspectivas relacionadas con teorías de conspiración
Relacionadas con COVID-19: Una encuesta estadounidense de 2020 mostró que aproximadamente el 5% de las personas creen que COVID-19 fue preplaneado, y el 20% cree que podría serlo
Mecanismo de Propagación: Las redes sociales influyen más fácilmente en las opiniones de las personas que los métodos de comunicación tradicionales

Métodos Técnicos

Minería de Texto: Es un método popular para detectar teorías de conspiración
Aprendizaje Profundo: Muestra buen desempeño en la identificación de contenido semántico
Herramientas de Análisis de Sentimientos: Aplicaciones de BERT y API de Perspectiva en detección de sentimientos y toxicidad

Factores Políticos: La agenda política juega un papel importante en la vacilación vacunal
Influencia de Medios: Las noticias de televisión principales y la agenda política tienen un impacto significativo en las creencias conspirativas
Mecanismos Psicológicos: Investigación de bases psicológicas de la propagación de teorías de conspiración

Conclusiones y Discusión

Conclusiones Principales

Viabilidad de Detección: Los métodos de aprendizaje automático pueden detectar efectivamente teorías de conspiración relacionadas con vacunas COVID-19
Importancia de la Selección del Modelo: Las diferencias de desempeño entre diferentes combinaciones de modelos y clasificadores son significativas
Impacto de la Calidad de Datos: Aumentar el volumen de datos puede mejorar significativamente el desempeño del modelo
Perspectivas de Actitudes Sociales: El número de comentarios que apoyan las vacunas es menor que el de comentarios que se oponen

Limitaciones

Limitación Geográfica: Los datos de muestra provienen principalmente de América del Norte, no pueden reflejar con precisión las ideas de poblaciones en otras regiones
Escala de Datos: Los datos de muestra recopilados manualmente no son lo suficientemente grandes para representar teorías de conspiración en el rango global
Información de Usuario Faltante: No se recopiló información de usuario, lo que impide realizar análisis demográficos como edad
Subjetividad de Anotación: En algunos casos es difícil determinar la autenticidad de los comentarios

Direcciones Futuras

Expansión de Escala de Datos: Recopilación de conjuntos de datos más grandes y diversos
Soporte Multilingüe: Extensión a otros idiomas y contextos culturales
Análisis de Perfiles de Usuario: Análisis más profundo combinado con información demográfica de usuarios
Sistema de Monitoreo en Tiempo Real: Desarrollo de sistemas de detección y alerta de teorías de conspiración en tiempo real

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda el importante problema social de las teorías de conspiración sobre vacunas COVID-19
Comparación Suficiente de Métodos: Utiliza dos rutas técnicas diferentes para validación comparativa
Diseño Experimental Razonable: Emplea validación cruzada de 10 pliegues y múltiples métricas de evaluación
Transparencia de Resultados: Proporciona valores de desempeño específicos y análisis de casos
Valor Social: Los resultados de la investigación tienen valor de referencia para la formulación de políticas de salud pública

Deficiencias

Limitación del Tamaño del Conjunto de Datos: 598 muestras son relativamente pequeñas, lo que puede afectar la capacidad de generalización del modelo
Sesgo Geográfico y Cultural: Limitado a comentarios en inglés de América del Norte, carece de representatividad global
Calidad de Anotación: La anotación manual puede tener subjetividad, falta evaluación de consistencia entre anotadores
Innovación Técnica Limitada: Principalmente aplicación de modelos existentes, carece de innovación metodológica
Análisis Insuficiente en Profundidad: Falta análisis más profundo sobre tipos de teorías de conspiración y mecanismos de propagación

Influencia

Contribución Académica: Proporciona datos base y métodos para investigación en ciencia computacional social relacionada con COVID-19
Valor Práctico: Puede proporcionar soporte técnico para moderación de contenido en plataformas de redes sociales
Referencia de Política: Proporciona apoyo de datos cuantitativos para que departamentos de salud pública formulen estrategias contra teorías de conspiración
Reproducibilidad: Los autores se comprometen a proporcionar datos y código en GitHub, mejorando la reproducibilidad de la investigación

Escenarios Aplicables

Monitoreo de Redes Sociales: Detección y marcado en tiempo real de contenido conspirativo relacionado con vacunas
Comunicación de Salud Pública: Evaluación de la efectividad de campañas de promoción de vacunas y respuestas públicas
Apoyo a Formulación de Políticas: Proporciona análisis cuantitativo de actitudes públicas para departamentos gubernamentales
Base de Investigación: Proporciona conjunto de datos de referencia para investigaciones posteriores de detección y análisis de teorías de conspiración

Referencias

El artículo cita 46 referencias relacionadas, cubriendo psicología de teorías de conspiración, análisis de redes sociales, procesamiento de lenguaje natural, salud pública y otros campos múltiples, reflejando la naturaleza interdisciplinaria de la investigación y la solidez de la base teórica.

Evaluación General: Esta es una investigación aplicada dirigida a un importante problema social que, aunque es relativamente limitada en innovación técnica, posee un valor social e importancia práctica significativos. El método de investigación es razonable, el diseño experimental es relativamente completo, y los resultados tienen cierto valor de referencia. En el futuro, es necesario mejorar aún más en escala de datos, cobertura geográfica e innovación técnica.