Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
- ID del Artículo: 2211.13003
- Título: Detecting Conspiracy Theory Against COVID-19 Vaccines
- Autores: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (Universidad de Houston)
- Clasificación: cs.CY (Computadoras y Sociedad), cs.AI, cs.CL, cs.LG, cs.SI
- Fecha de Publicación: 20 de noviembre de 2022 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2211.13003
Desde el inicio de los ensayos de vacunas, las redes sociales se han saturado de discursos antivacunas y creencias conspirativas. Con el aumento del número de casos de COVID-19, diversas plataformas en línea y algunos portales de noticias han propagado varias teorías de conspiración. Las teorías de conspiración más populares incluyen que las redes 5G propagan COVID-19 y que el gobierno chino difundió el virus como arma biológica, lo que inicialmente generó odio racial. Aunque cierta desconfianza tiene un impacto social menor, otras han causado daños significativos. Por ejemplo, la teoría de conspiración 5G resultó en la quema de torres 5G, y la creencia en la historia del arma biológica china promovió ataques contra estadounidenses de origen asiático. Otra teoría de conspiración popular es que Bill Gates propaga COVID-19 mediante el seguimiento de todas las personas a través de programas masivos de vacunación. Esta creencia conspirativa ha generado problemas de desconfianza entre el público en general y ha provocado vacilación vacunal. Este estudio tiene como objetivo descubrir teorías de conspiración dirigidas contra vacunas en plataformas sociales. Los investigadores realizaron análisis de sentimientos en 598 comentarios únicos relacionados con vacunas COVID-19, utilizando dos modelos diferentes: BERT y la API de Perspectiva de Google para identificar el sentimiento y la toxicidad de las oraciones hacia las vacunas COVID-19.
El problema central que este estudio aborda es cómo detectar e identificar automáticamente discursos conspiradores dirigidos contra las vacunas COVID-19 en redes sociales. Específicamente incluye:
- Identificar sentimientos antivacunas y perspectivas conspirativas
- Evaluar el grado de toxicidad y agresividad de los comentarios
- Comprender la distribución de actitudes públicas hacia las vacunas
Este problema tiene una importancia social significativa:
- Amenaza para la Salud Pública: Según datos de la OMS, a septiembre de 2022, 613 millones de personas en todo el mundo se han infectado con COVID-19, con más de 6.5 millones de muertes
- Disrupción Social: Las teorías de conspiración han causado eventos de violencia real, como la quema de torres 5G y ataques contra estadounidenses de origen asiático
- Vacilación Vacunal: La desinformación genera desconfianza pública en las vacunas, obstaculizando programas masivos de vacunación
- Velocidad de Propagación de Información: La investigación muestra que las noticias falsas se propagan 1 millón de veces más rápido que las noticias verdaderas
- Complejidad de Detección: Los usuarios de redes sociales utilizan emojis, términos únicos y símbolos para expresar opiniones, aumentando la complejidad de la clasificación de texto
- Diversidad de Estructuras Lingüísticas: Las estructuras de oraciones y formas de expresión de sentimientos varían significativamente entre diferentes idiomas
- Dificultad de Anotación: En algunos casos es difícil distinguir qué comentarios son válidos y cuáles son falsos
- Construcción de un Conjunto de Datos para Detección de Teorías de Conspiración sobre COVID-19: Se recopilaron y anotaron 598 comentarios en inglés de redes sociales de América del Norte
- Propuesta de un Marco de Detección Dual: Se combinaron el modelo BERT y la API de Perspectiva de Google para análisis de sentimientos y detección de toxicidad
- Realización de Experimentos Comparativos Exhaustivos: Se evaluó el desempeño del modelo utilizando tres clasificadores diferentes (regresión logística, XGBoost, Naive Bayes gaussiano)
- Provisión de Resultados de Referencia para Detección de Teorías de Conspiración: Se proporcionaron resultados de desempeño de línea base para investigaciones posteriores
- Entrada: Comentarios de texto sobre vacunas COVID-19 en redes sociales
- Salida: Etiquetas de clasificación binaria (0: neutral o pro-vacuna, 1: anti-vacuna/teoría de conspiración)
- Salida Adicional: Puntuaciones de toxicidad, puntuaciones de agresividad y otras métricas de evaluación multidimensionales
- Recopilación de Datos:
- Recopilación inicial de 950 comentarios de usuarios
- Fuentes: Diversos portales de noticias en línea y sus páginas de Facebook
- Método de recopilación manual
- Limpieza de Datos:
- Eliminación de comentarios duplicados y casi duplicados
- Filtrado de comentarios no en inglés
- Retención final de 598 comentarios de muestra
- Anotación de Datos:
- Lectura manual y anotación de todos los comentarios
- Etiquetas binarias: 0 (neutral/pro-vacuna) y 1 (anti-vacuna/teoría de conspiración)
- Garantía de distribución equilibrada de etiquetas
- Pasos de Preprocesamiento:
- Eliminación de ruido y palabras vacías
- Conversión a minúsculas
- Corrección de abreviaturas comunes (por ejemplo, vac→vaccine, CVD→Covid)
- Selección del Modelo: BERT-Base, Uncased
- Parámetros de Arquitectura:
- 12 capas de transformador
- 768 unidades ocultas
- 12 cabezas de atención
- 110 millones de parámetros
- Características:
- Representación de codificador bidireccional
- Uso de incrustación WordPiece, vocabulario de 30,000 palabras
- Entrenamiento de vectores a nivel de oración, extrayendo más información del contexto
- Funcionalidad: Utiliza tecnología de aprendizaje automático para identificar comentarios abusivos
- Dimensiones de Detección:
- Toxicidad (Toxicity)
- Severidad (Severe)
- Ataque de Identidad (Identity Attack)
- Insulto (Insult)
- Profanidad (Profanity)
- Amenaza (Threat)
- Contenido Sexualmente Explícito (Sexually Explicit)
- Coqueteo (Flirtation)
- Salida: Puntuación de 0-1 para cada dimensión
Se utilizaron tres clasificadores diferentes para comparación:
- Regresión Logística (LR)
- XGBoost
- Naive Bayes Gaussiano (NB)
- Número Total de Muestras: 598 comentarios
- Distribución de Etiquetas: Distribución equilibrada (aproximadamente 50% pro-vacuna, 50% anti-vacuna)
- Rango Geográfico: Principalmente de América del Norte
- Idioma: Solo comentarios en inglés
- Protección de Privacidad: No incluye información personal (nombres, ubicación, género, etc.)
- Precisión (Accuracy)
- Puntuación F1 (F1-Score)
- Exactitud (Precision)
- Sensibilidad (Recall)
- Validación Cruzada de 10 Pliegues: Garantiza la confiabilidad y capacidad de generalización de los resultados
- División Entrenamiento-Validación: Evaluación del desempeño del modelo
| Clasificador | Precisión | Puntuación F1 | Exactitud | Sensibilidad |
|---|
| Regresión Logística | 69% | 68% | 67% | 68% |
| XGBoost | 66% | 66% | 67% | 65% |
| Naive Bayes | 51% | 51% | 52% | 51% |
| Clasificador | Precisión | Puntuación F1 | Exactitud | Sensibilidad |
|---|
| Regresión Logística | 55% | 53% | 55% | 55% |
| XGBoost | 65% | 63% | 65% | 65% |
| Naive Bayes | 75% | 70% | 75% | 75% |
- Mejor Desempeño: API de Perspectiva de Google + Naive Bayes Gaussiano alcanzó una precisión del 75%
- Desempeño de BERT: La combinación BERT + Regresión Logística alcanzó una precisión del 69%
- Impacto del Volumen de Datos: Al aumentar el volumen de datos de 400 a 598, el desempeño de ambos modelos mejoró 8-9%
- Capacidad de Detección de Toxicidad: La API de Perspectiva puede identificar efectivamente el grado de abuso y nivel de toxicidad de los comentarios
El artículo proporciona casos específicos de puntuación de toxicidad, mostrando puntuaciones multidimensionales de diferentes tipos de comentarios, proporcionando información intuitiva para comprender el comportamiento del modelo.
- Prevalencia: Aproximadamente 1/4 a 1/3 de la población de América del Norte expresa perspectivas relacionadas con teorías de conspiración
- Relacionadas con COVID-19: Una encuesta estadounidense de 2020 mostró que aproximadamente el 5% de las personas creen que COVID-19 fue preplaneado, y el 20% cree que podría serlo
- Mecanismo de Propagación: Las redes sociales influyen más fácilmente en las opiniones de las personas que los métodos de comunicación tradicionales
- Minería de Texto: Es un método popular para detectar teorías de conspiración
- Aprendizaje Profundo: Muestra buen desempeño en la identificación de contenido semántico
- Herramientas de Análisis de Sentimientos: Aplicaciones de BERT y API de Perspectiva en detección de sentimientos y toxicidad
- Factores Políticos: La agenda política juega un papel importante en la vacilación vacunal
- Influencia de Medios: Las noticias de televisión principales y la agenda política tienen un impacto significativo en las creencias conspirativas
- Mecanismos Psicológicos: Investigación de bases psicológicas de la propagación de teorías de conspiración
- Viabilidad de Detección: Los métodos de aprendizaje automático pueden detectar efectivamente teorías de conspiración relacionadas con vacunas COVID-19
- Importancia de la Selección del Modelo: Las diferencias de desempeño entre diferentes combinaciones de modelos y clasificadores son significativas
- Impacto de la Calidad de Datos: Aumentar el volumen de datos puede mejorar significativamente el desempeño del modelo
- Perspectivas de Actitudes Sociales: El número de comentarios que apoyan las vacunas es menor que el de comentarios que se oponen
- Limitación Geográfica: Los datos de muestra provienen principalmente de América del Norte, no pueden reflejar con precisión las ideas de poblaciones en otras regiones
- Escala de Datos: Los datos de muestra recopilados manualmente no son lo suficientemente grandes para representar teorías de conspiración en el rango global
- Información de Usuario Faltante: No se recopiló información de usuario, lo que impide realizar análisis demográficos como edad
- Subjetividad de Anotación: En algunos casos es difícil determinar la autenticidad de los comentarios
- Expansión de Escala de Datos: Recopilación de conjuntos de datos más grandes y diversos
- Soporte Multilingüe: Extensión a otros idiomas y contextos culturales
- Análisis de Perfiles de Usuario: Análisis más profundo combinado con información demográfica de usuarios
- Sistema de Monitoreo en Tiempo Real: Desarrollo de sistemas de detección y alerta de teorías de conspiración en tiempo real
- Importancia del Problema: Aborda el importante problema social de las teorías de conspiración sobre vacunas COVID-19
- Comparación Suficiente de Métodos: Utiliza dos rutas técnicas diferentes para validación comparativa
- Diseño Experimental Razonable: Emplea validación cruzada de 10 pliegues y múltiples métricas de evaluación
- Transparencia de Resultados: Proporciona valores de desempeño específicos y análisis de casos
- Valor Social: Los resultados de la investigación tienen valor de referencia para la formulación de políticas de salud pública
- Limitación del Tamaño del Conjunto de Datos: 598 muestras son relativamente pequeñas, lo que puede afectar la capacidad de generalización del modelo
- Sesgo Geográfico y Cultural: Limitado a comentarios en inglés de América del Norte, carece de representatividad global
- Calidad de Anotación: La anotación manual puede tener subjetividad, falta evaluación de consistencia entre anotadores
- Innovación Técnica Limitada: Principalmente aplicación de modelos existentes, carece de innovación metodológica
- Análisis Insuficiente en Profundidad: Falta análisis más profundo sobre tipos de teorías de conspiración y mecanismos de propagación
- Contribución Académica: Proporciona datos base y métodos para investigación en ciencia computacional social relacionada con COVID-19
- Valor Práctico: Puede proporcionar soporte técnico para moderación de contenido en plataformas de redes sociales
- Referencia de Política: Proporciona apoyo de datos cuantitativos para que departamentos de salud pública formulen estrategias contra teorías de conspiración
- Reproducibilidad: Los autores se comprometen a proporcionar datos y código en GitHub, mejorando la reproducibilidad de la investigación
- Monitoreo de Redes Sociales: Detección y marcado en tiempo real de contenido conspirativo relacionado con vacunas
- Comunicación de Salud Pública: Evaluación de la efectividad de campañas de promoción de vacunas y respuestas públicas
- Apoyo a Formulación de Políticas: Proporciona análisis cuantitativo de actitudes públicas para departamentos gubernamentales
- Base de Investigación: Proporciona conjunto de datos de referencia para investigaciones posteriores de detección y análisis de teorías de conspiración
El artículo cita 46 referencias relacionadas, cubriendo psicología de teorías de conspiración, análisis de redes sociales, procesamiento de lenguaje natural, salud pública y otros campos múltiples, reflejando la naturaleza interdisciplinaria de la investigación y la solidez de la base teórica.
Evaluación General: Esta es una investigación aplicada dirigida a un importante problema social que, aunque es relativamente limitada en innovación técnica, posee un valor social e importancia práctica significativos. El método de investigación es razonable, el diseño experimental es relativamente completo, y los resultados tienen cierto valor de referencia. En el futuro, es necesario mejorar aún más en escala de datos, cobertura geográfica e innovación técnica.