Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
- ID de l'article : 2211.13003
- Titre : Detecting Conspiracy Theory Against COVID-19 Vaccines
- Auteurs : Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (Université de Houston)
- Classification : cs.CY (Informatique et Société), cs.AI, cs.CL, cs.LG, cs.SI
- Date de publication : 20 novembre 2022 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2211.13003
Depuis le début des essais de vaccins, les médias sociaux sont inondés de discours antivaccins et de croyances conspirationnistes. Avec l'augmentation du nombre de cas de COVID-19, diverses théories conspirationnistes se propagent sur les plateformes en ligne et certains portails d'actualités. Les théories conspirationnistes les plus populaires incluent la transmission du COVID-19 par les réseaux 5G, la propagation du virus par le gouvernement chinois comme arme biologique, etc., ce qui a initialement suscité la haine raciale. Bien que certaines méfiances aient un impact social limité, d'autres ont causé des dégâts considérables. Par exemple, la théorie conspirationniste 5G a entraîné l'incendie de stations de base 5G, et la croyance en l'histoire de l'arme biologique chinoise a favorisé les attaques contre les Américains d'origine asiatique. Une autre théorie conspirationniste populaire affirme que Bill Gates propage le COVID-19 en suivant chacun par le biais d'un programme massif de vaccination. Cette croyance conspirationniste a créé des problèmes de méfiance au sein du grand public et a conduit à l'hésitation vaccinale. Cette étude vise à découvrir les théories conspirationnistes contre les vaccins sur les plateformes sociales. Les chercheurs ont effectué une analyse des sentiments sur 598 commentaires d'échantillons uniques liés aux vaccins COVID-19, utilisant deux modèles différents, BERT et l'API Perspective de Google, pour identifier les sentiments et la toxicité des phrases envers les vaccins COVID-19.
Le problème fondamental que cette recherche vise à résoudre est la détection et l'identification automatiques des discours conspirationnistes contre les vaccins COVID-19 sur les médias sociaux. Cela comprend spécifiquement :
- Identifier les sentiments antivaccins et les points de vue conspirationnistes
- Évaluer le degré de toxicité et d'agressivité des commentaires
- Comprendre la distribution des attitudes du public envers les vaccins
Ce problème revêt une importance sociale considérable :
- Menace pour la santé publique : Selon les données de l'OMS, en septembre 2022, 613 millions de personnes ont été infectées par le COVID-19 dans le monde, avec plus de 6,5 millions de décès
- Perturbation sociale : Les théories conspirationnistes ont entraîné des incidents de violence réelle, tels que l'incendie de stations de base 5G et les attaques contre les Américains d'origine asiatique
- Hésitation vaccinale : La désinformation crée une méfiance du public envers les vaccins, entravant les programmes massifs de vaccination
- Vitesse de propagation de l'information : La recherche montre que les fausses nouvelles se propagent 1 million de fois plus vite que les vraies nouvelles
- Complexité de la détection : Les utilisateurs des médias sociaux utilisent des emojis, des termes uniques et des symboles pour exprimer leurs opinions, ce qui augmente la complexité de la classification textuelle
- Diversité des structures linguistiques : Les structures de phrases et les modes d'expression des sentiments varient considérablement selon les langues
- Difficulté d'annotation : Dans certains cas, il est difficile de distinguer quels commentaires sont valides et lesquels sont faux
- Construction d'un ensemble de données pour la détection de théories conspirationnistes COVID-19 : Collecte et annotation de 598 commentaires en anglais provenant de médias sociaux en Amérique du Nord
- Proposition d'un cadre de détection à double modèle : Combinaison du modèle BERT et de l'API Google Perspective pour l'analyse des sentiments et la détection de toxicité
- Réalisation d'expériences comparatives complètes : Évaluation des performances du modèle à l'aide de trois classificateurs différents (régression logistique, XGBoost, naïve bayes gaussien)
- Fourniture de résultats de référence pour la détection de théories conspirationnistes : Fourniture de performances de base de référence pour les recherches ultérieures
- Entrée : Commentaires textuels sur les vaccins COVID-19 provenant des médias sociaux
- Sortie : Étiquettes de classification binaire (0 : neutre ou pro-vaccin, 1 : anti-vaccin/conspirationniste)
- Sortie supplémentaire : Score de toxicité, score d'agressivité et autres métriques d'évaluation multidimensionnelles
- Collecte de données :
- Collecte initiale de 950 commentaires d'utilisateurs
- Sources : Divers portails d'actualités en ligne et leurs pages Facebook
- Utilisation d'une méthode de collecte manuelle
- Nettoyage des données :
- Suppression des commentaires en double et quasi-dupliqués
- Filtrage des commentaires non-anglais
- Conservation finale de 598 commentaires d'échantillons
- Annotation des données :
- Lecture et annotation manuelles de tous les commentaires
- Étiquettes de classification binaire : 0 (neutre/pro-vaccin) et 1 (anti-vaccin/conspirationniste)
- Assurance d'une distribution d'étiquettes équilibrée
- Étapes de prétraitement :
- Suppression du bruit et des mots vides
- Conversion en minuscules
- Correction des abréviations courantes (par exemple, vac→vaccine, CVD→Covid)
- Sélection du modèle : BERT-Base, Uncased
- Paramètres d'architecture :
- 12 couches de transformateur
- 768 unités cachées
- 12 têtes d'attention
- 110 millions de paramètres
- Caractéristiques :
- Représentation d'encodeur bidirectionnel
- Utilisation d'embeddings WordPiece, vocabulaire de 30 000 mots
- Entraînement au niveau des phrases, extraction de plus d'informations du contexte
- Fonctionnalité : Utilisation de techniques d'apprentissage automatique pour identifier les commentaires abusifs
- Dimensions de détection :
- Toxicité (Toxicity)
- Sévérité (Severe)
- Attaque d'identité (Identity Attack)
- Insulte (Insult)
- Profanation (Profanity)
- Menace (Threat)
- Contenu sexuellement explicite (Sexually Explicit)
- Flirtation (Flirtation)
- Sortie : Score de 0 à 1 pour chaque dimension
Utilisation de trois classificateurs différents pour la comparaison :
- Régression logistique (LR)
- XGBoost
- Naïve Bayes gaussien (NB)
- Nombre total d'échantillons : 598 commentaires
- Distribution des étiquettes : Distribution équilibrée (environ 50% pro-vaccin, 50% anti-vaccin)
- Couverture géographique : Principalement en Amérique du Nord
- Langue : Commentaires en anglais uniquement
- Protection de la vie privée : Pas d'informations personnelles (noms, localisation, sexe, etc.)
- Précision (Accuracy)
- Score F1 (F1-Score)
- Exactitude (Precision)
- Rappel (Recall)
- Validation croisée 10 fois : Assurance de la fiabilité des résultats et de la capacité de généralisation
- Division ensemble d'entraînement-validation : Évaluation des performances du modèle
| Classificateur | Précision | Score F1 | Exactitude | Rappel |
|---|
| Régression logistique | 69% | 68% | 67% | 68% |
| XGBoost | 66% | 66% | 67% | 65% |
| Naïve Bayes | 51% | 51% | 52% | 51% |
| Classificateur | Précision | Score F1 | Exactitude | Rappel |
|---|
| Régression logistique | 55% | 53% | 55% | 55% |
| XGBoost | 65% | 63% | 65% | 65% |
| Naïve Bayes | 75% | 70% | 75% | 75% |
- Meilleures performances : API Google Perspective + Naïve Bayes gaussien atteint une précision de 75%
- Performances BERT : La combinaison BERT + régression logistique atteint une précision de 69%
- Impact de la taille des données : L'augmentation de la taille des données de 400 à 598 a amélioré les performances des deux modèles de 8-9%
- Capacité de détection de toxicité : L'API Perspective peut identifier efficacement le degré d'abus et le niveau de toxicité des commentaires
L'article fournit des cas concrets de scores de toxicité, montrant les scores multidimensionnels de différents types de commentaires, offrant une compréhension intuitive du comportement du modèle.
- Prévalence : Environ 1/4 à 1/3 de la population en Amérique du Nord exprime des points de vue liés aux théories conspirationnistes
- Lié à COVID-19 : Un sondage américain de 2020 montre qu'environ 5% des personnes pensent que le COVID-19 était préplanifié, et 20% pensent que c'est peut-être vrai
- Mécanisme de propagation : Les médias sociaux influencent plus facilement les opinions des gens que les modes de communication traditionnels
- Exploration de texte : Méthode populaire pour détecter les théories conspirationnistes
- Apprentissage profond : Performances excellentes dans l'identification du contenu sémantique
- Outils d'analyse des sentiments : Applications de BERT et de l'API Perspective dans la détection des sentiments et de la toxicité
- Facteurs politiques : L'agenda politique joue un rôle important dans l'hésitation vaccinale
- Influence médiatique : Les informations télévisées grand public et l'agenda politique ont un impact majeur sur les croyances conspirationnistes
- Mécanismes psychologiques : Recherche sur les fondements psychologiques de la propagation des théories conspirationnistes
- Faisabilité de la détection : Les méthodes d'apprentissage automatique peuvent détecter efficacement les théories conspirationnistes liées aux vaccins COVID-19
- Importance du choix du modèle : Les différences de performances entre les combinaisons de modèles et de classificateurs sont significatives
- Impact de la qualité des données : L'augmentation de la taille des données peut améliorer significativement les performances du modèle
- Perspectives d'attitudes sociales : Le nombre de commentaires pro-vaccin est inférieur au nombre de commentaires anti-vaccin
- Limitation géographique : Les données d'échantillons proviennent principalement d'Amérique du Nord, ne reflétant pas précisément les opinions des populations d'autres régions
- Échelle des données : Les données d'échantillons collectées manuellement ne sont pas suffisamment grandes pour représenter les théories conspirationnistes à l'échelle mondiale
- Absence d'informations utilisateur : Les informations utilisateur n'ont pas été collectées, empêchant l'analyse démographique par âge, etc.
- Subjectivité de l'annotation : Dans certains cas, il est difficile de juger de la véracité des commentaires
- Élargir l'échelle des données : Collecter des ensembles de données plus grands et plus diversifiés
- Support multilingue : Extension à d'autres langues et contextes culturels
- Analyse des profils utilisateur : Analyse plus approfondie combinant les informations démographiques des utilisateurs
- Système de surveillance en temps réel : Développement d'un système de détection et d'alerte des théories conspirationnistes en temps réel
- Importance du problème : Aborde le problème social important des théories conspirationnistes contre les vaccins COVID-19
- Comparaison suffisante des méthodes : Utilise deux approches technologiques différentes pour la vérification comparative
- Conception expérimentale raisonnable : Utilise la validation croisée 10 fois et plusieurs métriques d'évaluation
- Transparence des résultats : Fournit des valeurs de performance spécifiques et une analyse de cas
- Valeur sociale : Les résultats de la recherche ont une valeur de référence pour l'élaboration des politiques de santé publique
- Limitation de la taille de l'ensemble de données : 598 échantillons sont relativement petits, ce qui peut affecter la capacité de généralisation du modèle
- Biais géographique et culturel : Limité aux commentaires en anglais en Amérique du Nord, manquant de représentativité mondiale
- Qualité de l'annotation : L'annotation manuelle peut présenter une subjectivité, manquant d'évaluation de la cohérence entre annotateurs
- Innovation technologique limitée : Principalement l'application de modèles existants, manquant d'innovation méthodologique
- Analyse insuffisante en profondeur : Manque d'analyse plus approfondie des types de théories conspirationnistes, des mécanismes de propagation, etc.
- Contribution académique : Fournit des données de base et des méthodes pour la recherche en informatique sociale liée à COVID-19
- Valeur pratique : Peut fournir un support technologique pour la modération de contenu des plateformes de médias sociaux
- Référence politique : Fournit un soutien de données pour les départements de santé publique élaborant des stratégies anti-conspirationnistes
- Reproductibilité : Les auteurs s'engagent à fournir les données et le code sur GitHub, renforçant la reproductibilité de la recherche
- Surveillance des médias sociaux : Détection et marquage en temps réel du contenu conspirationniste lié aux vaccins
- Communication en santé publique : Évaluation de l'efficacité des campagnes de promotion des vaccins et des réactions du public
- Soutien à l'élaboration des politiques : Fourniture d'une analyse quantifiée des attitudes du public aux organismes gouvernementaux
- Base de recherche : Fourniture d'un ensemble de données de référence pour les recherches ultérieures sur la détection et l'analyse des théories conspirationnistes
L'article cite 46 références connexes, couvrant la psychologie des théories conspirationnistes, l'analyse des médias sociaux, le traitement du langage naturel, la santé publique et d'autres domaines, reflétant la nature interdisciplinaire de la recherche et la solidité des fondements théoriques.
Évaluation Globale : Il s'agit d'une recherche appliquée ciblant un problème social important qui, bien que relativement limitée en innovation technologique, possède une valeur sociale et une utilité pratique importantes. La méthode de recherche est raisonnable, la conception expérimentale est relativement complète, et les résultats ont une certaine valeur de référence. Les améliorations futures doivent porter sur l'échelle des données, la couverture géographique et l'innovation technologique.