Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
- ID Articolo: 2211.13003
- Titolo: Detecting Conspiracy Theory Against COVID-19 Vaccines
- Autori: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (University of Houston)
- Classificazione: cs.CY (Informatica e Società), cs.AI, cs.CL, cs.LG, cs.SI
- Data di Pubblicazione: 20 novembre 2022 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2211.13003
Fin dall'inizio dei test sui vaccini, i social media sono stati inondati di discorsi anti-vaccino e credenze cospirative. Con l'aumento dei casi di COVID-19, varie teorie cospirative si sono diffuse su piattaforme online e alcuni portali di notizie. Le teorie cospirative più popolari includono la trasmissione di COVID-19 tramite reti 5G, la diffusione del virus da parte del governo cinese come arma biologica, e altre che hanno inizialmente scatenato odio razziale. Sebbene alcune sfiducie abbiano avuto minori impatti sociali, altre hanno causato danni significativi. Ad esempio, la teoria cospiativa del 5G ha portato all'incendio di stazioni base 5G, mentre la credenza nella storia dell'arma biologica cinese ha promosso attacchi contro gli americani di origine asiatica. Un'altra teoria cospiativa popolare sostiene che Bill Gates diffonda COVID-19 attraverso il tracciamento di tutti tramite programmi di vaccinazione di massa. Questa credenza cospiativa ha generato problemi di sfiducia tra il pubblico generale e ha portato all'esitanza vaccinale. Questo studio mira a scoprire teorie cospirative contro i vaccini su piattaforme sociali. I ricercatori hanno condotto un'analisi del sentimento su 598 commenti campione unici relativi ai vaccini COVID-19, utilizzando due diversi modelli, BERT e Perspective API, per identificare il sentimento e la tossicità delle frasi nei confronti dei vaccini COVID-19.
Il problema centrale che questa ricerca affronta è come rilevare e identificare automaticamente i discorsi cospirativi contro i vaccini COVID-19 sui social media. Nello specifico include:
- Identificazione del sentimento anti-vaccino e dei punti di vista cospirativi
- Valutazione del grado di tossicità e aggressività dei commenti
- Comprensione della distribuzione degli atteggiamenti pubblici verso i vaccini
Questo problema ha un'importanza sociale significativa:
- Minaccia per la Salute Pubblica: Secondo i dati dell'OMS, a settembre 2022, 613 milioni di persone in tutto il mondo si erano infettate con COVID-19, con oltre 6,5 milioni di morti
- Distruzione Sociale: Le teorie cospirative hanno portato a veri e propri eventi violenti, come l'incendio di stazioni base 5G e attacchi contro gli americani di origine asiatica
- Esitanza Vaccinale: Le informazioni false hanno causato sfiducia pubblica nei vaccini, ostacolando i programmi di vaccinazione di massa
- Velocità di Diffusione dell'Informazione: La ricerca mostra che le notizie false si diffondono un milione di volte più velocemente delle notizie vere
- Complessità di Rilevamento: Gli utenti dei social media utilizzano emoji, termini unici e simboli per esprimere opinioni, aumentando la complessità della classificazione del testo
- Diversità della Struttura Linguistica: Le strutture delle frasi e i modi di esprimere sentimenti variano notevolmente tra le diverse lingue
- Difficoltà di Annotazione: In alcuni casi è difficile distinguere quali commenti siano validi e quali siano falsi
- Costruzione di un Dataset per il Rilevamento di Teorie Cospirative su COVID-19: Raccolta e annotazione di 598 commenti in inglese dai social media del Nord America
- Proposta di un Framework di Rilevamento Dual-Model: Combinazione del modello BERT e dell'API Google Perspective per l'analisi del sentimento e il rilevamento della tossicità
- Conduzione di Esperimenti Comparativi Completi: Valutazione delle prestazioni del modello utilizzando tre diversi classificatori (regressione logistica, XGBoost, Naive Bayes gaussiano)
- Fornitura di Risultati di Base per il Rilevamento di Teorie Cospirative: Fornisce prestazioni di base di riferimento per la ricerca successiva
- Input: Commenti di testo sui vaccini COVID-19 dai social media
- Output: Etichette di classificazione binaria (0: neutrale o a favore del vaccino, 1: contrario al vaccino/cospirazione)
- Output Aggiuntivo: Punteggi di tossicità, punteggi di aggressività e altre metriche di valutazione multidimensionali
- Raccolta dei Dati:
- Raccolta iniziale di 950 commenti utente
- Fonti: vari portali di notizie online e relative pagine Facebook
- Utilizzo di metodo di raccolta manuale
- Pulizia dei Dati:
- Rimozione di commenti duplicati e quasi duplicati
- Filtro dei commenti non in inglese
- Conservazione finale di 598 commenti campione
- Annotazione dei Dati:
- Lettura manuale e annotazione di tutti i commenti
- Etichette di classificazione binaria: 0 (neutrale/a favore) e 1 (contrario/cospirazione)
- Assicurazione della distribuzione equilibrata delle etichette
- Fasi di Preelaborazione:
- Rimozione di rumore e parole vuote
- Conversione a minuscole
- Correzione di abbreviazioni comuni (ad es. vac→vaccine, CVD→Covid)
- Scelta del Modello: BERT-Base, Uncased
- Parametri dell'Architettura:
- 12 strati transformer
- 768 unità nascoste
- 12 teste di attenzione
- 110 milioni di parametri
- Caratteristiche:
- Rappresentazione dell'encoder bidirezionale
- Utilizzo di embedding WordPiece, vocabolario di 30.000 parole
- Addestramento a livello di frase, estrazione di più informazioni dal contesto
- Funzionalità: Utilizzo della tecnologia di apprendimento automatico per identificare commenti abusivi
- Dimensioni di Rilevamento:
- Tossicità (Toxicity)
- Gravità (Severe)
- Attacco all'Identità (Identity Attack)
- Insulto (Insult)
- Bestemmia (Profanity)
- Minaccia (Threat)
- Contenuto Sessualmente Esplicito (Sexually Explicit)
- Flirtazione (Flirtation)
- Output: Punteggio 0-1 per ogni dimensione
Utilizzo di tre diversi classificatori per il confronto:
- Regressione Logistica (LR)
- XGBoost
- Naive Bayes Gaussiano (NB)
- Numero Totale di Campioni: 598 commenti
- Distribuzione delle Etichette: Distribuzione equilibrata (circa 50% a favore, 50% contrario)
- Copertura Geografica: Principalmente dal Nord America
- Lingua: Solo commenti in inglese
- Protezione della Privacy: Non include informazioni personali (nomi, posizioni, genere, ecc.)
- Accuratezza (Accuracy)
- Punteggio F1 (F1-Score)
- Precisione (Precision)
- Richiamo (Recall)
- Validazione Incrociata a 10 Fold: Assicura l'affidabilità e la capacità di generalizzazione dei risultati
- Divisione Training-Validazione: Valutazione delle prestazioni del modello
| Classificatore | Accuratezza | Punteggio F1 | Precisione | Richiamo |
|---|
| Regressione Logistica | 69% | 68% | 67% | 68% |
| XGBoost | 66% | 66% | 67% | 65% |
| Naive Bayes | 51% | 51% | 52% | 51% |
| Classificatore | Accuratezza | Punteggio F1 | Precisione | Richiamo |
|---|
| Regressione Logistica | 55% | 53% | 55% | 55% |
| XGBoost | 65% | 63% | 65% | 65% |
| Naive Bayes | 75% | 70% | 75% | 75% |
- Prestazioni Migliori: Google Perspective API + Naive Bayes Gaussiano raggiunge un'accuratezza del 75%
- Prestazioni BERT: La combinazione BERT + Regressione Logistica raggiunge un'accuratezza del 69%
- Impatto della Quantità di Dati: L'aumento dei dati da 400 a 598 ha migliorato le prestazioni di entrambi i modelli dell'8-9%
- Capacità di Rilevamento della Tossicità: L'API Perspective è in grado di identificare efficacemente il grado di abuso e il livello di tossicità dei commenti
L'articolo fornisce casi specifici di punteggi di tossicità, mostrando valutazioni multidimensionali di diversi tipi di commenti, fornendo intuizioni dirette per comprendere il comportamento del modello.
- Prevalenza: Circa 1/4 a 1/3 della popolazione del Nord America esprime punti di vista correlati alle teorie cospirative
- Correlati a COVID-19: Un sondaggio americano del 2020 ha mostrato che circa il 5% delle persone crede che COVID-19 sia stato pianificato in anticipo, il 20% crede che potrebbe essere vero
- Meccanismo di Diffusione: I social media influenzano più facilmente le opinioni delle persone rispetto ai metodi di comunicazione tradizionali
- Text Mining: È un metodo popolare per il rilevamento di teorie cospirative
- Deep Learning: Mostra buone prestazioni nel riconoscimento del contenuto semantico
- Strumenti di Analisi del Sentimento: Applicazioni di BERT e Perspective API nel rilevamento del sentimento e della tossicità
- Fattori Politici: L'agenda politica gioca un ruolo importante nell'esitanza vaccinale
- Influenza dei Media: Le notizie televisive mainstream e l'agenda politica hanno un impatto significativo sulle credenze cospirative
- Meccanismi Psicologici: Ricerca sulla base psicologica della diffusione delle teorie cospirative
- Fattibilità del Rilevamento: I metodi di apprendimento automatico possono rilevare efficacemente le teorie cospirative relative ai vaccini COVID-19
- Importanza della Scelta del Modello: Le differenze di prestazioni tra diverse combinazioni di modelli e classificatori sono significative
- Impatto della Qualità dei Dati: L'aumento della quantità di dati può migliorare significativamente le prestazioni del modello
- Intuizioni sull'Atteggiamento Sociale: Il numero di commenti a favore del vaccino è inferiore a quello dei commenti contrari
- Limitazione Geografica: I dati campione provengono principalmente dal Nord America, non possono riflettere accuratamente i pensieri di altre regioni
- Scala dei Dati: I dati campione raccolti manualmente non sono sufficientemente grandi per rappresentare teorie cospirative a livello globale
- Informazioni Utente Mancanti: Non sono state raccolte informazioni utente, non è possibile condurre analisi demografiche come l'età
- Soggettività dell'Annotazione: In alcuni casi è difficile determinare la veridicità dei commenti
- Espansione della Scala dei Dati: Raccolta di dataset più grandi e diversificati
- Supporto Multilingue: Estensione ad altre lingue e contesti culturali
- Analisi del Profilo Utente: Analisi più approfondita combinando informazioni demografiche degli utenti
- Sistema di Monitoraggio in Tempo Reale: Sviluppo di un sistema di rilevamento e avviso di teorie cospirative in tempo reale
- Importanza del Problema: Affronta l'importante questione sociale delle teorie cospirative sui vaccini COVID-19
- Confronto Metodologico Completo: Utilizza due diversi percorsi tecnici per il confronto e la verifica
- Progettazione Sperimentale Ragionevole: Utilizza validazione incrociata a 10 fold e metriche di valutazione multiple
- Trasparenza dei Risultati: Fornisce valori di prestazione specifici e analisi di casi
- Valore Sociale: I risultati della ricerca hanno valore di riferimento per la formulazione di politiche di sanità pubblica
- Limitazione della Scala del Dataset: 598 campioni sono relativamente piccoli, potrebbero influenzare la capacità di generalizzazione del modello
- Distorsione Geografica e Culturale: Limitato ai commenti in inglese del Nord America, manca la rappresentatività globale
- Qualità dell'Annotazione: L'annotazione manuale potrebbe avere soggettività, manca la valutazione della concordanza tra annotatori
- Innovazione Tecnica Limitata: Principalmente applicazione di modelli esistenti, manca innovazione metodologica
- Analisi Insufficiente: Manca un'analisi più approfondita dei tipi di teorie cospirative e dei meccanismi di diffusione
- Contributo Accademico: Fornisce dati di base e metodi per la ricerca computazionale sulle scienze sociali correlate a COVID-19
- Valore Pratico: Può fornire supporto tecnico per la moderazione dei contenuti delle piattaforme di social media
- Riferimento Politico: Fornisce supporto dati per i dipartimenti di sanità pubblica nella formulazione di strategie anti-cospirazione
- Riproducibilità: Gli autori si impegnano a fornire dati e codice su GitHub, aumentando la riproducibilità della ricerca
- Monitoraggio dei Social Media: Rilevamento e contrassegno in tempo reale di contenuti cospirativi relativi ai vaccini
- Comunicazione di Sanità Pubblica: Valutazione dell'efficacia delle campagne di promozione dei vaccini e delle reazioni del pubblico
- Supporto alla Formulazione di Politiche: Fornisce analisi quantitativa degli atteggiamenti pubblici ai dipartimenti governativi
- Base di Ricerca: Fornisce dataset di base per la ricerca successiva sul rilevamento e l'analisi di teorie cospirative
L'articolo cita 47 riferimenti correlati, che coprono psicologia delle teorie cospirative, analisi dei social media, elaborazione del linguaggio naturale, sanità pubblica e altri campi, riflettendo la natura interdisciplinare della ricerca e la solidità della base teorica.
Valutazione Complessiva: Questo è uno studio applicativo su un importante problema sociale che, sebbene relativamente limitato in termini di innovazione tecnica, ha un significativo valore sociale e pratico. Il metodo di ricerca è ragionevole, la progettazione sperimentale è relativamente completa e i risultati hanno un certo valore di riferimento. In futuro sarà necessario un ulteriore miglioramento nella scala dei dati, nella copertura geografica e nell'innovazione tecnica.