Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
- Paper-ID: 2211.13003
- Titel: Detecting Conspiracy Theory Against COVID-19 Vaccines
- Autoren: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (University of Houston)
- Klassifizierung: cs.CY (Computers and Society), cs.AI, cs.CL, cs.LG, cs.SI
- Veröffentlichungsdatum: 20. November 2022 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2211.13003
Seit Beginn der Impfstoffversuche sind soziale Medien mit impfstoffkritischen Äußerungen und Verschwörungstheorien überschwemmt. Mit zunehmenden COVID-19-Fallzahlen verbreiten Online-Plattformen und einige Nachrichtenportale verschiedene Verschwörungstheorien. Die beliebtesten Verschwörungstheorien umfassen die Behauptung, dass 5G-Netzwerke COVID-19 verbreiten, oder dass die chinesische Regierung das Virus als Biowaffe verbreitet – Narrative, die ursprünglich rassistische Hassgefühle auslösten. Während gewisses Misstrauen gesellschaftlich weniger schädlich ist, verursachen andere Verschwörungstheorien erhebliche Schäden. Beispielsweise führte die 5G-Verschwörungstheorie zur Zerstörung von 5G-Basisstationen, und der Glaube an die chinesische Biowaffen-Theorie förderte Anschläge auf asiatisch-amerikanische Personen. Eine weitere verbreitete Verschwörungstheorie besagt, dass Bill Gates durch die Einleitung von Massenimpfkampagnen jeden überwachen und COVID-19 verbreiten möchte. Solche Verschwörungstheorien erzeugen Misstrauen in der Bevölkerung und führen zu Impfskepsis. Diese Studie zielt darauf ab, Verschwörungstheorien gegen Impfstoffe auf sozialen Plattformen zu entdecken. Die Forscher führten eine Sentimentanalyse an 598 einzigartigen Beispielkommentaren zu COVID-19-Impfstoffen durch und verwendeten zwei verschiedene Modelle – BERT und die Perspective API – um die Sentimentalität und Toxizität von Sätzen gegenüber COVID-19-Impfstoffen zu identifizieren.
Das Kernproblem dieser Studie ist die automatische Erkennung und Identifikation von Verschwörungstheorie-Äußerungen gegen COVID-19-Impfstoffe in sozialen Medien. Dies umfasst konkret:
- Identifikation impfstoffkritischer Stimmungen und Verschwörungstheorien-Standpunkte
- Bewertung der Toxizität und Aggressivität von Kommentaren
- Verständnis der Verteilung öffentlicher Haltungen gegenüber Impfstoffen
Dieses Problem hat wichtige gesellschaftliche Auswirkungen:
- Bedrohung der öffentlichen Gesundheit: Nach WHO-Daten waren bis September 2022 weltweit 613 Millionen Menschen mit COVID-19 infiziert, über 6,5 Millionen starben
- Gesellschaftliche Zerstörung: Verschwörungstheorien führten zu tatsächlichen Gewalttaten, wie der Zerstörung von 5G-Basisstationen und Angriffen auf asiatisch-amerikanische Personen
- Impfskepsis: Falschinformationen erzeugen öffentliches Misstrauen gegenüber Impfstoffen und behindern Massenimpfkampagnen
- Geschwindigkeit der Informationsverbreitung: Forschungen zeigen, dass Falschnachrichten eine Million Mal schneller verbreitet werden als echte Nachrichten
- Erkennungskomplexität: Nutzer sozialer Medien verwenden Emojis, einzigartige Begriffe und Symbole, was die Textkategorisierung erschwert
- Sprachliche Vielfalt: Satzstrukturen und Sentimentausdrücke unterscheiden sich zwischen verschiedenen Sprachen erheblich
- Annotationsschwierigkeiten: In einigen Fällen ist es schwierig zu unterscheiden, welche Kommentare gültig und welche falsch sind
- Konstruktion eines Datensatzes zur Erkennung von COVID-19-Impfstoff-Verschwörungstheorien: Sammlung und Annotation von 598 englischsprachigen Kommentaren aus sozialen Medien in Nordamerika
- Vorschlag eines Dual-Modell-Erkennungsrahmens: Kombination von BERT-Modell und Google Perspective API für Sentimentanalyse und Toxizitätserkennung
- Durchführung umfassender Vergleichsexperimente: Bewertung der Modellleistung mit drei verschiedenen Klassifikatoren (logistische Regression, XGBoost, Gaußscher naiver Bayes)
- Bereitstellung von Benchmark-Ergebnissen für die Verschwörungstheorie-Erkennung: Referenzleistung für nachfolgende Forschung
- Eingabe: Textkommentare zu COVID-19-Impfstoffen aus sozialen Medien
- Ausgabe: Binäre Klassifizierungslabels (0: neutral oder impfstoffbefürwortend, 1: impfstoffkritisch/Verschwörungstheorie)
- Zusätzliche Ausgabe: Toxizitätswerte, Aggressivitätswerte und weitere multidimensionale Bewertungsmetriken
- Datenerfassung:
- Anfängliche Erfassung von 950 Benutzerkommentaren
- Quellen: verschiedene Online-Nachrichtenportale und deren Facebook-Seiten
- Manuelle Erfassungsmethode
- Datenbereinigung:
- Entfernung von doppelten und ähnlichen Kommentaren
- Filterung nicht-englischer Kommentare
- Endgültige Beibehaltung von 598 Beispielkommentaren
- Datenannotation:
- Manuelle Lektüre und Annotation aller Kommentare
- Binäre Labels: 0 (neutral/befürwortend) und 1 (kritisch/Verschwörungstheorie)
- Sicherung ausgewogener Labelverteilung
- Vorverarbeitungsschritte:
- Entfernung von Rauschen und Stoppwörtern
- Umwandlung in Kleinbuchstaben
- Korrektur häufiger Abkürzungen (z.B. vac→vaccine, CVD→Covid)
- Modellwahl: BERT-Base, Uncased
- Architekturparameter:
- 12 Transformer-Schichten
- 768 verborgene Einheiten
- 12 Aufmerksamkeitsköpfe
- 110 Millionen Parameter
- Merkmale:
- Bidirektionale Encoder-Repräsentation
- Verwendung von WordPiece-Embeddings mit Vokabulgröße von 30.000
- Satzebenen-Vektortraining zur Extraktion von mehr Kontextinformationen
- Funktion: Verwendung von Machine-Learning-Techniken zur Identifikation missbräuchlicher Kommentare
- Erkennungsdimensionen:
- Toxizität (Toxicity)
- Schweregrad (Severe)
- Identitätsangriff (Identity Attack)
- Beleidigung (Insult)
- Obszönität (Profanity)
- Bedrohung (Threat)
- Sexuelle Explizitheit (Sexually Explicit)
- Flirtation (Flirtation)
- Ausgabe: Bewertung von 0-1 für jede Dimension
Verwendung von drei verschiedenen Klassifikatoren für Vergleiche:
- Logistische Regression (LR)
- XGBoost
- Gaußscher naiver Bayes (NB)
- Gesamtzahl der Stichproben: 598 Kommentare
- Labelverteilung: Ausgewogene Verteilung (ca. 50% befürwortend, 50% kritisch)
- Geografischer Umfang: Hauptsächlich aus Nordamerika
- Sprache: Nur englischsprachige Kommentare
- Datenschutz: Keine persönlichen Informationen (Namen, Standort, Geschlecht usw.)
- Genauigkeit (Accuracy)
- F1-Score
- Präzision (Precision)
- Recall
- 10-fache Kreuzvalidierung: Gewährleistung der Zuverlässigkeit und Generalisierungsfähigkeit der Ergebnisse
- Trainings-Validierungs-Aufteilung: Bewertung der Modellleistung
| Klassifikator | Genauigkeit | F1-Score | Präzision | Recall |
|---|
| Logistische Regression | 69% | 68% | 67% | 68% |
| XGBoost | 66% | 66% | 67% | 65% |
| Naiver Bayes | 51% | 51% | 52% | 51% |
| Klassifikator | Genauigkeit | F1-Score | Präzision | Recall |
|---|
| Logistische Regression | 55% | 53% | 55% | 55% |
| XGBoost | 65% | 63% | 65% | 65% |
| Naiver Bayes | 75% | 70% | 75% | 75% |
- Beste Leistung: Google Perspective API + Gaußscher naiver Bayes erreichte 75% Genauigkeit
- BERT-Leistung: BERT + logistische Regression-Kombination erreichte 69% Genauigkeit
- Datenmenge-Auswirkung: Erhöhung der Datenmenge von 400 auf 598 verbesserte die Leistung beider Modelle um 8-9%
- Toxizitätserkennung: Die Perspective API kann das Missbrauchsniveau und die Toxizität von Kommentaren effektiv identifizieren
Das Paper bietet konkrete Beispiele für Toxizitätsbewertungen, die multidimensionale Bewertungen verschiedener Kommentartypen zeigen und intuitive Einblicke in das Modellverhalten bieten.
- Verbreitung: Etwa 1/4 bis 1/3 der nordamerikanischen Bevölkerung äußert verschwörungstheoretische Ansichten
- COVID-19-bezogen: Eine US-Umfrage von 2020 zeigte, dass etwa 5% der Menschen glauben, COVID-19 sei geplant, 20% halten es für möglich
- Verbreitungsmechanismus: Soziale Medien beeinflussen Meinungen leichter als traditionelle Kommunikationsmittel
- Text Mining: Beliebte Methode zur Erkennung von Verschwörungstheorien
- Deep Learning: Zeigt gute Leistung bei der Erkennung semantischer Inhalte
- Sentimentanalyse-Tools: Anwendung von BERT und Perspective API bei Sentiment- und Toxizitätserkennung
- Politische Faktoren: Politische Agenden spielen eine wichtige Rolle bei Impfskepsis
- Medieneinfluss: Mainstream-Fernsehnachrichten und politische Agenden haben großen Einfluss auf Verschwörungstheorien-Überzeugungen
- Psychologische Mechanismen: Psychologische Grundlagen der Verschwörungstheorie-Verbreitung
- Erkennungsmachbarkeit: Machine-Learning-Methoden können COVID-19-Impfstoff-Verschwörungstheorien effektiv erkennen
- Bedeutung der Modellwahl: Unterschiedliche Modell- und Klassifikator-Kombinationen zeigen signifikante Leistungsunterschiede
- Auswirkung der Datenqualität: Erhöhung der Datenmenge verbessert die Modellleistung erheblich
- Gesellschaftliche Haltungs-Einblicke: Die Anzahl impfstoffbefürwortender Kommentare ist geringer als impfstoffkritischer Kommentare
- Geografische Einschränkung: Beispieldaten stammen hauptsächlich aus Nordamerika und können nicht genau die Ansichten anderer Regionen widerspiegeln
- Datengröße: Manuell erfasste Stichprobendaten sind nicht groß genug, um globale Verschwörungstheorien zu repräsentieren
- Fehlende Benutzerinformationen: Keine Erfassung von Benutzerinformationen, keine demografische Analyse nach Alter usw.
- Annotationssubjektivität: In einigen Fällen ist es schwierig, die Authentizität von Kommentaren zu beurteilen
- Datenskalierung: Erfassung größerer und vielfältigerer Datensätze
- Mehrsprachige Unterstützung: Erweiterung auf andere Sprachen und kulturelle Kontexte
- Benutzerprofilanalyse: Tiefere Analyse unter Einbeziehung demografischer Benutzerinformationen
- Echtzeit-Überwachungssystem: Entwicklung eines Echtzeit-Erkennungs- und Warnsystems für Verschwörungstheorien
- Problemrelevanz: Adressierung des wichtigen gesellschaftlichen Problems von COVID-19-Impfstoff-Verschwörungstheorien
- Umfassender Methodenvergleich: Vergleichende Validierung mit zwei verschiedenen technischen Ansätzen
- Angemessenes Experimentdesign: Verwendung von 10-facher Kreuzvalidierung und mehreren Bewertungsmetriken
- Transparente Ergebnisse: Bereitstellung konkreter Leistungswerte und Fallstudien
- Gesellschaftlicher Wert: Forschungsergebnisse sind relevant für die Formulierung von Maßnahmen im Bereich der öffentlichen Gesundheit
- Datensatz-Größenlimitation: 598 Stichproben sind relativ klein und können die Generalisierungsfähigkeit des Modells beeinträchtigen
- Geografische und kulturelle Verzerrung: Beschränkung auf englischsprachige Kommentare aus Nordamerika, fehlende globale Repräsentativität
- Annotationsqualität: Manuelle Annotationen können subjektiv sein, fehlende Bewertung der Übereinstimmung zwischen Annotatoren
- Begrenzte technische Innovation: Hauptsächlich Anwendung bestehender Modelle, begrenzte methodologische Innovationen
- Unzureichende Tiefenanalyse: Mangelnde tiefere Analyse von Verschwörungstheorie-Typen und Verbreitungsmechanismen
- Akademischer Beitrag: Bereitstellung grundlegender Daten und Methoden für COVID-19-bezogene rechnergestützte Sozialwissenschaften
- Praktischer Wert: Kann technische Unterstützung für Content-Moderation auf sozialen Medien bieten
- Politische Referenz: Bereitstellung von Datenstütze für öffentliche Gesundheitsbehörden zur Formulierung von Anti-Verschwörungstheorie-Strategien
- Reproduzierbarkeit: Autoren verpflichten sich, Daten und Code auf GitHub bereitzustellen, was die Reproduzierbarkeit der Forschung erhöht
- Social-Media-Überwachung: Echtzeiterkennung und Kennzeichnung von impfstoffbezogenen Verschwörungstheorie-Inhalten
- Öffentliche Gesundheitskommunikation: Bewertung der Wirksamkeit von Impfstoff-Kampagnen und öffentlichen Reaktionen
- Politische Entscheidungsfindung: Bereitstellung quantitativer Analysen öffentlicher Haltungen für Regierungsbehörden
- Forschungsgrundlage: Bereitstellung von Benchmark-Datensätzen für nachfolgende Verschwörungstheorie-Erkennungs- und Analysestudien
Das Paper zitiert 46 relevante Literaturquellen, die Psychologie von Verschwörungstheorien, Social-Media-Analyse, Verarbeitung natürlicher Sprache, öffentliche Gesundheit und andere Bereiche abdecken, was die interdisziplinäre Natur der Forschung und die Solidität der theoretischen Grundlagen widerspiegelt.
Gesamtbewertung: Dies ist eine anwendungsorientierte Forschung zu einem wichtigen gesellschaftlichen Problem. Obwohl die technische Innovation relativ begrenzt ist, hat sie wichtigen gesellschaftlichen Wert und praktische Bedeutung. Die Forschungsmethode ist angemessen und das Experimentdesign relativ vollständig, mit Ergebnissen von gewissem Referenzwert. Zukünftige Verbesserungen sind in den Bereichen Datengröße, geografische Abdeckung und technische Innovation erforderlich.