2025-11-12T03:37:09.269038

Detecting Conspiracy Theory Against COVID-19 Vaccines

Amin, Madanu, Lavu et al.
Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
academic

COVID-19 टीकों के विरुद्ध षड्यंत्र सिद्धांत का पता लगाना

मूल जानकारी

  • पेपर ID: 2211.13003
  • शीर्षक: COVID-19 टीकों के विरुद्ध षड्यंत्र सिद्धांत का पता लगाना
  • लेखक: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (ह्यूस्टन विश्वविद्यालय)
  • वर्गीकरण: cs.CY (कंप्यूटर और समाज), cs.AI, cs.CL, cs.LG, cs.SI
  • प्रकाशन तिथि: 20 नवंबर 2022 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2211.13003

सारांश

टीका परीक्षण शुरू होने के बाद से, सोशल मीडिया विरोधी-टीकाकरण भाषण और षड्यंत्र सिद्धांत विश्वास से भरा हुआ है। COVID-19 मामलों की संख्या बढ़ने के साथ, ऑनलाइन प्लेटफॉर्म और कुछ समाचार पोर्टल विभिन्न षड्यंत्र सिद्धांत प्रसारित कर रहे हैं। सबसे लोकप्रिय षड्यंत्र सिद्धांतों में 5G नेटवर्क द्वारा COVID-19 का प्रसार, चीनी सरकार द्वारा जैविक हथियार के रूप में वायरस का प्रसार आदि शामिल हैं, जिन्होंने शुरुआत में नस्लीय घृणा को जन्म दिया। हालांकि कुछ अविश्वास का समाज पर कम प्रभाव पड़ता है, अन्य ने भारी नुकसान पहुंचाया है। उदाहरण के लिए, 5G षड्यंत्र सिद्धांत ने 5G बेस स्टेशनों को जला दिया, और चीन के जैविक हथियार की कहानी में विश्वास ने एशियाई अमेरिकियों पर हमलों को बढ़ावा दिया। एक अन्य लोकप्रिय षड्यंत्र सिद्धांत यह है कि बिल गेट्स बड़े पैमाने पर टीकाकरण कार्यक्रम शुरू करके सभी को ट्रैक करके COVID-19 का प्रसार करते हैं। यह षड्यंत्र सिद्धांत विश्वास आम जनता में अविश्वास की समस्या पैदा करता है और टीकाकरण में संकोच का कारण बनता है। यह अनुसंधान सोशल प्लेटफॉर्म पर टीकों के विरुद्ध षड्यंत्र सिद्धांत खोजने का लक्ष्य रखता है। शोधकर्ताओं ने COVID-19 टीकों से संबंधित 598 अद्वितीय नमूना टिप्पणियों पर भावना विश्लेषण किया, BERT और Perspective API दो अलग-अलग मॉडल का उपयोग करके वाक्यों की COVID-19 टीकों के प्रति भावना और विषाक्तता की पहचान की।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या यह है कि सोशल मीडिया पर COVID-19 टीकों के विरुद्ध षड्यंत्र सिद्धांत भाषण को स्वचालित रूप से कैसे पहचाना और पहचाना जाए। विशेष रूप से शामिल हैं:

  1. विरोधी-टीकाकरण भावना और षड्यंत्र सिद्धांत दृष्टिकोण की पहचान
  2. टिप्पणियों की विषाक्तता और आक्रामकता की डिग्री का मूल्यांकन
  3. टीकों के प्रति जनता के दृष्टिकोण वितरण को समझना

समस्या की महत्ता

इस समस्या का महत्वपूर्ण सामाजिक महत्व है:

  1. सार्वजनिक स्वास्थ्य खतरा: WHO डेटा के अनुसार, सितंबर 2022 तक, विश्व स्तर पर 6.13 अरब लोग COVID-19 से संक्रमित हुए हैं, और 6.5 मिलियन से अधिक लोगों की मृत्यु हुई है
  2. सामाजिक विनाश: षड्यंत्र सिद्धांत वास्तविक हिंसक घटनाओं का कारण बनते हैं, जैसे 5G बेस स्टेशनों को जला दिया जाना, एशियाई अमेरिकियों पर हमले
  3. टीकाकरण में संकोच: झूठी जानकारी टीकों के प्रति जनता के अविश्वास का कारण बनती है, बड़े पैमाने पर टीकाकरण कार्यक्रमों में बाधा डालती है
  4. सूचना प्रसार की गति: अनुसंधान से पता चलता है कि नकली समाचार वास्तविक समाचार की तुलना में 1 मिलियन गुना तेजी से फैलते हैं

मौजूदा तरीकों की सीमाएं

  1. पहचान की जटिलता: सोशल मीडिया उपयोगकर्ता इमोजी, अद्वितीय शब्दावली और प्रतीकों का उपयोग करके विचार व्यक्त करते हैं, जो पाठ वर्गीकरण की जटिलता को बढ़ाता है
  2. भाषा संरचना विविधता: विभिन्न भाषाओं में वाक्य संरचना और भावना अभिव्यक्ति के तरीके बहुत भिन्न होते हैं
  3. लेबलिंग कठिनाई: कुछ मामलों में यह अलग करना मुश्किल होता है कि कौन सी टिप्पणियां वैध हैं और कौन सी नकली हैं

मुख्य योगदान

  1. COVID-19 टीका षड्यंत्र सिद्धांत पहचान डेटासेट का निर्माण: उत्तरी अमेरिका क्षेत्र के सोशल मीडिया से 598 अंग्रेजी टिप्पणियों को एकत्र और लेबल किया गया
  2. दोहरे-मॉडल पहचान ढांचा प्रस्तावित: भावना विश्लेषण और विषाक्तता पहचान के लिए BERT मॉडल और Google Perspective API को जोड़ा गया
  3. व्यापक तुलनात्मक प्रयोग आयोजित: तीन अलग-अलग वर्गीकारकों (लॉजिस्टिक रिग्रेशन, XGBoost, गाऊसी नैवे बेयस) का उपयोग करके मॉडल प्रदर्शन का मूल्यांकन किया गया
  4. षड्यंत्र सिद्धांत पहचान के लिए बेंचमार्क परिणाम प्रदान: बाद के अनुसंधान के लिए संदर्भ योग्य बेसलाइन प्रदर्शन प्रदान किया गया

विधि विवरण

कार्य परिभाषा

  • इनपुट: सोशल मीडिया पर COVID-19 टीकों के बारे में पाठ टिप्पणियां
  • आउटपुट: द्विआधारी वर्गीकरण लेबल (0: तटस्थ या टीका समर्थन, 1: टीका विरोध/षड्यंत्र सिद्धांत)
  • अतिरिक्त आउटपुट: विषाक्तता स्कोर, आक्रामकता स्कोर आदि बहु-आयामी मूल्यांकन मेट्रिक्स

डेटा संग्रह और पूर्व-प्रसंस्करण

  1. डेटा संग्रह:
    • प्रारंभिक रूप से 950 उपयोगकर्ता टिप्पणियां एकत्र की गईं
    • स्रोत: विभिन्न ऑनलाइन समाचार पोर्टल और उनके Facebook पृष्ठ
    • मानव संग्रह विधि अपनाई गई
  2. डेटा सफाई:
    • डुप्लिकेट और लगभग डुप्लिकेट टिप्पणियों को हटाया गया
    • गैर-अंग्रेजी टिप्पणियों को फ़िल्टर किया गया
    • अंतिम रूप से 598 नमूना टिप्पणियां बनी रहीं
  3. डेटा लेबलिंग:
    • सभी टिप्पणियों को मानव द्वारा पढ़ा और लेबल किया गया
    • द्विआधारी लेबल: 0 (तटस्थ/समर्थन) और 1 (विरोध/षड्यंत्र सिद्धांत)
    • लेबल वितरण संतुलन सुनिश्चित किया गया
  4. पूर्व-प्रसंस्करण चरण:
    • शोर और स्टॉप शब्दों को हटाया गया
    • लोअरकेस में परिवर्तित किया गया
    • सामान्य संक्षिप्त रूपों को ठीक किया गया (जैसे vac→vaccine, CVD→Covid)

मॉडल आर्किटेक्चर

BERT मॉडल

  • मॉडल चयन: BERT-Base, Uncased
  • आर्किटेक्चर पैरामीटर:
    • 12 ट्रांसफॉर्मर परतें
    • 768 छिपी हुई इकाइयां
    • 12 ध्यान सिर
    • 1.1 अरब पैरामीटर
  • विशेषताएं:
    • द्विदिशात्मक एनकोडर प्रतिनिधित्व
    • WordPiece एम्बेडिंग का उपयोग, शब्दावली आकार 30,000
    • वाक्य-स्तरीय वेक्टर प्रशिक्षण, संदर्भ से अधिक जानकारी निकालना

Google Perspective API

  • कार्य: दुर्व्यवहार टिप्पणियों की पहचान के लिए मशीन लर्निंग तकनीक का उपयोग
  • पहचान आयाम:
    • विषाक्तता (Toxicity)
    • गंभीरता (Severe)
    • पहचान हमला (Identity Attack)
    • अपमान (Insult)
    • अपवित्रता (Profanity)
    • धमकी (Threat)
    • यौन स्पष्टता (Sexually Explicit)
    • फ्लर्टिंग (Flirtation)
  • आउटपुट: प्रत्येक आयाम के लिए 0-1 स्कोर

वर्गीकारक सेटअप

तुलना के लिए तीन अलग-अलग वर्गीकारकों का उपयोग:

  1. लॉजिस्टिक रिग्रेशन (LR)
  2. XGBoost
  3. गाऊसी नैवे बेयस (NB)

प्रयोगात्मक सेटअप

डेटासेट विशेषताएं

  • कुल नमूना संख्या: 598 टिप्पणियां
  • लेबल वितरण: संतुलित वितरण (लगभग 50% समर्थन, 50% विरोध)
  • भौगोलिक सीमा: मुख्य रूप से उत्तरी अमेरिका क्षेत्र से
  • भाषा: केवल अंग्रेजी टिप्पणियां
  • गोपनीयता सुरक्षा: व्यक्तिगत जानकारी (नाम, स्थान, लिंग आदि) शामिल नहीं

मूल्यांकन मेट्रिक्स

  • सटीकता (Accuracy)
  • F1 स्कोर (F1-Score)
  • परिशुद्धता (Precision)
  • रिकॉल (Recall)

सत्यापन विधि

  • 10-गुना क्रॉस-सत्यापन: परिणामों की विश्वसनीयता और सामान्यीकरण क्षमता सुनिश्चित करना
  • प्रशिक्षण-सत्यापन सेट विभाजन: मॉडल प्रदर्शन का मूल्यांकन

प्रयोगात्मक परिणाम

मुख्य परिणाम तुलना

BERT मॉडल प्रदर्शन

वर्गीकारकसटीकताF1 स्कोरपरिशुद्धतारिकॉल
लॉजिस्टिक रिग्रेशन69%68%67%68%
XGBoost66%66%67%65%
नैवे बेयस51%51%52%51%

Perspective API प्रदर्शन

वर्गीकारकसटीकताF1 स्कोरपरिशुद्धतारिकॉल
लॉजिस्टिक रिग्रेशन55%53%55%55%
XGBoost65%63%65%65%
नैवे बेयस75%70%75%75%

मुख्य निष्कर्ष

  1. सर्वोत्तम प्रदर्शन: Google Perspective API + गाऊसी नैवे बेयस 75% की सटीकता प्राप्त करता है
  2. BERT प्रदर्शन: BERT + लॉजिस्टिक रिग्रेशन संयोजन 69% की सटीकता प्राप्त करता है
  3. डेटा मात्रा प्रभाव: डेटा मात्रा को 400 से 598 तक बढ़ाने के बाद, दोनों मॉडलों का प्रदर्शन 8-9% में सुधार हुआ
  4. विषाक्तता पहचान क्षमता: Perspective API टिप्पणियों के दुर्व्यवहार की डिग्री और विषाक्तता स्तर की प्रभावी रूप से पहचान कर सकता है

Perspective API विषाक्तता स्कोर उदाहरण

पेपर विभिन्न प्रकार की टिप्पणियों के बहु-आयामी स्कोरिंग के ठोस उदाहरण प्रदान करता है, जो मॉडल व्यवहार को समझने के लिए सहज अंतर्दृष्टि प्रदान करता है।

संबंधित कार्य

षड्यंत्र सिद्धांत अनुसंधान की वर्तमान स्थिति

  1. लोकप्रियता: उत्तरी अमेरिका में लगभग 1/4 से 1/3 जनसंख्या षड्यंत्र सिद्धांत से संबंधित विचार व्यक्त करती है
  2. COVID-19 संबंधित: 2020 अमेरिकी सर्वेक्षण से पता चलता है कि लगभग 5% लोग मानते हैं कि COVID-19 पूर्व-नियोजित है, 20% मानते हैं कि यह संभवतः सच है
  3. प्रसार तंत्र: सोशल मीडिया पारंपरिक संचार तरीकों की तुलना में लोगों के विचारों को प्रभावित करने के लिए अधिक सक्षम है

तकनीकी तरीके

  1. पाठ खनन: षड्यंत्र सिद्धांत का पता लगाने का एक लोकप्रिय तरीका है
  2. गहन शिक्षा: शब्दार्थ सामग्री पहचान में अच्छा प्रदर्शन करता है
  3. भावना विश्लेषण उपकरण: BERT और Perspective API का भावना, विषाक्तता पहचान में अनुप्रयोग

सामाजिक प्रभाव अनुसंधान

  1. राजनीतिक कारक: राजनीतिक एजेंडा टीकाकरण में संकोच में महत्वपूर्ण भूमिका निभाता है
  2. मीडिया प्रभाव: मुख्यधारा के टेलीविजन समाचार और राजनीतिक एजेंडा षड्यंत्र सिद्धांत विश्वास पर महत्वपूर्ण प्रभाव डालते हैं
  3. मनोवैज्ञानिक तंत्र: षड्यंत्र सिद्धांत प्रसार के मनोवैज्ञानिक आधार अनुसंधान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. पहचान की व्यवहार्यता: मशीन लर्निंग विधियों का उपयोग करके COVID-19 टीकों से संबंधित षड्यंत्र सिद्धांत को प्रभावी रूप से पहचाना जा सकता है
  2. मॉडल चयन की महत्ता: विभिन्न मॉडल और वर्गीकारक संयोजनों का प्रदर्शन महत्वपूर्ण रूप से भिन्न होता है
  3. डेटा गुणवत्ता प्रभाव: डेटा मात्रा में वृद्धि मॉडल प्रदर्शन में महत्वपूर्ण सुधार कर सकती है
  4. सामाजिक दृष्टिकोण अंतर्दृष्टि: टीका समर्थन टिप्पणियों की संख्या टीका विरोध टिप्पणियों से कम है

सीमाएं

  1. भौगोलिक सीमा: नमूना डेटा मुख्य रूप से उत्तरी अमेरिका क्षेत्र से है, अन्य क्षेत्रों की जनसंख्या के विचारों को सटीक रूप से प्रतिबिंबित नहीं कर सकता
  2. डेटा पैमाना: मैनुअल रूप से एकत्र किए गए नमूना डेटा काफी बड़े नहीं हैं, वैश्विक स्तर पर षड्यंत्र सिद्धांत का प्रतिनिधित्व नहीं कर सकते
  3. उपयोगकर्ता जानकारी की कमी: उपयोगकर्ता जानकारी एकत्र नहीं की गई, आयु आदि जनसांख्यिकीय विश्लेषण नहीं कर सकते
  4. लेबलिंग व्यक्तिपरकता: कुछ मामलों में टिप्पणी की सत्यता का निर्णय करना मुश्किल होता है

भविष्य की दिशा

  1. डेटा पैमाना विस्तार: बड़े पैमाने पर, अधिक विविध डेटासेट एकत्र करना
  2. बहुभाषी समर्थन: अन्य भाषाओं और सांस्कृतिक पृष्ठभूमि तक विस्तार
  3. उपयोगकर्ता प्रोफाइल विश्लेषण: अधिक गहन विश्लेषण के लिए उपयोगकर्ता जनसांख्यिकीय जानकारी को जोड़ना
  4. वास्तविक समय निगरानी प्रणाली: वास्तविक समय षड्यंत्र सिद्धांत पहचान और चेतावनी प्रणाली विकसित करना

गहन मूल्यांकन

शक्तियां

  1. समस्या महत्ता: COVID-19 टीका षड्यंत्र सिद्धांत इस महत्वपूर्ण सामाजिक समस्या को संबोधित करता है
  2. विधि तुलना पूर्ण: दो अलग-अलग तकनीकी मार्गों का उपयोग करके तुलनात्मक सत्यापन
  3. प्रयोगात्मक डिजाइन तर्कसंगत: 10-गुना क्रॉस-सत्यापन का उपयोग, कई मूल्यांकन मेट्रिक्स
  4. परिणाम पारदर्शिता: विशिष्ट प्रदर्शन संख्या और केस विश्लेषण प्रदान किए गए
  5. सामाजिक मूल्य: अनुसंधान परिणाम सार्वजनिक स्वास्थ्य नीति निर्माण के लिए संदर्भ मूल्य रखते हैं

कमियां

  1. डेटासेट पैमाना सीमा: 598 नमूने अपेक्षाकृत छोटे हैं, मॉडल की सामान्यीकरण क्षमता को प्रभावित कर सकते हैं
  2. भौगोलिक और सांस्कृतिक पूर्वाग्रह: केवल उत्तरी अमेरिका क्षेत्र की अंग्रेजी टिप्पणियों तक सीमित, वैश्विक प्रतिनिधित्व की कमी
  3. लेबलिंग गुणवत्ता: मानव लेबलिंग में व्यक्तिपरकता हो सकती है, लेबलर के बीच सहमति मूल्यांकन की कमी
  4. तकनीकी नवाचार सीमित: मुख्य रूप से मौजूदा मॉडलों का अनुप्रयोग, पद्धति पर नवाचार की कमी
  5. गहन विश्लेषण अपर्याप्त: षड्यंत्र सिद्धांत के प्रकार, प्रसार तंत्र आदि की गहन विश्लेषण की कमी

प्रभाव

  1. शैक्षणिक योगदान: COVID-19 संबंधित कम्प्यूटेशनल सामाजिक विज्ञान अनुसंधान के लिए आधार डेटा और विधि प्रदान करता है
  2. व्यावहारिक मूल्य: सोशल मीडिया प्लेटफॉर्म के सामग्री समीक्षा के लिए तकनीकी समर्थन प्रदान कर सकता है
  3. नीति संदर्भ: सार्वजनिक स्वास्थ्य विभागों को विरोधी-षड्यंत्र सिद्धांत रणनीति तैयार करने के लिए डेटा समर्थन प्रदान करता है
  4. पुनरुत्पादनशीलता: लेखक GitHub पर डेटा और कोड प्रदान करने का वचन देते हैं, अनुसंधान की पुनरुत्पादनशीलता को बढ़ाता है

लागू परिदृश्य

  1. सोशल मीडिया निगरानी: वास्तविक समय में टीका संबंधित षड्यंत्र सिद्धांत सामग्री का पता लगाना और चिह्नित करना
  2. सार्वजनिक स्वास्थ्य संचार: टीका प्रचार गतिविधियों के प्रभाव और जनता की प्रतिक्रिया का मूल्यांकन
  3. नीति निर्माण समर्थन: सरकारी विभागों को जनता के दृष्टिकोण का मात्रात्मक विश्लेषण प्रदान करता है
  4. अनुसंधान आधार: बाद के षड्यंत्र सिद्धांत पहचान और विश्लेषण अनुसंधान के लिए बेंचमार्क डेटासेट प्रदान करता है

संदर्भ

पेपर 46 संबंधित संदर्भों का हवाला देता है, जिसमें षड्यंत्र सिद्धांत मनोविज्ञान, सोशल मीडिया विश्लेषण, प्राकृतिक भाषा प्रसंस्करण, सार्वजनिक स्वास्थ्य आदि कई क्षेत्र शामिल हैं, जो अनुसंधान की अंतःविषय विशेषता और सैद्धांतिक आधार की दृढ़ता को प्रदर्शित करता है।


समग्र मूल्यांकन: यह एक महत्वपूर्ण सामाजिक समस्या के लिए एक अनुप्रयोग-उन्मुख अनुसंधान है, हालांकि तकनीकी नवाचार के संदर्भ में अपेक्षाकृत सीमित है, लेकिन महत्वपूर्ण सामाजिक मूल्य और व्यावहारिक महत्व रखता है। अनुसंधान विधि तर्कसंगत है, प्रयोगात्मक डिजाइन अपेक्षाकृत पूर्ण है, परिणाम निश्चित संदर्भ मूल्य रखते हैं। भविष्य में डेटा पैमाना, भौगोलिक कवरेज और तकनीकी नवाचार के पहलुओं में आगे सुधार की आवश्यकता है।