2025-11-12T03:37:09.269038

Detecting Conspiracy Theory Against COVID-19 Vaccines

Amin, Madanu, Lavu et al.
Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
academic

الكشف عن نظريات المؤامرة ضد لقاحات COVID-19

المعلومات الأساسية

  • معرّف الورقة البحثية: 2211.13003
  • العنوان: الكشف عن نظريات المؤامرة ضد لقاحات COVID-19
  • المؤلفون: Md Hasibul Amin, Harika Madanu, Sahithi Lavu, Hadi Mansourifar, Dana Alsagheer, Weidong Shi (جامعة هيوستن)
  • التصنيف: cs.CY (الحوسبة والمجتمع)، cs.AI، cs.CL، cs.LG، cs.SI
  • تاريخ النشر: 20 نوفمبر 2022 (نسخة أولية من arXiv)
  • رابط الورقة البحثية: https://arxiv.org/abs/2211.13003

الملخص

منذ بدء التجارب السريرية للقاح، امتلأت وسائل التواصل الاجتماعي بخطاب معادٍ للقاحات ومعتقدات نظريات المؤامرة. مع زيادة عدد حالات COVID-19، انتشرت نظريات مؤامرة متنوعة عبر المنصات الإلكترونية وبعض بوابات الأخبار. تشمل أكثر نظريات المؤامرة شيوعاً: نظرية انتشار COVID-19 عبر شبكات 5G، ونظرية أن الحكومة الصينية نشرت الفيروس كسلاح بيولوجي، وهذه أثارت في البداية كراهية عنصرية. بينما يؤثر عدم الثقة في بعض الحالات بشكل محدود على المجتمع، فإن البعض الآخر يسبب أضراراً جسيمة. على سبيل المثال، أدت نظرية 5G إلى حرق محطات 5G، وعزز الاعتقاد بقصة السلاح البيولوجي الصيني الهجمات على الأمريكيين من أصول آسيوية. نظرية مؤامرة شهيرة أخرى تتعلق بـ بيل جيتس الذي يسعى لتتبع الجميع من خلال برنامج تطعيم واسع النطاق لنشر COVID-19. أثارت هذه المعتقدات حول نظريات المؤامرة مشاكل عدم الثقة بين عامة السكان وأدت إلى التردد في التطعيم. تهدف هذه الدراسة إلى اكتشاف نظريات المؤامرة الموجهة ضد اللقاحات على المنصات الاجتماعية. أجرى الباحثون تحليل المشاعر على 598 تعليقاً عينة فريدة متعلقة بلقاحات COVID-19، باستخدام نموذجي BERT وGoogle Perspective API المختلفين لتحديد مشاعر الجملة تجاه لقاحات COVID-19 ومستوى السمية.

خلفية البحث والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي تسعى هذه الدراسة لحلها حول كيفية الكشف التلقائي والتعرف على خطاب نظريات المؤامرة الموجهة ضد لقاحات COVID-19 على وسائل التواصل الاجتماعي. وتشمل بشكل محدد:

  1. تحديد المشاعر المعادية للقاحات ووجهات نظر نظريات المؤامرة
  2. تقييم درجة السمية والعدوانية في التعليقات
  3. فهم توزيع آراء الجمهور حول اللقاحات

أهمية المشكلة

تتمتع هذه المشكلة بأهمية اجتماعية كبيرة:

  1. التهديد للصحة العامة: وفقاً لبيانات منظمة الصحة العالمية، اعتباراً من سبتمبر 2022، أصيب 613 مليون شخص بـ COVID-19 عالمياً، وتوفي أكثر من 6.5 مليون شخص
  2. التأثير المدمر على المجتمع: أدت نظريات المؤامرة إلى أحداث عنف فعلية، مثل حرق محطات 5G والهجمات على الأمريكيين من أصول آسيوية
  3. التردد في التطعيم: تسبب المعلومات الكاذبة في عدم ثقة الجمهور باللقاحات، مما يعيق برامج التطعيم الجماعي
  4. سرعة انتشار المعلومات: تظهر الدراسات أن الأخبار الكاذبة تنتشر بسرعة أسرع من الأخبار الحقيقية بمليون مرة

قيود الطرق الموجودة

  1. تعقيد الكشف: يستخدم مستخدمو وسائل التواصل الاجتماعي الرموز التعبيرية والمصطلحات الفريدة والرموز للتعبير عن آرائهم، مما يزيد من تعقيد تصنيف النصوص
  2. تنوع البنية اللغوية: تختلف بنية الجملة وطرق التعبير عن المشاعر بشكل كبير بين اللغات المختلفة
  3. صعوبة التصنيف: من الصعب في بعض الحالات التمييز بين التعليقات الصحيحة والتعليقات الكاذبة

المساهمات الأساسية

  1. بناء مجموعة بيانات للكشف عن نظريات المؤامرة حول COVID-19: تم جمع وتصنيف 598 تعليقاً باللغة الإنجليزية من وسائل التواصل الاجتماعي في منطقة أمريكا الشمالية
  2. اقتراح إطار عمل ثنائي النموذج للكشف: يجمع بين نموذج BERT وGoogle Perspective API لتحليل المشاعر والكشف عن السمية
  3. إجراء تجارب مقارنة شاملة: استخدام ثلاثة مصنفات مختلفة (الانحدار اللوجستي، XGBoost، نموذج بايز الساذج الغاوسي) لتقييم أداء النموذج
  4. توفير نتائج معيارية للكشف عن نظريات المؤامرة: توفير أداء خط أساس قابل للمرجعية للبحث اللاحق

شرح الطريقة

تعريف المهمة

  • الإدخال: تعليقات نصية حول لقاحات COVID-19 على وسائل التواصل الاجتماعي
  • الإخراج: تسميات ثنائية التصنيف (0: محايد أو يدعم اللقاح، 1: معارض للقاح/نظرية مؤامرة)
  • الإخراج الإضافي: درجات السمية، درجات العدوانية ومؤشرات التقييم متعددة الأبعاد الأخرى

جمع البيانات والمعالجة المسبقة

  1. جمع البيانات:
    • تم جمع 950 تعليقاً من المستخدمين في البداية
    • المصادر: بوابات أخبار إلكترونية متنوعة وصفحات Facebook الخاصة بها
    • تم استخدام طريقة الجمع اليدوي
  2. تنظيف البيانات:
    • إزالة التعليقات المكررة والمتشابهة تقريباً
    • تصفية التعليقات غير الإنجليزية
    • الاحتفاظ بـ 598 تعليقاً نهائياً
  3. تصنيف البيانات:
    • قراءة وتصنيف جميع التعليقات يدوياً
    • تسميات ثنائية التصنيف: 0 (محايد/يدعم) و 1 (معارض/نظرية مؤامرة)
    • ضمان توازن توزيع التسميات
  4. خطوات المعالجة المسبقة:
    • إزالة الضوضاء والكلمات الشائعة
    • تحويل إلى أحرف صغيرة
    • تصحيح الاختصارات الشائعة (مثل vac→vaccine، CVD→Covid)

معمارية النموذج

نموذج BERT

  • اختيار النموذج: BERT-Base, Uncased
  • معاملات المعمارية:
    • 12 طبقة محول
    • 768 وحدة مخفية
    • 12 رأس انتباه
    • 110 مليون معامل
  • الخصائص:
    • تمثيل المشفر ثنائي الاتجاه
    • استخدام تضمين WordPiece بمفردات 30,000
    • تدريب متجه على مستوى الجملة، استخراج المزيد من المعلومات من السياق

Google Perspective API

  • الوظيفة: استخدام تقنيات التعلم الآلي لتحديد التعليقات الإساءة
  • أبعاد الكشف:
    • السمية (Toxicity)
    • الشدة (Severe)
    • الهجوم على الهوية (Identity Attack)
    • الإهانة (Insult)
    • الكلام البذيء (Profanity)
    • التهديد (Threat)
    • المحتوى الجنسي الصريح (Sexually Explicit)
    • المغازلة (Flirtation)
  • الإخراج: درجة 0-1 لكل بُعد

إعدادات المصنف

استخدام ثلاثة مصنفات مختلفة للمقارنة:

  1. الانحدار اللوجستي (LR)
  2. XGBoost
  3. نموذج بايز الساذج الغاوسي (NB)

إعداد التجربة

خصائص مجموعة البيانات

  • إجمالي عدد العينات: 598 تعليقاً
  • توزيع التسميات: توزيع متوازن (حوالي 50% يدعم، 50% معارض)
  • النطاق الجغرافي: يأتي بشكل أساسي من منطقة أمريكا الشمالية
  • اللغة: تعليقات باللغة الإنجليزية فقط
  • حماية الخصوصية: لا تتضمن معلومات شخصية (الأسماء والمواقع والجنس وما إلى ذلك)

مؤشرات التقييم

  • الدقة (Accuracy)
  • درجة F1 (F1-Score)
  • الدقة (Precision)
  • الاستدعاء (Recall)

طريقة التحقق

  • التحقق المتقاطع بـ 10 أضعاف: ضمان موثوقية النتائج والقدرة على التعميم
  • تقسيم مجموعة التدريب والتحقق: تقييم أداء النموذج

نتائج التجربة

مقارنة النتائج الرئيسية

أداء نموذج BERT

المصنفالدقةدرجة F1الدقةالاستدعاء
الانحدار اللوجستي69%68%67%68%
XGBoost66%66%67%65%
نموذج بايز الساذج51%51%52%51%

أداء Google Perspective API

المصنفالدقةدرجة F1الدقةالاستدعاء
الانحدار اللوجستي55%53%55%55%
XGBoost65%63%65%65%
نموذج بايز الساذج75%70%75%75%

النتائج الرئيسية

  1. أفضل أداء: حقق Google Perspective API + نموذج بايز الساذج الغاوسي دقة بنسبة 75%
  2. أداء BERT: حقق الجمع بين BERT والانحدار اللوجستي دقة بنسبة 69%
  3. تأثير حجم البيانات: زيادة حجم البيانات من 400 إلى 598 أدت إلى تحسن بنسبة 8-9% في أداء كلا النموذجين
  4. القدرة على كشف السمية: يمكن لـ Google Perspective API تحديد درجة الإساءة والسمية في التعليقات بشكل فعال

أمثلة درجات السمية من Google Perspective API

قدمت الورقة البحثية حالات درجات سمية محددة، تظهر درجات متعددة الأبعاد لأنواع تعليقات مختلفة، مما يوفر رؤية حدسية لفهم سلوك النموذج.

الأعمال ذات الصلة

الحالة الحالية لأبحاث نظريات المؤامرة

  1. الانتشار: يعبر حوالي 1/4 إلى 1/3 من سكان أمريكا الشمالية عن آراء مرتبطة بنظريات المؤامرة
  2. المتعلقة بـ COVID-19: أظهر استطلاع أمريكي عام 2020 أن حوالي 5% من الناس يعتقدون أن COVID-19 مخطط له مسبقاً، و 20% يعتقدون أنه قد يكون صحيحاً
  3. آليات الانتشار: تؤثر وسائل التواصل الاجتماعي على آراء الناس بسهولة أكثر من طرق التواصل التقليدية

الطرق التقنية

  1. استخراج النصوص: طريقة شهيرة للكشف عن نظريات المؤامرة
  2. التعلم العميق: يظهر أداءً جيداً في تحديد المحتوى الدلالي
  3. أدوات تحليل المشاعر: تطبيق BERT وGoogle Perspective API في كشف المشاعر والسمية

أبحاث التأثير الاجتماعي

  1. العوامل السياسية: تلعب الأجندات السياسية دوراً مهماً في التردد في التطعيم
  2. تأثير الإعلام: لأخبار التلفزيون الرئيسية والأجندات السياسية تأثير كبير على معتقدات نظريات المؤامرة
  3. الآليات النفسية: البحث في الأساس النفسي لانتشار نظريات المؤامرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. جدوى الكشف: يمكن استخدام طرق التعلم الآلي للكشف الفعال عن نظريات المؤامرة المتعلقة بـ COVID-19
  2. أهمية اختيار النموذج: الفروقات في الأداء بين مجموعات النماذج والمصنفات المختلفة كبيرة
  3. تأثير جودة البيانات: زيادة حجم البيانات يمكن أن تحسن بشكل كبير من أداء النموذج
  4. رؤى الموقف الاجتماعي: عدد التعليقات التي تدعم اللقاح أقل من التعليقات المعارضة للقاح

القيود

  1. القيود الجغرافية: بيانات العينة تأتي بشكل أساسي من منطقة أمريكا الشمالية، ولا يمكنها أن تعكس بدقة أفكار السكان في المناطق الأخرى
  2. حجم البيانات: البيانات المجمعة يدوياً ليست كبيرة بما يكفي لتمثيل نظريات المؤامرة على نطاق عالمي
  3. غياب معلومات المستخدم: لم يتم جمع معلومات المستخدم، مما يجعل من المستحيل إجراء تحليل ديموغرافي مثل العمر
  4. الذاتية في التصنيف: من الصعب في بعض الحالات الحكم على صحة التعليق

الاتجاهات المستقبلية

  1. توسيع حجم البيانات: جمع مجموعات بيانات أكبر وأكثر تنوعاً
  2. دعم متعدد اللغات: التوسع إلى لغات وخلفيات ثقافية أخرى
  3. تحليل ملف تعريف المستخدم: إجراء تحليل أعمق مع دمج المعلومات الديموغرافية للمستخدم
  4. نظام المراقبة في الوقت الفعلي: تطوير نظام كشف وتنبيه نظريات المؤامرة في الوقت الفعلي

التقييم المتعمق

المميزات

  1. أهمية المشكلة: معالجة مشكلة اجتماعية مهمة تتعلق بنظريات المؤامرة حول لقاحات COVID-19
  2. مقارنة الطرق الشاملة: استخدام مسارين تقنيين مختلفين للمقارنة والتحقق
  3. تصميم التجربة المعقول: استخدام التحقق المتقاطع بـ 10 أضعاف ومؤشرات تقييم متعددة
  4. شفافية النتائج: توفير قيم الأداء المحددة وتحليل الحالات
  5. القيمة الاجتماعية: نتائج البحث لها قيمة مرجعية لصنع سياسات الصحة العامة

أوجه القصور

  1. قيود حجم مجموعة البيانات: 598 عينة نسبياً صغيرة، قد تؤثر على القدرة على التعميم للنموذج
  2. الانحياز الجغرافي والثقافي: مقتصرة على التعليقات الإنجليزية من منطقة أمريكا الشمالية، تفتقر إلى التمثيل العالمي
  3. جودة التصنيف: قد يكون التصنيف اليدوي ذاتياً، ويفتقر إلى تقييم الاتفاق بين المصنفين
  4. الابتكار التقني محدود: في الأساس تطبيق للنماذج الموجودة، يفتقر إلى الابتكار في المنهجية
  5. نقص التحليل العميق: نقص التحليل الأعمق لأنواع نظريات المؤامرة وآليات الانتشار

التأثير

  1. المساهمة الأكاديمية: توفير بيانات أساسية وطرق لأبحاث العلوم الاجتماعية الحسابية المتعلقة بـ COVID-19
  2. القيمة العملية: يمكن أن توفر دعماً تقنياً لمراجعة المحتوى على منصات وسائل التواصل الاجتماعي
  3. المرجعية السياسية: توفير تحليل كمي لآراء الجمهور لدعم أقسام الصحة العامة في صياغة استراتيجيات مكافحة نظريات المؤامرة
  4. القابلية للتكرار: التزم المؤلفون بتوفير البيانات والأكواد على GitHub، مما يعزز قابلية البحث للتكرار

سيناريوهات التطبيق

  1. مراقبة وسائل التواصل الاجتماعي: الكشف والتعليم عن محتوى نظريات المؤامرة المتعلقة باللقاحات في الوقت الفعلي
  2. نشر الصحة العامة: تقييم فعالية حملات تعزيز اللقاحات والاستجابة العامة
  3. دعم صنع السياسات: توفير تحليل كمي لآراء الجمهور للأقسام الحكومية
  4. أساس البحث: توفير مجموعة بيانات معيارية لأبحاث الكشف والتحليل اللاحقة لنظريات المؤامرة

المراجع

تستشهد الورقة البحثية بـ 46 مرجعاً ذا صلة، تغطي علم النفس لنظريات المؤامرة وتحليل وسائل التواصل الاجتماعي ومعالجة اللغات الطبيعية والصحة العامة والمجالات الأخرى، مما يعكس الطبيعة متعددة التخصصات للبحث والصلابة النظرية للأساس.


التقييم الشامل: هذا بحث تطبيقي يتناول مشكلة اجتماعية مهمة، وعلى الرغم من أن الابتكار التقني محدود نسبياً، إلا أنه يتمتع بقيمة اجتماعية وعملية مهمة. الطريقة معقولة، وتصميم التجربة مكتمل نسبياً، والنتائج لها قيمة مرجعية معينة. يتطلب المستقبل مزيداً من التحسينات في حجم البيانات والتغطية الجغرافية والابتكار التقني.