2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

نحو ويب أكثر أماناً: نماذج لغة كبيرة متعددة الوكلاء متعددة اللغات للتخفيف من هجمات المعلومات المضللة العدائية

المعلومات الأساسية

معرّف الورقة: 2510.08605
العنوان: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
المؤلفون: Nouar Aldahoul, Yasir Zaki (جامعة نيويورك أبوظبي)
التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.AI، cs.CR، cs.LG
تاريخ النشر: 7 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.08605

الملخص

يشكل الانتشار السريع للمعلومات المضللة على المنصات الرقمية تهديداً للخطاب العام والاستقرار العاطفي واتخاذ القرارات. بينما استكشفت الأعمال السابقة هجمات عدائية متنوعة في كشف المعلومات المضللة، إلا أن التحويلات المحددة المدروسة في هذه الورقة لم تحظَ بدراسة منهجية. على وجه الخصوص، تحقق هذه الورقة في تبديل اللغات عبر الإنجليزية والفرنسية والإسبانية والعربية والهندية والصينية، وكذلك الترجمة اللاحقة. كما تدرس توسيع طول الاستعلام قبل التلخيص وإعادة الصياغة الهيكلية كأسئلة متعددة الخيارات. تقترح هذه الورقة إطار عمل متعدد اللغات ومتعدد الوكلاء لنماذج اللغة الكبيرة، يجمع تقنيات الاسترجاع المعزز للتوليد، ويمكن نشره كمكون إضافي على المنصات الإلكترونية. يؤكد هذا العمل على أهمية كشف المعلومات المضللة المدفوع بالذكاء الاصطناعي في حماية سلامة الحقائق عبر الإنترنت، مع إظهار جدوى النشر القائم على المكونات الإضافية في تطبيقات الويب الحقيقية.

السياق البحثي والدافع

تعريف المشكلة

تتمثل المشكلة الأساسية التي يعالجها هذا البحث في افتقار نماذج اللغة الكبيرة (LLMs) إلى قدرات فعالة في كشف المعلومات المضللة عند مواجهة هجمات عدائية، مما يجعلها عرضة لتضخيم انتشار المعلومات المضللة بشكل غير مقصود.

أهمية المشكلة

التأثير الاجتماعي: ينذر الانتشار السريع للمعلومات المضللة بتهديد خطير للخطاب العام والاستقرار العاطفي واتخاذ القرارات
التحديات التقنية: تظهر نماذج اللغة الكبيرة الحالية أداءً قريباً من التخمين العشوائي في كشف المعلومات المضللة
متطلبات الأمان: الحاجة إلى أنظمة كشف قوية ضد الهجمات المتنوعة

قيود الطرق الموجودة

قيود المعرفة المضمنة: تعتمد نماذج اللغة الكبيرة فقط على المعرفة المضمنة وقت التدريب، وتفتقر إلى القدرة على التحقق من الحقائق في الوقت الفعلي
الانحياز اللغوي: ينخفض الأداء بشكل ملحوظ على اللغات غير الإنجليزية
الضعف تجاه الهجمات العدائية: تفتقر إلى المقاومة ضد تحويلات التنسيق والترجمة والتلخيص وغيرها
نقص الدراسة المنهجية: لم تقيّم الأعمال الموجودة الهجمات العدائية متعددة اللغات والهياكل بشكل منهجي

الدافع البحثي

يقترح المؤلفون الحاجة إلى تطوير نظام كشف معلومات مضللة متعدد اللغات يمكنه الصمود أمام هجمات عدائية متعددة، ونشره كمكون إضافي ويب عملي.

المساهمات الأساسية

اقتراح إطار عمل RAG متعدد الوكلاء: بنية معمارية متعددة الوكلاء تجمع بين Llama 3.1-8B وتقنيات الاسترجاع المعزز للتوليد
بناء مجموعة بيانات هجمات عدائية جديدة: تتضمن ثلاث أشكال من الهجمات (أسئلة متعددة الخيارات والترجمة والتلخيص)
تحقيق قدرات الكشف متعددة اللغات: دعم ست لغات (الإنجليزية والفرنسية والإسبانية والعربية والهندية والصينية)
التحقق من جدوى النشر الفعلي: تصميم قابل للنشر كمكون إضافي ويب
توفير تقييم تجريبي شامل: تحقيق دقة تتجاوز 95% في كشف المعلومات المضللة

شرح الطريقة

تعريف المهمة

الإدخال: محتوى نصي من الويب (مقالات إخبارية وتعليقات المستخدمين ومنشورات وسائل التواصل الاجتماعي وغيرها)، قد يتضمن تحويلات عدائية الإخراج: نتيجة تصنيف ثنائي (صحيح/خاطئ) للحكم على ما إذا كان النص المدخل يحتوي على معلومات مضللة القيود: يجب أن يعمل النظام في إعداد الصندوق الأسود، بناءً فقط على التغذية الراجعة الثنائية

المعمارية النموذجية

مكونات RAG-Llama الأساسية

نموذج التضمين: استخدام ثلاثة نماذج تضمين متعددة اللغات للمقارنة
- text-embedding-3-large من OpenAI (ملكي)
- jina-embeddings-v3 (ملكي)
- multilingual-e5-large (مفتوح المصدر)
آلية الاسترجاع: نظام استرجاع قائم على تشابه جيب التمام
- تخزين العناوين المضللة المضمنة في ملفات CSV
- استرجاع العناوين المضللة الأكثر صلة بالاستعلام
- استخدام Llama للتحليل السياقي واتخاذ الحكم النهائي

المعمارية متعددة الوكلاء

يتضمن النظام أربعة وكلاء متعاونين:

وكيل الزحف على الويب
- استخراج محتوى منظم من المواقع الديناميكية
- تقسيم النص إلى كتل قابلة للإدارة
- نقل البيانات إلى وكيل المدير للمعالجة
وكيل المدير
- التفاعل مع وكيل الزحف لاستقبال النصوص
- توجيه البيانات إلى وكلاء الموضوع والكشف عن المعلومات المضللة
- إرسال إشعارات للمستخدم
وكيل الكشف عن المعلومات المضللة
- الاستفادة من RAG-Llama للكشف
- الاسترجاع من قاعدة بيانات تحتوي على 5000 عنوان مضلل مُتحقق منه
- استخدام نموذج Llama مفتوح المصدر للحكم النهائي
وكيل الموضوع (اختياري)
- تصنيف الاستعلامات إلى 10 فئات محددة مسبقاً
- تسريع عملية بحث RAG
- استخدام GPT-4o-mini لتصنيف الموضوع
وكيل التقييم
- ضمان معالجة جميع كتل النصوص
- التحقق من اتساق مكونات النظام
- العمل كطبقة تحقق إضافية لتعزيز المتانة

نقاط الابتكار التقني

معالجة الهجمات العدائية متعددة الأنماط: أول معالجة منهجية لثلاث أشكال من الهجمات (أسئلة متعددة الخيارات والترجمة والتلخيص)
القدرة على الاسترجاع متعددة اللغات: الاستفادة من نماذج التضمين متعددة اللغات لتحقيق الكشف عبر اللغات
استراتيجية مطابقة العينات السلبية: استخدام قاعدة بيانات المعلومات المضللة فقط للكشف السلبي
تصميم المكون الإضافي المعياري: قابل للنشر مباشرة كمكون إضافي لمتصفح الويب

إعداد التجربة

مجموعة البيانات

مصادر البيانات

العناوين المضللة: جمع 20,950 عنوان مضلل من Snopes و Politifact
العناوين الحقيقية: جمع 4,000 عنوان حقيقي
بيانات التجربة: اختيار 5,000 عنوان مضلل و 2,000 عنوان حقيقي

ثلاث مجموعات بيانات للهجمات

مجموعة بيانات الأسئلة متعددة الخيارات: تحويل العناوين إلى أسئلة اختيار من متعدد تبدأ بـ "لماذا"
مجموعة بيانات الترجمة: ترجمة النصوص الموسعة إلى ست لغات
مجموعة بيانات التلخيص: توليد نصوص طويلة بـ 500 كلمة لمهام التلخيص

مؤشرات التقييم

دقة الحقائق: نسبة مئوية من تصنيف المعلومات الحقيقية بشكل صحيح
دقة المعلومات المضللة: نسبة مئوية من تصنيف المعلومات المضللة بشكل صحيح
معدل نجاح الهجوم (ASR): نسبة المدخلات العدائية التي تسبب فشل النظام (كلما كانت أقل كان أفضل)

طرق المقارنة

نموذج الأساس: Llama 3.1-8B-Instruct الأصلي
متغيرات RAG-Llama بنماذج تضمين مختلفة
متغيرات النظام مع/بدون تصنيف الموضوع

تفاصيل التنفيذ

النموذج: Llama 3.1-8B-Instruct
الأجهزة: GPU A100 80GB
المعاملات الفائقة: temperature=0.1, top-p=1
تخزين التضمين: تنسيق ملفات CSV

نتائج التجربة

النتائج الرئيسية

ضعف نموذج الأساس

معدل نجاح الهجوم للأسئلة المباشرة: 46.74%
معدل نجاح هجوم الأسئلة متعددة الخيارات: 97.72%
معدل نجاح هجوم الترجمة: 100%
معدل نجاح هجوم التلخيص: 100%

أداء RAG-Llama

نوع الهجوم	دقة الكشف عن المعلومات المضللة	دقة الكشف عن الحقائق
الأسئلة المباشرة	99.76%	85.25%
الأسئلة متعددة الخيارات	97.38%	89.85%
التلخيص	99.3%	95.15%
الترجمة الفرنسية	97.72%	87.25%
الترجمة العربية	97.26%	88.65%
الترجمة الهندية	95.2%	87.4%
الترجمة الصينية	96.44%	93.5%
الترجمة الإسبانية	97.9%	90.9%

مقارنة نماذج التضمين

نموذج التضمين	متوسط دقة الأسئلة متعددة الخيارات	متوسط دقة التلخيص	متوسط دقة الترجمة
text-embedding-3-large	93.62%	97.23%	93.22%
jina-embeddings-v3	95.29%	89.08%	93.35%
multilingual-e5-large	95.26%	89.02%	93.92%

تأثير تصنيف الموضوع

تحسن السرعة: أكثر من 2 مرات في الوسيط، وأكثر من 3 مرات في المتوسط
الدقة: تتراوح بين 78.27% و 91.18%
دقة مهام الأسئلة متعددة الخيارات نسبياً أقل: بسبب احتواء الأسئلة متعددة الخيارات على إجابات متعددة الموضوعات مما يجعل التصنيف صعباً

النتائج التجريبية

تفوق RAG على الأساس: تحسن كبير في جميع أنواع الهجمات
القدرة متعددة اللغات: الحفاظ على دقة كشف المعلومات المضللة تتجاوز 95% عبر ست لغات
تأثير نموذج التضمين: يظهر multilingual-e5-large أفضل توازن بين الأداء والإمكانية الوصول
تسريع تصنيف الموضوع: يحسن بشكل فعال سرعة الاسترجاع، لكن دقته تنخفض قليلاً في الاستعلامات المعقدة

الأعمال ذات الصلة

طرق الضبط الدقيق

طرق قائمة على BERT (مثل FakeBERT)
ضبط تعليمات T5
ضبط Llama-2 PEFT/LoRA
طرق التعلم المعزز

طرق RAG

Mixtral-8x7B مع RAG
دمج بيانات الويب في الوقت الفعلي
RAG الموضوع التكيفي (AT-RAG)

الأنظمة متعددة الوكلاء

كشف المعلومات المضللة البصرية بإجماع LLM
نظام TruEDebate (TED) للنقاش المنظم
إطار عمل معالجة دورة حياة المعلومات المضللة الكاملة

الهجمات العدائية

استبدال الرموز على مستوى التدرج
اضطراب المطالبات المدفوع بالتعلم المعزز
استراتيجيات الهجوم في الصندوق الأسود

الخلاصة والنقاش

الاستنتاجات الرئيسية

وجود ضعف كبير في نماذج اللغة الكبيرة: نماذج اللغة الكبيرة الأصلية عرضة جداً لنشر المعلومات المضللة تحت الهجمات العدائية
فعالية RAG في تحسين المتانة: يتفوق RAG-Llama بشكل ملحوظ على الأساس تحت مختلف الهجمات
جدوى الكشف متعدد اللغات: يمكن للنظام التعامل بفعالية مع المعلومات المضللة بست لغات رئيسية
إمكانية النشر الفعلي: المعمارية متعددة الوكلاء مناسبة للنشر كمكون إضافي ويب

القيود

دقة تصنيف الموضوع: قد يؤثر التصنيف الخاطئ للموضوع على دقة الاسترجاع
الاعتماد على قاعدة البيانات: يعتمد أداء النظام بشكل كبير على جودة واكتمال قاعدة بيانات المعلومات المضللة
متطلبات التحديث الديناميكي: الحاجة إلى تحديث مستمر لقاعدة البيانات للتعامل مع المعلومات المضللة الناشئة
الثغرات الأمنية: قد تواجه أنظمة RAG تلويث قاعدة البيانات وهجمات التضمين

الاتجاهات المستقبلية

تحسين تصنيف الموضوع: زيادة دقة التصنيف للاستعلامات المعقدة
استكشاف نماذج لغة أخرى: تقييم أداء نماذج لغة مختلفة في RAG
تعزيز الأمان: تطوير آليات حماية ضد هجمات التضمين وتلويث قاعدة البيانات
توسيع أنواع الهجمات: دراسة المزيد من أنواع التحويلات العدائية

التقييم المتعمق

المميزات

أهمية المشكلة: يعالج مشكلة أمان حرجة في كشف المعلومات المضللة بواسطة نماذج اللغة الكبيرة
الابتكار في الطريقة: أول دراسة منهجية للهجمات العدائية متعددة اللغات والهياكل
شمولية التجارب: تقييم شامل يغطي ست لغات وثلاث أنواع هجمات
القيمة العملية: توفير حل مكون إضافي قابل للنشر
التقدم التقني: دمج أحدث تقنيات RAG والأنظمة متعددة الوكلاء

أوجه القصور

قيود حجم مجموعة البيانات: استخدام 7,000 عنوان فقط، الحجم نسبياً صغير
محدودية أنواع الهجمات: النظر في ثلاثة أشكال هجمات محددة فقط
وحدة مؤشرات التقييم: التركيز الأساسي على الدقة، مع نقص مؤشرات الكفاءة والتكلفة
نقص التحليل النظري: افتقار إلى شرح نظري لفعالية الطريقة
عدم التحقق من الاستقرار طويل الأجل: عدم تقييم تدهور الأداء في الاستخدام طويل الأجل

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد في كشف المعلومات المضللة متعددة اللغات
القيمة العملية: التطبيق المباشر على منصات وسائل التواصل الاجتماعي والمواقع الإخبارية
قابلية إعادة الإنتاج: استخدام نماذج مفتوحة المصدر، مما يسهل إعادة الإنتاج والتحسين
التأثير الصناعي: توفير أساس تقني لمراجعة المحتوى والتحقق من الحقائق

السيناريوهات القابلة للتطبيق

منصات وسائل التواصل الاجتماعي: الكشف في الوقت الفعلي عن المعلومات المضللة التي ينشرها المستخدمون
مواقع تجميع الأخبار: التحقق من صحة مقالات الأخبار
منصات التعليم: مساعدة المستخدمين على تحديد المعلومات المضللة
مراجعة المحتوى بالمؤسسات: المراجعة الآلية للمحتوى على نطاق واسع
المراقبة الحكومية: مساعدة الجهات المختصة على مراقبة المعلومات المضللة على الإنترنت

المراجع

تستشهد هذه الورقة بـ 50 مرجعاً ذا صلة، تغطي مجالات متعددة بما فيها نماذج اللغة الكبيرة وRAG والأنظمة متعددة الوكلاء والهجمات العدائية وغيرها، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: هذه ورقة ذات مساهمة مهمة في مجال كشف المعلومات المضللة، تقترح إطار عمل RAG متعدد الوكلاء مبتكراً، وتحقق نتائج تجريبية ممتازة في إعدادات متعددة اللغات وأنواع هجمات متعددة. على الرغم من وجود بعض القيود، فإن قيمتها العملية والابتكار التقني يجعلانها تقدماً مهماً في هذا المجال.