2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

एक सुरक्षित वेब की ओर: प्रतिकूल गलत सूचना हमलों को कम करने के लिए बहुभाषी बहु-एजेंट LLMs

बुनियादी जानकारी

पेपर ID: 2510.08605
शीर्षक: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
लेखक: Nouar Aldahoul, Yasir Zaki (न्यूयॉर्क विश्वविद्यालय अबू धाबी)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI, cs.CR, cs.LG
प्रकाशन समय: 7 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08605

सारांश

डिजिटल प्लेटफॉर्म पर गलत सूचना का तीव्र प्रसार सार्वजनिक विमर्श, भावनात्मक स्थिरता और निर्णय लेने को खतरे में डालता है। हालांकि पूर्ववर्ती कार्यों ने गलत सूचना पहचान में विभिन्न प्रतिकूल हमलों की खोज की है, लेकिन इस पेपर द्वारा अध्ययन किए गए विशिष्ट रूपांतरणों का व्यवस्थित रूप से अध्ययन नहीं किया गया है। विशेष रूप से, यह पेपर अंग्रेजी, फ्रेंच, स्पेनिश, अरबी, हिंदी और चीनी भाषाओं में भाषा स्विचिंग और बाद के अनुवाद की जांच करता है। साथ ही सारांश से पहले क्वेरी लंबाई विस्तार और बहुविकल्प प्रश्नों में संरचित पुनः स्वरूपण का भी अध्ययन किया गया है। यह पेपर एक बहुभाषी, बहु-एजेंट बड़े भाषा मॉडल ढांचा प्रस्तावित करता है, जो पुनर्प्राप्ति-संवर्धित जनन तकनीकों को जोड़ता है, जिसे ऑनलाइन प्लेटफॉर्म पर वेब प्लगइन के रूप में तैनात किया जा सकता है। यह कार्य ऑनलाइन तथ्य अखंडता की रक्षा में AI-संचालित गलत सूचना पहचान के महत्व पर जोर देता है, साथ ही वास्तविक वेब अनुप्रयोगों में प्लगइन-आधारित तैनाती की व्यवहार्यता का प्रदर्शन करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है कि बड़े भाषा मॉडल (LLMs) प्रतिकूल हमलों का सामना करते समय गलत सूचना पहचान में प्रभावी क्षमता की कमी करते हैं और अनजाने में गलत सूचना के प्रसार को बढ़ा सकते हैं।

समस्या की महत्ता

सामाजिक प्रभाव: गलत सूचना का तीव्र प्रसार सार्वजनिक विमर्श, भावनात्मक स्थिरता और निर्णय लेने को गंभीर रूप से खतरे में डालता है
तकनीकी चुनौती: वर्तमान LLMs गलत सूचना पहचान में यादृच्छिक अनुमान के करीब प्रदर्शन करते हैं
सुरक्षा आवश्यकता: विविध हमलों के लिए मजबूत पहचान प्रणाली की आवश्यकता है

मौजूदा विधियों की सीमाएं

अंतर्निहित ज्ञान सीमा: LLMs केवल प्रशिक्षण समय के अंतर्निहित ज्ञान पर निर्भर करते हैं, वास्तविक समय तथ्य जांच क्षमता की कमी करते हैं
भाषा पूर्वाग्रह: गैर-अंग्रेजी भाषाओं पर प्रदर्शन में उल्लेखनीय गिरावट
प्रतिकूल हमले की कमजोरी: प्रारूप रूपांतरण, अनुवाद, सारांश आदि हमलों के प्रति प्रतिरोध की कमी
व्यवस्थित अनुसंधान की कमी: मौजूदा कार्य बहुभाषी, बहु-संरचना प्रतिकूल हमलों का व्यवस्थित रूप से मूल्यांकन नहीं करते

अनुसंधान प्रेरणा

लेखकों ने विभिन्न प्रतिकूल हमलों का प्रतिरोध करने में सक्षम एक बहुभाषी गलत सूचना पहचान प्रणाली विकसित करने की आवश्यकता का प्रस्ताव दिया है और इसे एक व्यावहारिक वेब प्लगइन के रूप में तैनात किया है।

मुख्य योगदान

बहु-एजेंट RAG ढांचा प्रस्तावित किया: Llama 3.1-8B और पुनर्प्राप्ति-संवर्धित जनन तकनीकों को जोड़ने वाली बहु-एजेंट आर्किटेक्चर
नए प्रतिकूल हमले डेटासेट का निर्माण: बहुविकल्प प्रश्न (MCQ), अनुवाद और सारांश के तीन हमले रूपों वाला डेटासेट
बहुभाषी पहचान क्षमता लागू की: अंग्रेजी, फ्रेंच, स्पेनिश, अरबी, हिंदी, चीनी छह भाषाओं का समर्थन
वास्तविक तैनाती व्यवहार्यता सत्यापित की: वेब प्लगइन रूप में तैनाती के लिए डिज़ाइन किया गया
व्यापक प्रायोगिक मूल्यांकन प्रदान किया: गलत सूचना पहचान सटीकता में 95% से अधिक प्राप्त की

विधि विवरण

कार्य परिभाषा

इनपुट: वेब से पाठ सामग्री (समाचार लेख, उपयोगकर्ता टिप्पणियां, सोशल मीडिया पोस्ट आदि), जिसमें प्रतिकूल रूपांतरण हो सकते हैं आउटपुट: बाइनरी वर्गीकरण परिणाम (True/False), यह निर्धारित करते हुए कि इनपुट पाठ में गलत सूचना है या नहीं बाधाएं: सिस्टम को ब्लैक-बॉक्स सेटिंग में काम करना चाहिए, केवल बाइनरी प्रतिक्रिया के आधार पर निर्णय लेना चाहिए

मॉडल आर्किटेक्चर

RAG-Llama मुख्य घटक

एम्बेडिंग मॉडल: तीन बहुभाषी एम्बेडिंग मॉडलों की तुलना के लिए उपयोग
- OpenAI's text-embedding-3-large (मालिकाना)
- jina-embeddings-v3 (मालिकाना)
- multilingual-e5-large (ओपन सोर्स)
पुनर्प्राप्ति तंत्र: कोसाइन समानता के आधार पर पुनर्प्राप्ति प्रणाली
- गलत सूचना शीर्षकों को CSV फ़ाइल में एम्बेड किया गया है
- क्वेरी के साथ सबसे प्रासंगिक गलत सूचना शीर्षकों को पुनः प्राप्त करना
- अंतिम निर्णय के लिए संदर्भ विश्लेषण के लिए Llama का उपयोग करना

बहु-एजेंट आर्किटेक्चर

सिस्टम में चार सहयोगी एजेंट शामिल हैं:

वेब क्रॉलर एजेंट
- गतिशील वेबसाइटों से संरचित सामग्री निकालना
- पाठ को प्रबंधनीय खंडों में विभाजित करना
- प्रबंधक एजेंट को प्रसंस्करण के लिए पास करना
प्रबंधक एजेंट
- वेब क्रॉलर के साथ इंटरैक्ट करके पाठ प्राप्त करना
- विषय और गलत सूचना पहचान एजेंटों को रूट करना
- उपयोगकर्ता को सूचनाएं भेजना
गलत सूचना पहचान एजेंट
- RAG-Llama का उपयोग करके पहचान करना
- 5000 सत्यापित गलत सूचना शीर्षकों वाले डेटाबेस से पुनः प्राप्त करना
- अंतिम निर्णय के लिए ओपन सोर्स Llama मॉडल का उपयोग करना
विषय एजेंट (वैकल्पिक)
- क्वेरी को 10 पूर्वनिर्धारित श्रेणियों में वर्गीकृत करना
- RAG खोज प्रक्रिया को तेज करना
- विषय वर्गीकरण के लिए GPT-4o-mini का उपयोग करना
मूल्यांकन एजेंट
- यह सुनिश्चित करना कि सभी पाठ खंडों को संसाधित किया जाए
- सिस्टम के विभिन्न घटकों की सामंजस्य सत्यापित करना
- मजबूती बढ़ाने के लिए अतिरिक्त सत्यापन परत के रूप में कार्य करना

तकनीकी नवाचार बिंदु

बहु-मोडल प्रतिकूल हमले प्रसंस्करण: MCQ, अनुवाद, सारांश के तीन हमले रूपों को पहली बार व्यवस्थित रूप से संभालना
बहुभाषी पुनर्प्राप्ति क्षमता: क्रॉस-भाषा पहचान के लिए बहुभाषी एम्बेडिंग मॉडलों का उपयोग करना
नकारात्मक नमूना मिलान रणनीति: केवल गलत सूचना डेटाबेस का उपयोग करके नकारात्मक मिलान पहचान करना
मॉड्यूलर प्लगइन डिज़ाइन: वेब ब्राउज़र प्लगइन के रूप में सीधे तैनाती के लिए

प्रायोगिक सेटअप

डेटासेट

डेटा स्रोत

गलत सूचना शीर्षक: Snopes और Politifact से 20,950 गलत सूचना शीर्षक एकत्र किए गए
तथ्य शीर्षक: 4,000 वास्तविक शीर्षक एकत्र किए गए
प्रायोगिक डेटा: 5,000 गलत सूचना शीर्षक और 2,000 तथ्य शीर्षक का चयन

तीन प्रकार के हमले डेटासेट

MCQ डेटासेट: शीर्षकों को "क्यों" से शुरू होने वाले बहुविकल्प प्रश्नों में रूपांतरित करना
अनुवाद डेटासेट: विस्तारित पाठ को छह भाषाओं में अनुवाद करना
सारांश डेटासेट: सारांश कार्य के लिए 500 शब्दों की लंबी पाठ उत्पन्न करना

मूल्यांकन मेट्रिक्स

तथ्य सटीकता: तथ्य सूचना को सही ढंग से वर्गीकृत करने का प्रतिशत
गलत सूचना सटीकता: गलत सूचना को सही ढंग से वर्गीकृत करने का प्रतिशत
हमले सफलता दर (ASR): प्रतिकूल इनपुट के कारण सिस्टम विफल होने का अनुपात (जितना कम उतना अच्छा)

तुलनात्मक विधियां

बेसलाइन मॉडल: मूल Llama 3.1-8B-Instruct
विभिन्न एम्बेडिंग मॉडलों के RAG-Llama वेरिएंट
विषय वर्गीकरण के साथ/बिना सिस्टम वेरिएंट

कार्यान्वयन विवरण

मॉडल: Llama 3.1-8B-Instruct
हार्डवेयर: GPU A100 80GB
हाइपरपैरामीटर: temperature=0.1, top-p=1
एम्बेडिंग स्टोरेज: CSV फ़ाइल प्रारूप

प्रायोगिक परिणाम

मुख्य परिणाम

बेसलाइन मॉडल की कमजोरी

प्रत्यक्ष प्रश्न ASR: 46.74%
MCQ हमले ASR: 97.72%
अनुवाद हमले ASR: 100%
सारांश हमले ASR: 100%

RAG-Llama प्रदर्शन

हमले का प्रकार	गलत सूचना पहचान सटीकता	तथ्य पहचान सटीकता
प्रत्यक्ष प्रश्न	99.76%	85.25%
MCQ	97.38%	89.85%
सारांश	99.3%	95.15%
फ्रेंच अनुवाद	97.72%	87.25%
अरबी अनुवाद	97.26%	88.65%
हिंदी अनुवाद	95.2%	87.4%
चीनी अनुवाद	96.44%	93.5%
स्पेनिश अनुवाद	97.9%	90.9%

एम्बेडिंग मॉडल तुलना

एम्बेडिंग मॉडल	MCQ औसत सटीकता	सारांश औसत सटीकता	अनुवाद औसत सटीकता
text-embedding-3-large	93.62%	97.23%	93.22%
jina-embeddings-v3	95.29%	89.08%	93.35%
multilingual-e5-large	95.26%	89.02%	93.92%

विषय वर्गीकरण प्रभाव

गति वृद्धि: माध्यिका 2 गुना से अधिक, औसत 3 गुना से अधिक
सटीकता: 78.27%-91.18% तक भिन्न
MCQ कार्य सटीकता अपेक्षाकृत कम: क्योंकि बहुविकल्प प्रश्नों में कई विषय उत्तर होते हैं जिससे वर्गीकरण कठिन हो जाता है

प्रायोगिक निष्कर्ष

RAG बेसलाइन से काफी बेहतर: सभी हमले प्रकारों पर बड़ी वृद्धि
बहुभाषी क्षमता: छह भाषाओं में 95% से अधिक गलत सूचना पहचान सटीकता बनाए रखी
एम्बेडिंग मॉडल प्रभाव: multilingual-e5-large संतुलित प्रदर्शन और पहुंच में सर्वश्रेष्ठ
विषय वर्गीकरण त्वरण: पुनर्प्राप्ति गति को प्रभावी ढंग से बढ़ाता है, लेकिन जटिल क्वेरी पर सटीकता में कुछ गिरावट

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

LLMs में महत्वपूर्ण कमजोरियां: मूल LLMs प्रतिकूल हमलों के तहत गलत सूचना फैलाने के लिए अत्यधिक प्रवण हैं
RAG प्रभावी रूप से मजबूती बढ़ाता है: RAG-Llama विभिन्न हमलों में बेसलाइन से काफी बेहतर है
बहुभाषी पहचान व्यवहार्य: सिस्टम छह प्रमुख भाषाओं में गलत सूचना को प्रभावी ढंग से संभाल सकता है
व्यावहारिक तैनाती संभावना: बहु-एजेंट आर्किटेक्चर वेब प्लगइन के रूप में तैनाती के लिए उपयुक्त है

सीमाएं

विषय वर्गीकरण सटीकता: विषय गलत वर्गीकरण पुनर्प्राप्ति सटीकता को प्रभावित करेगा
डेटाबेस निर्भरता: सिस्टम प्रदर्शन गलत सूचना डेटाबेस की गुणवत्ता और पूर्णता पर गंभीर रूप से निर्भर करता है
गतिशील अद्यतन आवश्यकता: नई गलत सूचना का सामना करने के लिए डेटाबेस को लगातार अपडेट करने की आवश्यकता है
सुरक्षा कमजोरियां: RAG प्रणाली डेटाबेस प्रदूषण और एम्बेडिंग हमलों का सामना कर सकती है

भविष्य की दिशाएं

विषय वर्गीकरण में सुधार: जटिल क्वेरी की वर्गीकरण सटीकता बढ़ाना
अन्य LLMs की खोज: RAG में विभिन्न भाषा मॉडलों के प्रदर्शन का मूल्यांकन करना
सुरक्षा बढ़ाना: एम्बेडिंग हमलों और डेटाबेस प्रदूषण के विरुद्ध सुरक्षा तंत्र विकसित करना
हमले प्रकारों का विस्तार: प्रतिकूल रूपांतरण के अधिक प्रकारों का अनुसंधान करना

गहन मूल्यांकन

शक्तियां

समस्या महत्व: LLMs में गलत सूचना पहचान की महत्वपूर्ण सुरक्षा समस्या को हल करता है
विधि नवाचार: बहुभाषी, बहु-संरचना प्रतिकूल हमलों का पहली बार व्यवस्थित अनुसंधान
प्रयोग व्यापकता: छह भाषाओं, तीन हमले प्रकारों का व्यापक मूल्यांकन
व्यावहारिक मूल्य: तैनाती योग्य प्लगइन समाधान प्रदान करता है
तकनीकी उन्नति: नवीनतम RAG और बहु-एजेंट तकनीकों को जोड़ता है

कमियां

डेटासेट आकार सीमा: केवल 7,000 शीर्षकों का उपयोग, आकार अपेक्षाकृत छोटा है
सीमित हमले प्रकार: केवल तीन विशिष्ट हमले रूपों पर विचार किया गया है
एकल मूल्यांकन मेट्रिक: मुख्य रूप से सटीकता पर ध्यान केंद्रित, दक्षता, लागत आदि मेट्रिक्स की कमी
अपर्याप्त सैद्धांतिक विश्लेषण: विधि प्रभावशीलता के सैद्धांतिक व्याख्या की कमी
दीर्घकालीन स्थिरता अपरीक्षित: दीर्घकालीन उपयोग में सिस्टम प्रदर्शन क्षय का मूल्यांकन नहीं किया गया

प्रभाव

शैक्षणिक योगदान: बहुभाषी गलत सूचना पहचान के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: सोशल मीडिया और समाचार प्लेटफॉर्म पर सीधे लागू किया जा सकता है
पुनरुत्पादनशीलता: ओपन सोर्स मॉडल का उपयोग, पुनरुत्पादन और सुधार में आसान
उद्योग प्रभाव: सामग्री समीक्षा और तथ्य जांच के लिए तकनीकी आधार प्रदान करता है

लागू परिदृश्य

सोशल मीडिया प्लेटफॉर्म: उपयोगकर्ता द्वारा पोस्ट की गई गलत सूचना की वास्तविक समय पहचान
समाचार एकत्रीकरण वेबसाइटें: समाचार लेखों की प्रामाणिकता सत्यापित करना
शिक्षा प्लेटफॉर्म: उपयोगकर्ताओं को गलत सूचना पहचानने में मदद करना
कॉर्पोरेट सामग्री समीक्षा: बड़े पैमाने पर सामग्री की स्वचालित समीक्षा
सरकारी निगरानी: संबंधित विभागों को नेटवर्क गलत सूचना निगरानी में सहायता करना

संदर्भ

यह पेपर 50 संबंधित संदर्भों का हवाला देता है, जो LLMs, RAG, बहु-एजेंट प्रणालियां, प्रतिकूल हमले आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह गलत सूचना पहचान क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है, जो एक नवीन बहु-एजेंट RAG ढांचा प्रस्तावित करता है और बहुभाषी, बहु-हमले-प्रकार सेटिंग में उत्कृष्ट प्रायोगिक परिणाम प्राप्त करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसका व्यावहारिक मूल्य और तकनीकी नवाचार इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाता है।