The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- पेपर ID: 2510.08605
- शीर्षक: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- लेखक: Nouar Aldahoul, Yasir Zaki (न्यूयॉर्क विश्वविद्यालय अबू धाबी)
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI, cs.CR, cs.LG
- प्रकाशन समय: 7 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.08605
डिजिटल प्लेटफॉर्म पर गलत सूचना का तीव्र प्रसार सार्वजनिक विमर्श, भावनात्मक स्थिरता और निर्णय लेने को खतरे में डालता है। हालांकि पूर्ववर्ती कार्यों ने गलत सूचना पहचान में विभिन्न प्रतिकूल हमलों की खोज की है, लेकिन इस पेपर द्वारा अध्ययन किए गए विशिष्ट रूपांतरणों का व्यवस्थित रूप से अध्ययन नहीं किया गया है। विशेष रूप से, यह पेपर अंग्रेजी, फ्रेंच, स्पेनिश, अरबी, हिंदी और चीनी भाषाओं में भाषा स्विचिंग और बाद के अनुवाद की जांच करता है। साथ ही सारांश से पहले क्वेरी लंबाई विस्तार और बहुविकल्प प्रश्नों में संरचित पुनः स्वरूपण का भी अध्ययन किया गया है। यह पेपर एक बहुभाषी, बहु-एजेंट बड़े भाषा मॉडल ढांचा प्रस्तावित करता है, जो पुनर्प्राप्ति-संवर्धित जनन तकनीकों को जोड़ता है, जिसे ऑनलाइन प्लेटफॉर्म पर वेब प्लगइन के रूप में तैनात किया जा सकता है। यह कार्य ऑनलाइन तथ्य अखंडता की रक्षा में AI-संचालित गलत सूचना पहचान के महत्व पर जोर देता है, साथ ही वास्तविक वेब अनुप्रयोगों में प्लगइन-आधारित तैनाती की व्यवहार्यता का प्रदर्शन करता है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है कि बड़े भाषा मॉडल (LLMs) प्रतिकूल हमलों का सामना करते समय गलत सूचना पहचान में प्रभावी क्षमता की कमी करते हैं और अनजाने में गलत सूचना के प्रसार को बढ़ा सकते हैं।
- सामाजिक प्रभाव: गलत सूचना का तीव्र प्रसार सार्वजनिक विमर्श, भावनात्मक स्थिरता और निर्णय लेने को गंभीर रूप से खतरे में डालता है
- तकनीकी चुनौती: वर्तमान LLMs गलत सूचना पहचान में यादृच्छिक अनुमान के करीब प्रदर्शन करते हैं
- सुरक्षा आवश्यकता: विविध हमलों के लिए मजबूत पहचान प्रणाली की आवश्यकता है
- अंतर्निहित ज्ञान सीमा: LLMs केवल प्रशिक्षण समय के अंतर्निहित ज्ञान पर निर्भर करते हैं, वास्तविक समय तथ्य जांच क्षमता की कमी करते हैं
- भाषा पूर्वाग्रह: गैर-अंग्रेजी भाषाओं पर प्रदर्शन में उल्लेखनीय गिरावट
- प्रतिकूल हमले की कमजोरी: प्रारूप रूपांतरण, अनुवाद, सारांश आदि हमलों के प्रति प्रतिरोध की कमी
- व्यवस्थित अनुसंधान की कमी: मौजूदा कार्य बहुभाषी, बहु-संरचना प्रतिकूल हमलों का व्यवस्थित रूप से मूल्यांकन नहीं करते
लेखकों ने विभिन्न प्रतिकूल हमलों का प्रतिरोध करने में सक्षम एक बहुभाषी गलत सूचना पहचान प्रणाली विकसित करने की आवश्यकता का प्रस्ताव दिया है और इसे एक व्यावहारिक वेब प्लगइन के रूप में तैनात किया है।
- बहु-एजेंट RAG ढांचा प्रस्तावित किया: Llama 3.1-8B और पुनर्प्राप्ति-संवर्धित जनन तकनीकों को जोड़ने वाली बहु-एजेंट आर्किटेक्चर
- नए प्रतिकूल हमले डेटासेट का निर्माण: बहुविकल्प प्रश्न (MCQ), अनुवाद और सारांश के तीन हमले रूपों वाला डेटासेट
- बहुभाषी पहचान क्षमता लागू की: अंग्रेजी, फ्रेंच, स्पेनिश, अरबी, हिंदी, चीनी छह भाषाओं का समर्थन
- वास्तविक तैनाती व्यवहार्यता सत्यापित की: वेब प्लगइन रूप में तैनाती के लिए डिज़ाइन किया गया
- व्यापक प्रायोगिक मूल्यांकन प्रदान किया: गलत सूचना पहचान सटीकता में 95% से अधिक प्राप्त की
इनपुट: वेब से पाठ सामग्री (समाचार लेख, उपयोगकर्ता टिप्पणियां, सोशल मीडिया पोस्ट आदि), जिसमें प्रतिकूल रूपांतरण हो सकते हैं
आउटपुट: बाइनरी वर्गीकरण परिणाम (True/False), यह निर्धारित करते हुए कि इनपुट पाठ में गलत सूचना है या नहीं
बाधाएं: सिस्टम को ब्लैक-बॉक्स सेटिंग में काम करना चाहिए, केवल बाइनरी प्रतिक्रिया के आधार पर निर्णय लेना चाहिए
- एम्बेडिंग मॉडल: तीन बहुभाषी एम्बेडिंग मॉडलों की तुलना के लिए उपयोग
- OpenAI's text-embedding-3-large (मालिकाना)
- jina-embeddings-v3 (मालिकाना)
- multilingual-e5-large (ओपन सोर्स)
- पुनर्प्राप्ति तंत्र: कोसाइन समानता के आधार पर पुनर्प्राप्ति प्रणाली
- गलत सूचना शीर्षकों को CSV फ़ाइल में एम्बेड किया गया है
- क्वेरी के साथ सबसे प्रासंगिक गलत सूचना शीर्षकों को पुनः प्राप्त करना
- अंतिम निर्णय के लिए संदर्भ विश्लेषण के लिए Llama का उपयोग करना
सिस्टम में चार सहयोगी एजेंट शामिल हैं:
- वेब क्रॉलर एजेंट
- गतिशील वेबसाइटों से संरचित सामग्री निकालना
- पाठ को प्रबंधनीय खंडों में विभाजित करना
- प्रबंधक एजेंट को प्रसंस्करण के लिए पास करना
- प्रबंधक एजेंट
- वेब क्रॉलर के साथ इंटरैक्ट करके पाठ प्राप्त करना
- विषय और गलत सूचना पहचान एजेंटों को रूट करना
- उपयोगकर्ता को सूचनाएं भेजना
- गलत सूचना पहचान एजेंट
- RAG-Llama का उपयोग करके पहचान करना
- 5000 सत्यापित गलत सूचना शीर्षकों वाले डेटाबेस से पुनः प्राप्त करना
- अंतिम निर्णय के लिए ओपन सोर्स Llama मॉडल का उपयोग करना
- विषय एजेंट (वैकल्पिक)
- क्वेरी को 10 पूर्वनिर्धारित श्रेणियों में वर्गीकृत करना
- RAG खोज प्रक्रिया को तेज करना
- विषय वर्गीकरण के लिए GPT-4o-mini का उपयोग करना
- मूल्यांकन एजेंट
- यह सुनिश्चित करना कि सभी पाठ खंडों को संसाधित किया जाए
- सिस्टम के विभिन्न घटकों की सामंजस्य सत्यापित करना
- मजबूती बढ़ाने के लिए अतिरिक्त सत्यापन परत के रूप में कार्य करना
- बहु-मोडल प्रतिकूल हमले प्रसंस्करण: MCQ, अनुवाद, सारांश के तीन हमले रूपों को पहली बार व्यवस्थित रूप से संभालना
- बहुभाषी पुनर्प्राप्ति क्षमता: क्रॉस-भाषा पहचान के लिए बहुभाषी एम्बेडिंग मॉडलों का उपयोग करना
- नकारात्मक नमूना मिलान रणनीति: केवल गलत सूचना डेटाबेस का उपयोग करके नकारात्मक मिलान पहचान करना
- मॉड्यूलर प्लगइन डिज़ाइन: वेब ब्राउज़र प्लगइन के रूप में सीधे तैनाती के लिए
- गलत सूचना शीर्षक: Snopes और Politifact से 20,950 गलत सूचना शीर्षक एकत्र किए गए
- तथ्य शीर्षक: 4,000 वास्तविक शीर्षक एकत्र किए गए
- प्रायोगिक डेटा: 5,000 गलत सूचना शीर्षक और 2,000 तथ्य शीर्षक का चयन
- MCQ डेटासेट: शीर्षकों को "क्यों" से शुरू होने वाले बहुविकल्प प्रश्नों में रूपांतरित करना
- अनुवाद डेटासेट: विस्तारित पाठ को छह भाषाओं में अनुवाद करना
- सारांश डेटासेट: सारांश कार्य के लिए 500 शब्दों की लंबी पाठ उत्पन्न करना
- तथ्य सटीकता: तथ्य सूचना को सही ढंग से वर्गीकृत करने का प्रतिशत
- गलत सूचना सटीकता: गलत सूचना को सही ढंग से वर्गीकृत करने का प्रतिशत
- हमले सफलता दर (ASR): प्रतिकूल इनपुट के कारण सिस्टम विफल होने का अनुपात (जितना कम उतना अच्छा)
- बेसलाइन मॉडल: मूल Llama 3.1-8B-Instruct
- विभिन्न एम्बेडिंग मॉडलों के RAG-Llama वेरिएंट
- विषय वर्गीकरण के साथ/बिना सिस्टम वेरिएंट
- मॉडल: Llama 3.1-8B-Instruct
- हार्डवेयर: GPU A100 80GB
- हाइपरपैरामीटर: temperature=0.1, top-p=1
- एम्बेडिंग स्टोरेज: CSV फ़ाइल प्रारूप
- प्रत्यक्ष प्रश्न ASR: 46.74%
- MCQ हमले ASR: 97.72%
- अनुवाद हमले ASR: 100%
- सारांश हमले ASR: 100%
| हमले का प्रकार | गलत सूचना पहचान सटीकता | तथ्य पहचान सटीकता |
|---|
| प्रत्यक्ष प्रश्न | 99.76% | 85.25% |
| MCQ | 97.38% | 89.85% |
| सारांश | 99.3% | 95.15% |
| फ्रेंच अनुवाद | 97.72% | 87.25% |
| अरबी अनुवाद | 97.26% | 88.65% |
| हिंदी अनुवाद | 95.2% | 87.4% |
| चीनी अनुवाद | 96.44% | 93.5% |
| स्पेनिश अनुवाद | 97.9% | 90.9% |
| एम्बेडिंग मॉडल | MCQ औसत सटीकता | सारांश औसत सटीकता | अनुवाद औसत सटीकता |
|---|
| text-embedding-3-large | 93.62% | 97.23% | 93.22% |
| jina-embeddings-v3 | 95.29% | 89.08% | 93.35% |
| multilingual-e5-large | 95.26% | 89.02% | 93.92% |
- गति वृद्धि: माध्यिका 2 गुना से अधिक, औसत 3 गुना से अधिक
- सटीकता: 78.27%-91.18% तक भिन्न
- MCQ कार्य सटीकता अपेक्षाकृत कम: क्योंकि बहुविकल्प प्रश्नों में कई विषय उत्तर होते हैं जिससे वर्गीकरण कठिन हो जाता है
- RAG बेसलाइन से काफी बेहतर: सभी हमले प्रकारों पर बड़ी वृद्धि
- बहुभाषी क्षमता: छह भाषाओं में 95% से अधिक गलत सूचना पहचान सटीकता बनाए रखी
- एम्बेडिंग मॉडल प्रभाव: multilingual-e5-large संतुलित प्रदर्शन और पहुंच में सर्वश्रेष्ठ
- विषय वर्गीकरण त्वरण: पुनर्प्राप्ति गति को प्रभावी ढंग से बढ़ाता है, लेकिन जटिल क्वेरी पर सटीकता में कुछ गिरावट
- BERT-आधारित विधियां (FakeBERT आदि)
- T5 निर्देश सूक्ष्म-ट्यूनिंग
- Llama-2 PEFT/LoRA सूक्ष्म-ट्यूनिंग
- सुदृढ़ीकरण सीखने की विधियां
- Mixtral-8x7B और RAG संयोजन
- वास्तविक समय वेब डेटा एकीकरण
- अनुकूली विषय RAG (AT-RAG)
- LLM-Consensus दृश्य गलत सूचना पहचान
- TruEDebate (TED) संरचित बहस प्रणाली
- संपूर्ण गलत सूचना जीवन चक्र प्रसंस्करण ढांचा
- ढाल-आधारित टोकन-स्तर प्रतिस्थापन
- सुदृढ़ीकरण सीखने-संचालित दावा विक्षोभ
- ब्लैक-बॉक्स हमले रणनीति
- LLMs में महत्वपूर्ण कमजोरियां: मूल LLMs प्रतिकूल हमलों के तहत गलत सूचना फैलाने के लिए अत्यधिक प्रवण हैं
- RAG प्रभावी रूप से मजबूती बढ़ाता है: RAG-Llama विभिन्न हमलों में बेसलाइन से काफी बेहतर है
- बहुभाषी पहचान व्यवहार्य: सिस्टम छह प्रमुख भाषाओं में गलत सूचना को प्रभावी ढंग से संभाल सकता है
- व्यावहारिक तैनाती संभावना: बहु-एजेंट आर्किटेक्चर वेब प्लगइन के रूप में तैनाती के लिए उपयुक्त है
- विषय वर्गीकरण सटीकता: विषय गलत वर्गीकरण पुनर्प्राप्ति सटीकता को प्रभावित करेगा
- डेटाबेस निर्भरता: सिस्टम प्रदर्शन गलत सूचना डेटाबेस की गुणवत्ता और पूर्णता पर गंभीर रूप से निर्भर करता है
- गतिशील अद्यतन आवश्यकता: नई गलत सूचना का सामना करने के लिए डेटाबेस को लगातार अपडेट करने की आवश्यकता है
- सुरक्षा कमजोरियां: RAG प्रणाली डेटाबेस प्रदूषण और एम्बेडिंग हमलों का सामना कर सकती है
- विषय वर्गीकरण में सुधार: जटिल क्वेरी की वर्गीकरण सटीकता बढ़ाना
- अन्य LLMs की खोज: RAG में विभिन्न भाषा मॉडलों के प्रदर्शन का मूल्यांकन करना
- सुरक्षा बढ़ाना: एम्बेडिंग हमलों और डेटाबेस प्रदूषण के विरुद्ध सुरक्षा तंत्र विकसित करना
- हमले प्रकारों का विस्तार: प्रतिकूल रूपांतरण के अधिक प्रकारों का अनुसंधान करना
- समस्या महत्व: LLMs में गलत सूचना पहचान की महत्वपूर्ण सुरक्षा समस्या को हल करता है
- विधि नवाचार: बहुभाषी, बहु-संरचना प्रतिकूल हमलों का पहली बार व्यवस्थित अनुसंधान
- प्रयोग व्यापकता: छह भाषाओं, तीन हमले प्रकारों का व्यापक मूल्यांकन
- व्यावहारिक मूल्य: तैनाती योग्य प्लगइन समाधान प्रदान करता है
- तकनीकी उन्नति: नवीनतम RAG और बहु-एजेंट तकनीकों को जोड़ता है
- डेटासेट आकार सीमा: केवल 7,000 शीर्षकों का उपयोग, आकार अपेक्षाकृत छोटा है
- सीमित हमले प्रकार: केवल तीन विशिष्ट हमले रूपों पर विचार किया गया है
- एकल मूल्यांकन मेट्रिक: मुख्य रूप से सटीकता पर ध्यान केंद्रित, दक्षता, लागत आदि मेट्रिक्स की कमी
- अपर्याप्त सैद्धांतिक विश्लेषण: विधि प्रभावशीलता के सैद्धांतिक व्याख्या की कमी
- दीर्घकालीन स्थिरता अपरीक्षित: दीर्घकालीन उपयोग में सिस्टम प्रदर्शन क्षय का मूल्यांकन नहीं किया गया
- शैक्षणिक योगदान: बहुभाषी गलत सूचना पहचान के लिए नई अनुसंधान दिशा प्रदान करता है
- व्यावहारिक मूल्य: सोशल मीडिया और समाचार प्लेटफॉर्म पर सीधे लागू किया जा सकता है
- पुनरुत्पादनशीलता: ओपन सोर्स मॉडल का उपयोग, पुनरुत्पादन और सुधार में आसान
- उद्योग प्रभाव: सामग्री समीक्षा और तथ्य जांच के लिए तकनीकी आधार प्रदान करता है
- सोशल मीडिया प्लेटफॉर्म: उपयोगकर्ता द्वारा पोस्ट की गई गलत सूचना की वास्तविक समय पहचान
- समाचार एकत्रीकरण वेबसाइटें: समाचार लेखों की प्रामाणिकता सत्यापित करना
- शिक्षा प्लेटफॉर्म: उपयोगकर्ताओं को गलत सूचना पहचानने में मदद करना
- कॉर्पोरेट सामग्री समीक्षा: बड़े पैमाने पर सामग्री की स्वचालित समीक्षा
- सरकारी निगरानी: संबंधित विभागों को नेटवर्क गलत सूचना निगरानी में सहायता करना
यह पेपर 50 संबंधित संदर्भों का हवाला देता है, जो LLMs, RAG, बहु-एजेंट प्रणालियां, प्रतिकूल हमले आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह गलत सूचना पहचान क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है, जो एक नवीन बहु-एजेंट RAG ढांचा प्रस्तावित करता है और बहुभाषी, बहु-हमले-प्रकार सेटिंग में उत्कृष्ट प्रायोगिक परिणाम प्राप्त करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसका व्यावहारिक मूल्य और तकनीकी नवाचार इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाता है।