The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- ID de l'article: 2510.08605
- Titre: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- Auteurs: Nouar Aldahoul, Yasir Zaki (Université de New York Abu Dhabi)
- Classification: cs.CL (Linguistique Informatique), cs.AI, cs.CR, cs.LG
- Date de publication: 7 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.08605
La propagation rapide de la désinformation sur les plateformes numériques menace le discours public, la stabilité émotionnelle et la prise de décision. Bien que les travaux antérieurs aient exploré diverses attaques adversariales dans la détection de la désinformation, les transformations spécifiques étudiées dans cet article n'ont pas fait l'objet d'une recherche systématique. En particulier, cet article enquête sur les changements de langue entre l'anglais, le français, l'espagnol, l'arabe, l'hindi et le chinois, ainsi que sur les traductions ultérieures. Il examine également l'expansion de la longueur des requêtes avant le résumé et le reformatage structuré en questions à choix multiples. Cet article propose un cadre de modèles de langage de grande taille multi-agents multilingues, combinant des techniques de génération augmentée par récupération, pouvant être déployé en tant que module complémentaire web sur les plateformes en ligne. Ce travail souligne l'importance de la détection de la désinformation pilotée par l'IA pour protéger l'intégrité factuelle en ligne, tout en démontrant la faisabilité du déploiement basé sur des modules complémentaires dans les applications web réelles.
Le problème fondamental que cette recherche vise à résoudre est le manque de capacités efficaces de détection de la désinformation chez les modèles de langage de grande taille (LLMs) face aux attaques adversariales, qui risquent d'amplifier involontairement la propagation de la désinformation.
- Impact social: La propagation rapide de la désinformation menace gravement le discours public, la stabilité émotionnelle et la prise de décision
- Défis technologiques: Les LLMs existants présentent des performances proches du hasard dans la détection de la désinformation
- Besoins de sécurité: Nécessité de systèmes de détection robustes contre des attaques diversifiées
- Limitations des connaissances intégrées: Les LLMs dépendent uniquement des connaissances intégrées au moment de l'entraînement, manquant de capacités de vérification des faits en temps réel
- Biais linguistiques: Dégradation significative des performances sur les langues non-anglaises
- Vulnérabilité aux attaques adversariales: Manque de résistance aux transformations de format, traductions, résumés et autres attaques
- Absence de recherche systématique: Les travaux existants n'évaluent pas systématiquement les attaques adversariales multilingues et multi-structurelles
Les auteurs proposent de développer un système de détection de la désinformation multilingue capable de résister à diverses attaques adversariales et de le déployer en tant que module complémentaire web pratique.
- Proposition d'un cadre RAG multi-agents: Architecture multi-agents combinant Llama 3.1-8B et des techniques de génération augmentée par récupération
- Construction d'un nouvel ensemble de données d'attaques adversariales: Ensemble de données contenant trois formes d'attaques : questions à choix multiples (QCM), traduction et résumé
- Implémentation de capacités de détection multilingues: Support de six langues : anglais, français, espagnol, arabe, hindi et chinois
- Validation de la faisabilité du déploiement pratique: Conception comme un module complémentaire web déployable
- Fourniture d'une évaluation expérimentale complète: Précision de détection de la désinformation supérieure à 95%
Entrée: Contenu textuel provenant du web (articles d'actualité, commentaires d'utilisateurs, publications sur les réseaux sociaux, etc.), pouvant contenir des transformations adversariales
Sortie: Résultat de classification binaire (Vrai/Faux) déterminant si le texte d'entrée contient de la désinformation
Contraintes: Le système doit fonctionner dans un cadre de boîte noire, basé uniquement sur des retours binaires
- Modèle d'intégration: Comparaison de trois modèles d'intégration multilingues
- text-embedding-3-large d'OpenAI (propriétaire)
- jina-embeddings-v3 (propriétaire)
- multilingual-e5-large (open source)
- Mécanisme de récupération: Système de récupération basé sur la similarité cosinus
- Stockage des titres de désinformation intégrés dans des fichiers CSV
- Récupération des titres de désinformation les plus pertinents par rapport à la requête
- Utilisation de Llama pour l'analyse contextuelle et le jugement final
Le système comprend quatre agents collaboratifs :
- Agent Web Crawler
- Extraction de contenu structuré à partir de sites web dynamiques
- Division du texte en blocs gérables
- Transmission au agent gestionnaire pour traitement
- Agent Gestionnaire
- Interaction avec le web crawler pour recevoir le texte
- Routage vers les agents de classification thématique et de détection de la désinformation
- Envoi de notifications aux utilisateurs
- Agent de Détection de la Désinformation
- Utilisation de RAG-Llama pour la détection
- Récupération à partir d'une base de données contenant 5 000 titres de désinformation vérifiés
- Utilisation du modèle Llama open source pour le jugement final
- Agent Thématique (optionnel)
- Classification des requêtes en 10 catégories prédéfinies
- Accélération du processus de recherche RAG
- Utilisation de GPT-4o-mini pour la classification thématique
- Agent Arbitre
- Assurance que tous les blocs de texte sont traités
- Vérification de la cohérence entre les composants du système
- Renforcement de la robustesse en tant que couche de validation supplémentaire
- Traitement des attaques adversariales multi-modales: Traitement systématique pour la première fois de trois formes d'attaques : QCM, traduction et résumé
- Capacités de récupération multilingues: Utilisation de modèles d'intégration multilingues pour la détection inter-langues
- Stratégie d'appariement d'échantillons négatifs: Utilisation exclusive de la base de données de désinformation pour la détection par appariement négatif
- Conception modulaire de modules complémentaires: Déploiement direct en tant que module complémentaire de navigateur web
- Titres de désinformation: 20 950 titres de désinformation collectés auprès de Snopes et Politifact
- Titres factuels: 4 000 titres réels collectés
- Données expérimentales: Sélection de 5 000 titres de désinformation et 2 000 titres factuels
- Ensemble de données QCM: Conversion de titres en questions à choix multiples commençant par « Pourquoi »
- Ensemble de données de traduction: Traduction de texte étendu en six langues
- Ensemble de données de résumé: Génération de texte long de 500 mots pour la tâche de résumé
- Précision factuelle: Pourcentage de classification correcte des informations factuelles
- Précision de la désinformation: Pourcentage de classification correcte de la désinformation
- Taux de succès des attaques (TSA): Ratio d'entrées adversariales causant l'échec du système (plus bas est mieux)
- Modèles de base: Llama 3.1-8B-Instruct original
- Variantes RAG-Llama avec différents modèles d'intégration
- Variantes du système avec/sans classification thématique
- Modèle: Llama 3.1-8B-Instruct
- Matériel: GPU A100 80GB
- Hyperparamètres: temperature=0.1, top-p=1
- Stockage d'intégration: Format fichier CSV
- TSA pour questions directes: 46,74%
- TSA pour attaques QCM: 97,72%
- TSA pour attaques de traduction: 100%
- TSA pour attaques de résumé: 100%
| Type d'Attaque | Précision Détection Désinformation | Précision Détection Faits |
|---|
| Questions directes | 99,76% | 85,25% |
| QCM | 97,38% | 89,85% |
| Résumé | 99,3% | 95,15% |
| Traduction française | 97,72% | 87,25% |
| Traduction arabe | 97,26% | 88,65% |
| Traduction hindi | 95,2% | 87,4% |
| Traduction chinoise | 96,44% | 93,5% |
| Traduction espagnole | 97,9% | 90,9% |
| Modèle d'Intégration | Précision Moyenne QCM | Précision Moyenne Résumé | Précision Moyenne Traduction |
|---|
| text-embedding-3-large | 93,62% | 97,23% | 93,22% |
| jina-embeddings-v3 | 95,29% | 89,08% | 93,35% |
| multilingual-e5-large | 95,26% | 89,02% | 93,92% |
- Amélioration de la vitesse: Plus de 2 fois la médiane, plus de 3 fois en moyenne
- Précision: Entre 78,27% et 91,18%
- Précision relative plus faible pour les tâches QCM: En raison des réponses multi-thématiques contenues dans les questions à choix multiples
- RAG significativement supérieur à la base: Améliorations substantielles sur tous les types d'attaques
- Capacités multilingues: Maintien d'une précision de détection de la désinformation supérieure à 95% sur les six langues
- Impact des modèles d'intégration: multilingual-e5-large présente les meilleures performances en équilibre et accessibilité
- Accélération par classification thématique: Amélioration efficace de la vitesse de récupération, mais réduction de la précision sur les requêtes complexes
- Approches basées sur BERT (FakeBERT, etc.)
- Ajustement d'instructions T5
- Ajustement fin Llama-2 PEFT/LoRA
- Méthodes d'apprentissage par renforcement
- Mixtral-8x7B combiné avec RAG
- Intégration de données web en temps réel
- RAG thématique adaptatif (AT-RAG)
- Détection de fausses informations visuelles LLM-Consensus
- Système de débat structuré TruEDebate (TED)
- Cadre de traitement du cycle de vie complet de la désinformation
- Remplacement de tokens au niveau du gradient
- Perturbation de déclarations pilotée par apprentissage par renforcement
- Stratégies d'attaque en boîte noire
- Vulnérabilité significative des LLMs: Les LLMs originaux sont extrêmement susceptibles de propager la désinformation sous les attaques adversariales
- RAG améliore efficacement la robustesse: RAG-Llama surpasse significativement la base sur diverses attaques
- Détection multilingue réalisable: Le système peut traiter efficacement la désinformation dans six langues majeures
- Potentiel de déploiement pratique: L'architecture multi-agents convient au déploiement en tant que module complémentaire web
- Précision de la classification thématique: Les erreurs de classification thématique affectent la précision de la récupération
- Dépendance à la base de données: Les performances du système dépendent fortement de la qualité et de l'exhaustivité de la base de données de désinformation
- Besoin de mises à jour dynamiques: Nécessité de mettre à jour continuellement la base de données pour faire face à la désinformation émergente
- Failles de sécurité: Les systèmes RAG peuvent faire face à la pollution de base de données et aux attaques d'intégration
- Amélioration de la classification thématique: Augmentation de la précision de classification pour les requêtes complexes
- Exploration d'autres LLMs: Évaluation des performances de différents modèles de langage dans RAG
- Renforcement de la sécurité: Développement de mécanismes de protection contre les attaques d'intégration et la pollution de base de données
- Extension des types d'attaques: Étude de transformations adversariales supplémentaires
- Importance du problème: Résout un problème de sécurité critique des LLMs dans la détection de la désinformation
- Innovativité de la méthode: Première étude systématique des attaques adversariales multilingues et multi-structurelles
- Exhaustivité expérimentale: Évaluation complète couvrant six langues et trois types d'attaques
- Valeur pratique: Fournit une solution de module complémentaire déployable
- Avancée technologique: Combine les dernières techniques RAG et multi-agents
- Limitation de la taille de l'ensemble de données: Utilisation de seulement 7 000 titres, taille relativement petite
- Types d'attaques limités: Considération de seulement trois formes d'attaques spécifiques
- Métriques d'évaluation uniques: Accent principal sur la précision, manque de métriques d'efficacité et de coût
- Analyse théorique insuffisante: Manque d'explications théoriques sur l'efficacité de la méthode
- Stabilité à long terme non vérifiée: Absence d'évaluation de la dégradation des performances lors d'une utilisation prolongée
- Contribution académique: Fournit une nouvelle direction de recherche pour la détection de la désinformation multilingue
- Valeur pratique: Applicable directement aux plateformes de réseaux sociaux et d'actualités
- Reproductibilité: Utilisation de modèles open source, facilitant la reproduction et l'amélioration
- Impact industriel: Fournit une base technologique pour la modération de contenu et la vérification des faits
- Plateformes de réseaux sociaux: Détection en temps réel de la désinformation publiée par les utilisateurs
- Sites d'agrégation d'actualités: Vérification de l'authenticité des articles d'actualité
- Plateformes éducatives: Aide aux utilisateurs pour identifier la désinformation
- Modération de contenu d'entreprise: Modération automatisée de contenu à grande échelle
- Surveillance gouvernementale: Assistance aux organismes compétents dans la surveillance de la désinformation en ligne
Cet article cite 50 références pertinentes couvrant plusieurs domaines, notamment les LLMs, RAG, les systèmes multi-agents et les attaques adversariales, fournissant une base théorique solide pour la recherche.
Évaluation Globale: Cet article constitue une contribution importante dans le domaine de la détection de la désinformation, proposant un cadre RAG multi-agents innovant et obtenant des résultats expérimentaux excellents dans un contexte multilingue et multi-attaques. Bien qu'il présente certaines limitations, sa valeur pratique et son innovativité technologique en font une avancée importante dans ce domaine.