2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

Vers un Web Plus Sûr : Modèles LLM Multi-Agents Multilingues pour Atténuer les Attaques de Désinformation Adversariale

Informations Fondamentales

ID de l'article: 2510.08605
Titre: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
Auteurs: Nouar Aldahoul, Yasir Zaki (Université de New York Abu Dhabi)
Classification: cs.CL (Linguistique Informatique), cs.AI, cs.CR, cs.LG
Date de publication: 7 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.08605

Résumé

La propagation rapide de la désinformation sur les plateformes numériques menace le discours public, la stabilité émotionnelle et la prise de décision. Bien que les travaux antérieurs aient exploré diverses attaques adversariales dans la détection de la désinformation, les transformations spécifiques étudiées dans cet article n'ont pas fait l'objet d'une recherche systématique. En particulier, cet article enquête sur les changements de langue entre l'anglais, le français, l'espagnol, l'arabe, l'hindi et le chinois, ainsi que sur les traductions ultérieures. Il examine également l'expansion de la longueur des requêtes avant le résumé et le reformatage structuré en questions à choix multiples. Cet article propose un cadre de modèles de langage de grande taille multi-agents multilingues, combinant des techniques de génération augmentée par récupération, pouvant être déployé en tant que module complémentaire web sur les plateformes en ligne. Ce travail souligne l'importance de la détection de la désinformation pilotée par l'IA pour protéger l'intégrité factuelle en ligne, tout en démontrant la faisabilité du déploiement basé sur des modules complémentaires dans les applications web réelles.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est le manque de capacités efficaces de détection de la désinformation chez les modèles de langage de grande taille (LLMs) face aux attaques adversariales, qui risquent d'amplifier involontairement la propagation de la désinformation.

Importance du Problème

Impact social: La propagation rapide de la désinformation menace gravement le discours public, la stabilité émotionnelle et la prise de décision
Défis technologiques: Les LLMs existants présentent des performances proches du hasard dans la détection de la désinformation
Besoins de sécurité: Nécessité de systèmes de détection robustes contre des attaques diversifiées

Limitations des Approches Existantes

Limitations des connaissances intégrées: Les LLMs dépendent uniquement des connaissances intégrées au moment de l'entraînement, manquant de capacités de vérification des faits en temps réel
Biais linguistiques: Dégradation significative des performances sur les langues non-anglaises
Vulnérabilité aux attaques adversariales: Manque de résistance aux transformations de format, traductions, résumés et autres attaques
Absence de recherche systématique: Les travaux existants n'évaluent pas systématiquement les attaques adversariales multilingues et multi-structurelles

Motivation de la Recherche

Les auteurs proposent de développer un système de détection de la désinformation multilingue capable de résister à diverses attaques adversariales et de le déployer en tant que module complémentaire web pratique.

Contributions Fondamentales

Proposition d'un cadre RAG multi-agents: Architecture multi-agents combinant Llama 3.1-8B et des techniques de génération augmentée par récupération
Construction d'un nouvel ensemble de données d'attaques adversariales: Ensemble de données contenant trois formes d'attaques : questions à choix multiples (QCM), traduction et résumé
Implémentation de capacités de détection multilingues: Support de six langues : anglais, français, espagnol, arabe, hindi et chinois
Validation de la faisabilité du déploiement pratique: Conception comme un module complémentaire web déployable
Fourniture d'une évaluation expérimentale complète: Précision de détection de la désinformation supérieure à 95%

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Contenu textuel provenant du web (articles d'actualité, commentaires d'utilisateurs, publications sur les réseaux sociaux, etc.), pouvant contenir des transformations adversariales Sortie: Résultat de classification binaire (Vrai/Faux) déterminant si le texte d'entrée contient de la désinformation Contraintes: Le système doit fonctionner dans un cadre de boîte noire, basé uniquement sur des retours binaires

Architecture du Modèle

Composants Fondamentaux RAG-Llama

Modèle d'intégration: Comparaison de trois modèles d'intégration multilingues
- text-embedding-3-large d'OpenAI (propriétaire)
- jina-embeddings-v3 (propriétaire)
- multilingual-e5-large (open source)
Mécanisme de récupération: Système de récupération basé sur la similarité cosinus
- Stockage des titres de désinformation intégrés dans des fichiers CSV
- Récupération des titres de désinformation les plus pertinents par rapport à la requête
- Utilisation de Llama pour l'analyse contextuelle et le jugement final

Architecture Multi-Agents

Le système comprend quatre agents collaboratifs :

Agent Web Crawler
- Extraction de contenu structuré à partir de sites web dynamiques
- Division du texte en blocs gérables
- Transmission au agent gestionnaire pour traitement
Agent Gestionnaire
- Interaction avec le web crawler pour recevoir le texte
- Routage vers les agents de classification thématique et de détection de la désinformation
- Envoi de notifications aux utilisateurs
Agent de Détection de la Désinformation
- Utilisation de RAG-Llama pour la détection
- Récupération à partir d'une base de données contenant 5 000 titres de désinformation vérifiés
- Utilisation du modèle Llama open source pour le jugement final
Agent Thématique (optionnel)
- Classification des requêtes en 10 catégories prédéfinies
- Accélération du processus de recherche RAG
- Utilisation de GPT-4o-mini pour la classification thématique
Agent Arbitre
- Assurance que tous les blocs de texte sont traités
- Vérification de la cohérence entre les composants du système
- Renforcement de la robustesse en tant que couche de validation supplémentaire

Points d'Innovation Technique

Traitement des attaques adversariales multi-modales: Traitement systématique pour la première fois de trois formes d'attaques : QCM, traduction et résumé
Capacités de récupération multilingues: Utilisation de modèles d'intégration multilingues pour la détection inter-langues
Stratégie d'appariement d'échantillons négatifs: Utilisation exclusive de la base de données de désinformation pour la détection par appariement négatif
Conception modulaire de modules complémentaires: Déploiement direct en tant que module complémentaire de navigateur web

Configuration Expérimentale

Ensemble de Données

Sources de Données

Titres de désinformation: 20 950 titres de désinformation collectés auprès de Snopes et Politifact
Titres factuels: 4 000 titres réels collectés
Données expérimentales: Sélection de 5 000 titres de désinformation et 2 000 titres factuels

Trois Ensembles de Données d'Attaques

Ensemble de données QCM: Conversion de titres en questions à choix multiples commençant par « Pourquoi »
Ensemble de données de traduction: Traduction de texte étendu en six langues
Ensemble de données de résumé: Génération de texte long de 500 mots pour la tâche de résumé

Métriques d'Évaluation

Précision factuelle: Pourcentage de classification correcte des informations factuelles
Précision de la désinformation: Pourcentage de classification correcte de la désinformation
Taux de succès des attaques (TSA): Ratio d'entrées adversariales causant l'échec du système (plus bas est mieux)

Méthodes de Comparaison

Modèles de base: Llama 3.1-8B-Instruct original
Variantes RAG-Llama avec différents modèles d'intégration
Variantes du système avec/sans classification thématique

Détails d'Implémentation

Modèle: Llama 3.1-8B-Instruct
Matériel: GPU A100 80GB
Hyperparamètres: temperature=0.1, top-p=1
Stockage d'intégration: Format fichier CSV

Résultats Expérimentaux

Résultats Principaux

Vulnérabilité du Modèle de Base

TSA pour questions directes: 46,74%
TSA pour attaques QCM: 97,72%
TSA pour attaques de traduction: 100%
TSA pour attaques de résumé: 100%

Performance de RAG-Llama

Type d'Attaque	Précision Détection Désinformation	Précision Détection Faits
Questions directes	99,76%	85,25%
QCM	97,38%	89,85%
Résumé	99,3%	95,15%
Traduction française	97,72%	87,25%
Traduction arabe	97,26%	88,65%
Traduction hindi	95,2%	87,4%
Traduction chinoise	96,44%	93,5%
Traduction espagnole	97,9%	90,9%

Comparaison des Modèles d'Intégration

Modèle d'Intégration	Précision Moyenne QCM	Précision Moyenne Résumé	Précision Moyenne Traduction
text-embedding-3-large	93,62%	97,23%	93,22%
jina-embeddings-v3	95,29%	89,08%	93,35%
multilingual-e5-large	95,26%	89,02%	93,92%

Efficacité de la Classification Thématique

Amélioration de la vitesse: Plus de 2 fois la médiane, plus de 3 fois en moyenne
Précision: Entre 78,27% et 91,18%
Précision relative plus faible pour les tâches QCM: En raison des réponses multi-thématiques contenues dans les questions à choix multiples

Découvertes Expérimentales

RAG significativement supérieur à la base: Améliorations substantielles sur tous les types d'attaques
Capacités multilingues: Maintien d'une précision de détection de la désinformation supérieure à 95% sur les six langues
Impact des modèles d'intégration: multilingual-e5-large présente les meilleures performances en équilibre et accessibilité
Accélération par classification thématique: Amélioration efficace de la vitesse de récupération, mais réduction de la précision sur les requêtes complexes

Travaux Connexes

Méthodes d'Ajustement Fin

Approches basées sur BERT (FakeBERT, etc.)
Ajustement d'instructions T5
Ajustement fin Llama-2 PEFT/LoRA
Méthodes d'apprentissage par renforcement

Méthodes RAG

Mixtral-8x7B combiné avec RAG
Intégration de données web en temps réel
RAG thématique adaptatif (AT-RAG)

Systèmes Multi-Agents

Détection de fausses informations visuelles LLM-Consensus
Système de débat structuré TruEDebate (TED)
Cadre de traitement du cycle de vie complet de la désinformation

Attaques Adversariales

Remplacement de tokens au niveau du gradient
Perturbation de déclarations pilotée par apprentissage par renforcement
Stratégies d'attaque en boîte noire

Conclusion et Discussion

Conclusions Principales

Vulnérabilité significative des LLMs: Les LLMs originaux sont extrêmement susceptibles de propager la désinformation sous les attaques adversariales
RAG améliore efficacement la robustesse: RAG-Llama surpasse significativement la base sur diverses attaques
Détection multilingue réalisable: Le système peut traiter efficacement la désinformation dans six langues majeures
Potentiel de déploiement pratique: L'architecture multi-agents convient au déploiement en tant que module complémentaire web

Limitations

Précision de la classification thématique: Les erreurs de classification thématique affectent la précision de la récupération
Dépendance à la base de données: Les performances du système dépendent fortement de la qualité et de l'exhaustivité de la base de données de désinformation
Besoin de mises à jour dynamiques: Nécessité de mettre à jour continuellement la base de données pour faire face à la désinformation émergente
Failles de sécurité: Les systèmes RAG peuvent faire face à la pollution de base de données et aux attaques d'intégration

Directions Futures

Amélioration de la classification thématique: Augmentation de la précision de classification pour les requêtes complexes
Exploration d'autres LLMs: Évaluation des performances de différents modèles de langage dans RAG
Renforcement de la sécurité: Développement de mécanismes de protection contre les attaques d'intégration et la pollution de base de données
Extension des types d'attaques: Étude de transformations adversariales supplémentaires

Évaluation Approfondie

Avantages

Importance du problème: Résout un problème de sécurité critique des LLMs dans la détection de la désinformation
Innovativité de la méthode: Première étude systématique des attaques adversariales multilingues et multi-structurelles
Exhaustivité expérimentale: Évaluation complète couvrant six langues et trois types d'attaques
Valeur pratique: Fournit une solution de module complémentaire déployable
Avancée technologique: Combine les dernières techniques RAG et multi-agents

Insuffisances

Limitation de la taille de l'ensemble de données: Utilisation de seulement 7 000 titres, taille relativement petite
Types d'attaques limités: Considération de seulement trois formes d'attaques spécifiques
Métriques d'évaluation uniques: Accent principal sur la précision, manque de métriques d'efficacité et de coût
Analyse théorique insuffisante: Manque d'explications théoriques sur l'efficacité de la méthode
Stabilité à long terme non vérifiée: Absence d'évaluation de la dégradation des performances lors d'une utilisation prolongée

Impact

Contribution académique: Fournit une nouvelle direction de recherche pour la détection de la désinformation multilingue
Valeur pratique: Applicable directement aux plateformes de réseaux sociaux et d'actualités
Reproductibilité: Utilisation de modèles open source, facilitant la reproduction et l'amélioration
Impact industriel: Fournit une base technologique pour la modération de contenu et la vérification des faits

Scénarios d'Application

Plateformes de réseaux sociaux: Détection en temps réel de la désinformation publiée par les utilisateurs
Sites d'agrégation d'actualités: Vérification de l'authenticité des articles d'actualité
Plateformes éducatives: Aide aux utilisateurs pour identifier la désinformation
Modération de contenu d'entreprise: Modération automatisée de contenu à grande échelle
Surveillance gouvernementale: Assistance aux organismes compétents dans la surveillance de la désinformation en ligne

Références

Cet article cite 50 références pertinentes couvrant plusieurs domaines, notamment les LLMs, RAG, les systèmes multi-agents et les attaques adversariales, fournissant une base théorique solide pour la recherche.

Évaluation Globale: Cet article constitue une contribution importante dans le domaine de la détection de la désinformation, proposant un cadre RAG multi-agents innovant et obtenant des résultats expérimentaux excellents dans un contexte multilingue et multi-attaques. Bien qu'il présente certaines limitations, sa valeur pratique et son innovativité technologique en font une avancée importante dans ce domaine.