2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

Verso un Web più Sicuro: LLM Multi-Agente Multilingui per Mitigare Attacchi di Disinformazione Avversariale

Informazioni Fondamentali

ID Articolo: 2510.08605
Titolo: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
Autori: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
Classificazione: cs.CL (Computational Linguistics), cs.AI, cs.CR, cs.LG
Data di Pubblicazione: 7 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.08605

Riassunto

La rapida diffusione della disinformazione sulle piattaforme digitali minaccia il discorso pubblico, la stabilità emotiva e il processo decisionale. Sebbene lavori precedenti abbiano esplorato vari attacchi avversariali nella rilevazione della disinformazione, le trasformazioni specifiche studiate in questo articolo non sono state ancora sistematicamente investigate. In particolare, questo lavoro indaga il code-switching linguistico tra inglese, francese, spagnolo, arabo, hindi e cinese, nonché la traduzione successiva. Inoltre, esamina l'espansione della lunghezza delle query prima del riassunto e la riformattazione strutturata in domande a scelta multipla. L'articolo propone un framework multi-agente multilingue basato su Large Language Models, combinato con tecniche di Retrieval-Augmented Generation, distribuibile come plugin web su piattaforme online. Questo lavoro sottolinea l'importanza della rilevazione della disinformazione guidata dall'IA nel proteggere l'integrità dei fatti online, dimostrando al contempo la fattibilità della distribuzione basata su plugin in applicazioni web reali.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la mancanza di capacità efficaci di rilevazione della disinformazione nei Large Language Models (LLM) quando sottoposti ad attacchi avversariali, che tendono ad amplificare involontariamente la diffusione di informazioni false.

Importanza del Problema

Impatto Sociale: La rapida diffusione della disinformazione minaccia gravemente il discorso pubblico, la stabilità emotiva e il processo decisionale
Sfide Tecniche: Gli LLM attuali mostrano prestazioni nella rilevazione della disinformazione prossime a indovinare casualmente
Esigenze di Sicurezza: È necessario un sistema di rilevazione robusto contro attacchi diversificati

Limitazioni dei Metodi Esistenti

Limitazioni della Conoscenza Incorporata: Gli LLM si affidano esclusivamente alla conoscenza incorporata al momento dell'addestramento, mancando di capacità di verifica dei fatti in tempo reale
Bias Linguistico: Le prestazioni diminuiscono significativamente su lingue non inglesi
Vulnerabilità agli Attacchi Avversariali: Mancanza di resistenza a trasformazioni di formato, traduzioni, riassunti e altri attacchi
Ricerca Non Sistematica: I lavori esistenti non valutano sistematicamente attacchi avversariali multilingui e multistrutturali

Motivazione della Ricerca

Gli autori propongono la necessità di sviluppare un sistema multilingue di rilevazione della disinformazione in grado di resistere a molteplici attacchi avversariali e distribuirlo come plugin web pratico.

Contributi Principali

Propone un Framework RAG Multi-Agente: Architettura multi-agente che combina Llama 3.1-8B e tecniche di Retrieval-Augmented Generation
Costruisce un Nuovo Dataset di Attacchi Avversariali: Dataset contenente tre forme di attacco: domande a scelta multipla (MCQ), traduzioni e riassunti
Implementa Capacità di Rilevazione Multilingue: Supporta sei lingue: inglese, francese, spagnolo, arabo, hindi e cinese
Verifica la Fattibilità della Distribuzione Pratica: Progettato come plugin web distribuibile
Fornisce una Valutazione Sperimentale Completa: Raggiunge un'accuratezza superiore al 95% nella rilevazione della disinformazione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Contenuto testuale da web (articoli di notizie, commenti utenti, post sui social media, ecc.), potenzialmente contenente trasformazioni avversariali Output: Risultato di classificazione binaria (Vero/Falso), determinando se il testo di input contiene disinformazione Vincoli: Il sistema deve funzionare in impostazioni black-box, basandosi esclusivamente su feedback binario

Architettura del Modello

Componenti Principali RAG-Llama

Modello di Embedding: Confronto tra tre modelli di embedding multilingui
- OpenAI's text-embedding-3-large (proprietario)
- jina-embeddings-v3 (proprietario)
- multilingual-e5-large (open-source)
Meccanismo di Recupero: Sistema di recupero basato sulla similarità del coseno
- Memorizzazione di titoli falsi incorporati in file CSV
- Recupero dei titoli falsi più rilevanti rispetto alla query
- Utilizzo di Llama per l'analisi contestuale e il giudizio finale

Architettura Multi-Agente

Il sistema contiene quattro agenti collaborativi:

Agente Web Crawler
- Estrae contenuto strutturato da siti web dinamici
- Divide il testo in blocchi gestibili
- Trasmette al agente gestore per l'elaborazione
Agente Gestore
- Interagisce con il web crawler ricevendo testo
- Instrada verso agenti di classificazione tematica e rilevazione della disinformazione
- Invia notifiche agli utenti
Agente di Rilevazione della Disinformazione
- Utilizza RAG-Llama per la rilevazione
- Recupera da un database contenente 5.000 titoli falsi verificati
- Utilizza il modello Llama open-source per il giudizio finale
Agente Tematico (opzionale)
- Classifica le query in 10 categorie predefinite
- Accelera il processo di ricerca RAG
- Utilizza GPT-4o-mini per la classificazione tematica
Agente Arbitro
- Assicura che tutti i blocchi di testo siano elaborati
- Verifica la coerenza tra i componenti del sistema
- Funge da livello di verifica aggiuntivo per aumentare la robustezza

Punti di Innovazione Tecnica

Gestione di Attacchi Avversariali Multimodali: Prima gestione sistematica di tre forme di attacco: MCQ, traduzioni e riassunti
Capacità di Recupero Multilingue: Utilizzo di modelli di embedding multilingui per la rilevazione cross-linguistica
Strategia di Corrispondenza Campioni Negativi: Utilizzo esclusivo del database di disinformazione per la rilevazione di corrispondenze negative
Progettazione Modulare del Plugin: Distribuibile direttamente come plugin per browser web

Configurazione Sperimentale

Dataset

Fonti Dati

Titoli Falsi: 20.950 titoli falsi raccolti da Snopes e Politifact
Titoli Veritieri: 4.000 titoli veritieri raccolti
Dati Sperimentali: Selezione di 5.000 titoli falsi e 2.000 titoli veritieri

Tre Dataset di Attacco

Dataset MCQ: Conversione di titoli in domande a scelta multipla iniziate con "Perché"
Dataset di Traduzione: Traduzione di testo esteso in sei lingue
Dataset di Riassunto: Generazione di testo lungo di 500 parole per il compito di riassunto

Metriche di Valutazione

Accuratezza dei Fatti: Percentuale di corretta classificazione delle informazioni veritiere
Accuratezza della Disinformazione: Percentuale di corretta classificazione della disinformazione
Tasso di Successo dell'Attacco (ASR): Rapporto di input avversariali che causano il fallimento del sistema (più basso è meglio)

Metodi di Confronto

Modello di Base: Llama 3.1-8B-Instruct originale
Varianti RAG-Llama con diversi modelli di embedding
Varianti del sistema con/senza classificazione tematica

Dettagli di Implementazione

Modello: Llama 3.1-8B-Instruct
Hardware: GPU A100 80GB
Iperparametri: temperature=0.1, top-p=1
Memorizzazione di Embedding: Formato file CSV

Risultati Sperimentali

Risultati Principali

Vulnerabilità del Modello di Base

ASR Domande Dirette: 46,74%
ASR Attacco MCQ: 97,72%
ASR Attacco di Traduzione: 100%
ASR Attacco di Riassunto: 100%

Prestazioni RAG-Llama

Tipo di Attacco	Accuratezza Rilevazione Disinformazione	Accuratezza Rilevazione Fatti
Domande Dirette	99,76%	85,25%
MCQ	97,38%	89,85%
Riassunto	99,3%	95,15%
Traduzione Francese	97,72%	87,25%
Traduzione Araba	97,26%	88,65%
Traduzione Hindi	95,2%	87,4%
Traduzione Cinese	96,44%	93,5%
Traduzione Spagnola	97,9%	90,9%

Confronto Modelli di Embedding

Modello di Embedding	Accuratezza Media MCQ	Accuratezza Media Riassunto	Accuratezza Media Traduzione
text-embedding-3-large	93,62%	97,23%	93,22%
jina-embeddings-v3	95,29%	89,08%	93,35%
multilingual-e5-large	95,26%	89,02%	93,92%

Effetto della Classificazione Tematica

Miglioramento della Velocità: Più di 2 volte la mediana, più di 3 volte la media
Accuratezza: Varia dal 78,27% al 91,18%
Accuratezza Relativa Inferiore per Compiti MCQ: Dovuta al fatto che le domande a scelta multipla contengono risposte multitematiche che rendono la classificazione difficile

Risultati Sperimentali

RAG Significativamente Superiore al Baseline: Miglioramenti sostanziali su tutti i tipi di attacco
Capacità Multilingue: Mantiene un'accuratezza di rilevazione della disinformazione superiore al 95% su sei lingue
Impatto del Modello di Embedding: multilingual-e5-large mostra le migliori prestazioni nel bilanciare performance e accessibilità
Accelerazione della Classificazione Tematica: Migliora efficacemente la velocità di recupero, ma con una leggera diminuzione dell'accuratezza su query complesse

Lavori Correlati

Metodi di Fine-Tuning

Approcci basati su BERT (FakeBERT, ecc.)
Fine-tuning di istruzioni T5
Fine-tuning Llama-2 PEFT/LoRA
Metodi di apprendimento per rinforzo

Metodi RAG

Mixtral-8x7B combinato con RAG
Integrazione di dati web in tempo reale
RAG Tematico Adattivo (AT-RAG)

Sistemi Multi-Agente

LLM-Consensus per rilevazione di disinformazione visiva
Sistema TruEDebate (TED) di dibattito strutturato
Framework per il trattamento del ciclo di vita completo della disinformazione

Attacchi Avversariali

Sostituzione di token a livello di gradiente
Perturbazione di affermazioni guidata da apprendimento per rinforzo
Strategie di attacco black-box

Conclusioni e Discussione

Conclusioni Principali

Vulnerabilità Significativa degli LLM: Gli LLM originali sono estremamente suscettibili alla diffusione di disinformazione sotto attacchi avversariali
RAG Migliora Efficacemente la Robustezza: RAG-Llama supera significativamente il baseline sotto vari attacchi
Rilevazione Multilingue Fattibile: Il sistema può gestire efficacemente la disinformazione in sei lingue principali
Potenziale di Distribuzione Pratica: L'architettura multi-agente è adatta per la distribuzione come plugin web

Limitazioni

Accuratezza della Classificazione Tematica: La classificazione tematica errata influisce sulla precisione del recupero
Dipendenza dal Database: Le prestazioni del sistema dipendono fortemente dalla qualità e completezza del database di disinformazione
Necessità di Aggiornamento Dinamico: Richiede aggiornamenti continui del database per affrontare la disinformazione emergente
Vulnerabilità di Sicurezza: I sistemi RAG possono affrontare inquinamento del database e attacchi di embedding

Direzioni Future

Miglioramento della Classificazione Tematica: Aumentare l'accuratezza della classificazione per query complesse
Esplorazione di Diversi LLM: Valutare le prestazioni di diversi modelli linguistici in RAG
Miglioramento della Sicurezza: Sviluppare meccanismi di protezione contro attacchi di embedding e inquinamento del database
Estensione dei Tipi di Attacco: Investigare ulteriori forme di trasformazioni avversariali

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta un problema di sicurezza critico degli LLM nella rilevazione della disinformazione
Innovazione del Metodo: Prima investigazione sistematica di attacchi avversariali multilingui e multistrutturali
Completezza Sperimentale: Valutazione comprehensive che copre sei lingue e tre tipi di attacco
Valore Pratico: Fornisce una soluzione plugin distribuibile
Avanzamento Tecnologico: Combina le più recenti tecnologie RAG e multi-agente

Insufficienze

Limitazione della Dimensione del Dataset: Utilizza solo 7.000 titoli, dimensione relativamente piccola
Tipi di Attacco Limitati: Considera solo tre forme specifiche di attacco
Metriche di Valutazione Singole: Si concentra principalmente sull'accuratezza, mancando di metriche di efficienza e costo
Analisi Teorica Insufficiente: Manca di spiegazione teorica dell'efficacia del metodo
Stabilità a Lungo Termine Non Verificata: Non valuta il degrado delle prestazioni durante l'uso prolungato

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per la rilevazione multilingue della disinformazione
Valore Pratico: Applicabile direttamente a piattaforme di social media e siti di aggregazione di notizie
Riproducibilità: Utilizza modelli open-source, facilitando la riproduzione e il miglioramento
Impatto Industriale: Fornisce una base tecnologica per la moderazione dei contenuti e la verifica dei fatti

Scenari Applicabili

Piattaforme di Social Media: Rilevazione in tempo reale della disinformazione pubblicata dagli utenti
Siti di Aggregazione di Notizie: Verifica dell'autenticità degli articoli di notizie
Piattaforme Educative: Aiutare gli utenti a identificare la disinformazione
Moderazione dei Contenuti Aziendali: Revisione automatizzata di contenuti su larga scala
Monitoraggio Governativo: Assistenza ai dipartimenti pertinenti nel monitoraggio della disinformazione online

Bibliografia

Questo articolo cita 50 lavori correlati, coprendo importanti ricerche in più domini inclusi LLM, RAG, sistemi multi-agente e attacchi avversariali, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo della rilevazione della disinformazione, che propone un innovativo framework RAG multi-agente e raggiunge risultati sperimentali eccellenti in impostazioni multilingui e multi-attacco. Sebbene presenti alcune limitazioni, il suo valore pratico e l'innovazione tecnica lo rendono un progresso significativo nel campo.