The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- ID Articolo: 2510.08605
- Titolo: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- Autori: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
- Classificazione: cs.CL (Computational Linguistics), cs.AI, cs.CR, cs.LG
- Data di Pubblicazione: 7 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.08605
La rapida diffusione della disinformazione sulle piattaforme digitali minaccia il discorso pubblico, la stabilità emotiva e il processo decisionale. Sebbene lavori precedenti abbiano esplorato vari attacchi avversariali nella rilevazione della disinformazione, le trasformazioni specifiche studiate in questo articolo non sono state ancora sistematicamente investigate. In particolare, questo lavoro indaga il code-switching linguistico tra inglese, francese, spagnolo, arabo, hindi e cinese, nonché la traduzione successiva. Inoltre, esamina l'espansione della lunghezza delle query prima del riassunto e la riformattazione strutturata in domande a scelta multipla. L'articolo propone un framework multi-agente multilingue basato su Large Language Models, combinato con tecniche di Retrieval-Augmented Generation, distribuibile come plugin web su piattaforme online. Questo lavoro sottolinea l'importanza della rilevazione della disinformazione guidata dall'IA nel proteggere l'integrità dei fatti online, dimostrando al contempo la fattibilità della distribuzione basata su plugin in applicazioni web reali.
Il problema centrale affrontato da questa ricerca è la mancanza di capacità efficaci di rilevazione della disinformazione nei Large Language Models (LLM) quando sottoposti ad attacchi avversariali, che tendono ad amplificare involontariamente la diffusione di informazioni false.
- Impatto Sociale: La rapida diffusione della disinformazione minaccia gravemente il discorso pubblico, la stabilità emotiva e il processo decisionale
- Sfide Tecniche: Gli LLM attuali mostrano prestazioni nella rilevazione della disinformazione prossime a indovinare casualmente
- Esigenze di Sicurezza: È necessario un sistema di rilevazione robusto contro attacchi diversificati
- Limitazioni della Conoscenza Incorporata: Gli LLM si affidano esclusivamente alla conoscenza incorporata al momento dell'addestramento, mancando di capacità di verifica dei fatti in tempo reale
- Bias Linguistico: Le prestazioni diminuiscono significativamente su lingue non inglesi
- Vulnerabilità agli Attacchi Avversariali: Mancanza di resistenza a trasformazioni di formato, traduzioni, riassunti e altri attacchi
- Ricerca Non Sistematica: I lavori esistenti non valutano sistematicamente attacchi avversariali multilingui e multistrutturali
Gli autori propongono la necessità di sviluppare un sistema multilingue di rilevazione della disinformazione in grado di resistere a molteplici attacchi avversariali e distribuirlo come plugin web pratico.
- Propone un Framework RAG Multi-Agente: Architettura multi-agente che combina Llama 3.1-8B e tecniche di Retrieval-Augmented Generation
- Costruisce un Nuovo Dataset di Attacchi Avversariali: Dataset contenente tre forme di attacco: domande a scelta multipla (MCQ), traduzioni e riassunti
- Implementa Capacità di Rilevazione Multilingue: Supporta sei lingue: inglese, francese, spagnolo, arabo, hindi e cinese
- Verifica la Fattibilità della Distribuzione Pratica: Progettato come plugin web distribuibile
- Fornisce una Valutazione Sperimentale Completa: Raggiunge un'accuratezza superiore al 95% nella rilevazione della disinformazione
Input: Contenuto testuale da web (articoli di notizie, commenti utenti, post sui social media, ecc.), potenzialmente contenente trasformazioni avversariali
Output: Risultato di classificazione binaria (Vero/Falso), determinando se il testo di input contiene disinformazione
Vincoli: Il sistema deve funzionare in impostazioni black-box, basandosi esclusivamente su feedback binario
- Modello di Embedding: Confronto tra tre modelli di embedding multilingui
- OpenAI's text-embedding-3-large (proprietario)
- jina-embeddings-v3 (proprietario)
- multilingual-e5-large (open-source)
- Meccanismo di Recupero: Sistema di recupero basato sulla similarità del coseno
- Memorizzazione di titoli falsi incorporati in file CSV
- Recupero dei titoli falsi più rilevanti rispetto alla query
- Utilizzo di Llama per l'analisi contestuale e il giudizio finale
Il sistema contiene quattro agenti collaborativi:
- Agente Web Crawler
- Estrae contenuto strutturato da siti web dinamici
- Divide il testo in blocchi gestibili
- Trasmette al agente gestore per l'elaborazione
- Agente Gestore
- Interagisce con il web crawler ricevendo testo
- Instrada verso agenti di classificazione tematica e rilevazione della disinformazione
- Invia notifiche agli utenti
- Agente di Rilevazione della Disinformazione
- Utilizza RAG-Llama per la rilevazione
- Recupera da un database contenente 5.000 titoli falsi verificati
- Utilizza il modello Llama open-source per il giudizio finale
- Agente Tematico (opzionale)
- Classifica le query in 10 categorie predefinite
- Accelera il processo di ricerca RAG
- Utilizza GPT-4o-mini per la classificazione tematica
- Agente Arbitro
- Assicura che tutti i blocchi di testo siano elaborati
- Verifica la coerenza tra i componenti del sistema
- Funge da livello di verifica aggiuntivo per aumentare la robustezza
- Gestione di Attacchi Avversariali Multimodali: Prima gestione sistematica di tre forme di attacco: MCQ, traduzioni e riassunti
- Capacità di Recupero Multilingue: Utilizzo di modelli di embedding multilingui per la rilevazione cross-linguistica
- Strategia di Corrispondenza Campioni Negativi: Utilizzo esclusivo del database di disinformazione per la rilevazione di corrispondenze negative
- Progettazione Modulare del Plugin: Distribuibile direttamente come plugin per browser web
- Titoli Falsi: 20.950 titoli falsi raccolti da Snopes e Politifact
- Titoli Veritieri: 4.000 titoli veritieri raccolti
- Dati Sperimentali: Selezione di 5.000 titoli falsi e 2.000 titoli veritieri
- Dataset MCQ: Conversione di titoli in domande a scelta multipla iniziate con "Perché"
- Dataset di Traduzione: Traduzione di testo esteso in sei lingue
- Dataset di Riassunto: Generazione di testo lungo di 500 parole per il compito di riassunto
- Accuratezza dei Fatti: Percentuale di corretta classificazione delle informazioni veritiere
- Accuratezza della Disinformazione: Percentuale di corretta classificazione della disinformazione
- Tasso di Successo dell'Attacco (ASR): Rapporto di input avversariali che causano il fallimento del sistema (più basso è meglio)
- Modello di Base: Llama 3.1-8B-Instruct originale
- Varianti RAG-Llama con diversi modelli di embedding
- Varianti del sistema con/senza classificazione tematica
- Modello: Llama 3.1-8B-Instruct
- Hardware: GPU A100 80GB
- Iperparametri: temperature=0.1, top-p=1
- Memorizzazione di Embedding: Formato file CSV
- ASR Domande Dirette: 46,74%
- ASR Attacco MCQ: 97,72%
- ASR Attacco di Traduzione: 100%
- ASR Attacco di Riassunto: 100%
| Tipo di Attacco | Accuratezza Rilevazione Disinformazione | Accuratezza Rilevazione Fatti |
|---|
| Domande Dirette | 99,76% | 85,25% |
| MCQ | 97,38% | 89,85% |
| Riassunto | 99,3% | 95,15% |
| Traduzione Francese | 97,72% | 87,25% |
| Traduzione Araba | 97,26% | 88,65% |
| Traduzione Hindi | 95,2% | 87,4% |
| Traduzione Cinese | 96,44% | 93,5% |
| Traduzione Spagnola | 97,9% | 90,9% |
| Modello di Embedding | Accuratezza Media MCQ | Accuratezza Media Riassunto | Accuratezza Media Traduzione |
|---|
| text-embedding-3-large | 93,62% | 97,23% | 93,22% |
| jina-embeddings-v3 | 95,29% | 89,08% | 93,35% |
| multilingual-e5-large | 95,26% | 89,02% | 93,92% |
- Miglioramento della Velocità: Più di 2 volte la mediana, più di 3 volte la media
- Accuratezza: Varia dal 78,27% al 91,18%
- Accuratezza Relativa Inferiore per Compiti MCQ: Dovuta al fatto che le domande a scelta multipla contengono risposte multitematiche che rendono la classificazione difficile
- RAG Significativamente Superiore al Baseline: Miglioramenti sostanziali su tutti i tipi di attacco
- Capacità Multilingue: Mantiene un'accuratezza di rilevazione della disinformazione superiore al 95% su sei lingue
- Impatto del Modello di Embedding: multilingual-e5-large mostra le migliori prestazioni nel bilanciare performance e accessibilità
- Accelerazione della Classificazione Tematica: Migliora efficacemente la velocità di recupero, ma con una leggera diminuzione dell'accuratezza su query complesse
- Approcci basati su BERT (FakeBERT, ecc.)
- Fine-tuning di istruzioni T5
- Fine-tuning Llama-2 PEFT/LoRA
- Metodi di apprendimento per rinforzo
- Mixtral-8x7B combinato con RAG
- Integrazione di dati web in tempo reale
- RAG Tematico Adattivo (AT-RAG)
- LLM-Consensus per rilevazione di disinformazione visiva
- Sistema TruEDebate (TED) di dibattito strutturato
- Framework per il trattamento del ciclo di vita completo della disinformazione
- Sostituzione di token a livello di gradiente
- Perturbazione di affermazioni guidata da apprendimento per rinforzo
- Strategie di attacco black-box
- Vulnerabilità Significativa degli LLM: Gli LLM originali sono estremamente suscettibili alla diffusione di disinformazione sotto attacchi avversariali
- RAG Migliora Efficacemente la Robustezza: RAG-Llama supera significativamente il baseline sotto vari attacchi
- Rilevazione Multilingue Fattibile: Il sistema può gestire efficacemente la disinformazione in sei lingue principali
- Potenziale di Distribuzione Pratica: L'architettura multi-agente è adatta per la distribuzione come plugin web
- Accuratezza della Classificazione Tematica: La classificazione tematica errata influisce sulla precisione del recupero
- Dipendenza dal Database: Le prestazioni del sistema dipendono fortemente dalla qualità e completezza del database di disinformazione
- Necessità di Aggiornamento Dinamico: Richiede aggiornamenti continui del database per affrontare la disinformazione emergente
- Vulnerabilità di Sicurezza: I sistemi RAG possono affrontare inquinamento del database e attacchi di embedding
- Miglioramento della Classificazione Tematica: Aumentare l'accuratezza della classificazione per query complesse
- Esplorazione di Diversi LLM: Valutare le prestazioni di diversi modelli linguistici in RAG
- Miglioramento della Sicurezza: Sviluppare meccanismi di protezione contro attacchi di embedding e inquinamento del database
- Estensione dei Tipi di Attacco: Investigare ulteriori forme di trasformazioni avversariali
- Importanza del Problema: Affronta un problema di sicurezza critico degli LLM nella rilevazione della disinformazione
- Innovazione del Metodo: Prima investigazione sistematica di attacchi avversariali multilingui e multistrutturali
- Completezza Sperimentale: Valutazione comprehensive che copre sei lingue e tre tipi di attacco
- Valore Pratico: Fornisce una soluzione plugin distribuibile
- Avanzamento Tecnologico: Combina le più recenti tecnologie RAG e multi-agente
- Limitazione della Dimensione del Dataset: Utilizza solo 7.000 titoli, dimensione relativamente piccola
- Tipi di Attacco Limitati: Considera solo tre forme specifiche di attacco
- Metriche di Valutazione Singole: Si concentra principalmente sull'accuratezza, mancando di metriche di efficienza e costo
- Analisi Teorica Insufficiente: Manca di spiegazione teorica dell'efficacia del metodo
- Stabilità a Lungo Termine Non Verificata: Non valuta il degrado delle prestazioni durante l'uso prolungato
- Contributo Accademico: Fornisce una nuova direzione di ricerca per la rilevazione multilingue della disinformazione
- Valore Pratico: Applicabile direttamente a piattaforme di social media e siti di aggregazione di notizie
- Riproducibilità: Utilizza modelli open-source, facilitando la riproduzione e il miglioramento
- Impatto Industriale: Fornisce una base tecnologica per la moderazione dei contenuti e la verifica dei fatti
- Piattaforme di Social Media: Rilevazione in tempo reale della disinformazione pubblicata dagli utenti
- Siti di Aggregazione di Notizie: Verifica dell'autenticità degli articoli di notizie
- Piattaforme Educative: Aiutare gli utenti a identificare la disinformazione
- Moderazione dei Contenuti Aziendali: Revisione automatizzata di contenuti su larga scala
- Monitoraggio Governativo: Assistenza ai dipartimenti pertinenti nel monitoraggio della disinformazione online
Questo articolo cita 50 lavori correlati, coprendo importanti ricerche in più domini inclusi LLM, RAG, sistemi multi-agente e attacchi avversariali, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo della rilevazione della disinformazione, che propone un innovativo framework RAG multi-agente e raggiunge risultati sperimentali eccellenti in impostazioni multilingui e multi-attacco. Sebbene presenti alcune limitazioni, il suo valore pratico e l'innovazione tecnica lo rendono un progresso significativo nel campo.