2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

Verso un Web più Sicuro: LLM Multi-Agente Multilingui per Mitigare Attacchi di Disinformazione Avversariale

Informazioni Fondamentali

  • ID Articolo: 2510.08605
  • Titolo: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • Autori: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
  • Classificazione: cs.CL (Computational Linguistics), cs.AI, cs.CR, cs.LG
  • Data di Pubblicazione: 7 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.08605

Riassunto

La rapida diffusione della disinformazione sulle piattaforme digitali minaccia il discorso pubblico, la stabilità emotiva e il processo decisionale. Sebbene lavori precedenti abbiano esplorato vari attacchi avversariali nella rilevazione della disinformazione, le trasformazioni specifiche studiate in questo articolo non sono state ancora sistematicamente investigate. In particolare, questo lavoro indaga il code-switching linguistico tra inglese, francese, spagnolo, arabo, hindi e cinese, nonché la traduzione successiva. Inoltre, esamina l'espansione della lunghezza delle query prima del riassunto e la riformattazione strutturata in domande a scelta multipla. L'articolo propone un framework multi-agente multilingue basato su Large Language Models, combinato con tecniche di Retrieval-Augmented Generation, distribuibile come plugin web su piattaforme online. Questo lavoro sottolinea l'importanza della rilevazione della disinformazione guidata dall'IA nel proteggere l'integrità dei fatti online, dimostrando al contempo la fattibilità della distribuzione basata su plugin in applicazioni web reali.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la mancanza di capacità efficaci di rilevazione della disinformazione nei Large Language Models (LLM) quando sottoposti ad attacchi avversariali, che tendono ad amplificare involontariamente la diffusione di informazioni false.

Importanza del Problema

  1. Impatto Sociale: La rapida diffusione della disinformazione minaccia gravemente il discorso pubblico, la stabilità emotiva e il processo decisionale
  2. Sfide Tecniche: Gli LLM attuali mostrano prestazioni nella rilevazione della disinformazione prossime a indovinare casualmente
  3. Esigenze di Sicurezza: È necessario un sistema di rilevazione robusto contro attacchi diversificati

Limitazioni dei Metodi Esistenti

  1. Limitazioni della Conoscenza Incorporata: Gli LLM si affidano esclusivamente alla conoscenza incorporata al momento dell'addestramento, mancando di capacità di verifica dei fatti in tempo reale
  2. Bias Linguistico: Le prestazioni diminuiscono significativamente su lingue non inglesi
  3. Vulnerabilità agli Attacchi Avversariali: Mancanza di resistenza a trasformazioni di formato, traduzioni, riassunti e altri attacchi
  4. Ricerca Non Sistematica: I lavori esistenti non valutano sistematicamente attacchi avversariali multilingui e multistrutturali

Motivazione della Ricerca

Gli autori propongono la necessità di sviluppare un sistema multilingue di rilevazione della disinformazione in grado di resistere a molteplici attacchi avversariali e distribuirlo come plugin web pratico.

Contributi Principali

  1. Propone un Framework RAG Multi-Agente: Architettura multi-agente che combina Llama 3.1-8B e tecniche di Retrieval-Augmented Generation
  2. Costruisce un Nuovo Dataset di Attacchi Avversariali: Dataset contenente tre forme di attacco: domande a scelta multipla (MCQ), traduzioni e riassunti
  3. Implementa Capacità di Rilevazione Multilingue: Supporta sei lingue: inglese, francese, spagnolo, arabo, hindi e cinese
  4. Verifica la Fattibilità della Distribuzione Pratica: Progettato come plugin web distribuibile
  5. Fornisce una Valutazione Sperimentale Completa: Raggiunge un'accuratezza superiore al 95% nella rilevazione della disinformazione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Contenuto testuale da web (articoli di notizie, commenti utenti, post sui social media, ecc.), potenzialmente contenente trasformazioni avversariali Output: Risultato di classificazione binaria (Vero/Falso), determinando se il testo di input contiene disinformazione Vincoli: Il sistema deve funzionare in impostazioni black-box, basandosi esclusivamente su feedback binario

Architettura del Modello

Componenti Principali RAG-Llama

  1. Modello di Embedding: Confronto tra tre modelli di embedding multilingui
    • OpenAI's text-embedding-3-large (proprietario)
    • jina-embeddings-v3 (proprietario)
    • multilingual-e5-large (open-source)
  2. Meccanismo di Recupero: Sistema di recupero basato sulla similarità del coseno
    • Memorizzazione di titoli falsi incorporati in file CSV
    • Recupero dei titoli falsi più rilevanti rispetto alla query
    • Utilizzo di Llama per l'analisi contestuale e il giudizio finale

Architettura Multi-Agente

Il sistema contiene quattro agenti collaborativi:

  1. Agente Web Crawler
    • Estrae contenuto strutturato da siti web dinamici
    • Divide il testo in blocchi gestibili
    • Trasmette al agente gestore per l'elaborazione
  2. Agente Gestore
    • Interagisce con il web crawler ricevendo testo
    • Instrada verso agenti di classificazione tematica e rilevazione della disinformazione
    • Invia notifiche agli utenti
  3. Agente di Rilevazione della Disinformazione
    • Utilizza RAG-Llama per la rilevazione
    • Recupera da un database contenente 5.000 titoli falsi verificati
    • Utilizza il modello Llama open-source per il giudizio finale
  4. Agente Tematico (opzionale)
    • Classifica le query in 10 categorie predefinite
    • Accelera il processo di ricerca RAG
    • Utilizza GPT-4o-mini per la classificazione tematica
  5. Agente Arbitro
    • Assicura che tutti i blocchi di testo siano elaborati
    • Verifica la coerenza tra i componenti del sistema
    • Funge da livello di verifica aggiuntivo per aumentare la robustezza

Punti di Innovazione Tecnica

  1. Gestione di Attacchi Avversariali Multimodali: Prima gestione sistematica di tre forme di attacco: MCQ, traduzioni e riassunti
  2. Capacità di Recupero Multilingue: Utilizzo di modelli di embedding multilingui per la rilevazione cross-linguistica
  3. Strategia di Corrispondenza Campioni Negativi: Utilizzo esclusivo del database di disinformazione per la rilevazione di corrispondenze negative
  4. Progettazione Modulare del Plugin: Distribuibile direttamente come plugin per browser web

Configurazione Sperimentale

Dataset

Fonti Dati

  • Titoli Falsi: 20.950 titoli falsi raccolti da Snopes e Politifact
  • Titoli Veritieri: 4.000 titoli veritieri raccolti
  • Dati Sperimentali: Selezione di 5.000 titoli falsi e 2.000 titoli veritieri

Tre Dataset di Attacco

  1. Dataset MCQ: Conversione di titoli in domande a scelta multipla iniziate con "Perché"
  2. Dataset di Traduzione: Traduzione di testo esteso in sei lingue
  3. Dataset di Riassunto: Generazione di testo lungo di 500 parole per il compito di riassunto

Metriche di Valutazione

  • Accuratezza dei Fatti: Percentuale di corretta classificazione delle informazioni veritiere
  • Accuratezza della Disinformazione: Percentuale di corretta classificazione della disinformazione
  • Tasso di Successo dell'Attacco (ASR): Rapporto di input avversariali che causano il fallimento del sistema (più basso è meglio)

Metodi di Confronto

  • Modello di Base: Llama 3.1-8B-Instruct originale
  • Varianti RAG-Llama con diversi modelli di embedding
  • Varianti del sistema con/senza classificazione tematica

Dettagli di Implementazione

  • Modello: Llama 3.1-8B-Instruct
  • Hardware: GPU A100 80GB
  • Iperparametri: temperature=0.1, top-p=1
  • Memorizzazione di Embedding: Formato file CSV

Risultati Sperimentali

Risultati Principali

Vulnerabilità del Modello di Base

  • ASR Domande Dirette: 46,74%
  • ASR Attacco MCQ: 97,72%
  • ASR Attacco di Traduzione: 100%
  • ASR Attacco di Riassunto: 100%

Prestazioni RAG-Llama

Tipo di AttaccoAccuratezza Rilevazione DisinformazioneAccuratezza Rilevazione Fatti
Domande Dirette99,76%85,25%
MCQ97,38%89,85%
Riassunto99,3%95,15%
Traduzione Francese97,72%87,25%
Traduzione Araba97,26%88,65%
Traduzione Hindi95,2%87,4%
Traduzione Cinese96,44%93,5%
Traduzione Spagnola97,9%90,9%

Confronto Modelli di Embedding

Modello di EmbeddingAccuratezza Media MCQAccuratezza Media RiassuntoAccuratezza Media Traduzione
text-embedding-3-large93,62%97,23%93,22%
jina-embeddings-v395,29%89,08%93,35%
multilingual-e5-large95,26%89,02%93,92%

Effetto della Classificazione Tematica

  • Miglioramento della Velocità: Più di 2 volte la mediana, più di 3 volte la media
  • Accuratezza: Varia dal 78,27% al 91,18%
  • Accuratezza Relativa Inferiore per Compiti MCQ: Dovuta al fatto che le domande a scelta multipla contengono risposte multitematiche che rendono la classificazione difficile

Risultati Sperimentali

  1. RAG Significativamente Superiore al Baseline: Miglioramenti sostanziali su tutti i tipi di attacco
  2. Capacità Multilingue: Mantiene un'accuratezza di rilevazione della disinformazione superiore al 95% su sei lingue
  3. Impatto del Modello di Embedding: multilingual-e5-large mostra le migliori prestazioni nel bilanciare performance e accessibilità
  4. Accelerazione della Classificazione Tematica: Migliora efficacemente la velocità di recupero, ma con una leggera diminuzione dell'accuratezza su query complesse

Lavori Correlati

Metodi di Fine-Tuning

  • Approcci basati su BERT (FakeBERT, ecc.)
  • Fine-tuning di istruzioni T5
  • Fine-tuning Llama-2 PEFT/LoRA
  • Metodi di apprendimento per rinforzo

Metodi RAG

  • Mixtral-8x7B combinato con RAG
  • Integrazione di dati web in tempo reale
  • RAG Tematico Adattivo (AT-RAG)

Sistemi Multi-Agente

  • LLM-Consensus per rilevazione di disinformazione visiva
  • Sistema TruEDebate (TED) di dibattito strutturato
  • Framework per il trattamento del ciclo di vita completo della disinformazione

Attacchi Avversariali

  • Sostituzione di token a livello di gradiente
  • Perturbazione di affermazioni guidata da apprendimento per rinforzo
  • Strategie di attacco black-box

Conclusioni e Discussione

Conclusioni Principali

  1. Vulnerabilità Significativa degli LLM: Gli LLM originali sono estremamente suscettibili alla diffusione di disinformazione sotto attacchi avversariali
  2. RAG Migliora Efficacemente la Robustezza: RAG-Llama supera significativamente il baseline sotto vari attacchi
  3. Rilevazione Multilingue Fattibile: Il sistema può gestire efficacemente la disinformazione in sei lingue principali
  4. Potenziale di Distribuzione Pratica: L'architettura multi-agente è adatta per la distribuzione come plugin web

Limitazioni

  1. Accuratezza della Classificazione Tematica: La classificazione tematica errata influisce sulla precisione del recupero
  2. Dipendenza dal Database: Le prestazioni del sistema dipendono fortemente dalla qualità e completezza del database di disinformazione
  3. Necessità di Aggiornamento Dinamico: Richiede aggiornamenti continui del database per affrontare la disinformazione emergente
  4. Vulnerabilità di Sicurezza: I sistemi RAG possono affrontare inquinamento del database e attacchi di embedding

Direzioni Future

  1. Miglioramento della Classificazione Tematica: Aumentare l'accuratezza della classificazione per query complesse
  2. Esplorazione di Diversi LLM: Valutare le prestazioni di diversi modelli linguistici in RAG
  3. Miglioramento della Sicurezza: Sviluppare meccanismi di protezione contro attacchi di embedding e inquinamento del database
  4. Estensione dei Tipi di Attacco: Investigare ulteriori forme di trasformazioni avversariali

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta un problema di sicurezza critico degli LLM nella rilevazione della disinformazione
  2. Innovazione del Metodo: Prima investigazione sistematica di attacchi avversariali multilingui e multistrutturali
  3. Completezza Sperimentale: Valutazione comprehensive che copre sei lingue e tre tipi di attacco
  4. Valore Pratico: Fornisce una soluzione plugin distribuibile
  5. Avanzamento Tecnologico: Combina le più recenti tecnologie RAG e multi-agente

Insufficienze

  1. Limitazione della Dimensione del Dataset: Utilizza solo 7.000 titoli, dimensione relativamente piccola
  2. Tipi di Attacco Limitati: Considera solo tre forme specifiche di attacco
  3. Metriche di Valutazione Singole: Si concentra principalmente sull'accuratezza, mancando di metriche di efficienza e costo
  4. Analisi Teorica Insufficiente: Manca di spiegazione teorica dell'efficacia del metodo
  5. Stabilità a Lungo Termine Non Verificata: Non valuta il degrado delle prestazioni durante l'uso prolungato

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per la rilevazione multilingue della disinformazione
  2. Valore Pratico: Applicabile direttamente a piattaforme di social media e siti di aggregazione di notizie
  3. Riproducibilità: Utilizza modelli open-source, facilitando la riproduzione e il miglioramento
  4. Impatto Industriale: Fornisce una base tecnologica per la moderazione dei contenuti e la verifica dei fatti

Scenari Applicabili

  1. Piattaforme di Social Media: Rilevazione in tempo reale della disinformazione pubblicata dagli utenti
  2. Siti di Aggregazione di Notizie: Verifica dell'autenticità degli articoli di notizie
  3. Piattaforme Educative: Aiutare gli utenti a identificare la disinformazione
  4. Moderazione dei Contenuti Aziendali: Revisione automatizzata di contenuti su larga scala
  5. Monitoraggio Governativo: Assistenza ai dipartimenti pertinenti nel monitoraggio della disinformazione online

Bibliografia

Questo articolo cita 50 lavori correlati, coprendo importanti ricerche in più domini inclusi LLM, RAG, sistemi multi-agente e attacchi avversariali, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo della rilevazione della disinformazione, che propone un innovativo framework RAG multi-agente e raggiunge risultati sperimentali eccellenti in impostazioni multilingui e multi-attacco. Sebbene presenti alcune limitazioni, il suo valore pratico e l'innovazione tecnica lo rendono un progresso significativo nel campo.