2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

Hacia una Web más Segura: LLMs Multiagente Multilingües para Mitigar Ataques de Desinformación Adversarial

Información Básica

  • ID del Artículo: 2510.08605
  • Título: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • Autores: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
  • Clasificación: cs.CL (Lingüística Computacional), cs.AI, cs.CR, cs.LG
  • Fecha de Publicación: 7 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08605

Resumen

La rápida propagación de desinformación en plataformas digitales amenaza el discurso público, la estabilidad emocional y la toma de decisiones. Aunque trabajos previos han explorado diversos ataques adversariales en la detección de desinformación, las transformaciones específicas estudiadas en este artículo no han sido investigadas sistemáticamente. En particular, este trabajo investiga el cambio de idioma entre inglés, francés, español, árabe, hindi y chino, así como la traducción subsecuente. También se estudia la expansión de la longitud de consulta previa al resumen y el reformateo estructurado como preguntas de opción múltiple. Se propone un marco de modelos de lenguaje grandes multilingües y multiagente que incorpora técnicas de generación aumentada por recuperación, que puede desplegarse como complemento web en plataformas en línea. Este trabajo enfatiza la importancia de la detección de desinformación impulsada por IA en la protección de la integridad de hechos en línea, mientras demuestra la viabilidad del despliegue basado en complementos en aplicaciones web reales.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que este estudio aborda es la falta de capacidades efectivas de detección de desinformación en modelos de lenguaje grandes (LLMs) cuando se enfrentan a ataques adversariales, lo que los hace propensos a amplificar inadvertidamente la propagación de información falsa.

Importancia del Problema

  1. Impacto Social: La rápida propagación de desinformación amenaza gravemente el discurso público, la estabilidad emocional y la toma de decisiones
  2. Desafíos Tecnológicos: Los LLMs existentes muestran un desempeño cercano a la adivinanza aleatoria en detección de desinformación
  3. Requisitos de Seguridad: Se necesita un sistema de detección robusto contra ataques diversificados

Limitaciones de Métodos Existentes

  1. Limitaciones de Conocimiento Incorporado: Los LLMs dependen únicamente del conocimiento incorporado durante el entrenamiento, careciendo de capacidades de verificación de hechos en tiempo real
  2. Sesgo Lingüístico: El desempeño disminuye significativamente en idiomas no ingleses
  3. Vulnerabilidad a Ataques Adversariales: Falta de resistencia a transformaciones de formato, traducción, resumen y otros ataques
  4. Falta de Investigación Sistemática: Los trabajos existentes no evalúan sistemáticamente ataques adversariales multilingües y multiestructurales

Motivación de la Investigación

Los autores proponen la necesidad de desarrollar un sistema de detección de desinformación multilingüe que pueda resistir múltiples ataques adversariales y desplegarse como un complemento web práctico.

Contribuciones Principales

  1. Propone un Marco RAG Multiagente: Arquitectura multiagente que combina Llama 3.1-8B y técnicas de generación aumentada por recuperación
  2. Construye un Nuevo Conjunto de Datos de Ataques Adversariales: Conjunto de datos que incluye tres formas de ataque: preguntas de opción múltiple (MCQ), traducción y resumen
  3. Implementa Capacidades de Detección Multilingüe: Soporta seis idiomas: inglés, francés, español, árabe, hindi y chino
  4. Verifica la Viabilidad del Despliegue Práctico: Diseñado como un complemento web desplegable
  5. Proporciona Evaluación Experimental Integral: Logra una precisión superior al 95% en detección de desinformación

Explicación Detallada del Método

Definición de la Tarea

Entrada: Contenido de texto de la web (artículos de noticias, comentarios de usuarios, publicaciones en redes sociales, etc.), que puede incluir transformaciones adversariales Salida: Resultado de clasificación binaria (Verdadero/Falso) que determina si el texto de entrada contiene desinformación Restricciones: El sistema debe funcionar en configuración de caja negra, realizando juicios basados únicamente en retroalimentación binaria

Arquitectura del Modelo

Componentes Principales de RAG-Llama

  1. Modelo de Incrustación: Comparación de tres modelos de incrustación multilingües
    • text-embedding-3-large de OpenAI (propietario)
    • jina-embeddings-v3 (propietario)
    • multilingual-e5-large (código abierto)
  2. Mecanismo de Recuperación: Sistema de recuperación basado en similitud de coseno
    • Almacena títulos falsos incrustados en archivos CSV
    • Recupera los títulos falsos más relevantes para la consulta
    • Utiliza Llama para análisis contextual y juicio final

Arquitectura Multiagente

El sistema contiene cinco agentes colaborativos:

  1. Agente Rastreador Web
    • Extrae contenido estructurado de sitios web dinámicos
    • Divide el texto en fragmentos manejables
    • Transmite al agente gestor para procesamiento
  2. Agente Gestor
    • Interactúa con el rastreador web para recibir texto
    • Enruta hacia agentes de clasificación de temas y detección de desinformación
    • Envía notificaciones a usuarios
  3. Agente de Detección de Desinformación
    • Utiliza RAG-Llama para detección
    • Recupera de una base de datos que contiene 5,000 títulos falsos verificados
    • Utiliza el modelo Llama de código abierto para juicio final
  4. Agente de Temas (Opcional)
    • Clasifica consultas en 10 categorías predefinidas
    • Acelera el proceso de búsqueda RAG
    • Utiliza GPT-4o-mini para clasificación de temas
  5. Agente Evaluador
    • Asegura que todos los fragmentos de texto sean procesados
    • Verifica la consistencia de componentes del sistema
    • Actúa como capa de validación adicional para mejorar robustez

Puntos de Innovación Técnica

  1. Manejo de Ataques Adversariales Multimodales: Primera aproximación sistemática para manejar tres formas de ataque: MCQ, traducción y resumen
  2. Capacidad de Recuperación Multilingüe: Aprovecha modelos de incrustación multilingües para detección entre idiomas
  3. Estrategia de Coincidencia de Muestras Negativas: Utiliza únicamente la base de datos de desinformación para detección de coincidencia negativa
  4. Diseño de Complemento Modular: Puede desplegarse directamente como complemento de navegador web

Configuración Experimental

Conjunto de Datos

Fuentes de Datos

  • Títulos Falsos: 20,950 títulos falsos recopilados de Snopes y Politifact
  • Títulos Factuales: 4,000 títulos reales recopilados
  • Datos Experimentales: 5,000 títulos falsos y 2,000 títulos factuales seleccionados

Tres Conjuntos de Datos de Ataque

  1. Conjunto de Datos MCQ: Conversión de títulos a preguntas de opción múltiple que comienzan con "¿Por qué?"
  2. Conjunto de Datos de Traducción: Traducción de texto expandido a seis idiomas
  3. Conjunto de Datos de Resumen: Generación de texto largo de 500 palabras para tareas de resumen

Métricas de Evaluación

  • Precisión Factual: Porcentaje de información factual clasificada correctamente
  • Precisión de Falsedad: Porcentaje de información falsa clasificada correctamente
  • Tasa de Éxito de Ataque (ASR): Proporción de entradas adversariales que causan fallo del sistema (menor es mejor)

Métodos de Comparación

  • Modelo Base: Llama 3.1-8B-Instruct original
  • Variantes RAG-Llama con diferentes modelos de incrustación
  • Variantes del sistema con/sin clasificación de temas

Detalles de Implementación

  • Modelo: Llama 3.1-8B-Instruct
  • Hardware: GPU A100 80GB
  • Hiperparámetros: temperature=0.1, top-p=1
  • Almacenamiento de Incrustaciones: Formato de archivo CSV

Resultados Experimentales

Resultados Principales

Vulnerabilidad del Modelo Base

  • ASR de Pregunta Directa: 46.74%
  • ASR de Ataque MCQ: 97.72%
  • ASR de Ataque de Traducción: 100%
  • ASR de Ataque de Resumen: 100%

Desempeño de RAG-Llama

Tipo de AtaquePrecisión de Detección de FalsedadPrecisión de Detección Factual
Pregunta Directa99.76%85.25%
MCQ97.38%89.85%
Resumen99.3%95.15%
Traducción al Francés97.72%87.25%
Traducción al Árabe97.26%88.65%
Traducción al Hindi95.2%87.4%
Traducción al Chino96.44%93.5%
Traducción al Español97.9%90.9%

Comparación de Modelos de Incrustación

Modelo de IncrustaciónPrecisión Promedio MCQPrecisión Promedio de ResumenPrecisión Promedio de Traducción
text-embedding-3-large93.62%97.23%93.22%
jina-embeddings-v395.29%89.08%93.35%
multilingual-e5-large95.26%89.02%93.92%

Efectividad de Clasificación de Temas

  • Mejora de Velocidad: Más de 2 veces en mediana, más de 3 veces en promedio
  • Precisión: Varía entre 78.27%-91.18%
  • Precisión Relativamente Baja en Tareas MCQ: Debido a que las preguntas de opción múltiple contienen respuestas multitemáticas que dificultan la clasificación

Hallazgos Experimentales

  1. RAG Significativamente Superior al Base: Mejora sustancial en todos los tipos de ataque
  2. Capacidad Multilingüe: Mantiene precisión de detección de falsedad superior al 95% en seis idiomas
  3. Impacto del Modelo de Incrustación: multilingual-e5-large muestra el mejor desempeño en equilibrio entre rendimiento y accesibilidad
  4. Aceleración de Clasificación de Temas: Mejora efectivamente la velocidad de recuperación, pero con reducción de precisión en consultas complejas

Trabajo Relacionado

Métodos de Ajuste Fino

  • Métodos basados en BERT (FakeBERT, etc.)
  • Ajuste fino de instrucciones T5
  • Ajuste fino Llama-2 PEFT/LoRA
  • Métodos de aprendizaje por refuerzo

Métodos RAG

  • Mixtral-8x7B combinado con RAG
  • Integración de datos web en tiempo real
  • RAG de Temas Adaptativos (AT-RAG)

Sistemas Multiagente

  • Detección de desinformación visual LLM-Consensus
  • Sistema de Debate Estructurado TruEDebate (TED)
  • Marco de procesamiento del ciclo de vida completo de desinformación

Ataques Adversariales

  • Reemplazo de tokens a nivel de gradiente
  • Perturbación de afirmaciones impulsada por aprendizaje por refuerzo
  • Estrategias de ataque de caja negra

Conclusiones y Discusión

Conclusiones Principales

  1. Vulnerabilidad Significativa de LLMs: Los LLMs originales son altamente susceptibles a la propagación de desinformación bajo ataques adversariales
  2. RAG Mejora Efectivamente la Robustez: RAG-Llama supera significativamente el base en varios ataques
  3. Detección Multilingüe Viable: El sistema puede manejar efectivamente desinformación en seis idiomas principales
  4. Potencial de Despliegue Práctico: La arquitectura multiagente es adecuada para despliegue como complemento web

Limitaciones

  1. Precisión de Clasificación de Temas: La clasificación incorrecta de temas afecta la precisión de recuperación
  2. Dependencia de Base de Datos: El desempeño del sistema depende fuertemente de la calidad e integridad de la base de datos de desinformación
  3. Requisitos de Actualización Dinámica: Necesita actualización continua de la base de datos para abordar desinformación emergente
  4. Vulnerabilidades de Seguridad: Los sistemas RAG pueden enfrentar contaminación de base de datos y ataques de incrustación

Direcciones Futuras

  1. Mejorar Clasificación de Temas: Aumentar la precisión de clasificación para consultas complejas
  2. Explorar Otros LLMs: Evaluar el desempeño de diferentes modelos de lenguaje en RAG
  3. Mejorar Seguridad: Desarrollar mecanismos de defensa contra ataques de incrustación y contaminación de base de datos
  4. Expandir Tipos de Ataque: Investigar más variedades de transformaciones adversariales

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda un problema de seguridad crítico en detección de desinformación con LLMs
  2. Innovación del Método: Primera investigación sistemática de ataques adversariales multilingües y multiestructurales
  3. Integralidad Experimental: Evaluación comprehensiva que abarca seis idiomas y tres tipos de ataque
  4. Valor Práctico: Proporciona una solución de complemento desplegable
  5. Avance Técnico: Integra tecnologías RAG y multiagente más recientes

Deficiencias

  1. Limitación del Tamaño del Conjunto de Datos: Utiliza solo 7,000 títulos, tamaño relativamente pequeño
  2. Tipos de Ataque Limitados: Solo considera tres formas específicas de ataque
  3. Métricas de Evaluación Únicas: Se enfoca principalmente en precisión, careciendo de métricas de eficiencia y costo
  4. Análisis Teórico Insuficiente: Falta explicación teórica de la efectividad del método
  5. Estabilidad a Largo Plazo No Verificada: No evalúa la degradación de desempeño en uso prolongado

Impacto

  1. Contribución Académica: Proporciona nueva dirección de investigación para detección de desinformación multilingüe
  2. Valor Práctico: Aplicable directamente a plataformas de redes sociales y noticias
  3. Reproducibilidad: Utiliza modelos de código abierto, facilitando reproducción y mejora
  4. Impacto Industrial: Proporciona base técnica para moderación de contenido y verificación de hechos

Escenarios Aplicables

  1. Plataformas de Redes Sociales: Detección en tiempo real de desinformación publicada por usuarios
  2. Sitios de Agregación de Noticias: Verificación de autenticidad de artículos de noticias
  3. Plataformas Educativas: Ayudar a usuarios a identificar desinformación
  4. Moderación de Contenido Empresarial: Revisión automatizada de contenido a gran escala
  5. Supervisión Gubernamental: Asistir a departamentos relevantes en monitoreo de desinformación en línea

Referencias

Este artículo cita 50 referencias relevantes que abarcan múltiples campos incluyendo LLMs, RAG, sistemas multiagente y ataques adversariales, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo con contribuciones importantes en el campo de la detección de desinformación, que propone un marco innovador de RAG multiagente y logra resultados experimentales excelentes bajo configuraciones multilingües y multitipo de ataque. Aunque presenta algunas limitaciones, su valor práctico e innovación técnica lo convierten en un progreso importante en este campo.