The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- ID del Artículo: 2510.08605
- Título: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- Autores: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
- Clasificación: cs.CL (Lingüística Computacional), cs.AI, cs.CR, cs.LG
- Fecha de Publicación: 7 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.08605
La rápida propagación de desinformación en plataformas digitales amenaza el discurso público, la estabilidad emocional y la toma de decisiones. Aunque trabajos previos han explorado diversos ataques adversariales en la detección de desinformación, las transformaciones específicas estudiadas en este artículo no han sido investigadas sistemáticamente. En particular, este trabajo investiga el cambio de idioma entre inglés, francés, español, árabe, hindi y chino, así como la traducción subsecuente. También se estudia la expansión de la longitud de consulta previa al resumen y el reformateo estructurado como preguntas de opción múltiple. Se propone un marco de modelos de lenguaje grandes multilingües y multiagente que incorpora técnicas de generación aumentada por recuperación, que puede desplegarse como complemento web en plataformas en línea. Este trabajo enfatiza la importancia de la detección de desinformación impulsada por IA en la protección de la integridad de hechos en línea, mientras demuestra la viabilidad del despliegue basado en complementos en aplicaciones web reales.
El problema central que este estudio aborda es la falta de capacidades efectivas de detección de desinformación en modelos de lenguaje grandes (LLMs) cuando se enfrentan a ataques adversariales, lo que los hace propensos a amplificar inadvertidamente la propagación de información falsa.
- Impacto Social: La rápida propagación de desinformación amenaza gravemente el discurso público, la estabilidad emocional y la toma de decisiones
- Desafíos Tecnológicos: Los LLMs existentes muestran un desempeño cercano a la adivinanza aleatoria en detección de desinformación
- Requisitos de Seguridad: Se necesita un sistema de detección robusto contra ataques diversificados
- Limitaciones de Conocimiento Incorporado: Los LLMs dependen únicamente del conocimiento incorporado durante el entrenamiento, careciendo de capacidades de verificación de hechos en tiempo real
- Sesgo Lingüístico: El desempeño disminuye significativamente en idiomas no ingleses
- Vulnerabilidad a Ataques Adversariales: Falta de resistencia a transformaciones de formato, traducción, resumen y otros ataques
- Falta de Investigación Sistemática: Los trabajos existentes no evalúan sistemáticamente ataques adversariales multilingües y multiestructurales
Los autores proponen la necesidad de desarrollar un sistema de detección de desinformación multilingüe que pueda resistir múltiples ataques adversariales y desplegarse como un complemento web práctico.
- Propone un Marco RAG Multiagente: Arquitectura multiagente que combina Llama 3.1-8B y técnicas de generación aumentada por recuperación
- Construye un Nuevo Conjunto de Datos de Ataques Adversariales: Conjunto de datos que incluye tres formas de ataque: preguntas de opción múltiple (MCQ), traducción y resumen
- Implementa Capacidades de Detección Multilingüe: Soporta seis idiomas: inglés, francés, español, árabe, hindi y chino
- Verifica la Viabilidad del Despliegue Práctico: Diseñado como un complemento web desplegable
- Proporciona Evaluación Experimental Integral: Logra una precisión superior al 95% en detección de desinformación
Entrada: Contenido de texto de la web (artículos de noticias, comentarios de usuarios, publicaciones en redes sociales, etc.), que puede incluir transformaciones adversariales
Salida: Resultado de clasificación binaria (Verdadero/Falso) que determina si el texto de entrada contiene desinformación
Restricciones: El sistema debe funcionar en configuración de caja negra, realizando juicios basados únicamente en retroalimentación binaria
- Modelo de Incrustación: Comparación de tres modelos de incrustación multilingües
- text-embedding-3-large de OpenAI (propietario)
- jina-embeddings-v3 (propietario)
- multilingual-e5-large (código abierto)
- Mecanismo de Recuperación: Sistema de recuperación basado en similitud de coseno
- Almacena títulos falsos incrustados en archivos CSV
- Recupera los títulos falsos más relevantes para la consulta
- Utiliza Llama para análisis contextual y juicio final
El sistema contiene cinco agentes colaborativos:
- Agente Rastreador Web
- Extrae contenido estructurado de sitios web dinámicos
- Divide el texto en fragmentos manejables
- Transmite al agente gestor para procesamiento
- Agente Gestor
- Interactúa con el rastreador web para recibir texto
- Enruta hacia agentes de clasificación de temas y detección de desinformación
- Envía notificaciones a usuarios
- Agente de Detección de Desinformación
- Utiliza RAG-Llama para detección
- Recupera de una base de datos que contiene 5,000 títulos falsos verificados
- Utiliza el modelo Llama de código abierto para juicio final
- Agente de Temas (Opcional)
- Clasifica consultas en 10 categorías predefinidas
- Acelera el proceso de búsqueda RAG
- Utiliza GPT-4o-mini para clasificación de temas
- Agente Evaluador
- Asegura que todos los fragmentos de texto sean procesados
- Verifica la consistencia de componentes del sistema
- Actúa como capa de validación adicional para mejorar robustez
- Manejo de Ataques Adversariales Multimodales: Primera aproximación sistemática para manejar tres formas de ataque: MCQ, traducción y resumen
- Capacidad de Recuperación Multilingüe: Aprovecha modelos de incrustación multilingües para detección entre idiomas
- Estrategia de Coincidencia de Muestras Negativas: Utiliza únicamente la base de datos de desinformación para detección de coincidencia negativa
- Diseño de Complemento Modular: Puede desplegarse directamente como complemento de navegador web
- Títulos Falsos: 20,950 títulos falsos recopilados de Snopes y Politifact
- Títulos Factuales: 4,000 títulos reales recopilados
- Datos Experimentales: 5,000 títulos falsos y 2,000 títulos factuales seleccionados
- Conjunto de Datos MCQ: Conversión de títulos a preguntas de opción múltiple que comienzan con "¿Por qué?"
- Conjunto de Datos de Traducción: Traducción de texto expandido a seis idiomas
- Conjunto de Datos de Resumen: Generación de texto largo de 500 palabras para tareas de resumen
- Precisión Factual: Porcentaje de información factual clasificada correctamente
- Precisión de Falsedad: Porcentaje de información falsa clasificada correctamente
- Tasa de Éxito de Ataque (ASR): Proporción de entradas adversariales que causan fallo del sistema (menor es mejor)
- Modelo Base: Llama 3.1-8B-Instruct original
- Variantes RAG-Llama con diferentes modelos de incrustación
- Variantes del sistema con/sin clasificación de temas
- Modelo: Llama 3.1-8B-Instruct
- Hardware: GPU A100 80GB
- Hiperparámetros: temperature=0.1, top-p=1
- Almacenamiento de Incrustaciones: Formato de archivo CSV
- ASR de Pregunta Directa: 46.74%
- ASR de Ataque MCQ: 97.72%
- ASR de Ataque de Traducción: 100%
- ASR de Ataque de Resumen: 100%
| Tipo de Ataque | Precisión de Detección de Falsedad | Precisión de Detección Factual |
|---|
| Pregunta Directa | 99.76% | 85.25% |
| MCQ | 97.38% | 89.85% |
| Resumen | 99.3% | 95.15% |
| Traducción al Francés | 97.72% | 87.25% |
| Traducción al Árabe | 97.26% | 88.65% |
| Traducción al Hindi | 95.2% | 87.4% |
| Traducción al Chino | 96.44% | 93.5% |
| Traducción al Español | 97.9% | 90.9% |
| Modelo de Incrustación | Precisión Promedio MCQ | Precisión Promedio de Resumen | Precisión Promedio de Traducción |
|---|
| text-embedding-3-large | 93.62% | 97.23% | 93.22% |
| jina-embeddings-v3 | 95.29% | 89.08% | 93.35% |
| multilingual-e5-large | 95.26% | 89.02% | 93.92% |
- Mejora de Velocidad: Más de 2 veces en mediana, más de 3 veces en promedio
- Precisión: Varía entre 78.27%-91.18%
- Precisión Relativamente Baja en Tareas MCQ: Debido a que las preguntas de opción múltiple contienen respuestas multitemáticas que dificultan la clasificación
- RAG Significativamente Superior al Base: Mejora sustancial en todos los tipos de ataque
- Capacidad Multilingüe: Mantiene precisión de detección de falsedad superior al 95% en seis idiomas
- Impacto del Modelo de Incrustación: multilingual-e5-large muestra el mejor desempeño en equilibrio entre rendimiento y accesibilidad
- Aceleración de Clasificación de Temas: Mejora efectivamente la velocidad de recuperación, pero con reducción de precisión en consultas complejas
- Métodos basados en BERT (FakeBERT, etc.)
- Ajuste fino de instrucciones T5
- Ajuste fino Llama-2 PEFT/LoRA
- Métodos de aprendizaje por refuerzo
- Mixtral-8x7B combinado con RAG
- Integración de datos web en tiempo real
- RAG de Temas Adaptativos (AT-RAG)
- Detección de desinformación visual LLM-Consensus
- Sistema de Debate Estructurado TruEDebate (TED)
- Marco de procesamiento del ciclo de vida completo de desinformación
- Reemplazo de tokens a nivel de gradiente
- Perturbación de afirmaciones impulsada por aprendizaje por refuerzo
- Estrategias de ataque de caja negra
- Vulnerabilidad Significativa de LLMs: Los LLMs originales son altamente susceptibles a la propagación de desinformación bajo ataques adversariales
- RAG Mejora Efectivamente la Robustez: RAG-Llama supera significativamente el base en varios ataques
- Detección Multilingüe Viable: El sistema puede manejar efectivamente desinformación en seis idiomas principales
- Potencial de Despliegue Práctico: La arquitectura multiagente es adecuada para despliegue como complemento web
- Precisión de Clasificación de Temas: La clasificación incorrecta de temas afecta la precisión de recuperación
- Dependencia de Base de Datos: El desempeño del sistema depende fuertemente de la calidad e integridad de la base de datos de desinformación
- Requisitos de Actualización Dinámica: Necesita actualización continua de la base de datos para abordar desinformación emergente
- Vulnerabilidades de Seguridad: Los sistemas RAG pueden enfrentar contaminación de base de datos y ataques de incrustación
- Mejorar Clasificación de Temas: Aumentar la precisión de clasificación para consultas complejas
- Explorar Otros LLMs: Evaluar el desempeño de diferentes modelos de lenguaje en RAG
- Mejorar Seguridad: Desarrollar mecanismos de defensa contra ataques de incrustación y contaminación de base de datos
- Expandir Tipos de Ataque: Investigar más variedades de transformaciones adversariales
- Importancia del Problema: Aborda un problema de seguridad crítico en detección de desinformación con LLMs
- Innovación del Método: Primera investigación sistemática de ataques adversariales multilingües y multiestructurales
- Integralidad Experimental: Evaluación comprehensiva que abarca seis idiomas y tres tipos de ataque
- Valor Práctico: Proporciona una solución de complemento desplegable
- Avance Técnico: Integra tecnologías RAG y multiagente más recientes
- Limitación del Tamaño del Conjunto de Datos: Utiliza solo 7,000 títulos, tamaño relativamente pequeño
- Tipos de Ataque Limitados: Solo considera tres formas específicas de ataque
- Métricas de Evaluación Únicas: Se enfoca principalmente en precisión, careciendo de métricas de eficiencia y costo
- Análisis Teórico Insuficiente: Falta explicación teórica de la efectividad del método
- Estabilidad a Largo Plazo No Verificada: No evalúa la degradación de desempeño en uso prolongado
- Contribución Académica: Proporciona nueva dirección de investigación para detección de desinformación multilingüe
- Valor Práctico: Aplicable directamente a plataformas de redes sociales y noticias
- Reproducibilidad: Utiliza modelos de código abierto, facilitando reproducción y mejora
- Impacto Industrial: Proporciona base técnica para moderación de contenido y verificación de hechos
- Plataformas de Redes Sociales: Detección en tiempo real de desinformación publicada por usuarios
- Sitios de Agregación de Noticias: Verificación de autenticidad de artículos de noticias
- Plataformas Educativas: Ayudar a usuarios a identificar desinformación
- Moderación de Contenido Empresarial: Revisión automatizada de contenido a gran escala
- Supervisión Gubernamental: Asistir a departamentos relevantes en monitoreo de desinformación en línea
Este artículo cita 50 referencias relevantes que abarcan múltiples campos incluyendo LLMs, RAG, sistemas multiagente y ataques adversariales, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo con contribuciones importantes en el campo de la detección de desinformación, que propone un marco innovador de RAG multiagente y logra resultados experimentales excelentes bajo configuraciones multilingües y multitipo de ataque. Aunque presenta algunas limitaciones, su valor práctico e innovación técnica lo convierten en un progreso importante en este campo.