2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

Hacia una Web más Segura: LLMs Multiagente Multilingües para Mitigar Ataques de Desinformación Adversarial

Información Básica

ID del Artículo: 2510.08605
Título: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
Autores: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
Clasificación: cs.CL (Lingüística Computacional), cs.AI, cs.CR, cs.LG
Fecha de Publicación: 7 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.08605

Resumen

La rápida propagación de desinformación en plataformas digitales amenaza el discurso público, la estabilidad emocional y la toma de decisiones. Aunque trabajos previos han explorado diversos ataques adversariales en la detección de desinformación, las transformaciones específicas estudiadas en este artículo no han sido investigadas sistemáticamente. En particular, este trabajo investiga el cambio de idioma entre inglés, francés, español, árabe, hindi y chino, así como la traducción subsecuente. También se estudia la expansión de la longitud de consulta previa al resumen y el reformateo estructurado como preguntas de opción múltiple. Se propone un marco de modelos de lenguaje grandes multilingües y multiagente que incorpora técnicas de generación aumentada por recuperación, que puede desplegarse como complemento web en plataformas en línea. Este trabajo enfatiza la importancia de la detección de desinformación impulsada por IA en la protección de la integridad de hechos en línea, mientras demuestra la viabilidad del despliegue basado en complementos en aplicaciones web reales.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que este estudio aborda es la falta de capacidades efectivas de detección de desinformación en modelos de lenguaje grandes (LLMs) cuando se enfrentan a ataques adversariales, lo que los hace propensos a amplificar inadvertidamente la propagación de información falsa.

Importancia del Problema

Impacto Social: La rápida propagación de desinformación amenaza gravemente el discurso público, la estabilidad emocional y la toma de decisiones
Desafíos Tecnológicos: Los LLMs existentes muestran un desempeño cercano a la adivinanza aleatoria en detección de desinformación
Requisitos de Seguridad: Se necesita un sistema de detección robusto contra ataques diversificados

Limitaciones de Métodos Existentes

Limitaciones de Conocimiento Incorporado: Los LLMs dependen únicamente del conocimiento incorporado durante el entrenamiento, careciendo de capacidades de verificación de hechos en tiempo real
Sesgo Lingüístico: El desempeño disminuye significativamente en idiomas no ingleses
Vulnerabilidad a Ataques Adversariales: Falta de resistencia a transformaciones de formato, traducción, resumen y otros ataques
Falta de Investigación Sistemática: Los trabajos existentes no evalúan sistemáticamente ataques adversariales multilingües y multiestructurales

Motivación de la Investigación

Los autores proponen la necesidad de desarrollar un sistema de detección de desinformación multilingüe que pueda resistir múltiples ataques adversariales y desplegarse como un complemento web práctico.

Contribuciones Principales

Propone un Marco RAG Multiagente: Arquitectura multiagente que combina Llama 3.1-8B y técnicas de generación aumentada por recuperación
Construye un Nuevo Conjunto de Datos de Ataques Adversariales: Conjunto de datos que incluye tres formas de ataque: preguntas de opción múltiple (MCQ), traducción y resumen
Implementa Capacidades de Detección Multilingüe: Soporta seis idiomas: inglés, francés, español, árabe, hindi y chino
Verifica la Viabilidad del Despliegue Práctico: Diseñado como un complemento web desplegable
Proporciona Evaluación Experimental Integral: Logra una precisión superior al 95% en detección de desinformación

Explicación Detallada del Método

Definición de la Tarea

Entrada: Contenido de texto de la web (artículos de noticias, comentarios de usuarios, publicaciones en redes sociales, etc.), que puede incluir transformaciones adversariales Salida: Resultado de clasificación binaria (Verdadero/Falso) que determina si el texto de entrada contiene desinformación Restricciones: El sistema debe funcionar en configuración de caja negra, realizando juicios basados únicamente en retroalimentación binaria

Arquitectura del Modelo

Componentes Principales de RAG-Llama

Modelo de Incrustación: Comparación de tres modelos de incrustación multilingües
- text-embedding-3-large de OpenAI (propietario)
- jina-embeddings-v3 (propietario)
- multilingual-e5-large (código abierto)
Mecanismo de Recuperación: Sistema de recuperación basado en similitud de coseno
- Almacena títulos falsos incrustados en archivos CSV
- Recupera los títulos falsos más relevantes para la consulta
- Utiliza Llama para análisis contextual y juicio final

Arquitectura Multiagente

El sistema contiene cinco agentes colaborativos:

Agente Rastreador Web
- Extrae contenido estructurado de sitios web dinámicos
- Divide el texto en fragmentos manejables
- Transmite al agente gestor para procesamiento
Agente Gestor
- Interactúa con el rastreador web para recibir texto
- Enruta hacia agentes de clasificación de temas y detección de desinformación
- Envía notificaciones a usuarios
Agente de Detección de Desinformación
- Utiliza RAG-Llama para detección
- Recupera de una base de datos que contiene 5,000 títulos falsos verificados
- Utiliza el modelo Llama de código abierto para juicio final
Agente de Temas (Opcional)
- Clasifica consultas en 10 categorías predefinidas
- Acelera el proceso de búsqueda RAG
- Utiliza GPT-4o-mini para clasificación de temas
Agente Evaluador
- Asegura que todos los fragmentos de texto sean procesados
- Verifica la consistencia de componentes del sistema
- Actúa como capa de validación adicional para mejorar robustez

Puntos de Innovación Técnica

Manejo de Ataques Adversariales Multimodales: Primera aproximación sistemática para manejar tres formas de ataque: MCQ, traducción y resumen
Capacidad de Recuperación Multilingüe: Aprovecha modelos de incrustación multilingües para detección entre idiomas
Estrategia de Coincidencia de Muestras Negativas: Utiliza únicamente la base de datos de desinformación para detección de coincidencia negativa
Diseño de Complemento Modular: Puede desplegarse directamente como complemento de navegador web

Configuración Experimental

Conjunto de Datos

Fuentes de Datos

Títulos Falsos: 20,950 títulos falsos recopilados de Snopes y Politifact
Títulos Factuales: 4,000 títulos reales recopilados
Datos Experimentales: 5,000 títulos falsos y 2,000 títulos factuales seleccionados

Tres Conjuntos de Datos de Ataque

Conjunto de Datos MCQ: Conversión de títulos a preguntas de opción múltiple que comienzan con "¿Por qué?"
Conjunto de Datos de Traducción: Traducción de texto expandido a seis idiomas
Conjunto de Datos de Resumen: Generación de texto largo de 500 palabras para tareas de resumen

Métricas de Evaluación

Precisión Factual: Porcentaje de información factual clasificada correctamente
Precisión de Falsedad: Porcentaje de información falsa clasificada correctamente
Tasa de Éxito de Ataque (ASR): Proporción de entradas adversariales que causan fallo del sistema (menor es mejor)

Métodos de Comparación

Modelo Base: Llama 3.1-8B-Instruct original
Variantes RAG-Llama con diferentes modelos de incrustación
Variantes del sistema con/sin clasificación de temas

Detalles de Implementación

Modelo: Llama 3.1-8B-Instruct
Hardware: GPU A100 80GB
Hiperparámetros: temperature=0.1, top-p=1
Almacenamiento de Incrustaciones: Formato de archivo CSV

Resultados Experimentales

Resultados Principales

Vulnerabilidad del Modelo Base

ASR de Pregunta Directa: 46.74%
ASR de Ataque MCQ: 97.72%
ASR de Ataque de Traducción: 100%
ASR de Ataque de Resumen: 100%

Desempeño de RAG-Llama

Tipo de Ataque	Precisión de Detección de Falsedad	Precisión de Detección Factual
Pregunta Directa	99.76%	85.25%
MCQ	97.38%	89.85%
Resumen	99.3%	95.15%
Traducción al Francés	97.72%	87.25%
Traducción al Árabe	97.26%	88.65%
Traducción al Hindi	95.2%	87.4%
Traducción al Chino	96.44%	93.5%
Traducción al Español	97.9%	90.9%

Comparación de Modelos de Incrustación

Modelo de Incrustación	Precisión Promedio MCQ	Precisión Promedio de Resumen	Precisión Promedio de Traducción
text-embedding-3-large	93.62%	97.23%	93.22%
jina-embeddings-v3	95.29%	89.08%	93.35%
multilingual-e5-large	95.26%	89.02%	93.92%

Efectividad de Clasificación de Temas

Mejora de Velocidad: Más de 2 veces en mediana, más de 3 veces en promedio
Precisión: Varía entre 78.27%-91.18%
Precisión Relativamente Baja en Tareas MCQ: Debido a que las preguntas de opción múltiple contienen respuestas multitemáticas que dificultan la clasificación

Hallazgos Experimentales

RAG Significativamente Superior al Base: Mejora sustancial en todos los tipos de ataque
Capacidad Multilingüe: Mantiene precisión de detección de falsedad superior al 95% en seis idiomas
Impacto del Modelo de Incrustación: multilingual-e5-large muestra el mejor desempeño en equilibrio entre rendimiento y accesibilidad
Aceleración de Clasificación de Temas: Mejora efectivamente la velocidad de recuperación, pero con reducción de precisión en consultas complejas

Trabajo Relacionado

Métodos de Ajuste Fino

Métodos basados en BERT (FakeBERT, etc.)
Ajuste fino de instrucciones T5
Ajuste fino Llama-2 PEFT/LoRA
Métodos de aprendizaje por refuerzo

Métodos RAG

Mixtral-8x7B combinado con RAG
Integración de datos web en tiempo real
RAG de Temas Adaptativos (AT-RAG)

Sistemas Multiagente

Detección de desinformación visual LLM-Consensus
Sistema de Debate Estructurado TruEDebate (TED)
Marco de procesamiento del ciclo de vida completo de desinformación

Ataques Adversariales

Reemplazo de tokens a nivel de gradiente
Perturbación de afirmaciones impulsada por aprendizaje por refuerzo
Estrategias de ataque de caja negra

Conclusiones y Discusión

Conclusiones Principales

Vulnerabilidad Significativa de LLMs: Los LLMs originales son altamente susceptibles a la propagación de desinformación bajo ataques adversariales
RAG Mejora Efectivamente la Robustez: RAG-Llama supera significativamente el base en varios ataques
Detección Multilingüe Viable: El sistema puede manejar efectivamente desinformación en seis idiomas principales
Potencial de Despliegue Práctico: La arquitectura multiagente es adecuada para despliegue como complemento web

Limitaciones

Precisión de Clasificación de Temas: La clasificación incorrecta de temas afecta la precisión de recuperación
Dependencia de Base de Datos: El desempeño del sistema depende fuertemente de la calidad e integridad de la base de datos de desinformación
Requisitos de Actualización Dinámica: Necesita actualización continua de la base de datos para abordar desinformación emergente
Vulnerabilidades de Seguridad: Los sistemas RAG pueden enfrentar contaminación de base de datos y ataques de incrustación

Direcciones Futuras

Mejorar Clasificación de Temas: Aumentar la precisión de clasificación para consultas complejas
Explorar Otros LLMs: Evaluar el desempeño de diferentes modelos de lenguaje en RAG
Mejorar Seguridad: Desarrollar mecanismos de defensa contra ataques de incrustación y contaminación de base de datos
Expandir Tipos de Ataque: Investigar más variedades de transformaciones adversariales

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda un problema de seguridad crítico en detección de desinformación con LLMs
Innovación del Método: Primera investigación sistemática de ataques adversariales multilingües y multiestructurales
Integralidad Experimental: Evaluación comprehensiva que abarca seis idiomas y tres tipos de ataque
Valor Práctico: Proporciona una solución de complemento desplegable
Avance Técnico: Integra tecnologías RAG y multiagente más recientes

Deficiencias

Limitación del Tamaño del Conjunto de Datos: Utiliza solo 7,000 títulos, tamaño relativamente pequeño
Tipos de Ataque Limitados: Solo considera tres formas específicas de ataque
Métricas de Evaluación Únicas: Se enfoca principalmente en precisión, careciendo de métricas de eficiencia y costo
Análisis Teórico Insuficiente: Falta explicación teórica de la efectividad del método
Estabilidad a Largo Plazo No Verificada: No evalúa la degradación de desempeño en uso prolongado

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para detección de desinformación multilingüe
Valor Práctico: Aplicable directamente a plataformas de redes sociales y noticias
Reproducibilidad: Utiliza modelos de código abierto, facilitando reproducción y mejora
Impacto Industrial: Proporciona base técnica para moderación de contenido y verificación de hechos

Escenarios Aplicables

Plataformas de Redes Sociales: Detección en tiempo real de desinformación publicada por usuarios
Sitios de Agregación de Noticias: Verificación de autenticidad de artículos de noticias
Plataformas Educativas: Ayudar a usuarios a identificar desinformación
Moderación de Contenido Empresarial: Revisión automatizada de contenido a gran escala
Supervisión Gubernamental: Asistir a departamentos relevantes en monitoreo de desinformación en línea

Referencias

Este artículo cita 50 referencias relevantes que abarcan múltiples campos incluyendo LLMs, RAG, sistemas multiagente y ataques adversariales, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo con contribuciones importantes en el campo de la detección de desinformación, que propone un marco innovador de RAG multiagente y logra resultados experimentales excelentes bajo configuraciones multilingües y multitipo de ataque. Aunque presenta algunas limitaciones, su valor práctico e innovación técnica lo convierten en un progreso importante en este campo.