2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

基本信息

论文ID: 2510.08605
标题: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
作者: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
分类: cs.CL (Computational Linguistics), cs.AI, cs.CR, cs.LG
发表时间: 2025年10月7日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.08605

摘要

数字平台上虚假信息的快速传播威胁着公共话语、情感稳定性和决策制定。虽然先前的工作探索了虚假信息检测中的各种对抗性攻击，但本文研究的特定变换尚未得到系统性研究。特别地，本文调查了跨英语、法语、西班牙语、阿拉伯语、印地语和中文的语言切换，以及随后的翻译。同时还研究了摘要前的查询长度膨胀和结构化重新格式化为选择题。本文提出了一个多语言、多智能体大语言模型框架，结合检索增强生成技术，可作为网络插件部署到在线平台。该工作强调了AI驱动的虚假信息检测在保护在线事实完整性方面的重要性，同时展示了基于插件部署在真实网络应用中的可行性。

研究背景与动机

问题定义

本研究要解决的核心问题是大语言模型(LLMs)在面对对抗性攻击时，缺乏有效的虚假信息检测能力，容易无意中放大虚假信息的传播。

问题重要性

社会影响: 虚假信息的快速传播严重威胁公共话语、情感稳定和决策制定
技术挑战: 现有LLMs在虚假信息检测方面表现接近随机猜测
安全需求: 需要针对多样化攻击的鲁棒性检测系统

现有方法局限性

内嵌知识限制: LLMs仅依赖训练时的内嵌知识，缺乏实时事实核查能力
语言偏差: 在非英语语言上的表现显著下降
对抗攻击脆弱性: 对格式转换、翻译、摘要等攻击缺乏抵抗力
缺乏系统性研究: 现有工作未系统评估多语言、多结构的对抗攻击

研究动机

作者提出需要开发一个能够抵御多种对抗性攻击的多语言虚假信息检测系统，并将其部署为实用的网络插件。

核心贡献

提出了多智能体RAG框架: 结合Llama 3.1-8B和检索增强生成技术的多智能体架构
构建了新型对抗攻击数据集: 包含选择题(MCQ)、翻译和摘要三种攻击形式的数据集
实现了多语言检测能力: 支持英语、法语、西班牙语、阿拉伯语、印地语、中文六种语言
验证了实际部署可行性: 设计为可部署的网络插件形式
提供了全面的实验评估: 在虚假信息检测准确率上达到95%以上

方法详解

任务定义

输入: 来自网络的文本内容(新闻文章、用户评论、社交媒体帖子等)，可能包含对抗性变换输出: 二元分类结果(True/False)，判断输入文本是否包含虚假信息约束: 系统需要在黑盒设置下工作，仅基于二元反馈进行判断

模型架构

RAG-Llama核心组件

嵌入模型: 使用三种多语言嵌入模型进行比较
- OpenAI's text-embedding-3-large (专有)
- jina-embeddings-v3 (专有)
- multilingual-e5-large (开源)
检索机制: 基于余弦相似度的检索系统
- 将虚假标题嵌入存储在CSV文件中
- 检索与查询最相关的虚假标题
- 使用Llama进行上下文分析做出最终判断

多智能体架构

系统包含四个协作智能体：

网络爬虫智能体
- 从动态网站提取结构化内容
- 将文本分割成可管理的块
- 传递给管理器智能体处理
管理器智能体
- 与网络爬虫交互接收文本
- 路由到主题和虚假信息检测智能体
- 向用户发送通知
虚假信息检测智能体
- 利用RAG-Llama进行检测
- 从包含5000个已验证虚假标题的数据库检索
- 使用开源Llama模型进行最终判断
主题智能体 (可选)
- 将查询分类到10个预定义类别
- 加速RAG搜索过程
- 使用GPT-4o-mini进行主题分类
评判智能体
- 确保所有文本块都被处理
- 验证系统各组件的一致性
- 作为额外的验证层增强鲁棒性

技术创新点

多模态对抗攻击处理: 首次系统性地处理MCQ、翻译、摘要三种攻击形式
多语言检索能力: 利用多语言嵌入模型实现跨语言检测
负样本匹配策略: 仅使用虚假信息数据库进行负匹配检测
模块化插件设计: 可直接部署为网络浏览器插件

实验设置

数据集

数据来源

虚假标题: 从Snopes和Politifact收集20,950个虚假标题
事实标题: 收集4,000个真实标题
实验数据: 选择5,000个虚假标题和2,000个事实标题

三种攻击数据集

MCQ数据集: 将标题转换为"为什么"开头的选择题
翻译数据集: 将扩展文本翻译为六种语言
摘要数据集: 生成500词的长文本用于摘要任务

评价指标

事实准确率: 正确分类事实信息的百分比
虚假准确率: 正确分类虚假信息的百分比
攻击成功率(ASR): 对抗输入导致系统失败的比率(越低越好)

对比方法

基线模型: 原版Llama 3.1-8B-Instruct
不同嵌入模型的RAG-Llama变体
有/无主题分类的系统变体

实现细节

模型: Llama 3.1-8B-Instruct
硬件: GPU A100 80GB
超参数: temperature=0.1, top-p=1
嵌入存储: CSV文件格式

实验结果

主要结果

基线模型脆弱性

直接问题ASR: 46.74%
MCQ攻击ASR: 97.72%
翻译攻击ASR: 100%
摘要攻击ASR: 100%

RAG-Llama性能

攻击类型	虚假检测准确率	事实检测准确率
直接问题	99.76%	85.25%
MCQ	97.38%	89.85%
摘要	99.3%	95.15%
法语翻译	97.72%	87.25%
阿拉伯语翻译	97.26%	88.65%
印地语翻译	95.2%	87.4%
中文翻译	96.44%	93.5%
西班牙语翻译	97.9%	90.9%