2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

基本信息

  • 论文ID: 2510.08605
  • 标题: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • 作者: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
  • 分类: cs.CL (Computational Linguistics), cs.AI, cs.CR, cs.LG
  • 发表时间: 2025年10月7日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.08605

摘要

数字平台上虚假信息的快速传播威胁着公共话语、情感稳定性和决策制定。虽然先前的工作探索了虚假信息检测中的各种对抗性攻击,但本文研究的特定变换尚未得到系统性研究。特别地,本文调查了跨英语、法语、西班牙语、阿拉伯语、印地语和中文的语言切换,以及随后的翻译。同时还研究了摘要前的查询长度膨胀和结构化重新格式化为选择题。本文提出了一个多语言、多智能体大语言模型框架,结合检索增强生成技术,可作为网络插件部署到在线平台。该工作强调了AI驱动的虚假信息检测在保护在线事实完整性方面的重要性,同时展示了基于插件部署在真实网络应用中的可行性。

研究背景与动机

问题定义

本研究要解决的核心问题是大语言模型(LLMs)在面对对抗性攻击时,缺乏有效的虚假信息检测能力,容易无意中放大虚假信息的传播。

问题重要性

  1. 社会影响: 虚假信息的快速传播严重威胁公共话语、情感稳定和决策制定
  2. 技术挑战: 现有LLMs在虚假信息检测方面表现接近随机猜测
  3. 安全需求: 需要针对多样化攻击的鲁棒性检测系统

现有方法局限性

  1. 内嵌知识限制: LLMs仅依赖训练时的内嵌知识,缺乏实时事实核查能力
  2. 语言偏差: 在非英语语言上的表现显著下降
  3. 对抗攻击脆弱性: 对格式转换、翻译、摘要等攻击缺乏抵抗力
  4. 缺乏系统性研究: 现有工作未系统评估多语言、多结构的对抗攻击

研究动机

作者提出需要开发一个能够抵御多种对抗性攻击的多语言虚假信息检测系统,并将其部署为实用的网络插件。

核心贡献

  1. 提出了多智能体RAG框架: 结合Llama 3.1-8B和检索增强生成技术的多智能体架构
  2. 构建了新型对抗攻击数据集: 包含选择题(MCQ)、翻译和摘要三种攻击形式的数据集
  3. 实现了多语言检测能力: 支持英语、法语、西班牙语、阿拉伯语、印地语、中文六种语言
  4. 验证了实际部署可行性: 设计为可部署的网络插件形式
  5. 提供了全面的实验评估: 在虚假信息检测准确率上达到95%以上

方法详解

任务定义

输入: 来自网络的文本内容(新闻文章、用户评论、社交媒体帖子等),可能包含对抗性变换 输出: 二元分类结果(True/False),判断输入文本是否包含虚假信息 约束: 系统需要在黑盒设置下工作,仅基于二元反馈进行判断

模型架构

RAG-Llama核心组件

  1. 嵌入模型: 使用三种多语言嵌入模型进行比较
    • OpenAI's text-embedding-3-large (专有)
    • jina-embeddings-v3 (专有)
    • multilingual-e5-large (开源)
  2. 检索机制: 基于余弦相似度的检索系统
    • 将虚假标题嵌入存储在CSV文件中
    • 检索与查询最相关的虚假标题
    • 使用Llama进行上下文分析做出最终判断

多智能体架构

系统包含四个协作智能体:

  1. 网络爬虫智能体
    • 从动态网站提取结构化内容
    • 将文本分割成可管理的块
    • 传递给管理器智能体处理
  2. 管理器智能体
    • 与网络爬虫交互接收文本
    • 路由到主题和虚假信息检测智能体
    • 向用户发送通知
  3. 虚假信息检测智能体
    • 利用RAG-Llama进行检测
    • 从包含5000个已验证虚假标题的数据库检索
    • 使用开源Llama模型进行最终判断
  4. 主题智能体 (可选)
    • 将查询分类到10个预定义类别
    • 加速RAG搜索过程
    • 使用GPT-4o-mini进行主题分类
  5. 评判智能体
    • 确保所有文本块都被处理
    • 验证系统各组件的一致性
    • 作为额外的验证层增强鲁棒性

技术创新点

  1. 多模态对抗攻击处理: 首次系统性地处理MCQ、翻译、摘要三种攻击形式
  2. 多语言检索能力: 利用多语言嵌入模型实现跨语言检测
  3. 负样本匹配策略: 仅使用虚假信息数据库进行负匹配检测
  4. 模块化插件设计: 可直接部署为网络浏览器插件

实验设置

数据集

数据来源

  • 虚假标题: 从Snopes和Politifact收集20,950个虚假标题
  • 事实标题: 收集4,000个真实标题
  • 实验数据: 选择5,000个虚假标题和2,000个事实标题

三种攻击数据集

  1. MCQ数据集: 将标题转换为"为什么"开头的选择题
  2. 翻译数据集: 将扩展文本翻译为六种语言
  3. 摘要数据集: 生成500词的长文本用于摘要任务

评价指标

  • 事实准确率: 正确分类事实信息的百分比
  • 虚假准确率: 正确分类虚假信息的百分比
  • 攻击成功率(ASR): 对抗输入导致系统失败的比率(越低越好)

对比方法

  • 基线模型: 原版Llama 3.1-8B-Instruct
  • 不同嵌入模型的RAG-Llama变体
  • 有/无主题分类的系统变体

实现细节

  • 模型: Llama 3.1-8B-Instruct
  • 硬件: GPU A100 80GB
  • 超参数: temperature=0.1, top-p=1
  • 嵌入存储: CSV文件格式

实验结果

主要结果

基线模型脆弱性

  • 直接问题ASR: 46.74%
  • MCQ攻击ASR: 97.72%
  • 翻译攻击ASR: 100%
  • 摘要攻击ASR: 100%

RAG-Llama性能

攻击类型虚假检测准确率事实检测准确率
直接问题99.76%85.25%
MCQ97.38%89.85%
摘要99.3%95.15%
法语翻译97.72%87.25%
阿拉伯语翻译97.26%88.65%
印地语翻译95.2%87.4%
中文翻译96.44%93.5%
西班牙语翻译97.9%90.9%

嵌入模型比较

嵌入模型MCQ平均准确率摘要平均准确率翻译平均准确率
text-embedding-3-large93.62%97.23%93.22%
jina-embeddings-v395.29%89.08%93.35%
multilingual-e5-large95.26%89.02%93.92%

主题分类效果

  • 速度提升: 中位数2倍以上,平均3倍以上
  • 准确率: 78.27%-91.18%不等
  • MCQ任务准确率相对较低: 由于选择题包含多主题答案导致分类困难

实验发现

  1. RAG显著优于基线: 在所有攻击类型上都有大幅提升
  2. 多语言能力: 在六种语言上都保持了95%以上的虚假检测准确率
  3. 嵌入模型影响: multilingual-e5-large在平衡性能和可访问性方面表现最佳
  4. 主题分类加速: 有效提升了检索速度,但在复杂查询上准确率有所下降

相关工作

微调方法

  • BERT-based方法(FakeBERT等)
  • T5指令微调
  • Llama-2 PEFT/LoRA微调
  • 强化学习方法

RAG方法

  • Mixtral-8x7B与RAG结合
  • 实时网络数据整合
  • 自适应主题RAG(AT-RAG)

多智能体系统

  • LLM-Consensus视觉虚假信息检测
  • TruEDebate(TED)结构化辩论系统
  • 完整虚假信息生命周期处理框架

对抗攻击

  • 基于梯度的token级替换
  • 强化学习驱动的声明扰动
  • 黑盒攻击策略

结论与讨论

主要结论

  1. LLMs存在显著脆弱性: 原版LLMs在对抗攻击下极易传播虚假信息
  2. RAG有效提升鲁棒性: RAG-Llama在各种攻击下都显著优于基线
  3. 多语言检测可行: 系统能有效处理六种主要语言的虚假信息
  4. 实际部署潜力: 多智能体架构适合作为网络插件部署

局限性

  1. 主题分类准确性: 主题误分类会影响检索精度
  2. 数据库依赖性: 系统性能严重依赖虚假信息数据库的质量和完整性
  3. 动态更新需求: 需要持续更新数据库以应对新兴虚假信息
  4. 安全漏洞: RAG系统可能面临数据库污染和嵌入攻击

未来方向

  1. 改进主题分类: 提高复杂查询的分类准确性
  2. 探索其他LLMs: 评估不同语言模型在RAG中的表现
  3. 增强安全性: 开发对抗嵌入攻击和数据库污染的防护机制
  4. 扩展攻击类型: 研究更多种类的对抗性变换

深度评价

优点

  1. 问题重要性: 解决了LLMs在虚假信息检测中的关键安全问题
  2. 方法创新性: 首次系统性研究多语言、多结构对抗攻击
  3. 实验全面性: 涵盖六种语言、三种攻击类型的comprehensive评估
  4. 实用价值: 提供了可部署的插件解决方案
  5. 技术先进性: 结合了最新的RAG和多智能体技术

不足

  1. 数据集规模限制: 仅使用7,000个标题,规模相对较小
  2. 攻击类型有限: 只考虑了三种特定的攻击形式
  3. 评估指标单一: 主要关注准确率,缺乏效率、成本等指标
  4. 理论分析不足: 缺乏对方法有效性的理论解释
  5. 长期稳定性未验证: 未评估系统在长期使用中的性能衰减

影响力

  1. 学术贡献: 为多语言虚假信息检测提供了新的研究方向
  2. 实用价值: 可直接应用于社交媒体和新闻平台
  3. 可复现性: 使用开源模型,便于复现和改进
  4. 行业影响: 为内容审核和事实核查提供了技术基础

适用场景

  1. 社交媒体平台: 实时检测用户发布的虚假信息
  2. 新闻聚合网站: 验证新闻文章的真实性
  3. 教育平台: 帮助用户识别虚假信息
  4. 企业内容审核: 大规模内容的自动化审核
  5. 政府监管: 协助相关部门监控网络虚假信息

参考文献

本文引用了50篇相关文献,涵盖了LLMs、RAG、多智能体系统、对抗攻击等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇在虚假信息检测领域具有重要贡献的论文,提出了创新的多智能体RAG框架,并在多语言、多攻击类型的设置下取得了优异的实验结果。虽然存在一些局限性,但其实用价值和技术创新性使其成为该领域的重要进展。