2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

より安全なウェブへ向けて:多言語マルチエージェントLLMによる敵対的偽情報攻撃の軽減

基本情報

  • 論文ID: 2510.08605
  • タイトル: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • 著者: Nouar Aldahoul, Yasir Zaki (ニューヨーク大学アブダビ校)
  • 分類: cs.CL (計算言語学), cs.AI, cs.CR, cs.LG
  • 発表日: 2025年10月7日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08605

要約

デジタルプラットフォーム上での偽情報の急速な拡散は、公開討論、感情的安定性、および意思決定を脅かしている。先行研究では偽情報検出における様々な敵対的攻撃を探索してきたが、本論文で研究される特定の変換はまだ体系的に研究されていない。特に、英語、フランス語、スペイン語、アラビア語、ヒンディー語、中国語にわたる言語切り替え、およびその後の翻訳を調査している。同時に、要約前のクエリ長膨張と構造化再フォーマットを多肢選択問題(MCQ)として研究している。本論文は、検索拡張生成(RAG)技術を組み合わせた多言語マルチエージェント大規模言語モデル(LLM)フレームワークを提案し、オンラインプラットフォームにウェブプラグインとしてデプロイ可能である。本研究は、オンラインの事実完全性を保護する上でのAI駆動型偽情報検出の重要性を強調しながら、実際のウェブアプリケーションにおけるプラグインベースのデプロイメントの実行可能性を実証している。

研究背景と動機

問題定義

本研究が解決しようとする中核的な問題は、大規模言語モデル(LLM)が敵対的攻撃に直面した際に、効果的な偽情報検出能力を欠いており、無意識のうちに偽情報の拡散を増幅する傾向があることである。

問題の重要性

  1. 社会的影響: 偽情報の急速な拡散は、公開討論、感情的安定性、および意思決定に深刻な脅威をもたらす
  2. 技術的課題: 既存のLLMは偽情報検出においてランダム推測に近い性能を示している
  3. セキュリティ要件: 多様な攻撃に対する堅牢な検出システムが必要である

既存手法の限界

  1. 組み込み知識の制限: LLMは訓練時の組み込み知識のみに依存し、リアルタイムのファクトチェック能力を欠いている
  2. 言語バイアス: 非英語言語での性能が著しく低下する
  3. 敵対的攻撃への脆弱性: フォーマット変換、翻訳、要約などの攻撃に対する耐性が不足している
  4. 体系的研究の欠如: 既存の研究は多言語、複数構造の敵対的攻撃を体系的に評価していない

研究動機

著者らは、多様な敵対的攻撃に耐性を持つ多言語偽情報検出システムを開発し、実用的なウェブプラグインとしてデプロイする必要性を提唱している。

核心的貢献

  1. マルチエージェントRAGフレームワークの提案: Llama 3.1-8Bと検索拡張生成技術を組み合わせたマルチエージェント・アーキテクチャ
  2. 新規敵対的攻撃データセットの構築: MCQ、翻訳、要約の3つの攻撃形式を含むデータセット
  3. 多言語検出能力の実装: 英語、フランス語、スペイン語、アラビア語、ヒンディー語、中国語の6言語をサポート
  4. 実際のデプロイメント可能性の検証: ウェブプラグイン形式としてデプロイ可能な設計
  5. 包括的な実験評価の提供: 偽情報検出精度で95%以上を達成

方法の詳細

タスク定義

入力: ウェブから取得したテキストコンテンツ(ニュース記事、ユーザーコメント、ソーシャルメディア投稿など)。敵対的変換を含む可能性がある 出力: 二値分類結果(真/偽)。入力テキストが偽情報を含むかどうかを判定 制約: システムはブラックボックス設定で動作し、二値フィードバックのみに基づいて判定する必要がある

モデルアーキテクチャ

RAG-Llama コア構成要素

  1. 埋め込みモデル: 3つの多言語埋め込みモデルの比較
    • OpenAI's text-embedding-3-large (プロプライエタリ)
    • jina-embeddings-v3 (プロプライエタリ)
    • multilingual-e5-large (オープンソース)
  2. 検索メカニズム: コサイン類似度に基づく検索システム
    • 偽情報タイトルをCSVファイルに埋め込み形式で保存
    • クエリに最も関連する偽情報タイトルを検索
    • Llamaを使用してコンテキスト分析を行い、最終判定を下す

マルチエージェント・アーキテクチャ

システムは4つの協調的エージェントで構成される:

  1. ウェブクローラー・エージェント
    • 動的ウェブサイトから構造化コンテンツを抽出
    • テキストを管理可能なチャンクに分割
    • マネージャー・エージェントに処理を渡す
  2. マネージャー・エージェント
    • ウェブクローラーと相互作用してテキストを受け取る
    • トピック・エージェントと偽情報検出エージェントにルーティング
    • ユーザーに通知を送信
  3. 偽情報検出エージェント
    • RAG-Llamaを利用して検出を実行
    • 5,000個の検証済み偽情報タイトルを含むデータベースから検索
    • オープンソースのLlamaモデルを使用して最終判定を下す
  4. トピック・エージェント (オプション)
    • クエリを10個の事前定義カテゴリに分類
    • RAG検索プロセスを加速
    • GPT-4o-miniを使用してトピック分類を実行
  5. 評判エージェント
    • すべてのテキストチャンクが処理されることを確認
    • システムの各コンポーネント間の一貫性を検証
    • 追加の検証層として堅牢性を強化

技術的革新点

  1. マルチモーダル敵対的攻撃処理: MCQ、翻訳、要約の3つの攻撃形式を初めて体系的に処理
  2. 多言語検索能力: 多言語埋め込みモデルを利用して言語間検出を実現
  3. ネガティブサンプルマッチング戦略: 偽情報データベースのみを使用してネガティブマッチング検出を実行
  4. モジュール化プラグイン設計: ウェブブラウザプラグインとして直接デプロイ可能

実験設定

データセット

データソース

  • 偽情報タイトル: SnopesとPolitifactから20,950個の偽情報タイトルを収集
  • 事実タイトル: 4,000個の真実タイトルを収集
  • 実験データ: 5,000個の偽情報タイトルと2,000個の事実タイトルを選択

3つの攻撃データセット

  1. MCQデータセット: タイトルを「なぜ」で始まる多肢選択問題に変換
  2. 翻訳データセット: 拡張テキストを6言語に翻訳
  3. 要約データセット: 要約タスク用に500語の長いテキストを生成

評価指標

  • 事実精度: 事実情報を正しく分類する割合
  • 偽情報精度: 偽情報を正しく分類する割合
  • 攻撃成功率(ASR): 敵対的入力がシステムの失敗を引き起こす割合(低いほど良い)

比較手法

  • ベースラインモデル: 元のLlama 3.1-8B-Instruct
  • 異なる埋め込みモデルを使用したRAG-Llamaの変種
  • トピック分類の有無によるシステム変種

実装の詳細

  • モデル: Llama 3.1-8B-Instruct
  • ハードウェア: GPU A100 80GB
  • ハイパーパラメータ: temperature=0.1, top-p=1
  • 埋め込み保存: CSV形式

実験結果

主要な結果

ベースラインモデルの脆弱性

  • 直接質問ASR: 46.74%
  • MCQ攻撃ASR: 97.72%
  • 翻訳攻撃ASR: 100%
  • 要約攻撃ASR: 100%

RAG-Llama性能

攻撃タイプ偽情報検出精度事実検出精度
直接質問99.76%85.25%
MCQ97.38%89.85%
要約99.3%95.15%
フランス語翻訳97.72%87.25%
アラビア語翻訳97.26%88.65%
ヒンディー語翻訳95.2%87.4%
中国語翻訳96.44%93.5%
スペイン語翻訳97.9%90.9%

埋め込みモデルの比較

埋め込みモデルMCQ平均精度要約平均精度翻訳平均精度
text-embedding-3-large93.62%97.23%93.22%
jina-embeddings-v395.29%89.08%93.35%
multilingual-e5-large95.26%89.02%93.92%

トピック分類の効果

  • 速度向上: 中央値で2倍以上、平均で3倍以上
  • 精度: 78.27%-91.18%の範囲
  • MCQタスク精度が相対的に低い: 選択問題が複数のトピックの答えを含むため、分類が困難

実験の発見

  1. RAGがベースラインを大幅に上回る: すべての攻撃タイプで大幅な改善
  2. 多言語能力: 6言語すべてで95%以上の偽情報検出精度を維持
  3. 埋め込みモデルの影響: multilingual-e5-largeがバランスの取れた性能とアクセス可能性の点で最良
  4. トピック分類の加速: 検索速度を効果的に向上させるが、複雑なクエリでは精度がやや低下

関連研究

ファインチューニング手法

  • BERTベースの手法(FakeBERTなど)
  • T5命令ファインチューニング
  • Llama-2 PEFT/LoRAファインチューニング
  • 強化学習手法

RAG手法

  • Mixtral-8x7BとRAGの組み合わせ
  • リアルタイムウェブデータ統合
  • 適応的トピックRAG(AT-RAG)

マルチエージェント・システム

  • LLM-Consensusビジュアル偽情報検出
  • TruEDebate(TED)構造化議論システム
  • 完全な偽情報ライフサイクル処理フレームワーク

敵対的攻撃

  • 勾配ベースのトークンレベル置換
  • 強化学習駆動のクレーム摂動
  • ブラックボックス攻撃戦略

結論と考察

主要な結論

  1. LLMの顕著な脆弱性: 元のLLMは敵対的攻撃下で偽情報を拡散しやすい
  2. RAGが堅牢性を効果的に向上: RAG-Llamaはすべての攻撃タイプでベースラインを大幅に上回る
  3. 多言語検出の実行可能性: システムは6つの主要言語の偽情報を効果的に処理できる
  4. 実際のデプロイメント可能性: マルチエージェント・アーキテクチャはウェブプラグインとしてのデプロイメントに適している

限界

  1. トピック分類の精度: トピックの誤分類は検索精度に影響する
  2. データベース依存性: システムの性能は偽情報データベースの品質と完全性に大きく依存する
  3. 動的更新の必要性: 新興の偽情報に対応するためにデータベースを継続的に更新する必要がある
  4. セキュリティ上の脆弱性: RAGシステムはデータベース汚染と埋め込み攻撃に直面する可能性がある

今後の方向性

  1. トピック分類の改善: 複雑なクエリの分類精度を向上させる
  2. 他のLLMの探索: 異なる言語モデルのRAG内での性能を評価
  3. セキュリティの強化: 埋め込み攻撃とデータベース汚染に対する防御メカニズムを開発
  4. 攻撃タイプの拡張: より多くの種類の敵対的変換を研究

深層評価

利点

  1. 問題の重要性: LLMにおける偽情報検出の重大なセキュリティ問題を解決
  2. 方法の革新性: 多言語、複数構造の敵対的攻撃を初めて体系的に研究
  3. 実験の包括性: 6言語、3種類の攻撃タイプを網羅した包括的評価
  4. 実用的価値: デプロイ可能なプラグインソリューションを提供
  5. 技術的先進性: 最新のRAGとマルチエージェント技術を統合

不足点

  1. データセット規模の制限: わずか7,000個のタイトルのみを使用、規模が比較的小さい
  2. 攻撃タイプの限定: 3つの特定の攻撃形式のみを考慮
  3. 評価指標の単一性: 主に精度に焦点を当て、効率やコストなどの指標が不足
  4. 理論的分析の不足: 方法の有効性に関する理論的説明が不足
  5. 長期的安定性の未検証: 長期使用中のシステム性能低下を評価していない

影響力

  1. 学術的貢献: 多言語偽情報検出に新しい研究方向を提供
  2. 実用的価値: ソーシャルメディアおよびニュースプラットフォームに直接適用可能
  3. 再現性: オープンソースモデルを使用し、再現と改善が容易
  4. 業界への影響: コンテンツモデレーションとファクトチェックに技術基盤を提供

適用シナリオ

  1. ソーシャルメディアプラットフォーム: ユーザーが投稿した偽情報をリアルタイムで検出
  2. ニュース集約ウェブサイト: ニュース記事の真実性を検証
  3. 教育プラットフォーム: ユーザーが偽情報を識別するのを支援
  4. 企業コンテンツモデレーション: 大規模コンテンツの自動化されたモデレーション
  5. 政府規制: 関連部門がネットワーク偽情報の監視を支援

参考文献

本論文は、LLM、RAG、マルチエージェント・システム、敵対的攻撃など複数の分野の重要な研究を網羅した50篇の関連文献を引用しており、研究に堅実な理論的基礎を提供している。


総合評価: これは偽情報検出分野における重要な貢献を持つ論文であり、革新的なマルチエージェントRAGフレームワークを提案し、多言語、複数攻撃タイプの設定下で優れた実験結果を達成している。いくつかの限界は存在するが、その実用的価値と技術的革新性により、この分野の重要な進展となっている。