2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

より安全なウェブへ向けて：多言語マルチエージェントLLMによる敵対的偽情報攻撃の軽減

基本情報

論文ID: 2510.08605
タイトル: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
著者: Nouar Aldahoul, Yasir Zaki (ニューヨーク大学アブダビ校)
分類: cs.CL (計算言語学), cs.AI, cs.CR, cs.LG
発表日: 2025年10月7日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.08605

要約

デジタルプラットフォーム上での偽情報の急速な拡散は、公開討論、感情的安定性、および意思決定を脅かしている。先行研究では偽情報検出における様々な敵対的攻撃を探索してきたが、本論文で研究される特定の変換はまだ体系的に研究されていない。特に、英語、フランス語、スペイン語、アラビア語、ヒンディー語、中国語にわたる言語切り替え、およびその後の翻訳を調査している。同時に、要約前のクエリ長膨張と構造化再フォーマットを多肢選択問題(MCQ)として研究している。本論文は、検索拡張生成(RAG)技術を組み合わせた多言語マルチエージェント大規模言語モデル(LLM)フレームワークを提案し、オンラインプラットフォームにウェブプラグインとしてデプロイ可能である。本研究は、オンラインの事実完全性を保護する上でのAI駆動型偽情報検出の重要性を強調しながら、実際のウェブアプリケーションにおけるプラグインベースのデプロイメントの実行可能性を実証している。

研究背景と動機

問題定義

本研究が解決しようとする中核的な問題は、大規模言語モデル(LLM)が敵対的攻撃に直面した際に、効果的な偽情報検出能力を欠いており、無意識のうちに偽情報の拡散を増幅する傾向があることである。

問題の重要性

社会的影響: 偽情報の急速な拡散は、公開討論、感情的安定性、および意思決定に深刻な脅威をもたらす
技術的課題: 既存のLLMは偽情報検出においてランダム推測に近い性能を示している
セキュリティ要件: 多様な攻撃に対する堅牢な検出システムが必要である

既存手法の限界

組み込み知識の制限: LLMは訓練時の組み込み知識のみに依存し、リアルタイムのファクトチェック能力を欠いている
言語バイアス: 非英語言語での性能が著しく低下する
敵対的攻撃への脆弱性: フォーマット変換、翻訳、要約などの攻撃に対する耐性が不足している
体系的研究の欠如: 既存の研究は多言語、複数構造の敵対的攻撃を体系的に評価していない

研究動機

著者らは、多様な敵対的攻撃に耐性を持つ多言語偽情報検出システムを開発し、実用的なウェブプラグインとしてデプロイする必要性を提唱している。

核心的貢献

マルチエージェントRAGフレームワークの提案: Llama 3.1-8Bと検索拡張生成技術を組み合わせたマルチエージェント・アーキテクチャ
新規敵対的攻撃データセットの構築: MCQ、翻訳、要約の3つの攻撃形式を含むデータセット
多言語検出能力の実装: 英語、フランス語、スペイン語、アラビア語、ヒンディー語、中国語の6言語をサポート
実際のデプロイメント可能性の検証: ウェブプラグイン形式としてデプロイ可能な設計
包括的な実験評価の提供: 偽情報検出精度で95%以上を達成

方法の詳細

タスク定義

入力: ウェブから取得したテキストコンテンツ(ニュース記事、ユーザーコメント、ソーシャルメディア投稿など)。敵対的変換を含む可能性がある出力: 二値分類結果(真/偽)。入力テキストが偽情報を含むかどうかを判定制約: システムはブラックボックス設定で動作し、二値フィードバックのみに基づいて判定する必要がある

モデルアーキテクチャ

RAG-Llama コア構成要素

埋め込みモデル: 3つの多言語埋め込みモデルの比較
- OpenAI's text-embedding-3-large (プロプライエタリ)
- jina-embeddings-v3 (プロプライエタリ)
- multilingual-e5-large (オープンソース)
検索メカニズム: コサイン類似度に基づく検索システム
- 偽情報タイトルをCSVファイルに埋め込み形式で保存
- クエリに最も関連する偽情報タイトルを検索
- Llamaを使用してコンテキスト分析を行い、最終判定を下す

マルチエージェント・アーキテクチャ

システムは4つの協調的エージェントで構成される:

ウェブクローラー・エージェント
- 動的ウェブサイトから構造化コンテンツを抽出
- テキストを管理可能なチャンクに分割
- マネージャー・エージェントに処理を渡す
マネージャー・エージェント
- ウェブクローラーと相互作用してテキストを受け取る
- トピック・エージェントと偽情報検出エージェントにルーティング
- ユーザーに通知を送信
偽情報検出エージェント
- RAG-Llamaを利用して検出を実行
- 5,000個の検証済み偽情報タイトルを含むデータベースから検索
- オープンソースのLlamaモデルを使用して最終判定を下す
トピック・エージェント (オプション)
- クエリを10個の事前定義カテゴリに分類
- RAG検索プロセスを加速
- GPT-4o-miniを使用してトピック分類を実行
評判エージェント
- すべてのテキストチャンクが処理されることを確認
- システムの各コンポーネント間の一貫性を検証
- 追加の検証層として堅牢性を強化

技術的革新点

マルチモーダル敵対的攻撃処理: MCQ、翻訳、要約の3つの攻撃形式を初めて体系的に処理
多言語検索能力: 多言語埋め込みモデルを利用して言語間検出を実現
ネガティブサンプルマッチング戦略: 偽情報データベースのみを使用してネガティブマッチング検出を実行
モジュール化プラグイン設計: ウェブブラウザプラグインとして直接デプロイ可能

実験設定

データセット

データソース

偽情報タイトル: SnopesとPolitifactから20,950個の偽情報タイトルを収集
事実タイトル: 4,000個の真実タイトルを収集
実験データ: 5,000個の偽情報タイトルと2,000個の事実タイトルを選択

3つの攻撃データセット

MCQデータセット: タイトルを「なぜ」で始まる多肢選択問題に変換
翻訳データセット: 拡張テキストを6言語に翻訳
要約データセット: 要約タスク用に500語の長いテキストを生成

評価指標

事実精度: 事実情報を正しく分類する割合
偽情報精度: 偽情報を正しく分類する割合
攻撃成功率(ASR): 敵対的入力がシステムの失敗を引き起こす割合(低いほど良い)

比較手法

ベースラインモデル: 元のLlama 3.1-8B-Instruct
異なる埋め込みモデルを使用したRAG-Llamaの変種
トピック分類の有無によるシステム変種

実装の詳細

モデル: Llama 3.1-8B-Instruct
ハードウェア: GPU A100 80GB
ハイパーパラメータ: temperature=0.1, top-p=1
埋め込み保存: CSV形式

実験結果

主要な結果

ベースラインモデルの脆弱性

直接質問ASR: 46.74%
MCQ攻撃ASR: 97.72%
翻訳攻撃ASR: 100%
要約攻撃ASR: 100%

RAG-Llama性能

攻撃タイプ	偽情報検出精度	事実検出精度
直接質問	99.76%	85.25%
MCQ	97.38%	89.85%
要約	99.3%	95.15%
フランス語翻訳	97.72%	87.25%
アラビア語翻訳	97.26%	88.65%
ヒンディー語翻訳	95.2%	87.4%
中国語翻訳	96.44%	93.5%
スペイン語翻訳	97.9%	90.9%