2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

К более безопасному Интернету: многоязычные многоагентные LLM для смягчения противодействия атакам дезинформации

Основная информация

  • ID статьи: 2510.08605
  • Название: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • Авторы: Nouar Aldahoul, Yasir Zaki (Нью-йоркский университет Абу-Даби)
  • Классификация: cs.CL (Компьютерная лингвистика), cs.AI, cs.CR, cs.LG
  • Дата публикации: 7 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.08605

Аннотация

Быстрое распространение дезинформации на цифровых платформах угрожает общественному дискурсу, эмоциональной стабильности и принятию решений. Хотя предыдущие работы исследовали различные противодействующие атаки при обнаружении дезинформации, конкретные преобразования, изученные в данной работе, не были систематически исследованы. В частности, в статье исследуется языковое переключение между английским, французским, испанским, арабским, хинди и китайским языками, а также последующий перевод. Также изучается расширение длины запроса перед суммированием и структурированное переформатирование в вопросы с множественным выбором. В работе предложена многоязычная многоагентная архитектура больших языковых моделей, объединяющая технику генерации с дополнением из хранилища, которая может быть развернута как плагин веб-браузера на онлайн-платформах. Работа подчеркивает важность обнаружения дезинформации на основе искусственного интеллекта для защиты целостности фактов в Интернете, одновременно демонстрируя осуществимость развертывания на основе плагинов в реальных веб-приложениях.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в отсутствии эффективных возможностей обнаружения дезинформации у больших языковых моделей (LLM) при столкновении с противодействующими атаками, что приводит к непреднамеренному усилению распространения дезинформации.

Важность проблемы

  1. Социальное воздействие: Быстрое распространение дезинформации серьезно угрожает общественному дискурсу, эмоциональной стабильности и принятию решений
  2. Технические вызовы: Существующие LLM показывают результаты, близкие к случайному угадыванию при обнаружении дезинформации
  3. Требования безопасности: Необходима надежная система обнаружения, устойчивая к разнообразным атакам

Ограничения существующих методов

  1. Ограничения встроенных знаний: LLM полагаются только на встроенные знания из времени обучения, не имея возможности проверки фактов в реальном времени
  2. Языковое смещение: Значительное снижение производительности на неанглийских языках
  3. Уязвимость к противодействующим атакам: Отсутствие устойчивости к преобразованиям формата, переводу, суммированию и другим атакам
  4. Отсутствие систематических исследований: Существующие работы не оценивают систематически многоязычные и многоструктурные противодействующие атаки

Исследовательская мотивация

Авторы предлагают необходимость разработки многоязычной системы обнаружения дезинформации, способной противостоять различным противодействующим атакам и развертываемой как практичный веб-плагин.

Основные вклады

  1. Предложена многоагентная архитектура RAG: Объединяющая Llama 3.1-8B и технику генерации с дополнением из хранилища
  2. Создан новый набор данных противодействующих атак: Включающий три формы атак: вопросы с множественным выбором (MCQ), перевод и суммирование
  3. Реализована многоязычная способность обнаружения: Поддержка шести языков: английского, французского, испанского, арабского, хинди и китайского
  4. Проверена осуществимость практического развертывания: Разработана в виде развертываемого веб-плагина
  5. Предоставлена комплексная экспериментальная оценка: Достигнута точность обнаружения дезинформации выше 95%

Подробное описание методов

Определение задачи

Входные данные: Текстовое содержимое из Интернета (новостные статьи, комментарии пользователей, посты в социальных сетях и т.д.), потенциально содержащие противодействующие преобразования Выходные данные: Результат бинарной классификации (True/False), определяющий, содержит ли входной текст дезинформацию Ограничения: Система должна работать в условиях черного ящика, основываясь только на бинарной обратной связи

Архитектура модели

Основные компоненты RAG-Llama

  1. Модель встраивания: Сравнение трех многоязычных моделей встраивания
    • OpenAI's text-embedding-3-large (проприетарная)
    • jina-embeddings-v3 (проприетарная)
    • multilingual-e5-large (открытый исходный код)
  2. Механизм поиска: Система поиска на основе косинусного сходства
    • Хранение встраиваний ложных заголовков в CSV-файле
    • Поиск наиболее релевантных ложных заголовков для запроса
    • Использование Llama для контекстного анализа и принятия окончательного решения

Многоагентная архитектура

Система включает четырех сотрудничающих агентов:

  1. Агент веб-краулера
    • Извлечение структурированного содержимого с динамических веб-сайтов
    • Разделение текста на управляемые блоки
    • Передача агенту-менеджеру для обработки
  2. Агент-менеджер
    • Взаимодействие с веб-краулером для получения текста
    • Маршрутизация агентам классификации тематики и обнаружения дезинформации
    • Отправка уведомлений пользователю
  3. Агент обнаружения дезинформации
    • Использование RAG-Llama для обнаружения
    • Поиск в базе данных, содержащей 5000 проверенных ложных заголовков
    • Использование открытой модели Llama для окончательного решения
  4. Агент классификации тематики (опционально)
    • Классификация запросов в 10 предопределенных категорий
    • Ускорение процесса поиска RAG
    • Использование GPT-4o-mini для классификации тематики
  5. Агент оценки
    • Обеспечение обработки всех текстовых блоков
    • Проверка согласованности компонентов системы
    • Дополнительный уровень валидации для повышения надежности

Технические инновации

  1. Обработка многомодальных противодействующих атак: Первая систематическая обработка трех форм атак: MCQ, перевод и суммирование
  2. Многоязычная способность поиска: Использование многоязычных моделей встраивания для кросс-языкового обнаружения
  3. Стратегия сопоставления отрицательных образцов: Использование только базы данных дезинформации для обнаружения отрицательных совпадений
  4. Модульный дизайн плагина: Может быть непосредственно развернут как плагин веб-браузера

Экспериментальная установка

Набор данных

Источники данных

  • Ложные заголовки: 20 950 ложных заголовков, собранных из Snopes и Politifact
  • Фактические заголовки: 4 000 подлинных заголовков
  • Экспериментальные данные: 5 000 ложных заголовков и 2 000 фактических заголовков

Три набора данных противодействующих атак

  1. Набор данных MCQ: Преобразование заголовков в вопросы с множественным выбором, начинающиеся с "Почему"
  2. Набор данных перевода: Перевод расширенного текста на шесть языков
  3. Набор данных суммирования: Создание длинного текста из 500 слов для задачи суммирования

Метрики оценки

  • Точность фактических данных: Процент правильной классификации фактической информации
  • Точность дезинформации: Процент правильной классификации ложной информации
  • Коэффициент успеха атаки (ASR): Доля противодействующих входов, приводящих к отказу системы (чем ниже, тем лучше)

Методы сравнения

  • Базовая модель: Оригинальная Llama 3.1-8B-Instruct
  • Варианты RAG-Llama с различными моделями встраивания
  • Варианты системы с классификацией тематики и без нее

Детали реализации

  • Модель: Llama 3.1-8B-Instruct
  • Оборудование: GPU A100 80GB
  • Гиперпараметры: temperature=0.1, top-p=1
  • Хранилище встраиваний: Формат CSV-файла

Результаты экспериментов

Основные результаты

Уязвимость базовой модели

  • ASR прямых вопросов: 46,74%
  • ASR атак MCQ: 97,72%
  • ASR атак перевода: 100%
  • ASR атак суммирования: 100%

Производительность RAG-Llama

Тип атакиТочность обнаружения дезинформацииТочность обнаружения фактов
Прямые вопросы99,76%85,25%
MCQ97,38%89,85%
Суммирование99,3%95,15%
Перевод на французский97,72%87,25%
Перевод на арабский97,26%88,65%
Перевод на хинди95,2%87,4%
Перевод на китайский96,44%93,5%
Перевод на испанский97,9%90,9%

Сравнение моделей встраивания

Модель встраиванияСредняя точность MCQСредняя точность суммированияСредняя точность перевода
text-embedding-3-large93,62%97,23%93,22%
jina-embeddings-v395,29%89,08%93,35%
multilingual-e5-large95,26%89,02%93,92%

Эффективность классификации тематики

  • Ускорение скорости: Более чем двукратное ускорение медианы, более чем трехкратное среднее ускорение
  • Точность: Варьируется от 78,27% до 91,18%
  • Относительно низкая точность для задач MCQ: Обусловлена тем, что вопросы с множественным выбором содержат ответы по нескольким тематикам, что затрудняет классификацию

Экспериментальные выводы

  1. RAG значительно превосходит базовую модель: Существенное улучшение по всем типам атак
  2. Многоязычная способность: Сохранение точности обнаружения дезинформации выше 95% на всех шести языках
  3. Влияние модели встраивания: multilingual-e5-large показывает лучший баланс между производительностью и доступностью
  4. Ускорение классификации тематики: Эффективно повышает скорость поиска, но с некоторым снижением точности на сложных запросах

Связанные работы

Методы тонкой настройки

  • Методы на основе BERT (FakeBERT и др.)
  • Инструкционная тонкая настройка T5
  • Тонкая настройка Llama-2 PEFT/LoRA
  • Методы обучения с подкреплением

Методы RAG

  • Mixtral-8x7B в сочетании с RAG
  • Интеграция данных веб-сети в реальном времени
  • Адаптивная тематическая RAG (AT-RAG)

Многоагентные системы

  • LLM-Consensus для обнаружения визуальной дезинформации
  • Система структурированных дебатов TruEDebate (TED)
  • Фреймворк для обработки полного жизненного цикла дезинформации

Противодействующие атаки

  • Замена токенов на основе градиента на уровне токена
  • Возмущение утверждений, управляемое обучением с подкреплением
  • Стратегии атак черного ящика

Заключение и обсуждение

Основные выводы

  1. Значительная уязвимость LLM: Оригинальные LLM легко распространяют дезинформацию при противодействующих атаках
  2. RAG эффективно повышает надежность: RAG-Llama значительно превосходит базовую модель при различных атаках
  3. Многоязычное обнаружение осуществимо: Система эффективно обрабатывает дезинформацию на шести основных языках
  4. Потенциал практического развертывания: Многоагентная архитектура подходит для развертывания в виде веб-плагина

Ограничения

  1. Точность классификации тематики: Неправильная классификация тематики влияет на точность поиска
  2. Зависимость от базы данных: Производительность системы сильно зависит от качества и полноты базы данных дезинформации
  3. Требование динамического обновления: Необходимо постоянное обновление базы данных для противодействия новой дезинформации
  4. Уязвимости безопасности: Системы RAG могут столкнуться с загрязнением базы данных и атаками на встраивания

Направления будущих исследований

  1. Улучшение классификации тематики: Повышение точности классификации сложных запросов
  2. Исследование других LLM: Оценка производительности различных языковых моделей в RAG
  3. Повышение безопасности: Разработка защиты от атак на встраивания и загрязнения базы данных
  4. Расширение типов атак: Исследование дополнительных видов противодействующих преобразований

Глубокая оценка

Преимущества

  1. Важность проблемы: Решение критической проблемы безопасности LLM при обнаружении дезинформации
  2. Инновационность метода: Первое систематическое исследование многоязычных и многоструктурных противодействующих атак
  3. Полнота экспериментов: Комплексная оценка, охватывающая шесть языков и три типа атак
  4. Практическая ценность: Предоставление развертываемого решения в виде плагина
  5. Технологическая передовизна: Объединение новейших технологий RAG и многоагентных систем

Недостатки

  1. Ограничение размера набора данных: Использование только 7 000 заголовков, относительно небольшой размер
  2. Ограниченные типы атак: Рассмотрение только трех конкретных форм атак
  3. Единственная метрика оценки: Основной фокус на точность, отсутствие метрик эффективности и стоимости
  4. Недостаточный теоретический анализ: Отсутствие теоретического объяснения эффективности метода
  5. Непроверенная долгосрочная стабильность: Отсутствие оценки деградации производительности при длительном использовании

Влияние

  1. Академический вклад: Предоставление нового направления исследований для многоязычного обнаружения дезинформации
  2. Практическая ценность: Прямое применение к социальным сетям и новостным платформам
  3. Воспроизводимость: Использование открытых моделей облегчает воспроизведение и улучшение
  4. Влияние на индустрию: Предоставление технологической основы для модерации контента и проверки фактов

Применимые сценарии

  1. Платформы социальных сетей: Обнаружение дезинформации, опубликованной пользователями в реальном времени
  2. Веб-сайты агрегации новостей: Проверка подлинности новостных статей
  3. Образовательные платформы: Помощь пользователям в выявлении дезинформации
  4. Корпоративная модерация контента: Автоматизированная модерация крупномасштабного контента
  5. Государственное регулирование: Помощь соответствующим органам в мониторинге сетевой дезинформации

Библиография

В статье цитируется 50 соответствующих источников, охватывающих важные работы в области LLM, RAG, многоагентных систем, противодействующих атак и других смежных областей, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это статья, вносящая значительный вклад в область обнаружения дезинформации, предлагающая инновационную многоагентную архитектуру RAG и достигающая отличных экспериментальных результатов в условиях многоязычности и множественных типов атак. Несмотря на некоторые ограничения, ее практическая ценность и технологическая инновационность делают ее важным прогрессом в этой области.