2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

К более безопасному Интернету: многоязычные многоагентные LLM для смягчения противодействия атакам дезинформации

Основная информация

ID статьи: 2510.08605
Название: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
Авторы: Nouar Aldahoul, Yasir Zaki (Нью-йоркский университет Абу-Даби)
Классификация: cs.CL (Компьютерная лингвистика), cs.AI, cs.CR, cs.LG
Дата публикации: 7 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.08605

Аннотация

Быстрое распространение дезинформации на цифровых платформах угрожает общественному дискурсу, эмоциональной стабильности и принятию решений. Хотя предыдущие работы исследовали различные противодействующие атаки при обнаружении дезинформации, конкретные преобразования, изученные в данной работе, не были систематически исследованы. В частности, в статье исследуется языковое переключение между английским, французским, испанским, арабским, хинди и китайским языками, а также последующий перевод. Также изучается расширение длины запроса перед суммированием и структурированное переформатирование в вопросы с множественным выбором. В работе предложена многоязычная многоагентная архитектура больших языковых моделей, объединяющая технику генерации с дополнением из хранилища, которая может быть развернута как плагин веб-браузера на онлайн-платформах. Работа подчеркивает важность обнаружения дезинформации на основе искусственного интеллекта для защиты целостности фактов в Интернете, одновременно демонстрируя осуществимость развертывания на основе плагинов в реальных веб-приложениях.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в отсутствии эффективных возможностей обнаружения дезинформации у больших языковых моделей (LLM) при столкновении с противодействующими атаками, что приводит к непреднамеренному усилению распространения дезинформации.

Важность проблемы

Социальное воздействие: Быстрое распространение дезинформации серьезно угрожает общественному дискурсу, эмоциональной стабильности и принятию решений
Технические вызовы: Существующие LLM показывают результаты, близкие к случайному угадыванию при обнаружении дезинформации
Требования безопасности: Необходима надежная система обнаружения, устойчивая к разнообразным атакам

Ограничения существующих методов

Ограничения встроенных знаний: LLM полагаются только на встроенные знания из времени обучения, не имея возможности проверки фактов в реальном времени
Языковое смещение: Значительное снижение производительности на неанглийских языках
Уязвимость к противодействующим атакам: Отсутствие устойчивости к преобразованиям формата, переводу, суммированию и другим атакам
Отсутствие систематических исследований: Существующие работы не оценивают систематически многоязычные и многоструктурные противодействующие атаки

Исследовательская мотивация

Авторы предлагают необходимость разработки многоязычной системы обнаружения дезинформации, способной противостоять различным противодействующим атакам и развертываемой как практичный веб-плагин.

Основные вклады

Предложена многоагентная архитектура RAG: Объединяющая Llama 3.1-8B и технику генерации с дополнением из хранилища
Создан новый набор данных противодействующих атак: Включающий три формы атак: вопросы с множественным выбором (MCQ), перевод и суммирование
Реализована многоязычная способность обнаружения: Поддержка шести языков: английского, французского, испанского, арабского, хинди и китайского
Проверена осуществимость практического развертывания: Разработана в виде развертываемого веб-плагина
Предоставлена комплексная экспериментальная оценка: Достигнута точность обнаружения дезинформации выше 95%

Подробное описание методов

Определение задачи

Входные данные: Текстовое содержимое из Интернета (новостные статьи, комментарии пользователей, посты в социальных сетях и т.д.), потенциально содержащие противодействующие преобразования Выходные данные: Результат бинарной классификации (True/False), определяющий, содержит ли входной текст дезинформацию Ограничения: Система должна работать в условиях черного ящика, основываясь только на бинарной обратной связи

Архитектура модели

Основные компоненты RAG-Llama

Модель встраивания: Сравнение трех многоязычных моделей встраивания
- OpenAI's text-embedding-3-large (проприетарная)
- jina-embeddings-v3 (проприетарная)
- multilingual-e5-large (открытый исходный код)
Механизм поиска: Система поиска на основе косинусного сходства
- Хранение встраиваний ложных заголовков в CSV-файле
- Поиск наиболее релевантных ложных заголовков для запроса
- Использование Llama для контекстного анализа и принятия окончательного решения

Многоагентная архитектура

Система включает четырех сотрудничающих агентов:

Агент веб-краулера
- Извлечение структурированного содержимого с динамических веб-сайтов
- Разделение текста на управляемые блоки
- Передача агенту-менеджеру для обработки
Агент-менеджер
- Взаимодействие с веб-краулером для получения текста
- Маршрутизация агентам классификации тематики и обнаружения дезинформации
- Отправка уведомлений пользователю
Агент обнаружения дезинформации
- Использование RAG-Llama для обнаружения
- Поиск в базе данных, содержащей 5000 проверенных ложных заголовков
- Использование открытой модели Llama для окончательного решения
Агент классификации тематики (опционально)
- Классификация запросов в 10 предопределенных категорий
- Ускорение процесса поиска RAG
- Использование GPT-4o-mini для классификации тематики
Агент оценки
- Обеспечение обработки всех текстовых блоков
- Проверка согласованности компонентов системы
- Дополнительный уровень валидации для повышения надежности

Технические инновации

Обработка многомодальных противодействующих атак: Первая систематическая обработка трех форм атак: MCQ, перевод и суммирование
Многоязычная способность поиска: Использование многоязычных моделей встраивания для кросс-языкового обнаружения
Стратегия сопоставления отрицательных образцов: Использование только базы данных дезинформации для обнаружения отрицательных совпадений
Модульный дизайн плагина: Может быть непосредственно развернут как плагин веб-браузера

Экспериментальная установка

Набор данных

Источники данных

Ложные заголовки: 20 950 ложных заголовков, собранных из Snopes и Politifact
Фактические заголовки: 4 000 подлинных заголовков
Экспериментальные данные: 5 000 ложных заголовков и 2 000 фактических заголовков

Три набора данных противодействующих атак

Набор данных MCQ: Преобразование заголовков в вопросы с множественным выбором, начинающиеся с "Почему"
Набор данных перевода: Перевод расширенного текста на шесть языков
Набор данных суммирования: Создание длинного текста из 500 слов для задачи суммирования

Метрики оценки

Точность фактических данных: Процент правильной классификации фактической информации
Точность дезинформации: Процент правильной классификации ложной информации
Коэффициент успеха атаки (ASR): Доля противодействующих входов, приводящих к отказу системы (чем ниже, тем лучше)

Методы сравнения

Базовая модель: Оригинальная Llama 3.1-8B-Instruct
Варианты RAG-Llama с различными моделями встраивания
Варианты системы с классификацией тематики и без нее

Детали реализации

Модель: Llama 3.1-8B-Instruct
Оборудование: GPU A100 80GB
Гиперпараметры: temperature=0.1, top-p=1
Хранилище встраиваний: Формат CSV-файла

Результаты экспериментов

Основные результаты

Уязвимость базовой модели

ASR прямых вопросов: 46,74%
ASR атак MCQ: 97,72%
ASR атак перевода: 100%
ASR атак суммирования: 100%

Производительность RAG-Llama

Тип атаки	Точность обнаружения дезинформации	Точность обнаружения фактов
Прямые вопросы	99,76%	85,25%
MCQ	97,38%	89,85%
Суммирование	99,3%	95,15%
Перевод на французский	97,72%	87,25%
Перевод на арабский	97,26%	88,65%
Перевод на хинди	95,2%	87,4%
Перевод на китайский	96,44%	93,5%
Перевод на испанский	97,9%	90,9%

Сравнение моделей встраивания

Модель встраивания	Средняя точность MCQ	Средняя точность суммирования	Средняя точность перевода
text-embedding-3-large	93,62%	97,23%	93,22%
jina-embeddings-v3	95,29%	89,08%	93,35%
multilingual-e5-large	95,26%	89,02%	93,92%

Эффективность классификации тематики

Ускорение скорости: Более чем двукратное ускорение медианы, более чем трехкратное среднее ускорение
Точность: Варьируется от 78,27% до 91,18%
Относительно низкая точность для задач MCQ: Обусловлена тем, что вопросы с множественным выбором содержат ответы по нескольким тематикам, что затрудняет классификацию

Экспериментальные выводы

RAG значительно превосходит базовую модель: Существенное улучшение по всем типам атак
Многоязычная способность: Сохранение точности обнаружения дезинформации выше 95% на всех шести языках
Влияние модели встраивания: multilingual-e5-large показывает лучший баланс между производительностью и доступностью
Ускорение классификации тематики: Эффективно повышает скорость поиска, но с некоторым снижением точности на сложных запросах

Связанные работы

Методы тонкой настройки

Методы на основе BERT (FakeBERT и др.)
Инструкционная тонкая настройка T5
Тонкая настройка Llama-2 PEFT/LoRA
Методы обучения с подкреплением

Методы RAG

Mixtral-8x7B в сочетании с RAG
Интеграция данных веб-сети в реальном времени
Адаптивная тематическая RAG (AT-RAG)

Многоагентные системы

LLM-Consensus для обнаружения визуальной дезинформации
Система структурированных дебатов TruEDebate (TED)
Фреймворк для обработки полного жизненного цикла дезинформации

Противодействующие атаки

Замена токенов на основе градиента на уровне токена
Возмущение утверждений, управляемое обучением с подкреплением
Стратегии атак черного ящика

Заключение и обсуждение

Основные выводы

Значительная уязвимость LLM: Оригинальные LLM легко распространяют дезинформацию при противодействующих атаках
RAG эффективно повышает надежность: RAG-Llama значительно превосходит базовую модель при различных атаках
Многоязычное обнаружение осуществимо: Система эффективно обрабатывает дезинформацию на шести основных языках
Потенциал практического развертывания: Многоагентная архитектура подходит для развертывания в виде веб-плагина

Ограничения

Точность классификации тематики: Неправильная классификация тематики влияет на точность поиска
Зависимость от базы данных: Производительность системы сильно зависит от качества и полноты базы данных дезинформации
Требование динамического обновления: Необходимо постоянное обновление базы данных для противодействия новой дезинформации
Уязвимости безопасности: Системы RAG могут столкнуться с загрязнением базы данных и атаками на встраивания

Направления будущих исследований

Улучшение классификации тематики: Повышение точности классификации сложных запросов
Исследование других LLM: Оценка производительности различных языковых моделей в RAG
Повышение безопасности: Разработка защиты от атак на встраивания и загрязнения базы данных
Расширение типов атак: Исследование дополнительных видов противодействующих преобразований

Глубокая оценка

Преимущества

Важность проблемы: Решение критической проблемы безопасности LLM при обнаружении дезинформации
Инновационность метода: Первое систематическое исследование многоязычных и многоструктурных противодействующих атак
Полнота экспериментов: Комплексная оценка, охватывающая шесть языков и три типа атак
Практическая ценность: Предоставление развертываемого решения в виде плагина
Технологическая передовизна: Объединение новейших технологий RAG и многоагентных систем

Недостатки

Ограничение размера набора данных: Использование только 7 000 заголовков, относительно небольшой размер
Ограниченные типы атак: Рассмотрение только трех конкретных форм атак
Единственная метрика оценки: Основной фокус на точность, отсутствие метрик эффективности и стоимости
Недостаточный теоретический анализ: Отсутствие теоретического объяснения эффективности метода
Непроверенная долгосрочная стабильность: Отсутствие оценки деградации производительности при длительном использовании

Влияние

Академический вклад: Предоставление нового направления исследований для многоязычного обнаружения дезинформации
Практическая ценность: Прямое применение к социальным сетям и новостным платформам
Воспроизводимость: Использование открытых моделей облегчает воспроизведение и улучшение
Влияние на индустрию: Предоставление технологической основы для модерации контента и проверки фактов

Применимые сценарии

Платформы социальных сетей: Обнаружение дезинформации, опубликованной пользователями в реальном времени
Веб-сайты агрегации новостей: Проверка подлинности новостных статей
Образовательные платформы: Помощь пользователям в выявлении дезинформации
Корпоративная модерация контента: Автоматизированная модерация крупномасштабного контента
Государственное регулирование: Помощь соответствующим органам в мониторинге сетевой дезинформации

Библиография

В статье цитируется 50 соответствующих источников, охватывающих важные работы в области LLM, RAG, многоагентных систем, противодействующих атак и других смежных областей, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это статья, вносящая значительный вклад в область обнаружения дезинформации, предлагающая инновационную многоагентную архитектуру RAG и достигающая отличных экспериментальных результатов в условиях многоязычности и множественных типов атак. Несмотря на некоторые ограничения, ее практическая ценность и технологическая инновационность делают ее важным прогрессом в этой области.