The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- ID статьи: 2510.08605
- Название: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- Авторы: Nouar Aldahoul, Yasir Zaki (Нью-йоркский университет Абу-Даби)
- Классификация: cs.CL (Компьютерная лингвистика), cs.AI, cs.CR, cs.LG
- Дата публикации: 7 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.08605
Быстрое распространение дезинформации на цифровых платформах угрожает общественному дискурсу, эмоциональной стабильности и принятию решений. Хотя предыдущие работы исследовали различные противодействующие атаки при обнаружении дезинформации, конкретные преобразования, изученные в данной работе, не были систематически исследованы. В частности, в статье исследуется языковое переключение между английским, французским, испанским, арабским, хинди и китайским языками, а также последующий перевод. Также изучается расширение длины запроса перед суммированием и структурированное переформатирование в вопросы с множественным выбором. В работе предложена многоязычная многоагентная архитектура больших языковых моделей, объединяющая технику генерации с дополнением из хранилища, которая может быть развернута как плагин веб-браузера на онлайн-платформах. Работа подчеркивает важность обнаружения дезинформации на основе искусственного интеллекта для защиты целостности фактов в Интернете, одновременно демонстрируя осуществимость развертывания на основе плагинов в реальных веб-приложениях.
Основная проблема, которую решает данное исследование, заключается в отсутствии эффективных возможностей обнаружения дезинформации у больших языковых моделей (LLM) при столкновении с противодействующими атаками, что приводит к непреднамеренному усилению распространения дезинформации.
- Социальное воздействие: Быстрое распространение дезинформации серьезно угрожает общественному дискурсу, эмоциональной стабильности и принятию решений
- Технические вызовы: Существующие LLM показывают результаты, близкие к случайному угадыванию при обнаружении дезинформации
- Требования безопасности: Необходима надежная система обнаружения, устойчивая к разнообразным атакам
- Ограничения встроенных знаний: LLM полагаются только на встроенные знания из времени обучения, не имея возможности проверки фактов в реальном времени
- Языковое смещение: Значительное снижение производительности на неанглийских языках
- Уязвимость к противодействующим атакам: Отсутствие устойчивости к преобразованиям формата, переводу, суммированию и другим атакам
- Отсутствие систематических исследований: Существующие работы не оценивают систематически многоязычные и многоструктурные противодействующие атаки
Авторы предлагают необходимость разработки многоязычной системы обнаружения дезинформации, способной противостоять различным противодействующим атакам и развертываемой как практичный веб-плагин.
- Предложена многоагентная архитектура RAG: Объединяющая Llama 3.1-8B и технику генерации с дополнением из хранилища
- Создан новый набор данных противодействующих атак: Включающий три формы атак: вопросы с множественным выбором (MCQ), перевод и суммирование
- Реализована многоязычная способность обнаружения: Поддержка шести языков: английского, французского, испанского, арабского, хинди и китайского
- Проверена осуществимость практического развертывания: Разработана в виде развертываемого веб-плагина
- Предоставлена комплексная экспериментальная оценка: Достигнута точность обнаружения дезинформации выше 95%
Входные данные: Текстовое содержимое из Интернета (новостные статьи, комментарии пользователей, посты в социальных сетях и т.д.), потенциально содержащие противодействующие преобразования
Выходные данные: Результат бинарной классификации (True/False), определяющий, содержит ли входной текст дезинформацию
Ограничения: Система должна работать в условиях черного ящика, основываясь только на бинарной обратной связи
- Модель встраивания: Сравнение трех многоязычных моделей встраивания
- OpenAI's text-embedding-3-large (проприетарная)
- jina-embeddings-v3 (проприетарная)
- multilingual-e5-large (открытый исходный код)
- Механизм поиска: Система поиска на основе косинусного сходства
- Хранение встраиваний ложных заголовков в CSV-файле
- Поиск наиболее релевантных ложных заголовков для запроса
- Использование Llama для контекстного анализа и принятия окончательного решения
Система включает четырех сотрудничающих агентов:
- Агент веб-краулера
- Извлечение структурированного содержимого с динамических веб-сайтов
- Разделение текста на управляемые блоки
- Передача агенту-менеджеру для обработки
- Агент-менеджер
- Взаимодействие с веб-краулером для получения текста
- Маршрутизация агентам классификации тематики и обнаружения дезинформации
- Отправка уведомлений пользователю
- Агент обнаружения дезинформации
- Использование RAG-Llama для обнаружения
- Поиск в базе данных, содержащей 5000 проверенных ложных заголовков
- Использование открытой модели Llama для окончательного решения
- Агент классификации тематики (опционально)
- Классификация запросов в 10 предопределенных категорий
- Ускорение процесса поиска RAG
- Использование GPT-4o-mini для классификации тематики
- Агент оценки
- Обеспечение обработки всех текстовых блоков
- Проверка согласованности компонентов системы
- Дополнительный уровень валидации для повышения надежности
- Обработка многомодальных противодействующих атак: Первая систематическая обработка трех форм атак: MCQ, перевод и суммирование
- Многоязычная способность поиска: Использование многоязычных моделей встраивания для кросс-языкового обнаружения
- Стратегия сопоставления отрицательных образцов: Использование только базы данных дезинформации для обнаружения отрицательных совпадений
- Модульный дизайн плагина: Может быть непосредственно развернут как плагин веб-браузера
- Ложные заголовки: 20 950 ложных заголовков, собранных из Snopes и Politifact
- Фактические заголовки: 4 000 подлинных заголовков
- Экспериментальные данные: 5 000 ложных заголовков и 2 000 фактических заголовков
- Набор данных MCQ: Преобразование заголовков в вопросы с множественным выбором, начинающиеся с "Почему"
- Набор данных перевода: Перевод расширенного текста на шесть языков
- Набор данных суммирования: Создание длинного текста из 500 слов для задачи суммирования
- Точность фактических данных: Процент правильной классификации фактической информации
- Точность дезинформации: Процент правильной классификации ложной информации
- Коэффициент успеха атаки (ASR): Доля противодействующих входов, приводящих к отказу системы (чем ниже, тем лучше)
- Базовая модель: Оригинальная Llama 3.1-8B-Instruct
- Варианты RAG-Llama с различными моделями встраивания
- Варианты системы с классификацией тематики и без нее
- Модель: Llama 3.1-8B-Instruct
- Оборудование: GPU A100 80GB
- Гиперпараметры: temperature=0.1, top-p=1
- Хранилище встраиваний: Формат CSV-файла
- ASR прямых вопросов: 46,74%
- ASR атак MCQ: 97,72%
- ASR атак перевода: 100%
- ASR атак суммирования: 100%
| Тип атаки | Точность обнаружения дезинформации | Точность обнаружения фактов |
|---|
| Прямые вопросы | 99,76% | 85,25% |
| MCQ | 97,38% | 89,85% |
| Суммирование | 99,3% | 95,15% |
| Перевод на французский | 97,72% | 87,25% |
| Перевод на арабский | 97,26% | 88,65% |
| Перевод на хинди | 95,2% | 87,4% |
| Перевод на китайский | 96,44% | 93,5% |
| Перевод на испанский | 97,9% | 90,9% |
| Модель встраивания | Средняя точность MCQ | Средняя точность суммирования | Средняя точность перевода |
|---|
| text-embedding-3-large | 93,62% | 97,23% | 93,22% |
| jina-embeddings-v3 | 95,29% | 89,08% | 93,35% |
| multilingual-e5-large | 95,26% | 89,02% | 93,92% |
- Ускорение скорости: Более чем двукратное ускорение медианы, более чем трехкратное среднее ускорение
- Точность: Варьируется от 78,27% до 91,18%
- Относительно низкая точность для задач MCQ: Обусловлена тем, что вопросы с множественным выбором содержат ответы по нескольким тематикам, что затрудняет классификацию
- RAG значительно превосходит базовую модель: Существенное улучшение по всем типам атак
- Многоязычная способность: Сохранение точности обнаружения дезинформации выше 95% на всех шести языках
- Влияние модели встраивания: multilingual-e5-large показывает лучший баланс между производительностью и доступностью
- Ускорение классификации тематики: Эффективно повышает скорость поиска, но с некоторым снижением точности на сложных запросах
- Методы на основе BERT (FakeBERT и др.)
- Инструкционная тонкая настройка T5
- Тонкая настройка Llama-2 PEFT/LoRA
- Методы обучения с подкреплением
- Mixtral-8x7B в сочетании с RAG
- Интеграция данных веб-сети в реальном времени
- Адаптивная тематическая RAG (AT-RAG)
- LLM-Consensus для обнаружения визуальной дезинформации
- Система структурированных дебатов TruEDebate (TED)
- Фреймворк для обработки полного жизненного цикла дезинформации
- Замена токенов на основе градиента на уровне токена
- Возмущение утверждений, управляемое обучением с подкреплением
- Стратегии атак черного ящика
- Значительная уязвимость LLM: Оригинальные LLM легко распространяют дезинформацию при противодействующих атаках
- RAG эффективно повышает надежность: RAG-Llama значительно превосходит базовую модель при различных атаках
- Многоязычное обнаружение осуществимо: Система эффективно обрабатывает дезинформацию на шести основных языках
- Потенциал практического развертывания: Многоагентная архитектура подходит для развертывания в виде веб-плагина
- Точность классификации тематики: Неправильная классификация тематики влияет на точность поиска
- Зависимость от базы данных: Производительность системы сильно зависит от качества и полноты базы данных дезинформации
- Требование динамического обновления: Необходимо постоянное обновление базы данных для противодействия новой дезинформации
- Уязвимости безопасности: Системы RAG могут столкнуться с загрязнением базы данных и атаками на встраивания
- Улучшение классификации тематики: Повышение точности классификации сложных запросов
- Исследование других LLM: Оценка производительности различных языковых моделей в RAG
- Повышение безопасности: Разработка защиты от атак на встраивания и загрязнения базы данных
- Расширение типов атак: Исследование дополнительных видов противодействующих преобразований
- Важность проблемы: Решение критической проблемы безопасности LLM при обнаружении дезинформации
- Инновационность метода: Первое систематическое исследование многоязычных и многоструктурных противодействующих атак
- Полнота экспериментов: Комплексная оценка, охватывающая шесть языков и три типа атак
- Практическая ценность: Предоставление развертываемого решения в виде плагина
- Технологическая передовизна: Объединение новейших технологий RAG и многоагентных систем
- Ограничение размера набора данных: Использование только 7 000 заголовков, относительно небольшой размер
- Ограниченные типы атак: Рассмотрение только трех конкретных форм атак
- Единственная метрика оценки: Основной фокус на точность, отсутствие метрик эффективности и стоимости
- Недостаточный теоретический анализ: Отсутствие теоретического объяснения эффективности метода
- Непроверенная долгосрочная стабильность: Отсутствие оценки деградации производительности при длительном использовании
- Академический вклад: Предоставление нового направления исследований для многоязычного обнаружения дезинформации
- Практическая ценность: Прямое применение к социальным сетям и новостным платформам
- Воспроизводимость: Использование открытых моделей облегчает воспроизведение и улучшение
- Влияние на индустрию: Предоставление технологической основы для модерации контента и проверки фактов
- Платформы социальных сетей: Обнаружение дезинформации, опубликованной пользователями в реальном времени
- Веб-сайты агрегации новостей: Проверка подлинности новостных статей
- Образовательные платформы: Помощь пользователям в выявлении дезинформации
- Корпоративная модерация контента: Автоматизированная модерация крупномасштабного контента
- Государственное регулирование: Помощь соответствующим органам в мониторинге сетевой дезинформации
В статье цитируется 50 соответствующих источников, охватывающих важные работы в области LLM, RAG, многоагентных систем, противодействующих атак и других смежных областей, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это статья, вносящая значительный вклад в область обнаружения дезинформации, предлагающая инновационную многоагентную архитектуру RAG и достигающая отличных экспериментальных результатов в условиях многоязычности и множественных типов атак. Несмотря на некоторые ограничения, ее практическая ценность и технологическая инновационность делают ее важным прогрессом в этой области.