2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao
In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Θ(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Θ(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
academic

Доказуемые водяные знаки для атак отравления данных

Основная информация

  • ID статьи: 2510.09210
  • Название: Provable Watermarking for Data Poisoning Attacks
  • Авторы: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
  • Классификация: cs.CR (криптография и безопасность), cs.LG (машинное обучение)
  • Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
  • Ссылка на статью: https://arxiv.org/abs/2510.09210

Аннотация

В последние годы атаки отравления данных все чаще разрабатываются в виде, который кажется безвредным или даже полезным, часто используется для проверки прав собственности на наборы данных или защиты приватных данных от несанкционированного использования. Однако эти разработки могут привести к неправильному пониманию и конфликтам, поскольку отравление данных традиционно рассматривается как угроза безопасности систем машинного обучения. Для решения этой проблемы генераторы безвредного отравления должны заявлять о праве собственности на создаваемые ими наборы данных, позволяя пользователям выявлять потенциальное отравление для предотвращения неправомерного использования. В данной статье предлагается развертывание схемы водяных знаков как решение этой проблемы, представляются два доказуемых и практичных метода водяных знаков для отравления данных: постотравляющие водяные знаки и одновременные водяные знаки отравления. Анализ показывает, что когда длина водяного знака составляет Θ(√d/ε_w) (постотравляющие водяные знаки) и находится в диапазоне Θ(1/ε_w²) до O(√d/ε_p) (одновременные водяные знаки отравления), наборы данных с отравлением и водяными знаками доказуемо обеспечивают обнаруживаемость водяного знака и полезность отравления.

Исследовательский контекст и мотивация

Определение проблемы

  1. Изменение традиционных взглядов: атаки отравления данных переходят от традиционных злонамеренных угроз к "благонамеренным" приложениям, таким как проверка прав собственности на наборы данных, предотвращение несанкционированного использования и т.д.
  2. Проблемы прозрачности: когда отравление используется в целях защиты, авторизованные пользователи могут случайно использовать отравленные данные, что приводит к неправильному пониманию и конфликтам
  3. Отсутствие подотчетности: существующие методы обнаружения не имеют единой базовой структуры и доказуемых механизмов заявления

Значимость

  • По мере того как обучение крупномасштабных моделей все больше зависит от веб-скрейпинга или синтетических данных, влияние отравления данных становится все более значительным
  • Художники и создатели данных нуждаются в защите своей интеллектуальной собственности от несанкционированного использования генеративным ИИ
  • Необходимо установить баланс между защитой данных и прозрачностью

Ограничения существующих методов

  • Методы обнаружения различаются в зависимости от типа атаки, что затрудняет унификацию
  • Основаны на эвристических алгоритмах обучения, не имеют доказуемых механизмов
  • Не могут предоставить четкие, проверяемые заявления для отравленных наборов данных

Основные вклады

  1. Первое предложение структуры водяных знаков для отравления данных: применение технологии водяных знаков к сценариям отравления данных, обеспечение прозрачности и подотчетности
  2. Две схемы водяных знаков:
    • Постотравляющие водяные знаки: третья сторона создает водяные знаки для уже отравленных наборов данных
    • Одновременные водяные знаки отравления: генератор отравления одновременно создает водяные знаки и отравление
  3. Теоретические гарантии: предоставление строгого теоретического анализа обнаруживаемости водяного знака и полезности отравления
  4. Проверка практичности: проверка теоретических выводов на различных атаках, моделях и наборах данных

Подробное описание методов

Определение задачи

  • Входные данные: исходный набор данных D, бюджет отравления ε_p, бюджет водяного знака ε_w
  • Выходные данные: набор данных с отравлением и водяным знаком, ключ обнаружения ζ
  • Ограничения: сохранение полезности отравления при обеспечении обнаруживаемости водяного знака

Архитектура модели

1. Постотравляющие водяные знаки (Post-Poisoning Watermarking)

Исходные данные x → Отравление δ_p → Отравленные данные x' → Водяной знак δ_w → Финальные данные x' + δ_w
  • Третья сторона добавляет водяные знаки к уже отравленным данным
  • Общий бюджет возмущений: ε_p + ε_w
  • Требование длины водяного знака: Θ(√d/ε_w)

2. Одновременные водяные знаки отравления (Poisoning-Concurrent Watermarking)

Исходные данные x → Одновременное применение отравления и водяного знака → Финальные данные x + δ_p + δ_w
  • Генератор отравления одновременно контролирует отравление и водяной знак
  • Разделение размерности: размерность водяного знака W, размерность отравления P = d\W
  • Общий бюджет возмущений: max{ε_p, ε_w}
  • Требование длины водяного знака: Θ(1/ε_w²) до O(√d/ε_p)

3. Механизм обнаружения

  • Ключ: d-мерный вектор ζ
  • Обнаружение: вычисление скалярного произведения ζᵀx, сравнение с порогом
  • Решение: ζᵀ(отравленные данные) > порог > ζᵀ(нормальные данные)

Технические инновации

1. Инновации в теоретической базе

  • Анализ на уровне образца: независимый водяной знак и ключ для каждой точки данных
  • Универсальная версия: один ключ применяется ко всем образцам
  • Обобщение распределения: расширение от конечных образцов к общему распределению

2. Математические гарантии

Использование неравенства Макдиармида и теории VC-размерности для доказательства:

  • Обнаруживаемость: высокая вероятность различения отравленных и нормальных данных
  • Сохранение полезности: контролируемое влияние водяного знака на эффект отравления
  • Производительность обобщения: расширение результатов конечных образцов на распределение

3. Стратегия разделения размерности

Одновременные водяные знаки отравления избегают помех через разделение размерности:

  • Водяной знак использует размерность W = {d₁, d₂, ..., d_q}
  • Отравление использует размерность P = d\W
  • Снижение взаимного влияния, повышение производительности

Экспериментальная установка

Наборы данных

  • CIFAR-10/CIFAR-100: классические наборы данных классификации изображений
  • Tiny-ImageNet: небольшой набор ImageNet
  • SST-2: набор данных анализа тональности текста

Методы атак

Атаки через люк

  • Narcissus: атака люка с чистыми метками
  • AdvSc: атака люка с противодействием

Атаки на доступность

  • UE (Unlearnable Examples): необучаемые примеры
  • AP (Adversarial Poisoning): противодействующее отравление

Архитектуры моделей

  • ResNet-18/50, VGG-19, DenseNet121
  • WRN34-10, MobileNet v2, ViT-B
  • BERT-base (текстовые задачи)

Метрики оценки

  • Точность (Acc): производительность модели на тестовом наборе
  • Коэффициент успеха атаки (ASR): эффективность атаки люка
  • AUROC: производительность обнаружения водяного знака
  • Вычислительные затраты: анализ временных затрат

Детали реализации

  • Бюджет водяного знака/отравления: 4/255 до 32/255
  • Длина водяного знака: 100 до 3000
  • Обучение: 200 эпох, косинусное расписание скорости обучения
  • Оптимизатор: SGD, импульс 0.9, затухание веса 10⁻⁴

Результаты экспериментов

Основные результаты

1. Производительность обнаружения водяного знака

Длина водяного знакаNarcissus (постотравление)Narcissus (одновременное)AdvSc (постотравление)AdvSc (одновременное)
5000.95090.99680.92180.9986
10000.99740.99920.98090.9995
20001.00001.00000.99941.0000

2. Сохранение полезности отравления

  • Постотравляющие водяные знаки: сохранение хорошей производительности атаки при всех длинах водяного знака
  • Одновременные водяные знаки отравления: значительное снижение эффекта атаки при чрезмерной длине водяного знака

3. Проверка теории

Результаты экспериментов подтверждают теоретические предсказания:

  • Одновременные водяные знаки отравления требуют более короткой длины водяного знака для достижения той же производительности обнаружения
  • Постотравляющие водяные знаки оказывают меньшее влияние на полезность отравления
  • Длина водяного знака положительно коррелирует с производительностью обнаружения

Абляционные исследования

1. Влияние бюджета водяного знака

С увеличением ε_w:

  • Улучшение производительности обнаружения (AUROC)
  • Снижение эффекта отравления
  • Проверка компромиссных отношений в теории

2. Анализ положения водяного знака

Тестирование различных областей изображения (верхний левый, нижний левый, верхний правый, нижний правый):

  • Минимальное влияние положения на производительность
  • Проверка независимости от положения в теории

3. Переносимость модели

Демонстрация хорошей переносимости между различными архитектурами:

  • Высокие баллы AUROC (>0.95)
  • Стабильное обнаружение между архитектурами

Анализ устойчивости

1. Устойчивость к увеличению данных

Тестирование Random Flip, Cutout, Color Jitter и т.д.:

  • Сохранение AUROC 1.0000
  • Демонстрация сильной устойчивости

2. Методы защиты

  • Дифференциальная приватность: серьезный шум приводит к отказу обучения
  • Очистка диффузией: одновременное нарушение водяного знака и отравления
  • Противодействующее удаление шума: влияние на полезность отравления

Связанные работы

Исследования отравления данных

  • Атаки люка: BadNets, Narcissus и т.д.
  • Атаки на доступность: необучаемые примеры, противодействующее отравление
  • Методы защиты: алгоритмы обнаружения, очистка данных

Технология водяных знаков

  • Водяные знаки моделей: защита авторских прав нейронных сетей
  • Водяные знаки данных: проверка прав собственности на наборы данных
  • Водяные знаки текста: обнаружение содержимого, созданного большими языковыми моделями

Технические различия

Данная статья впервые систематически применяет технологию водяных знаков к сценариям отравления данных, предоставляя теоретические гарантии и практические решения.

Выводы и обсуждение

Основные выводы

  1. Теоретический вклад: установление теоретической базы для водяных знаков отравления данных
  2. Практические решения: предоставление двух развертываемых методов водяных знаков
  3. Проверка производительности: экспериментальное подтверждение точности теоретических предсказаний
  4. Практическая ценность: обеспечение прозрачности и подотчетности для "благонамеренного" отравления

Ограничения

  1. Неизвестные необходимые условия: предоставление только достаточных условий, необходимые условия требуют дальнейших исследований
  2. Уязвимость защиты: снижение производительности при столкновении с сильными методами защиты
  3. Вычислительные затраты: одновременные водяные знаки отравления требуют дополнительного времени вычисления
  4. Область применения: в основном ориентированы на незаметные атаки отравления

Будущие направления

  1. Более сильная устойчивость: разработка схем водяных знаков, устойчивых к защите
  2. Необходимые условия: исследование необходимых условий для обнаруживаемости водяного знака
  3. Оптимизация эффективности: снижение вычислительных и затрат на хранение
  4. Расширение приложений: расширение на больше типов отравления и областей

Глубокая оценка

Преимущества

  1. Важность проблемы: решение практических потребностей в прозрачности отравления данных
  2. Теоретическая строгость: предоставление полного математического анализа и доказательств
  3. Инновация методов: первое систематическое объединение технологий водяных знаков и отравления
  4. Полнота экспериментов: всестороннее подтверждение на множественных наборах данных, моделях и атаках
  5. Практическая ценность: предоставление развертываемых решений

Недостатки

  1. Недостаточное рассмотрение защиты: ограниченная устойчивость к сильным методам защиты
  2. Неполнота теории: отсутствие анализа необходимых условий
  3. Ограничение области применения: в основном применимо к незаметным атакам
  4. Эффективность вычисления: высокие затраты в некоторых сценариях

Влияние

  1. Академический вклад: новаторское объединение двух важных областей безопасности
  2. Практическая ценность: предоставление новых инструментов для безопасности ИИ и защиты данных
  3. Теоретическое значение: установление новой базы теоретического анализа
  4. Промышленное применение: применимо к защите авторских прав на наборы данных и т.д.

Применимые сценарии

  1. Выпуск наборов данных: защита авторских прав на открытые наборы данных
  2. Защита художественных работ: предотвращение несанкционированного использования генеративным ИИ
  3. Обмен корпоративными данными: отслеживание использования внутренних данных
  4. Академические исследования: проверка источника исследовательских данных

Детали технической реализации

Процесс алгоритма

Алгоритм постотравляющих водяных знаков

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Алгоритм обнаружения

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Теоретические гарантии

На основе неравенства Макдиармида для постотравляющих водяных знаков:

  • Когда q > (2/ε_w)√(2d log(1/ω))
  • P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Практические соображения развертывания

  1. Управление ключами: поддержка ротации ключей и аутентификации HMAC
  2. Проверка целостности: обеспечение целостности данных с помощью хеша SHA256
  3. Контроль доступа: безопасное распределение ключей на основе HTTPS
  4. Масштабируемость: поддержка обработки крупномасштабных наборов данных

Резюме: Данная статья делает новаторский вклад в пересечение отравления данных и технологии водяных знаков, предоставляя не только строгий теоретический анализ, но и практические решения. Хотя в областях устойчивости защиты и полноты теории остается место для улучшений, проблема, которую она решает, имеет важное практическое значение, предоставляя новые направления исследований и инструменты для областей безопасности ИИ и защиты данных.