In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
academic
Доказуемые водяные знаки для атак отравления данных
В последние годы атаки отравления данных все чаще разрабатываются в виде, который кажется безвредным или даже полезным, часто используется для проверки прав собственности на наборы данных или защиты приватных данных от несанкционированного использования. Однако эти разработки могут привести к неправильному пониманию и конфликтам, поскольку отравление данных традиционно рассматривается как угроза безопасности систем машинного обучения. Для решения этой проблемы генераторы безвредного отравления должны заявлять о праве собственности на создаваемые ими наборы данных, позволяя пользователям выявлять потенциальное отравление для предотвращения неправомерного использования. В данной статье предлагается развертывание схемы водяных знаков как решение этой проблемы, представляются два доказуемых и практичных метода водяных знаков для отравления данных: постотравляющие водяные знаки и одновременные водяные знаки отравления. Анализ показывает, что когда длина водяного знака составляет Θ(√d/ε_w) (постотравляющие водяные знаки) и находится в диапазоне Θ(1/ε_w²) до O(√d/ε_p) (одновременные водяные знаки отравления), наборы данных с отравлением и водяными знаками доказуемо обеспечивают обнаруживаемость водяного знака и полезность отравления.
Изменение традиционных взглядов: атаки отравления данных переходят от традиционных злонамеренных угроз к "благонамеренным" приложениям, таким как проверка прав собственности на наборы данных, предотвращение несанкционированного использования и т.д.
Проблемы прозрачности: когда отравление используется в целях защиты, авторизованные пользователи могут случайно использовать отравленные данные, что приводит к неправильному пониманию и конфликтам
Отсутствие подотчетности: существующие методы обнаружения не имеют единой базовой структуры и доказуемых механизмов заявления
По мере того как обучение крупномасштабных моделей все больше зависит от веб-скрейпинга или синтетических данных, влияние отравления данных становится все более значительным
Художники и создатели данных нуждаются в защите своей интеллектуальной собственности от несанкционированного использования генеративным ИИ
Необходимо установить баланс между защитой данных и прозрачностью
Первое предложение структуры водяных знаков для отравления данных: применение технологии водяных знаков к сценариям отравления данных, обеспечение прозрачности и подотчетности
Две схемы водяных знаков:
Постотравляющие водяные знаки: третья сторона создает водяные знаки для уже отравленных наборов данных
Одновременные водяные знаки отравления: генератор отравления одновременно создает водяные знаки и отравление
Теоретические гарантии: предоставление строгого теоретического анализа обнаруживаемости водяного знака и полезности отравления
Проверка практичности: проверка теоретических выводов на различных атаках, моделях и наборах данных
Данная статья впервые систематически применяет технологию водяных знаков к сценариям отравления данных, предоставляя теоретические гарантии и практические решения.
Управление ключами: поддержка ротации ключей и аутентификации HMAC
Проверка целостности: обеспечение целостности данных с помощью хеша SHA256
Контроль доступа: безопасное распределение ключей на основе HTTPS
Масштабируемость: поддержка обработки крупномасштабных наборов данных
Резюме: Данная статья делает новаторский вклад в пересечение отравления данных и технологии водяных знаков, предоставляя не только строгий теоретический анализ, но и практические решения. Хотя в областях устойчивости защиты и полноты теории остается место для улучшений, проблема, которую она решает, имеет важное практическое значение, предоставляя новые направления исследований и инструменты для областей безопасности ИИ и защиты данных.