In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
최근 데이터 중독 공격은 무해하거나 심지어 유익한 형태로 설계되고 있으며, 데이터셋 소유권 검증이나 개인 데이터를 무단 사용으로부터 보호하는 데 자주 사용됩니다. 그러나 이러한 발전은 데이터 중독이 전통적으로 머신러닝 시스템에 대한 보안 위협으로 간주되어 왔기 때문에 오해와 갈등을 초래할 수 있습니다. 이 문제를 해결하기 위해 무해한 중독 생성기는 생성된 데이터셋의 소유권을 선언하여 사용자가 잠재적 중독을 식별하고 오용을 방지할 수 있어야 합니다. 본 논문은 이 과제를 해결하기 위한 방안으로 워터마킹 방식을 배포할 것을 제안하며, 사후 중독 워터마킹과 중독 동시 워터마킹이라는 두 가지 증명 가능하고 실용적인 데이터 중독 워터마킹 방법을 소개합니다. 분석 결과, 워터마크 길이가 Θ(√d/ε_w)(사후 중독 워터마킹)와 Θ(1/ε_w²)에서 O(√d/ε_p) 범위(중독 동시 워터마킹) 내일 때, 워터마크된 중독 데이터셋은 워터마크 검출 가능성과 중독 효용을 증명 가능하게 보장합니다.
요약: 본 논문은 데이터 중독과 워터마킹 기술의 교차 영역에서 개척적 기여를 수행했으며, 엄격한 이론적 분석뿐만 아니라 실용적 솔루션을 제공합니다. 방어 견고성과 이론적 완전성 측면에서 개선의 여지가 있지만, 해결하는 문제는 중요한 현실적 의미를 가지며 AI 보안 및 데이터 보호 영역에 새로운 연구 방향과 도구를 제공합니다.