2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

डेटा पॉइजनिंग अटैक के लिए सिद्ध जलचिह्न

बुनियादी जानकारी

पेपर ID: 2510.09210
शीर्षक: डेटा पॉइजनिंग अटैक के लिए सिद्ध जलचिह्न
लेखक: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा), cs.LG (मशीन लर्निंग)
प्रकाशन सम्मेलन: NeurIPS 2025 (39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन)
पेपर लिंक: https://arxiv.org/abs/2510.09210

सारांश

हाल के वर्षों में, डेटा पॉइजनिंग अटैक को तेजी से हानिरहित और यहां तक कि लाभकारी रूप में डिजाइन किया जा रहा है, जिसका उपयोग आमतौर पर डेटासेट स्वामित्व सत्यापन या निजी डेटा को अनधिकृत उपयोग से बचाने के लिए किया जाता है। हालांकि, ये विकास गलतफहमी और संघर्ष का कारण बन सकते हैं, क्योंकि डेटा पॉइजनिंग को परंपरागत रूप से मशीन लर्निंग सिस्टम के लिए सुरक्षा खतरे के रूप में देखा जाता है। इस समस्या को हल करने के लिए, हानिरहित पॉइजनिंग जेनरेटर को अपने द्वारा उत्पन्न डेटासेट के स्वामित्व की घोषणा करनी चाहिए, जिससे उपयोगकर्ता संभावित पॉइजनिंग की पहचान कर सकें और दुरुपयोग को रोक सकें। यह पेपर इस चुनौती के समाधान के रूप में जलचिह्न योजना को तैनात करने का प्रस्ताव देता है, जिसमें दो सिद्ध और व्यावहारिक डेटा पॉइजनिंग जलचिह्न विधियां शामिल हैं: पोस्ट-पॉइजनिंग जलचिह्न और पॉइजनिंग-समवर्ती जलचिह्न। विश्लेषण से पता चलता है कि जब जलचिह्न लंबाई Θ(√d/ε_w) (पोस्ट-पॉइजनिंग जलचिह्न) और Θ(1/ε_w²) से O(√d/ε_p) की सीमा में हो (पॉइजनिंग-समवर्ती जलचिह्न), तो जलचिह्न पॉइजन किए गए डेटासेट सिद्ध रूप से जलचिह्न का पता लगाने की क्षमता और पॉइजनिंग उपयोगिता को सुनिश्चित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक दृष्टिकोण में परिवर्तन: डेटा पॉइजनिंग अटैक पारंपरिक दुर्भावनापूर्ण खतरों से "सद्भावनापूर्ण" अनुप्रयोगों की ओर बढ़ रहे हैं, जैसे डेटासेट स्वामित्व सत्यापन, अनधिकृत उपयोग को रोकना आदि
पारदर्शिता समस्या: जब पॉइजनिंग को सुरक्षा उद्देश्यों के लिए उपयोग किया जाता है, तो अधिकृत उपयोगकर्ता अनजाने में पॉइजन किए गए डेटा का उपयोग कर सकते हैं, जिससे गलतफहमी और संघर्ष होता है
जवाबदेही का अभाव: मौजूदा पहचान विधियों में एकीकृत ढांचे और सिद्ध घोषणा तंत्र का अभाव है

महत्व

जैसे-जैसे बड़े पैमाने पर मॉडल प्रशिक्षण वेब स्क्रैपिंग या सिंथेटिक डेटा पर अधिक निर्भर हो रहा है, डेटा पॉइजनिंग का प्रभाव तेजी से बढ़ रहा है
कलाकारों और डेटा निर्माताओं को जनरेटिव एआई के अनधिकृत उपयोग से अपनी बौद्धिक संपत्ति की रक्षा करने की आवश्यकता है
डेटा सुरक्षा और पारदर्शिता के बीच संतुलन स्थापित करने की आवश्यकता है

मौजूदा विधियों की सीमाएं

पहचान विधि अटैक प्रकार के अनुसार भिन्न होती हैं, एकीकृत करना मुश्किल है
अनुमानी प्रशिक्षण एल्गोरिदम पर आधारित, सिद्ध तंत्र का अभाव है
पॉइजन किए गए डेटासेट के लिए स्पष्ट, सत्यापन योग्य घोषणा प्रदान नहीं कर सकते

मुख्य योगदान

डेटा पॉइजनिंग जलचिह्न ढांचे का पहला प्रस्ताव: जलचिह्न तकनीक को डेटा पॉइजनिंग परिदृश्य में लागू करना, पारदर्शिता और जवाबदेही प्रदान करना
दो जलचिह्न योजनाएं:
- पोस्ट-पॉइजनिंग जलचिह्न: तीसरे पक्ष की इकाई पहले से पॉइजन किए गए डेटासेट के लिए जलचिह्न बनाती है
- पॉइजनिंग-समवर्ती जलचिह्न: पॉइजनिंग जेनरेटर एक साथ जलचिह्न और पॉइजनिंग बनाता है
सैद्धांतिक गारंटी: जलचिह्न का पता लगाने की क्षमता और पॉइजनिंग उपयोगिता का कठोर सैद्धांतिक विश्लेषण प्रदान करना
व्यावहारिकता सत्यापन: कई अटैक, मॉडल और डेटासेट पर सैद्धांतिक निष्कर्षों को सत्यापित करना

विधि विवरण

कार्य परिभाषा

इनपुट: मूल डेटासेट D, पॉइजनिंग बजट ε_p, जलचिह्न बजट ε_w
आउटपुट: जलचिह्न पॉइजन किया गया डेटासेट, पहचान कुंजी ζ
बाधाएं: पॉइजनिंग उपयोगिता बनाए रखते हुए जलचिह्न का पता लगाने की क्षमता सुनिश्चित करना

मॉडल आर्किटेक्चर

1. पोस्ट-पॉइजनिंग जलचिह्न

मूल डेटा x → पॉइजनिंग δ_p → पॉइजन किया गया डेटा x' → जलचिह्न δ_w → अंतिम डेटा x' + δ_w

तीसरे पक्ष की इकाई पहले से पॉइजन किए गए डेटा में जलचिह्न जोड़ती है
कुल विक्षोभ बजट: ε_p + ε_w
जलचिह्न लंबाई आवश्यकता: Θ(√d/ε_w)

2. पॉइजनिंग-समवर्ती जलचिह्न

मूल डेटा x → पॉइजनिंग और जलचिह्न को एक साथ लागू करना → अंतिम डेटा x + δ_p + δ_w

पॉइजनिंग जेनरेटर पॉइजनिंग और जलचिह्न दोनों को नियंत्रित करता है
आयाम पृथक्करण: जलचिह्न आयाम W, पॉइजनिंग आयाम P = d\W
कुल विक्षोभ बजट: max{ε_p, ε_w}
जलचिह्न लंबाई आवश्यकता: Θ(1/ε_w²) से O(√d/ε_p)

3. पहचान तंत्र

कुंजी: d-आयामी वेक्टर ζ
पहचान: आंतरिक गुणनफल ζᵀx की गणना करना, सीमा से तुलना करना
निर्णय: ζᵀ(पॉइजन किया गया डेटा) > सीमा > ζᵀ(सामान्य डेटा)

तकनीकी नवाचार बिंदु

1. सैद्धांतिक ढांचे में नवाचार

नमूना-स्तरीय विश्लेषण: प्रत्येक डेटा बिंदु स्वतंत्र जलचिह्न और कुंजी
सामान्य संस्करण: सभी नमूनों के लिए एकल कुंजी लागू होती है
वितरण सामान्यीकरण: सीमित नमूनों से संपूर्ण वितरण तक विस्तार

2. गणितीय गारंटी

McDiarmid असमानता और VC आयाम सिद्धांत का उपयोग करके साबित करना:

पहचान क्षमता: पॉइजन किए गए और सामान्य डेटा को उच्च संभावना के साथ अलग करना
उपयोगिता संरक्षण: जलचिह्न का पॉइजनिंग प्रभाव पर नियंत्रणीय प्रभाव
सामान्यीकरण प्रदर्शन: सीमित नमूना परिणाम वितरण तक विस्तारित होते हैं

3. आयाम पृथक्करण रणनीति

पॉइजनिंग-समवर्ती जलचिह्न आयाम पृथक्करण के माध्यम से हस्तक्षेप से बचता है:

जलचिह्न आयाम W = {d₁, d₂, ..., d_q} का उपयोग करता है
पॉइजनिंग आयाम P = d\W का उपयोग करता है
पारस्परिक प्रभाव को कम करता है, प्रदर्शन में सुधार करता है

प्रयोगात्मक सेटअप

डेटासेट

CIFAR-10/CIFAR-100: क्लासिक इमेज वर्गीकरण डेटासेट
Tiny-ImageNet: छोटे पैमाने पर ImageNet
SST-2: पाठ भावना विश्लेषण डेटासेट

अटैक विधियां

बैकडोर अटैक

Narcissus: स्वच्छ-लेबल बैकडोर अटैक
AdvSc: विरोधी बैकडोर अटैक

उपलब्धता अटैक

UE (Unlearnable Examples): अशिक्षणीय उदाहरण
AP (Adversarial Poisoning): विरोधी पॉइजनिंग

मॉडल आर्किटेक्चर

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (पाठ कार्य)

मूल्यांकन मेट्रिक्स

सटीकता (Acc): परीक्षण सेट पर मॉडल का प्रदर्शन
अटैक सफलता दर (ASR): बैकडोर अटैक की प्रभावशीलता
AUROC: जलचिह्न पहचान प्रदर्शन
कम्प्यूटेशनल ओवरहेड: समय लागत विश्लेषण

कार्यान्वयन विवरण

जलचिह्न/पॉइजनिंग बजट: 4/255 से 32/255
जलचिह्न लंबाई: 100 से 3000
प्रशिक्षण: 200 एपोक, कोसाइन लर्निंग दर शेड्यूलिंग
ऑप्टिमाइजर: SGD, गति 0.9, वजन क्षय 10⁻⁴

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. जलचिह्न पहचान प्रदर्शन

जलचिह्न लंबाई	Narcissus (पोस्ट-पॉइजनिंग)	Narcissus (समवर्ती)	AdvSc (पोस्ट-पॉइजनिंग)	AdvSc (समवर्ती)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. पॉइजनिंग उपयोगिता संरक्षण

पोस्ट-पॉइजनिंग जलचिह्न: सभी जलचिह्न लंबाई पर अच्छा अटैक प्रदर्शन बनाए रखता है
पॉइजनिंग-समवर्ती जलचिह्न: जलचिह्न लंबाई बहुत अधिक होने पर अटैक प्रभाव में स्पष्ट गिरावट

3. सैद्धांतिक सत्यापन

प्रयोगात्मक परिणाम सैद्धांतिक भविष्यवाणियों को सत्यापित करते हैं:

पॉइजनिंग-समवर्ती जलचिह्न को समान पहचान प्रदर्शन के लिए छोटी जलचिह्न लंबाई की आवश्यकता होती है
पोस्ट-पॉइजनिंग जलचिह्न पॉइजनिंग उपयोगिता पर कम प्रभाव डालता है
जलचिह्न लंबाई पहचान प्रदर्शन के साथ सकारात्मक संबंध रखती है

विलोपन प्रयोग

1. जलचिह्न बजट प्रभाव

ε_w बढ़ने के साथ:

पहचान प्रदर्शन (AUROC) में सुधार
पॉइजनिंग प्रभाव में कमी
सैद्धांतिक व्यापार-बंद संबंध को सत्यापित करता है

2. जलचिह्न स्थान विश्लेषण

विभिन्न इमेज क्षेत्रों (ऊपरी बाएं, निचले बाएं, ऊपरी दाएं, निचले दाएं) का परीक्षण:

स्थान का प्रदर्शन पर न्यूनतम प्रभाव
सैद्धांतिक स्थान-स्वतंत्रता को सत्यापित करता है

3. मॉडल स्थानांतरणीयता

विभिन्न आर्किटेक्चर में अच्छी स्थानांतरणीयता प्रदर्शित करता है:

उच्च AUROC स्कोर (>0.95)
क्रॉस-आर्किटेक्चर पहचान स्थिर

मजबूती विश्लेषण

1. डेटा वृद्धि प्रतिरोध

Random Flip, Cutout, Color Jitter आदि का परीक्षण:

AUROC 1.0000 बनाए रखता है
मजबूत मजबूती प्रदर्शित करता है

2. रक्षा विधियां

अंतर गोपनीयता: गंभीर शोर प्रशिक्षण विफल करता है
प्रसार शुद्धिकरण: जलचिह्न और पॉइजनिंग दोनों को नष्ट करता है
विरोधी शोर निवारण: पॉइजनिंग उपयोगिता को प्रभावित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक योगदान: डेटा पॉइजनिंग जलचिह्न का सैद्धांतिक ढांचा स्थापित किया
व्यावहारिक समाधान: दो तैनाती योग्य जलचिह्न विधियां प्रदान करता है
प्रदर्शन सत्यापन: प्रयोग सैद्धांतिक भविष्यवाणी की सटीकता को सत्यापित करते हैं
अनुप्रयोग मूल्य: "सद्भावनापूर्ण" पॉइजनिंग के लिए पारदर्शिता और जवाबदेही प्रदान करता है

सीमाएं

आवश्यक शर्तें अज्ञात: केवल पर्याप्त शर्तें प्रदान करता है, आवश्यक शर्तें अभी शोध के अधीन हैं
रक्षा कमजोरी: मजबूत रक्षा विधियों के सामने प्रदर्शन में गिरावट
कम्प्यूटेशनल ओवरहेड: पॉइजनिंग-समवर्ती जलचिह्न को अतिरिक्त कम्प्यूटेशनल समय की आवश्यकता है
लागू सीमा: मुख्य रूप से अनुभवहीन पॉइजनिंग अटैक के लिए

भविष्य की दिशाएं

अधिक मजबूती: रक्षा-विरोधी जलचिह्न योजना डिजाइन करना
आवश्यक शर्तें: जलचिह्न पहचान क्षमता की आवश्यक शर्तों की खोज करना
दक्षता अनुकूलन: कम्प्यूटेशनल और भंडारण ओवरहेड को कम करना
अनुप्रयोग विस्तार: अधिक पॉइजनिंग प्रकार और डोमेन तक विस्तार करना

गहन मूल्यांकन

शक्तियां

समस्या महत्व: डेटा पॉइजनिंग पारदर्शिता की वास्तविक आवश्यकता को हल करता है
सैद्धांतिक कठोरता: पूर्ण गणितीय विश्लेषण और प्रमाण प्रदान करता है
विधि नवाचार: पहली बार जलचिह्न और पॉइजनिंग तकनीक को व्यवस्थित रूप से संयोजित करता है
पर्याप्त प्रयोग: कई डेटासेट, मॉडल, अटैक का व्यापक सत्यापन
व्यावहारिक मूल्य: तैनाती योग्य समाधान प्रदान करता है

कमियां

रक्षा विचार अपर्याप्त: मजबूत रक्षा विधियों के लिए सीमित मजबूती
सैद्धांतिक पूर्णता: आवश्यक शर्तों का विश्लेषण अनुपस्थित
लागू सीमा प्रतिबंध: मुख्य रूप से अनुभवहीन अटैक के लिए उपयुक्त
कम्प्यूटेशनल दक्षता: कुछ परिदृश्यों में उच्च ओवरहेड

प्रभाव

शैक्षणिक योगदान: दो महत्वपूर्ण सुरक्षा क्षेत्रों को अग्रणी रूप से संयोजित करता है
व्यावहारिक मूल्य: एआई सुरक्षा और डेटा सुरक्षा के लिए नए उपकरण प्रदान करता है
सैद्धांतिक महत्व: नया सैद्धांतिक विश्लेषण ढांचा स्थापित करता है
औद्योगिक अनुप्रयोग: डेटासेट कॉपीराइट सुरक्षा आदि के लिए उपयुक्त

लागू परिदृश्य

डेटासेट प्रकाशन: ओपन-सोर्स डेटासेट की कॉपीराइट सुरक्षा
कलात्मक कार्य सुरक्षा: जनरेटिव एआई के अनधिकृत उपयोग को रोकना
एंटरप्राइज डेटा साझाकरण: आंतरिक डेटा उपयोग ट्रैकिंग
शैक्षणिक अनुसंधान: अनुसंधान डेटा का स्रोत सत्यापन

तकनीकी कार्यान्वयन विवरण

एल्गोरिदम प्रवाह

पोस्ट-पॉइजनिंग जलचिह्न एल्गोरिदम

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

पहचान एल्गोरिदम

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

सैद्धांतिक गारंटी

McDiarmid असमानता के आधार पर, पोस्ट-पॉइजनिंग जलचिह्न के लिए:

जब q > (2/ε_w)√(2d log(1/ω)) हो
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

व्यावहारिक तैनाती विचार

कुंजी प्रबंधन: कुंजी रोटेशन और HMAC प्रमाणीकरण का समर्थन करता है
अखंडता सत्यापन: SHA256 हैश डेटा अखंडता सुनिश्चित करता है
पहुंच नियंत्रण: HTTPS-आधारित सुरक्षित कुंजी वितरण
स्केलेबिलिटी: बड़े पैमाने पर डेटासेट प्रसंस्करण का समर्थन करता है

सारांश: यह पेपर डेटा पॉइजनिंग और जलचिह्न तकनीक के प्रतिच्छेदन क्षेत्र में अग्रणी योगदान देता है, न केवल कठोर सैद्धांतिक विश्लेषण प्रदान करता है, बल्कि व्यावहारिक समाधान भी देता है। हालांकि रक्षा मजबूती और सैद्धांतिक पूर्णता के पहलुओं में सुधार की गुंजाइश है, लेकिन यह जो समस्या हल करता है वह महत्वपूर्ण वास्तविक महत्व रखती है, एआई सुरक्षा और डेटा सुरक्षा क्षेत्र के लिए नई अनुसंधान दिशा और उपकरण प्रदान करती है।