2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

العلامات المائية القابلة للإثبات لهجمات تسميم البيانات

المعلومات الأساسية

معرّف الورقة: 2510.09210
العنوان: العلامات المائية القابلة للإثبات لهجمات تسميم البيانات
المؤلفون: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
التصنيف: cs.CR (التشفير والأمان)، cs.LG (التعلم الآلي)
المؤتمر: NeurIPS 2025 (المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية)
رابط الورقة: https://arxiv.org/abs/2510.09210

الملخص

في السنوات الأخيرة، تم تصميم هجمات تسميم البيانات بشكل متزايد لتبدو غير ضارة بل ومفيدة، وغالباً ما تُستخدم للتحقق من ملكية مجموعة البيانات أو حماية البيانات الخاصة من الاستخدام غير المصرح به. ومع ذلك، قد تؤدي هذه التطورات إلى سوء الفهم والنزاعات، لأن تسميم البيانات يُعتبر تقليدياً تهديداً أماناً لأنظمة التعلم الآلي. لحل هذه المشكلة، يجب على منتجات التسميم غير الضارة أن تعلن عن ملكيتها لمجموعة البيانات المُنتجة، مما يمكّن المستخدمين من تحديد التسميم المحتمل لمنع الاستخدام الخاطئ. تقترح هذه الورقة نشر مخطط العلامات المائية كحل لهذا التحدي، وتقدم طريقتين قابلتين للإثبات وعمليتين لعلامات تسميم البيانات المائية: العلامات المائية بعد التسميم والعلامات المائية المتزامنة مع التسميم. يُظهر التحليل أنه عندما يكون طول العلامة المائية Θ(√d/ε_w) (العلامات المائية بعد التسميم) و Θ(1/ε_w²) إلى O(√d/ε_p) (العلامات المائية المتزامنة مع التسميم)، فإن مجموعة البيانات المسمومة بالعلامات المائية تضمن بشكل قابل للإثبات قابلية كشف العلامة المائية وفائدة التسميم.

خلفية البحث والدافع

تعريف المشكلة

تحول المفهوم التقليدي: تتحول هجمات تسميم البيانات من التهديدات الخبيثة التقليدية إلى تطبيقات "حسنة النية"، مثل التحقق من ملكية مجموعة البيانات ومنع الاستخدام غير المصرح به
مشاكل الشفافية: عندما يُستخدم التسميم لأغراض الحماية، قد يستخدم المستخدمون المصرح لهم بيانات مسممة دون قصد، مما يؤدي إلى سوء فهم ونزاعات
غياب المساءلة: تفتقر طرق الكشف الحالية إلى إطار عمل موحد وآلية إعلان قابلة للإثبات

الأهمية

مع اعتماد تدريب النماذج الكبيرة بشكل متزايد على البيانات المجمعة من الويب أو البيانات الاصطناعية، يزداد تأثير تسميم البيانات
يحتاج الفنانون ومنشئو البيانات إلى حماية ملكيتهم الفكرية من الاستخدام غير المصرح به للذكاء الاصطناعي التوليدي
الحاجة إلى تحقيق التوازن بين حماية البيانات والشفافية

قيود الطرق الموجودة

تختلف طرق الكشف حسب نوع الهجوم، مما يصعب توحيدها
تستند إلى خوارزميات تدريب استكشافية، وتفتقر إلى آليات قابلة للإثبات
لا يمكنها توفير إعلانات واضحة وقابلة للتحقق لمجموعات البيانات المسممة

المساهمات الأساسية

إطار عمل العلامات المائية لتسميم البيانات للمرة الأولى: تطبيق تقنية العلامات المائية على سيناريوهات تسميم البيانات، مما يوفر الشفافية والمساءلة
مخططان للعلامات المائية:
- العلامات المائية بعد التسميم: كيان طرف ثالث ينشئ علامات مائية لمجموعة بيانات مسممة بالفعل
- العلامات المائية المتزامنة مع التسميم: منتج التسميم ينشئ العلامات المائية والتسميم في نفس الوقت
ضمانات نظرية: توفير تحليل نظري صارم لقابلية كشف العلامة المائية وفائدة التسميم
التحقق من الجدوى العملية: التحقق من النتائج النظرية على هجمات وموديلات ومجموعات بيانات متنوعة

شرح الطريقة

تعريف المهمة

الإدخال: مجموعة البيانات الأصلية D، ميزانية التسميم ε_p، ميزانية العلامة المائية ε_w
الإخراج: مجموعة بيانات مسممة بعلامات مائية، مفتاح الكشف ζ
القيود: الحفاظ على فائدة التسميم مع ضمان قابلية كشف العلامة المائية

معمارية النموذج

1. العلامات المائية بعد التسميم (Post-Poisoning Watermarking)

البيانات الأصلية x → التسميم δ_p → البيانات المسممة x' → العلامة المائية δ_w → البيانات النهائية x' + δ_w

كيان طرف ثالث يضيف علامات مائية للبيانات المسممة بالفعل
ميزانية الاضطراب الإجمالية: ε_p + ε_w
متطلبات طول العلامة المائية: Θ(√d/ε_w)

2. العلامات المائية المتزامنة مع التسميم (Poisoning-Concurrent Watermarking)

البيانات الأصلية x → تطبيق التسميم والعلامة المائية معاً → البيانات النهائية x + δ_p + δ_w

منتج التسميم يتحكم في التسميم والعلامة المائية في نفس الوقت
فصل الأبعاد: أبعاد العلامة المائية W، أبعاد التسميم P = d\W
ميزانية الاضطراب الإجمالية: max{ε_p, ε_w}
متطلبات طول العلامة المائية: Θ(1/ε_w²) إلى O(√d/ε_p)

3. آلية الكشف

المفتاح: متجه بـ d بُعد ζ
الكشف: حساب الضرب الداخلي ζᵀx، المقارنة مع حد معين
القرار: ζᵀ(البيانات المسممة) > الحد > ζᵀ(البيانات العادية)

نقاط الابتكار التقني

1. الابتكار في الإطار النظري

التحليل على مستوى العينة: كل نقطة بيانات لها علامة مائية ومفتاح مستقل
النسخة العامة: مفتاح واحد ينطبق على جميع العينات
التعميم على التوزيع: توسيع النتائج من العينات المحدودة إلى التوزيع الكامل

2. الضمانات الرياضية

استخدام عدم المساواة McDiarmid ونظرية VC البُعد للإثبات:

قابلية الكشف: التمييز بين البيانات المسممة والعادية بأحتمالية عالية
الحفاظ على الفائدة: تأثير العلامة المائية على فائدة التسميم قابل للتحكم
الأداء المعمم: توسيع نتائج العينات المحدودة إلى التوزيع

3. استراتيجية فصل الأبعاد

تتجنب العلامات المائية المتزامنة مع التسميم التداخل من خلال فصل الأبعاد:

تستخدم العلامة المائية الأبعاد W = {d₁, d₂, ..., d_q}
يستخدم التسميم الأبعاد P = d\W
تقليل التأثير المتبادل، تحسين الأداء

إعداد التجارب

مجموعات البيانات

CIFAR-10/CIFAR-100: مجموعات بيانات تصنيف الصور الكلاسيكية
Tiny-ImageNet: نسخة صغيرة من ImageNet
SST-2: مجموعة بيانات تحليل المشاعر في النصوص

طرق الهجوم

هجمات الأبواب الخلفية

Narcissus: هجوم باب خلفي بتسميات نظيفة
AdvSc: هجوم باب خلفي معاكس

هجمات التوفر

UE (أمثلة غير قابلة للتعلم): عينات غير قابلة للتعلم
AP (التسميم المعاكس): تسميم معاكس

معماريات النموذج

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (المهام النصية)

مقاييس التقييم

الدقة (Acc): أداء النموذج على مجموعة الاختبار
معدل نجاح الهجوم (ASR): فعالية هجوم الباب الخلفي
AUROC: أداء كشف العلامة المائية
التكلفة الحسابية: تحليل تكاليف الوقت

تفاصيل التنفيذ

ميزانية العلامة المائية/التسميم: 4/255 إلى 32/255
طول العلامة المائية: 100 إلى 3000
التدريب: 200 حقبة، جدولة معدل التعلم بالجيب
المُحسِّن: SGD، الزخم 0.9، تحلل الأوزان 10⁻⁴

نتائج التجارب

النتائج الرئيسية

1. أداء كشف العلامة المائية

طول العلامة المائية	Narcissus (بعد التسميم)	Narcissus (متزامن)	AdvSc (بعد التسميم)	AdvSc (متزامن)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. الحفاظ على فائدة التسميم

العلامات المائية بعد التسميم: الحفاظ على أداء هجوم جيدة عند جميع أطوال العلامات المائية
العلامات المائية المتزامنة مع التسميم: انخفاض واضح في فعالية الهجوم عند أطوال العلامات المائية الكبيرة

3. التحقق النظري

تتحقق نتائج التجارب من التنبؤات النظرية:

تحتاج العلامات المائية المتزامنة مع التسميم إلى أطوال علامات مائية أقصر لتحقيق نفس أداء الكشف
تؤثر العلامات المائية بعد التسميم بشكل أقل على فائدة التسميم
يوجد ارتباط إيجابي بين طول العلامة المائية وأداء الكشف

التجارب الاستئصالية

1. تأثير ميزانية العلامة المائية

مع زيادة ε_w:

تحسن أداء الكشف (AUROC)
انخفاض فعالية التسميم
التحقق من علاقة المقايضة في النظرية

2. تحليل موضع العلامة المائية

اختبار مناطق صور مختلفة (أعلى يسار، أسفل يسار، أعلى يمين، أسفل يمين):

تأثير الموضع على الأداء ضئيل
التحقق من عدم الاعتماد على الموضع في النظرية

3. قابلية نقل النموذج

إظهار قابلية نقل جيدة بين معماريات مختلفة:

درجات AUROC عالية (>0.95)
استقرار الكشف عبر المعماريات

تحليل المتانة

1. مقاومة تعزيز البيانات

اختبار Random Flip, Cutout, Color Jitter وغيرها:

AUROC يبقى 1.0000
إظهار متانة قوية

2. طرق الدفاع

الخصوصية التفاضلية: الضوضاء الشديدة تؤدي إلى فشل التدريب
تنقية الانتشار: تدمر العلامة المائية والتسميم معاً
إزالة الضوضاء المعاكسة: تؤثر على فائدة التسميم

الأعمال ذات الصلة

أبحاث تسميم البيانات

هجمات الأبواب الخلفية: BadNets, Narcissus وغيرها
هجمات التوفر: عينات غير قابلة للتعلم، تسميم معاكس
طرق الدفاع: خوارزميات الكشف، تنقية البيانات

تقنيات العلامات المائية

علامات النموذج المائية: حماية حقوق الطبع والنشر للشبكات العصبية
علامات البيانات المائية: التحقق من ملكية مجموعة البيانات
علامات النصوص المائية: كشف محتوى نماذج اللغة الكبيرة المُنتج

الفرق التقني

تطبق هذه الورقة لأول مرة تقنية العلامات المائية بشكل منهجي على سيناريو تسميم البيانات، مع توفير ضمانات نظرية وحلول عملية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

المساهمة النظرية: إنشاء إطار عمل نظري لعلامات تسميم البيانات المائية
الحلول العملية: توفير طريقتين للعلامات المائية قابلتين للنشر
التحقق من الأداء: التجارب تؤكد دقة التنبؤات النظرية
القيمة التطبيقية: توفير الشفافية والمساءلة للتسميم "حسن النية"

القيود

الشروط الضرورية غير معروفة: توفير شروط كافية فقط، الشروط الضرورية تحتاج إلى مزيد من البحث
ضعف الدفاع: انخفاض الأداء في مواجهة طرق الدفاع القوية
التكلفة الحسابية: العلامات المائية المتزامنة مع التسميم تتطلب وقت حساب إضافي
نطاق التطبيق: موجهة بشكل أساسي لهجمات التسميم غير المحسوسة

الاتجاهات المستقبلية

متانة أقوى: تصميم مخططات علامات مائية مقاومة للدفاع
الشروط الضرورية: استكشاف الشروط الضرورية لقابلية كشف العلامة المائية
تحسين الكفاءة: تقليل التكاليف الحسابية والتخزينية
توسيع التطبيقات: التوسع إلى أنواع تسميم وحقول أكثر

التقييم المتعمق

المزايا

أهمية المشكلة: حل احتياجات عملية فعلية لشفافية تسميم البيانات
الصرامة النظرية: توفير تحليل رياضي وإثبات شامل
ابتكار الطريقة: أول دمج منهجي لتقنيات العلامات المائية والتسميم
التجارب الشاملة: التحقق الكامل عبر مجموعات بيانات وموديلات وهجمات متعددة
القيمة العملية: توفير حلول قابلة للنشر

أوجه القصور

اعتبارات الدفاع غير كافية: متانة محدودة ضد طرق الدفاع القوية
اكتمال النظرية: نقص تحليل الشروط الضرورية
قيود نطاق التطبيق: ينطبق بشكل أساسي على الهجمات غير المحسوسة
كفاءة الحساب: تكاليف عالية نسبياً في بعض السيناريوهات

التأثير

المساهمة الأكاديمية: دمج رائد لمجالي أمان مهمين
القيمة العملية: توفير أدوات جديدة لأمان الذكاء الاصطناعي وحماية البيانات
الأهمية النظرية: إنشاء إطار عمل تحليلي نظري جديد
التطبيقات الصناعية: قابلة للتطبيق في حماية حقوق الطبع والنشر لمجموعات البيانات وغيرها

السيناريوهات المناسبة

نشر مجموعات البيانات: حماية حقوق الطبع والنشر لمجموعات البيانات مفتوحة المصدر
حماية الأعمال الفنية: منع الاستخدام غير المصرح به للذكاء الاصطناعي التوليدي
مشاركة البيانات المؤسسية: تتبع استخدام البيانات الداخلية
البحث الأكاديمي: التحقق من مصدر بيانات البحث

تفاصيل التنفيذ التقني

تدفق الخوارزمية

خوارزمية العلامات المائية بعد التسميم

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

خوارزمية الكشف

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

الضمانات النظرية

بناءً على عدم المساواة McDiarmid، للعلامات المائية بعد التسميم:

عندما q > (2/ε_w)√(2d log(1/ω))
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

اعتبارات النشر الفعلي

إدارة المفاتيح: دعم تدوير المفاتيح والمصادقة HMAC
التحقق من السلامة: ضمان سلامة البيانات باستخدام SHA256
التحكم في الوصول: توزيع مفاتيح آمن بناءً على HTTPS
قابلية التوسع: دعم معالجة مجموعات البيانات الكبيرة

الملخص: تقدم هذه الورقة مساهمات رائدة في المجال المتقاطع بين تسميم البيانات وتقنيات العلامات المائية، حيث توفر ليس فقط تحليلاً نظرياً صارماً بل أيضاً حلولاً عملية. على الرغم من وجود مجال للتحسين في متانة الدفاع واكتمال النظرية، فإن المشكلة التي تحلها ذات أهمية واقعية كبيرة، وتوفر اتجاهات بحثية وأدوات جديدة لمجالات أمان الذكاء الاصطناعي وحماية البيانات.