2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.

Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.

academic

HoneypotNet: هجمات الأبواب الخلفية ضد استخراج النماذج

المعلومات الأساسية

معرّف الورقة: 2501.01090
العنوان: HoneypotNet: Backdoor Attacks Against Model Extraction
المؤلفون: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
التصنيف: cs.CR (التشفير والأمان)، cs.CV (رؤية الحاسوب)
تاريخ النشر/المؤتمر: مُرسلة إلى arXiv في 2 يناير 2025
رابط الورقة: https://arxiv.org/abs/2501.01090

الملخص

تُعتبر هجمات استخراج النماذج هجمات وقت الاستدلال التي تستغل نتائج التنبؤ من نموذج الضحية الأسود الصندوق من خلال عدد معين من الاستعلامات لتدريب نموذج بديل يقارب وظائف وأداء النموذج الأصلي. تشكل هذه الهجمات تهديداً أماناً خطيراً للنماذج الإنتاجية ومنصات التعلم الآلي كخدمة (MLaaS)، مما قد يسبب خسائر اقتصادية كبيرة لأصحاب النماذج. تقترح هذه الورقة نموذج دفاع جديد "الهجوم كدفاع" (attack as defense) من خلال تعديل مخرجات النموذج لجعلها سامة، بحيث يتعرض أي مستخدم خبيث يحاول استخدام هذه المخرجات لتدريب نموذج بديل للتسمم. لهذا الغرض، يقترح المؤلفون طريقة HoneypotNet وهي طريقة هجوم باب خلفي خفيفة الوزن، تستبدل طبقة التصنيف في النموذج الضحية بطبقة عسل، وتقوم بضبط طبقة العسل من خلال تحسين ثنائي المستوى ونماذج الظل (التي تحاكي عملية استخراج النموذج)، مما يحافظ على الأداء الأصلية بينما يجعل المخرجات سامة.

خلفية البحث والدافع

تعريف المشكلة

أصبحت هجمات استخراج النماذج أحد التهديدات الرئيسية التي تواجه منصات التعلم الآلي كخدمة. يقوم المهاجمون باستعلام النموذج الأسود الصندوق عبر واجهات برمجية (APIs)، ويستخدمون نتائج التنبؤ المُرجعة لتدريب نموذج بديل ذي وظائف مماثلة، مما يؤدي إلى سرقة الملكية الفكرية للنموذج.

أهمية المشكلة

الخسائر الاقتصادية: قد تؤدي هجمات استخراج النماذج إلى خسائر اقتصادية كبيرة لأصحاب النماذج
حماية الملكية الفكرية: تتطلب نماذج التعلم العميق تكاليف تدريب عالية وتحتاج إلى حماية فعّالة
التهديدات الأمنية: يمكن للمهاجمين استخدام النماذج المستخرجة لشن هجمات معاكسة إضافية

قيود الطرق الموجودة

تنقسم طرق الدفاع الموجودة إلى فئتين رئيسيتين:

الدفاع السلبي: من خلال كشف الاستعلامات الخبيثة أو استخدام العلامات المائية للتحقق اللاحق، لكنها تعتمد على معرفة مسبقة وفعاليتها محدودة
الدفاع الاستباقي: من خلال تشويه مخرجات النموذج أو زيادة تكاليف الاستعلام لمنع الاستخراج، لكن التكاليف الحسابية كبيرة وقد يتم تجاوزها بهجمات متقدمة

دافع البحث

تعاني طرق الدفاع التقليدية من مشكلة سباق التسلح، تقترح هذه الورقة نموذج دفاع جديد "الهجوم كدفاع" يقوم بمهاجمة النموذج البديل بشكل استباقي لتدمير وظائفه، مما يشكل رادعاً قوياً للمهاجمين.

المساهمات الأساسية

نموذج دفاع جديد: تقترح للمرة الأولى نموذج دفاع "الهجوم كدفاع" (attack as defense)، الذي يقوم بمهاجمة النموذج البديل بشكل استباقي بأبواب خلفية
طريقة HoneypotNet: تصميم طبقة عسل خفيفة الوزن تستبدل طبقة التصنيف الأصلية، وتولد متجهات احتمالية سامة من خلال تحسين ثنائي المستوى
باب خلفي بدون محفز: استخدام مبتكر للاضطراب المعاكس العام (UAP) كمحفز للباب الخلفي، بدون الحاجة لحقن محفز صريح في الصور
وظيفة مزدوجة: يعمل الباب الخلفي المحقون على التحقق من الملكية وتدمير وظائف النموذج البديل في نفس الوقت، مما يشكل تأثير رادع قوي
التحقق التجريبي: التحقق من فعالية الطريقة على أربع مجموعات بيانات معيارية، مع معدل نجاح الهجوم يصل إلى 56.99%-92.35%

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج ضحية F، الهدف هو تصميم طبقة عسل H بحيث:

الحفاظ على الأداء الأصلية على المدخلات العادية
عندما يستخدم المهاجم مخرجات H لتدريب نموذج بديل F̂، يتم حقن F̂ بباب خلفي
يمكن استخدام الباب الخلفي للتحقق من الملكية والهجوم المعاكس

معمارية النموذج

تصميم طبقة العسل

يتم تعريف طبقة العسل H كطبقة متصلة بالكامل:

H(x) = W · F_feat(x) + b

حيث F_feat(x) هو مخرج الميزات من النموذج الضحية، و W و b هما معاملات قابلة للتعلم.

إطار التحسين ثنائي المستوى

الهدف الأساسي للتحسين هو:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

مع القيود:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

عملية التكرار ثلاثية الخطوات

محاكاة الاستخراج: استخدام نموذج الظل Fs لمحاكاة عملية استخراج النموذج من قبل المهاجم
توليد المحفز: توليد محفز UAP من خلال تحديث إشارة التدرج
الضبط الدقيق: تحديث معاملات طبقة العسل لحقن الباب الخلفي مع الحفاظ على الوظائف العادية

نقاط الابتكار التقني

الاضطراب المعاكس العام كمحفز

الاستفادة من الضعف المعاكس الفطري في نماذج التعلم العميق
يمكن استخدام UAP كمحفز بدون سمية، بدون الحاجة للحقن الصريح
تحقيق نقل الباب الخلفي من خلال مشاركة الضعف المعاكس

تحديث المحفز بتحسين الزخم

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

قيود القناع

استخدام قناع محدد مسبقاً M لتقييد موقع المحفز، مما يعزز الخفاء.

إعداد التجارب

مجموعات البيانات

مجموعة بيانات النموذج الضحية: CIFAR10، CIFAR100، Caltech256، CUBS200
مجموعة بيانات الهجوم: ImageNet (1.2 مليون صورة)
مجموعة بيانات الظل: CC3M (5000 صورة مختارة عشوائياً)
مجموعة بيانات التحقق: مجموعة بيانات صغيرة ذات صلة بالمهمة

مؤشرات التقييم

دقة الاختبار النظيفة (Acc_c): دقة النموذج البديل على عينات الاختبار النظيفة
دقة اختبار التحقق (Acc_v): دقة النموذج البديل في التنبؤ بالتسمية المستهدفة على عينات المحفز
معدل نجاح الهجوم (ASR): معدل نجاح المدافع في تنفيذ الهجوم المعاكس

طرق المقارنة

هجمات الاستخراج: KnockoffNets، ActiveThief (Entropy & k-Center)، SPSG، BlackBox Dissector
طرق الدفاع الأساسية: بدون دفاع، DVBW (طريقة التحقق من ملكية مجموعة البيانات)

تفاصيل التنفيذ

تكرارات BLO: 30 تكراراً، كل تكرار يتضمن 3 خطوات بـ 5 حقب لكل منها
نموذج الظل: ResNet18 (خفيف الوزن)
حجم المحفز: 6×6 لمجموعات بيانات CIFAR، 28×28 لمجموعات البيانات الأخرى
المُحسِّن: SGD، زخم 0.9، معدل تعلم 0.1 (نموذج الظل)/0.02 (طبقة العسل)

نتائج التجارب

النتائج الرئيسية

تحت ميزانية استعلام 30k، حققت HoneypotNet نتائج ملحوظة على جميع مجموعات البيانات وطرق الهجوم:

طريقة الهجوم	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
KnockoffNets	59.35%	85.71%	78.31%	79.13%
ActiveThief (Entropy)	56.99%	74.35%	83.22%	77.43%
ActiveThief (k-Center)	67.49%	74.63%	80.27%	80.80%
SPSG	66.12%	77.11%	83.51%	77.88%
BlackBox Dissector	78.59%	80.05%	92.35%	78.98%

النتائج الرئيسية

معدل نجاح عالي: يتجاوز ASR 56% في جميع سيناريوهات الاختبار
الحفاظ على الأداء: Acc_c مماثلة تقريباً لحالة عدم وجود دفاع، مما لا يثير شكوك المهاجم
قدرة تحقق قوية: Acc_v أعلى بشكل ملحوظ من طرق الأساس، مما يدعم التحقق من الملكية بشكل فعّال
المتانة ضد التسميات الصعبة: تحافظ على فعالية عالية حتى تحت هجوم BlackBox Dissector للتسميات الصعبة

التجارب الاستئصالية

تأثير حجم المحفز

أظهرت التجارب مع أحجام محفز من 1×1 إلى 15×15:
المحفزات الأكبر تؤدي إلى معدل ASR أعلى
الحاجة إلى التوازن بين حجم المحفز والخفاء

معماريات النماذج البديلة المختلفة

المعمارية	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
ResNet34	59.35%	85.71%	78.31%	79.13%
VGG16	97.16%	87.10%	89.82%	62.17%
DenseNet121	51.68%	53.72%	65.46%	58.00%

تحليل متانة الدفاع

تجنب كشف الباب الخلفي

استخدام طريقة كشف Cognitive Distillation (CD) أظهرت أن توزيع L1 norm للعينات النظيفة وعينات الباب الخلفي متشابهة جداً، مما يشير إلى أن محفز UAP يتمتع بخفاء جيد.

متانة قص الأعصاب

أظهرت الاختبارات ضد دفاع Reconstructive Neuron Pruning (RNP) أن ASR يبقى عند مستوى عالي حتى بعد معالجة القص، مما يدل على متانة الباب الخلفي.

الأعمال ذات الصلة

هجمات استخراج النماذج

طرق توليد البيانات: استخدام الشبكات التوليدية الخصومية (GANs) أو نماذج الانتشار لتوليد بيانات تدريب اصطناعية
طرق اختيار البيانات: اختيار عينات غنية بالمعلومات من مجموعة بيانات محفوظة مسبقاً، مثل KnockoffNets و ActiveThief

دفاعات استخراج النماذج

كشف الاستخراج: مراقبة سلوك استعلام المستخدم لكشف المستخدمين الخبثاء
إثبات العمل: زيادة تكاليف الاستعلام
علامات النموذج المائية: حقن ميزات قابلة للتحقق
تشويه التنبؤ: إضافة تشويه إلى تنبؤات النموذج

الهجمات بالأبواب الخلفية

هجمات الصور الملوثة: حقن عينات مع محفزات في بيانات التدريب
هجمات الصور النظيفة: حقن الأبواب الخلفية مباشرة بدون تعديل الصور

الخلاصة والنقاش

الاستنتاجات الرئيسية

فعالية النموذج الجديد: نموذج "الهجوم كدفاع" يوفر منظوراً جديداً لدفاع استخراج النماذج
الجدوى التقنية: نجحت HoneypotNet في تنفيذ حقن باب خلفي خفيف الوزن
القيمة العملية: تظهر الطريقة أداءً ممتازاً في سيناريوهات هجوم متعددة، مع إمكانية تطبيق عملي

القيود

التكاليف الحسابية: على الرغم من أنها خفيفة نسبياً، لا تزال تتطلب عملية تحسين ثنائية المستوى
رؤية المحفز: قد يتم اكتشاف المحفزات الأكبر
الاعتماد على المعمارية: يختلف التأثير على معماريات النماذج البديلة المختلفة
الدفاع المعاكس: قد تواجه طرق دفاع أكثر تقدماً

الاتجاهات المستقبلية

دمج نماذج الظل: استخدام نماذج ظل متعددة لتحسين المتانة
محفزات تكيفية: تصميم طرق توليد محفزات أكثر خفاءً
التطبيقات الموسعة: توسيع الطريقة لأنواع نماذج ومهام أخرى
التحليل النظري: توفير ضمانات نظرية أعمق

التقييم المتعمق

المميزات

الابتكار القوي: تقترح للمرة الأولى نموذج دفاع "الهجوم كدفاع"، بفكرة مبتكرة
التقنية المتقدمة: دمج ذكي لـ UAP والهجمات بالأبواب الخلفية، حل المشكلة التقنية لحقن بدون محفز
التجارب الشاملة: تقييم شامل على مجموعات بيانات متعددة وطرق هجوم متنوعة
القيمة العملية العالية: طريقة خفيفة الوزن، مناسبة للنشر في الأنظمة الفعلية
الوظيفة المزدوجة: تحقق من الملكية وتدمير الوظائف في نفس الوقت، تأثير رادع قوي

أوجه القصور

نقص التحليل النظري: افتقار إلى ضمانات نظرية لتقارب الطريقة والأمان
قيود الدفاع: متانة الطريقة ضد بعض طرق الهجوم المتقدمة تحتاج إلى التحقق الإضافي
الاعتبارات الأخلاقية: قد يثير الهجوم الاستباقي على النماذج البديلة مسائل أخلاقية وقانونية
نطاق التطبيق: تركز بشكل أساسي على مهام تصنيف الصور، وتطبيقها على مهام أخرى غير معروف

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمجال دفاع أمان النماذج
القيمة العملية: توفير أداة دفاع عملية لمنصات التعلم الآلي كخدمة
قابلية الاستنساخ: توفر الورقة تفاصيل تنفيذ مفصلة، مما يسهل الاستنساخ
الإلهام: قد تلهم المزيد من طرق الدفاع من نوع "الهجوم كدفاع"

السيناريوهات المناسبة

منصات التعلم الآلي كخدمة: حماية النماذج في الخدمات السحابية
النماذج التجارية: حماية الملكية الفكرية لنماذج التعلم العميق عالية القيمة
خدمات واجهات برمجية: خدمات الاستدلال عبر الإنترنت التي تحتاج إلى منع سرقة النماذج
النشر على الحافة: دفاع خفيف الوزن في بيئات الموارد المحدودة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات أمان التعلم الآلي، هجمات واستخراج النماذج، والهجمات بالأبواب الخلفية، بما في ذلك KnockoffNets و ActiveThief والأعمال الرائدة في الهجمات بالأبواب الخلفية، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: تتمتع طريقة HoneypotNet المقترحة في هذه الورقة بأهمية ابتكارية كبيرة في مجال دفاع استخراج النماذج، وتفتح فكرة "الهجوم كدفاع" اتجاهاً بحثياً جديداً في هذا المجال. التنفيذ التقني ذكي، والتقييم التجريبي شامل، مع قيمة أكاديمية وعملية عالية. على الرغم من وجود مجال للتحسين في التحليل النظري وبعض التفاصيل التقنية، إلا أن العمل بشكل عام يتمتع بجودة عالية.