HoneypotNet: Backdoor Attacks Against Model Extraction
Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic
HoneypotNet: هجمات الأبواب الخلفية ضد استخراج النماذج
تُعتبر هجمات استخراج النماذج هجمات وقت الاستدلال التي تستغل نتائج التنبؤ من نموذج الضحية الأسود الصندوق من خلال عدد معين من الاستعلامات لتدريب نموذج بديل يقارب وظائف وأداء النموذج الأصلي. تشكل هذه الهجمات تهديداً أماناً خطيراً للنماذج الإنتاجية ومنصات التعلم الآلي كخدمة (MLaaS)، مما قد يسبب خسائر اقتصادية كبيرة لأصحاب النماذج. تقترح هذه الورقة نموذج دفاع جديد "الهجوم كدفاع" (attack as defense) من خلال تعديل مخرجات النموذج لجعلها سامة، بحيث يتعرض أي مستخدم خبيث يحاول استخدام هذه المخرجات لتدريب نموذج بديل للتسمم. لهذا الغرض، يقترح المؤلفون طريقة HoneypotNet وهي طريقة هجوم باب خلفي خفيفة الوزن، تستبدل طبقة التصنيف في النموذج الضحية بطبقة عسل، وتقوم بضبط طبقة العسل من خلال تحسين ثنائي المستوى ونماذج الظل (التي تحاكي عملية استخراج النموذج)، مما يحافظ على الأداء الأصلية بينما يجعل المخرجات سامة.
أصبحت هجمات استخراج النماذج أحد التهديدات الرئيسية التي تواجه منصات التعلم الآلي كخدمة. يقوم المهاجمون باستعلام النموذج الأسود الصندوق عبر واجهات برمجية (APIs)، ويستخدمون نتائج التنبؤ المُرجعة لتدريب نموذج بديل ذي وظائف مماثلة، مما يؤدي إلى سرقة الملكية الفكرية للنموذج.
تعاني طرق الدفاع التقليدية من مشكلة سباق التسلح، تقترح هذه الورقة نموذج دفاع جديد "الهجوم كدفاع" يقوم بمهاجمة النموذج البديل بشكل استباقي لتدمير وظائفه، مما يشكل رادعاً قوياً للمهاجمين.
استخدام طريقة كشف Cognitive Distillation (CD) أظهرت أن توزيع L1 norm للعينات النظيفة وعينات الباب الخلفي متشابهة جداً، مما يشير إلى أن محفز UAP يتمتع بخفاء جيد.
تستشهد الورقة بأعمال مهمة في مجالات أمان التعلم الآلي، هجمات واستخراج النماذج، والهجمات بالأبواب الخلفية، بما في ذلك KnockoffNets و ActiveThief والأعمال الرائدة في الهجمات بالأبواب الخلفية، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: تتمتع طريقة HoneypotNet المقترحة في هذه الورقة بأهمية ابتكارية كبيرة في مجال دفاع استخراج النماذج، وتفتح فكرة "الهجوم كدفاع" اتجاهاً بحثياً جديداً في هذا المجال. التنفيذ التقني ذكي، والتقييم التجريبي شامل، مع قيمة أكاديمية وعملية عالية. على الرغم من وجود مجال للتحسين في التحليل النظري وبعض التفاصيل التقنية، إلا أن العمل بشكل عام يتمتع بجودة عالية.