HoneypotNet: Backdoor Attacks Against Model Extraction
Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic
HoneypotNet : Attaques par Porte Dérobée Contre l'Extraction de Modèles
Les attaques par extraction de modèles constituent une attaque au moment de l'inférence qui exploite les résultats de prédiction d'un modèle victime en boîte noire par le biais de requêtes pour entraîner un modèle de substitution, approximant ainsi les fonctionnalités et les performances du modèle victime. Ces attaques posent une menace de sécurité grave pour les modèles en production et les plateformes MLaaS, pouvant causer des pertes économiques importantes aux propriétaires de modèles. Cet article propose un nouveau paradigme de défense « l'attaque comme défense » (attack as defense), en modifiant les sorties du modèle pour les rendre toxiques, de sorte que tout utilisateur malveillant tentant d'entraîner un modèle de substitution avec ces sorties soit empoisonné. À cette fin, les auteurs proposent HoneypotNet, une méthode de porte dérobée légère qui remplace la couche de classification du modèle victime par une couche de miel et affine la couche de miel par optimisation bicouche et modèles fantômes (simulant le processus d'extraction de modèles), rendant les sorties toxiques tout en maintenant les performances d'origine.
Les attaques par extraction de modèles sont devenues l'une des principales menaces auxquelles font face les plateformes d'apprentissage automatique en tant que service (MLaaS). Les attaquants interrogent les modèles en boîte noire via des API et utilisent les résultats de prédiction renvoyés pour entraîner des modèles de substitution aux fonctionnalités similaires, volant ainsi la propriété intellectuelle du modèle.
Les méthodes de défense existantes se divisent principalement en deux catégories :
Défense Passive : Détection des requêtes malveillantes ou vérification post-hoc par filigrane, mais dépend des connaissances préalables avec une efficacité limitée
Défense Active : Perturbation des sorties du modèle ou augmentation des coûts de requête pour empêcher l'extraction, mais avec un surcoût de calcul important et pouvant être contournée par des attaques avancées
Les méthodes de défense traditionnelles présentent un problème de course aux armements. Cet article propose un nouveau paradigme « l'attaque comme défense », attaquant activement le modèle de substitution pour compromettre ses fonctionnalités, créant un effet dissuasif puissant pour les attaquants.
Nouveau Paradigme de Défense : Première proposition du paradigme de défense « l'attaque comme défense » (attack as defense), attaquant activement le modèle de substitution par porte dérobée
Méthode HoneypotNet : Conception d'une couche de miel légère remplaçant la couche de classification d'origine, générant des vecteurs de probabilité toxiques par optimisation bicouche
Porte Dérobée sans Déclencheur : Utilisation innovante de perturbations adversariales universelles (UAP) comme déclencheur de porte dérobée, sans injection explicite de déclencheur dans les images
Fonction Duelle : La porte dérobée injectée permet à la fois la vérification de propriété et la destruction des fonctionnalités du modèle de substitution, créant un effet dissuasif puissant
Vérification Expérimentale : Vérification de l'efficacité de la méthode sur quatre ensembles de données de référence, avec un taux de réussite d'attaque de 56,99 % à 92,35 %
Les tests utilisant la méthode de détection Cognitive Distillation (CD) montrent que les distributions de norme L1 des échantillons propres et des échantillons de porte dérobée sont hautement similaires, indiquant une bonne discrétion du déclencheur UAP.
Les tests contre la défense Reconstructive Neuron Pruning (RNP) montrent que l'ASR reste à un niveau élevé même après élagage, démontrant la robustesse de la porte dérobée.
Efficacité du Nouveau Paradigme : Le paradigme « l'attaque comme défense » offre une nouvelle perspective pour la défense contre l'extraction de modèles
Faisabilité Technique : HoneypotNet réalise avec succès l'injection de porte dérobée légère
Valeur Pratique : La méthode fonctionne bien dans divers scénarios d'attaque et possède un potentiel d'application pratique
L'article cite des travaux importants dans les domaines de la sécurité de l'apprentissage automatique, des attaques et défenses par extraction de modèles, et des attaques par porte dérobée, fournissant une base théorique solide pour la recherche.
Évaluation Globale : La méthode HoneypotNet proposée dans cet article possède une importance innovante significative dans le domaine de la défense contre l'extraction de modèles. L'approche « l'attaque comme défense » ouvre une nouvelle direction de recherche dans ce domaine. L'implémentation technique est ingénieuse, l'évaluation expérimentale est complète, et elle possède une valeur académique et pratique considérable. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et certains détails techniques, il s'agit globalement d'un travail de recherche de haute qualité.