2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic

HoneypotNet : Attaques par Porte Dérobée Contre l'Extraction de Modèles

Informations Fondamentales

  • ID de l'Article : 2501.01090
  • Titre : HoneypotNet: Backdoor Attacks Against Model Extraction
  • Auteurs : Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
  • Classification : cs.CR (Cryptographie et Sécurité), cs.CV (Vision par Ordinateur)
  • Date de Soumission/Conférence : Soumis à arXiv le 2 janvier 2025
  • Lien de l'Article : https://arxiv.org/abs/2501.01090

Résumé

Les attaques par extraction de modèles constituent une attaque au moment de l'inférence qui exploite les résultats de prédiction d'un modèle victime en boîte noire par le biais de requêtes pour entraîner un modèle de substitution, approximant ainsi les fonctionnalités et les performances du modèle victime. Ces attaques posent une menace de sécurité grave pour les modèles en production et les plateformes MLaaS, pouvant causer des pertes économiques importantes aux propriétaires de modèles. Cet article propose un nouveau paradigme de défense « l'attaque comme défense » (attack as defense), en modifiant les sorties du modèle pour les rendre toxiques, de sorte que tout utilisateur malveillant tentant d'entraîner un modèle de substitution avec ces sorties soit empoisonné. À cette fin, les auteurs proposent HoneypotNet, une méthode de porte dérobée légère qui remplace la couche de classification du modèle victime par une couche de miel et affine la couche de miel par optimisation bicouche et modèles fantômes (simulant le processus d'extraction de modèles), rendant les sorties toxiques tout en maintenant les performances d'origine.

Contexte et Motivation de la Recherche

Définition du Problème

Les attaques par extraction de modèles sont devenues l'une des principales menaces auxquelles font face les plateformes d'apprentissage automatique en tant que service (MLaaS). Les attaquants interrogent les modèles en boîte noire via des API et utilisent les résultats de prédiction renvoyés pour entraîner des modèles de substitution aux fonctionnalités similaires, volant ainsi la propriété intellectuelle du modèle.

Importance du Problème

  1. Pertes Économiques : Les attaques par extraction de modèles peuvent entraîner des pertes économiques importantes pour les propriétaires de modèles
  2. Protection de la Propriété Intellectuelle : Les modèles d'apprentissage profond coûtent cher à entraîner et nécessitent une protection efficace
  3. Menaces de Sécurité : Les attaquants peuvent utiliser les modèles extraits pour mener des attaques adversariales supplémentaires

Limitations des Méthodes Existantes

Les méthodes de défense existantes se divisent principalement en deux catégories :

  1. Défense Passive : Détection des requêtes malveillantes ou vérification post-hoc par filigrane, mais dépend des connaissances préalables avec une efficacité limitée
  2. Défense Active : Perturbation des sorties du modèle ou augmentation des coûts de requête pour empêcher l'extraction, mais avec un surcoût de calcul important et pouvant être contournée par des attaques avancées

Motivation de la Recherche

Les méthodes de défense traditionnelles présentent un problème de course aux armements. Cet article propose un nouveau paradigme « l'attaque comme défense », attaquant activement le modèle de substitution pour compromettre ses fonctionnalités, créant un effet dissuasif puissant pour les attaquants.

Contributions Principales

  1. Nouveau Paradigme de Défense : Première proposition du paradigme de défense « l'attaque comme défense » (attack as defense), attaquant activement le modèle de substitution par porte dérobée
  2. Méthode HoneypotNet : Conception d'une couche de miel légère remplaçant la couche de classification d'origine, générant des vecteurs de probabilité toxiques par optimisation bicouche
  3. Porte Dérobée sans Déclencheur : Utilisation innovante de perturbations adversariales universelles (UAP) comme déclencheur de porte dérobée, sans injection explicite de déclencheur dans les images
  4. Fonction Duelle : La porte dérobée injectée permet à la fois la vérification de propriété et la destruction des fonctionnalités du modèle de substitution, créant un effet dissuasif puissant
  5. Vérification Expérimentale : Vérification de l'efficacité de la méthode sur quatre ensembles de données de référence, avec un taux de réussite d'attaque de 56,99 % à 92,35 %

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle victime F, l'objectif est de concevoir une couche de miel H telle que :

  • Les performances d'origine soient maintenues sur les entrées normales
  • Lorsque l'attaquant utilise les sorties de H pour entraîner un modèle de substitution F̂, F̂ soit injecté avec une porte dérobée
  • La porte dérobée puisse être utilisée pour la vérification de propriété et les attaques inverses

Architecture du Modèle

Conception de la Couche de Miel

La couche de miel H est définie comme une couche entièrement connectée :

H(x) = W · F_feat(x) + b

où F_feat(x) est la sortie des caractéristiques du modèle victime, et W et b sont des paramètres apprenables.

Cadre d'Optimisation Bicouche

L'objectif d'optimisation principal est :

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Avec les contraintes :

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Processus Itératif en Trois Étapes

  1. Simulation d'Extraction : Utilisation d'un modèle fantôme Fs pour simuler le processus d'extraction de modèles de l'attaquant
  2. Génération de Déclencheur : Génération du déclencheur UAP par mise à jour du signe du gradient
  3. Affinage : Mise à jour des paramètres de la couche de miel pour injecter la porte dérobée tout en maintenant les fonctionnalités normales

Points d'Innovation Technique

Perturbations Adversariales Universelles comme Déclencheur

  • Exploitation de la fragilité adversariale inhérente aux modèles d'apprentissage profond
  • L'UAP peut servir de déclencheur non toxique sans injection explicite
  • Réalisation de la transmission de porte dérobée par partage de fragilité adversariale

Mise à Jour du Déclencheur par Optimisation Momentum

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Contrainte de Masque

Utilisation d'un masque prédéfini M pour limiter l'emplacement du déclencheur, améliorant la discrétion.

Configuration Expérimentale

Ensembles de Données

  • Ensemble de Données du Modèle Victime : CIFAR10, CIFAR100, Caltech256, CUBS200
  • Ensemble de Données d'Attaque : ImageNet (1,2 million d'images)
  • Ensemble de Données Fantôme : CC3M (5000 images sélectionnées aléatoirement)
  • Ensemble de Données de Validation : Petit ensemble de données pertinent pour la tâche

Métriques d'Évaluation

  1. Précision de Test Propre (Acc_c) : Précision du modèle de substitution sur les échantillons de test propres
  2. Précision de Test de Vérification (Acc_v) : Précision du modèle de substitution prédisant l'étiquette cible sur les échantillons déclencheurs
  3. Taux de Réussite d'Attaque (ASR) : Taux de réussite du défenseur dans les attaques inverses

Méthodes de Comparaison

  • Attaques d'Extraction : KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
  • Défenses de Base : Aucune défense, DVBW (méthode de vérification de propriété d'ensemble de données)

Détails d'Implémentation

  • Itérations BLO : 30 itérations, chacune comprenant 3 étapes de 5 epochs
  • Modèle Fantôme : ResNet18 (léger)
  • Taille du Déclencheur : 6×6 pour les ensembles de données CIFAR, 28×28 pour les autres
  • Optimiseur : SGD, momentum 0,9, taux d'apprentissage 0,1 (modèle fantôme)/0,02 (couche de miel)

Résultats Expérimentaux

Résultats Principaux

Avec un budget de requête de 30k, HoneypotNet obtient des résultats significatifs sur tous les ensembles de données et méthodes d'attaque :

Méthode d'AttaqueASR CIFAR10ASR CIFAR100ASR CUBS200ASR Caltech256
KnockoffNets59,35 %85,71 %78,31 %79,13 %
ActiveThief (Entropy)56,99 %74,35 %83,22 %77,43 %
ActiveThief (k-Center)67,49 %74,63 %80,27 %80,80 %
SPSG66,12 %77,11 %83,51 %77,88 %
BlackBox Dissector78,59 %80,05 %92,35 %78,98 %

Découvertes Clés

  1. Taux de Réussite Élevé : L'ASR dépasse 56 % dans tous les scénarios de test
  2. Maintien des Performances : Acc_c est essentiellement équivalent au cas sans défense, ne suscitant pas la suspicion de l'attaquant
  3. Capacité de Vérification Forte : Acc_v est significativement supérieur aux méthodes de base, soutenant efficacement la vérification de propriété
  4. Robustesse aux Étiquettes Dures : Maintient une efficacité élevée même sous l'attaque d'étiquettes dures de BlackBox Dissector

Études d'Ablation

Impact de la Taille du Déclencheur

  • Les expériences avec des tailles de déclencheur de 1×1 à 15×15 montrent :
  • Les déclencheurs plus grands apportent un ASR plus élevé
  • Nécessité d'équilibrer la taille du déclencheur et la discrétion

Différentes Architectures de Modèles de Substitution

ArchitectureASR CIFAR10ASR CIFAR100ASR CUBS200ASR Caltech256
ResNet3459,35 %85,71 %78,31 %79,13 %
VGG1697,16 %87,10 %89,82 %62,17 %
DenseNet12151,68 %53,72 %65,46 %58,00 %

Analyse de la Robustesse de la Défense

Contournement de la Détection de Porte Dérobée

Les tests utilisant la méthode de détection Cognitive Distillation (CD) montrent que les distributions de norme L1 des échantillons propres et des échantillons de porte dérobée sont hautement similaires, indiquant une bonne discrétion du déclencheur UAP.

Robustesse à l'Élagage Neuronal

Les tests contre la défense Reconstructive Neuron Pruning (RNP) montrent que l'ASR reste à un niveau élevé même après élagage, démontrant la robustesse de la porte dérobée.

Travaux Connexes

Attaques par Extraction de Modèles

  1. Méthodes de Synthèse de Données : Utilisation de GANs ou de modèles de diffusion pour générer des données d'entraînement synthétiques
  2. Méthodes de Sélection de Données : Sélection d'échantillons informatifs à partir d'un pool de données préexistant, comme KnockoffNets, ActiveThief

Défenses contre l'Extraction de Modèles

  1. Détection d'Extraction : Surveillance du comportement de requête de l'utilisateur pour détecter les utilisateurs malveillants
  2. Preuve de Travail : Augmentation des coûts de requête
  3. Filigrane de Modèle : Intégration de caractéristiques vérifiables
  4. Perturbation de Prédiction : Ajout de perturbations aux prédictions du modèle

Attaques par Porte Dérobée

  1. Attaques d'Images Sales : Injection d'échantillons avec déclencheur dans les données d'entraînement
  2. Attaques d'Images Propres : Injection de porte dérobée directement sans modification d'image

Conclusion et Discussion

Conclusions Principales

  1. Efficacité du Nouveau Paradigme : Le paradigme « l'attaque comme défense » offre une nouvelle perspective pour la défense contre l'extraction de modèles
  2. Faisabilité Technique : HoneypotNet réalise avec succès l'injection de porte dérobée légère
  3. Valeur Pratique : La méthode fonctionne bien dans divers scénarios d'attaque et possède un potentiel d'application pratique

Limitations

  1. Surcoût de Calcul : Bien que relativement léger, le processus d'optimisation bicouche nécessite toujours des ressources
  2. Visibilité du Déclencheur : Les déclencheurs plus grands peuvent être découverts
  3. Dépendance à l'Architecture : L'efficacité varie selon les différentes architectures de modèles de substitution
  4. Défense Adversariale : Peut faire face à des méthodes de défense plus avancées

Directions Futures

  1. Intégration de Modèles Fantômes : Utilisation de plusieurs modèles fantômes pour améliorer la robustesse
  2. Déclencheurs Adaptatifs : Conception de méthodes de génération de déclencheur plus discrètes
  3. Extension d'Application : Extension de la méthode à d'autres types de modèles et tâches
  4. Analyse Théorique : Fourniture de garanties théoriques plus approfondies

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Première proposition du paradigme de défense « l'attaque comme défense », approche novatrice
  2. Technique Avancée : Combinaison astucieuse d'UAP et d'attaques par porte dérobée, résolvant le problème technique d'injection sans déclencheur
  3. Expérimentation Complète : Évaluation complète sur plusieurs ensembles de données et diverses méthodes d'attaque
  4. Valeur Pratique Élevée : Méthode légère, adaptée au déploiement dans les systèmes réels
  5. Fonction Duelle : Réalisation simultanée de la vérification de propriété et de la destruction de fonctionnalités, effet dissuasif puissant

Insuffisances

  1. Analyse Théorique Insuffisante : Manque de garanties théoriques sur la convergence et la sécurité de la méthode
  2. Limitations de la Défense : La robustesse contre certaines méthodes d'attaque avancées nécessite une vérification supplémentaire
  3. Considérations Éthiques : Les attaques actives contre les modèles de substitution peuvent soulever des questions éthiques et juridiques
  4. Portée d'Application : Principalement axée sur les tâches de classification d'images, l'applicabilité à d'autres tâches est inconnue

Impact

  1. Contribution Académique : Fournit une nouvelle direction de recherche pour la défense de la sécurité des modèles
  2. Valeur Pratique : Fournit un outil de défense pratique pour les plateformes MLaaS
  3. Reproductibilité : L'article fournit des détails d'implémentation détaillés, facilitant la reproduction
  4. Inspiration : Peut inspirer davantage de méthodes de défense de type « l'attaque comme défense »

Scénarios Applicables

  1. Plateformes MLaaS : Protection des modèles des services d'apprentissage automatique en nuage
  2. Modèles Commerciaux : Protection de la propriété intellectuelle des modèles d'apprentissage profond de haute valeur
  3. Services API : Services d'inférence en ligne nécessitant une défense contre le vol de modèles
  4. Déploiement Périphérique : Défense légère dans les environnements aux ressources limitées

Références

L'article cite des travaux importants dans les domaines de la sécurité de l'apprentissage automatique, des attaques et défenses par extraction de modèles, et des attaques par porte dérobée, fournissant une base théorique solide pour la recherche.


Évaluation Globale : La méthode HoneypotNet proposée dans cet article possède une importance innovante significative dans le domaine de la défense contre l'extraction de modèles. L'approche « l'attaque comme défense » ouvre une nouvelle direction de recherche dans ce domaine. L'implémentation technique est ingénieuse, l'évaluation expérimentale est complète, et elle possède une valeur académique et pratique considérable. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et certains détails techniques, il s'agit globalement d'un travail de recherche de haute qualité.