2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.

Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.

academic

HoneypotNet : Attaques par Porte Dérobée Contre l'Extraction de Modèles

Informations Fondamentales

ID de l'Article : 2501.01090
Titre : HoneypotNet: Backdoor Attacks Against Model Extraction
Auteurs : Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
Classification : cs.CR (Cryptographie et Sécurité), cs.CV (Vision par Ordinateur)
Date de Soumission/Conférence : Soumis à arXiv le 2 janvier 2025
Lien de l'Article : https://arxiv.org/abs/2501.01090

Résumé

Les attaques par extraction de modèles constituent une attaque au moment de l'inférence qui exploite les résultats de prédiction d'un modèle victime en boîte noire par le biais de requêtes pour entraîner un modèle de substitution, approximant ainsi les fonctionnalités et les performances du modèle victime. Ces attaques posent une menace de sécurité grave pour les modèles en production et les plateformes MLaaS, pouvant causer des pertes économiques importantes aux propriétaires de modèles. Cet article propose un nouveau paradigme de défense « l'attaque comme défense » (attack as defense), en modifiant les sorties du modèle pour les rendre toxiques, de sorte que tout utilisateur malveillant tentant d'entraîner un modèle de substitution avec ces sorties soit empoisonné. À cette fin, les auteurs proposent HoneypotNet, une méthode de porte dérobée légère qui remplace la couche de classification du modèle victime par une couche de miel et affine la couche de miel par optimisation bicouche et modèles fantômes (simulant le processus d'extraction de modèles), rendant les sorties toxiques tout en maintenant les performances d'origine.

Contexte et Motivation de la Recherche

Définition du Problème

Les attaques par extraction de modèles sont devenues l'une des principales menaces auxquelles font face les plateformes d'apprentissage automatique en tant que service (MLaaS). Les attaquants interrogent les modèles en boîte noire via des API et utilisent les résultats de prédiction renvoyés pour entraîner des modèles de substitution aux fonctionnalités similaires, volant ainsi la propriété intellectuelle du modèle.

Importance du Problème

Pertes Économiques : Les attaques par extraction de modèles peuvent entraîner des pertes économiques importantes pour les propriétaires de modèles
Protection de la Propriété Intellectuelle : Les modèles d'apprentissage profond coûtent cher à entraîner et nécessitent une protection efficace
Menaces de Sécurité : Les attaquants peuvent utiliser les modèles extraits pour mener des attaques adversariales supplémentaires

Limitations des Méthodes Existantes

Les méthodes de défense existantes se divisent principalement en deux catégories :

Défense Passive : Détection des requêtes malveillantes ou vérification post-hoc par filigrane, mais dépend des connaissances préalables avec une efficacité limitée
Défense Active : Perturbation des sorties du modèle ou augmentation des coûts de requête pour empêcher l'extraction, mais avec un surcoût de calcul important et pouvant être contournée par des attaques avancées

Motivation de la Recherche

Les méthodes de défense traditionnelles présentent un problème de course aux armements. Cet article propose un nouveau paradigme « l'attaque comme défense », attaquant activement le modèle de substitution pour compromettre ses fonctionnalités, créant un effet dissuasif puissant pour les attaquants.

Contributions Principales

Nouveau Paradigme de Défense : Première proposition du paradigme de défense « l'attaque comme défense » (attack as defense), attaquant activement le modèle de substitution par porte dérobée
Méthode HoneypotNet : Conception d'une couche de miel légère remplaçant la couche de classification d'origine, générant des vecteurs de probabilité toxiques par optimisation bicouche
Porte Dérobée sans Déclencheur : Utilisation innovante de perturbations adversariales universelles (UAP) comme déclencheur de porte dérobée, sans injection explicite de déclencheur dans les images
Fonction Duelle : La porte dérobée injectée permet à la fois la vérification de propriété et la destruction des fonctionnalités du modèle de substitution, créant un effet dissuasif puissant
Vérification Expérimentale : Vérification de l'efficacité de la méthode sur quatre ensembles de données de référence, avec un taux de réussite d'attaque de 56,99 % à 92,35 %

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle victime F, l'objectif est de concevoir une couche de miel H telle que :

Les performances d'origine soient maintenues sur les entrées normales
Lorsque l'attaquant utilise les sorties de H pour entraîner un modèle de substitution F̂, F̂ soit injecté avec une porte dérobée
La porte dérobée puisse être utilisée pour la vérification de propriété et les attaques inverses

Architecture du Modèle

Conception de la Couche de Miel

La couche de miel H est définie comme une couche entièrement connectée :

H(x) = W · F_feat(x) + b

où F_feat(x) est la sortie des caractéristiques du modèle victime, et W et b sont des paramètres apprenables.

Cadre d'Optimisation Bicouche

L'objectif d'optimisation principal est :

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Avec les contraintes :

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Processus Itératif en Trois Étapes

Simulation d'Extraction : Utilisation d'un modèle fantôme Fs pour simuler le processus d'extraction de modèles de l'attaquant
Génération de Déclencheur : Génération du déclencheur UAP par mise à jour du signe du gradient
Affinage : Mise à jour des paramètres de la couche de miel pour injecter la porte dérobée tout en maintenant les fonctionnalités normales

Points d'Innovation Technique

Perturbations Adversariales Universelles comme Déclencheur

Exploitation de la fragilité adversariale inhérente aux modèles d'apprentissage profond
L'UAP peut servir de déclencheur non toxique sans injection explicite
Réalisation de la transmission de porte dérobée par partage de fragilité adversariale

Mise à Jour du Déclencheur par Optimisation Momentum

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Contrainte de Masque

Utilisation d'un masque prédéfini M pour limiter l'emplacement du déclencheur, améliorant la discrétion.

Configuration Expérimentale

Ensembles de Données

Ensemble de Données du Modèle Victime : CIFAR10, CIFAR100, Caltech256, CUBS200
Ensemble de Données d'Attaque : ImageNet (1,2 million d'images)
Ensemble de Données Fantôme : CC3M (5000 images sélectionnées aléatoirement)
Ensemble de Données de Validation : Petit ensemble de données pertinent pour la tâche

Métriques d'Évaluation

Précision de Test Propre (Acc_c) : Précision du modèle de substitution sur les échantillons de test propres
Précision de Test de Vérification (Acc_v) : Précision du modèle de substitution prédisant l'étiquette cible sur les échantillons déclencheurs
Taux de Réussite d'Attaque (ASR) : Taux de réussite du défenseur dans les attaques inverses

Méthodes de Comparaison

Attaques d'Extraction : KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
Défenses de Base : Aucune défense, DVBW (méthode de vérification de propriété d'ensemble de données)

Détails d'Implémentation

Itérations BLO : 30 itérations, chacune comprenant 3 étapes de 5 epochs
Modèle Fantôme : ResNet18 (léger)
Taille du Déclencheur : 6×6 pour les ensembles de données CIFAR, 28×28 pour les autres
Optimiseur : SGD, momentum 0,9, taux d'apprentissage 0,1 (modèle fantôme)/0,02 (couche de miel)

Résultats Expérimentaux

Résultats Principaux

Avec un budget de requête de 30k, HoneypotNet obtient des résultats significatifs sur tous les ensembles de données et méthodes d'attaque :

Méthode d'Attaque	ASR CIFAR10	ASR CIFAR100	ASR CUBS200	ASR Caltech256
KnockoffNets	59,35 %	85,71 %	78,31 %	79,13 %
ActiveThief (Entropy)	56,99 %	74,35 %	83,22 %	77,43 %
ActiveThief (k-Center)	67,49 %	74,63 %	80,27 %	80,80 %
SPSG	66,12 %	77,11 %	83,51 %	77,88 %
BlackBox Dissector	78,59 %	80,05 %	92,35 %	78,98 %

Découvertes Clés

Taux de Réussite Élevé : L'ASR dépasse 56 % dans tous les scénarios de test
Maintien des Performances : Acc_c est essentiellement équivalent au cas sans défense, ne suscitant pas la suspicion de l'attaquant
Capacité de Vérification Forte : Acc_v est significativement supérieur aux méthodes de base, soutenant efficacement la vérification de propriété
Robustesse aux Étiquettes Dures : Maintient une efficacité élevée même sous l'attaque d'étiquettes dures de BlackBox Dissector

Études d'Ablation

Impact de la Taille du Déclencheur

Les expériences avec des tailles de déclencheur de 1×1 à 15×15 montrent :
Les déclencheurs plus grands apportent un ASR plus élevé
Nécessité d'équilibrer la taille du déclencheur et la discrétion

Différentes Architectures de Modèles de Substitution

Architecture	ASR CIFAR10	ASR CIFAR100	ASR CUBS200	ASR Caltech256
ResNet34	59,35 %	85,71 %	78,31 %	79,13 %
VGG16	97,16 %	87,10 %	89,82 %	62,17 %
DenseNet121	51,68 %	53,72 %	65,46 %	58,00 %

Analyse de la Robustesse de la Défense

Contournement de la Détection de Porte Dérobée

Les tests utilisant la méthode de détection Cognitive Distillation (CD) montrent que les distributions de norme L1 des échantillons propres et des échantillons de porte dérobée sont hautement similaires, indiquant une bonne discrétion du déclencheur UAP.

Robustesse à l'Élagage Neuronal

Les tests contre la défense Reconstructive Neuron Pruning (RNP) montrent que l'ASR reste à un niveau élevé même après élagage, démontrant la robustesse de la porte dérobée.

Travaux Connexes

Attaques par Extraction de Modèles

Méthodes de Synthèse de Données : Utilisation de GANs ou de modèles de diffusion pour générer des données d'entraînement synthétiques
Méthodes de Sélection de Données : Sélection d'échantillons informatifs à partir d'un pool de données préexistant, comme KnockoffNets, ActiveThief

Défenses contre l'Extraction de Modèles

Détection d'Extraction : Surveillance du comportement de requête de l'utilisateur pour détecter les utilisateurs malveillants
Preuve de Travail : Augmentation des coûts de requête
Filigrane de Modèle : Intégration de caractéristiques vérifiables
Perturbation de Prédiction : Ajout de perturbations aux prédictions du modèle

Attaques par Porte Dérobée

Attaques d'Images Sales : Injection d'échantillons avec déclencheur dans les données d'entraînement
Attaques d'Images Propres : Injection de porte dérobée directement sans modification d'image

Conclusion et Discussion

Conclusions Principales

Efficacité du Nouveau Paradigme : Le paradigme « l'attaque comme défense » offre une nouvelle perspective pour la défense contre l'extraction de modèles
Faisabilité Technique : HoneypotNet réalise avec succès l'injection de porte dérobée légère
Valeur Pratique : La méthode fonctionne bien dans divers scénarios d'attaque et possède un potentiel d'application pratique

Limitations

Surcoût de Calcul : Bien que relativement léger, le processus d'optimisation bicouche nécessite toujours des ressources
Visibilité du Déclencheur : Les déclencheurs plus grands peuvent être découverts
Dépendance à l'Architecture : L'efficacité varie selon les différentes architectures de modèles de substitution
Défense Adversariale : Peut faire face à des méthodes de défense plus avancées

Directions Futures

Intégration de Modèles Fantômes : Utilisation de plusieurs modèles fantômes pour améliorer la robustesse
Déclencheurs Adaptatifs : Conception de méthodes de génération de déclencheur plus discrètes
Extension d'Application : Extension de la méthode à d'autres types de modèles et tâches
Analyse Théorique : Fourniture de garanties théoriques plus approfondies

Évaluation Approfondie

Points Forts

Innovation Forte : Première proposition du paradigme de défense « l'attaque comme défense », approche novatrice
Technique Avancée : Combinaison astucieuse d'UAP et d'attaques par porte dérobée, résolvant le problème technique d'injection sans déclencheur
Expérimentation Complète : Évaluation complète sur plusieurs ensembles de données et diverses méthodes d'attaque
Valeur Pratique Élevée : Méthode légère, adaptée au déploiement dans les systèmes réels
Fonction Duelle : Réalisation simultanée de la vérification de propriété et de la destruction de fonctionnalités, effet dissuasif puissant

Insuffisances

Analyse Théorique Insuffisante : Manque de garanties théoriques sur la convergence et la sécurité de la méthode
Limitations de la Défense : La robustesse contre certaines méthodes d'attaque avancées nécessite une vérification supplémentaire
Considérations Éthiques : Les attaques actives contre les modèles de substitution peuvent soulever des questions éthiques et juridiques
Portée d'Application : Principalement axée sur les tâches de classification d'images, l'applicabilité à d'autres tâches est inconnue

Impact

Contribution Académique : Fournit une nouvelle direction de recherche pour la défense de la sécurité des modèles
Valeur Pratique : Fournit un outil de défense pratique pour les plateformes MLaaS
Reproductibilité : L'article fournit des détails d'implémentation détaillés, facilitant la reproduction
Inspiration : Peut inspirer davantage de méthodes de défense de type « l'attaque comme défense »

Scénarios Applicables

Plateformes MLaaS : Protection des modèles des services d'apprentissage automatique en nuage
Modèles Commerciaux : Protection de la propriété intellectuelle des modèles d'apprentissage profond de haute valeur
Services API : Services d'inférence en ligne nécessitant une défense contre le vol de modèles
Déploiement Périphérique : Défense légère dans les environnements aux ressources limitées

Références

L'article cite des travaux importants dans les domaines de la sécurité de l'apprentissage automatique, des attaques et défenses par extraction de modèles, et des attaques par porte dérobée, fournissant une base théorique solide pour la recherche.

Évaluation Globale : La méthode HoneypotNet proposée dans cet article possède une importance innovante significative dans le domaine de la défense contre l'extraction de modèles. L'approche « l'attaque comme défense » ouvre une nouvelle direction de recherche dans ce domaine. L'implémentation technique est ingénieuse, l'évaluation expérimentale est complète, et elle possède une valeur académique et pratique considérable. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et certains détails techniques, il s'agit globalement d'un travail de recherche de haute qualité.