2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic

HoneypotNet: Attacchi Backdoor Contro l'Estrazione di Modelli

Informazioni Fondamentali

  • ID Articolo: 2501.01090
  • Titolo: HoneypotNet: Attacchi Backdoor Contro l'Estrazione di Modelli
  • Autori: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
  • Classificazione: cs.CR (Crittografia e Sicurezza), cs.CV (Visione Artificiale)
  • Data di Pubblicazione/Conferenza: Sottomesso ad arXiv il 2 gennaio 2025
  • Link Articolo: https://arxiv.org/abs/2501.01090

Riassunto

Gli attacchi di estrazione di modelli rappresentano un attacco al momento dell'inferenza che, attraverso un numero determinato di interrogazioni rivolte a un modello vittima black-box, sfrutta i risultati predittivi del modello per addestrare un modello sostitutivo, approssimando così la funzionalità e le prestazioni del modello vittima. Tali attacchi costituiscono una grave minaccia per la sicurezza dei modelli in produzione e delle piattaforme MLaaS, potendo causare perdite economiche significative ai proprietari dei modelli. Il presente articolo propone un nuovo paradigma difensivo "attacco come difesa" (attack as defense), modificando gli output del modello per renderli tossici, in modo che qualsiasi utente malintenzionato che tenti di utilizzare questi output per addestrare un modello sostitutivo venga avvelenato. A tal fine, gli autori propongono HoneypotNet, un metodo di attacco backdoor leggero che sostituisce lo strato di classificazione del modello vittima con uno strato honeypot, e perfeziona lo strato honeypot attraverso un'ottimizzazione a doppio livello e un modello shadow (che simula il processo di estrazione del modello), rendendo gli output tossici mantenendo al contempo le prestazioni originali.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli attacchi di estrazione di modelli sono diventati una delle principali minacce affrontate dalle piattaforme di Machine Learning as a Service (MLaaS). Gli attaccanti interrogano il modello black-box tramite API, sfruttando i risultati predittivi restituiti per addestrare un modello sostitutivo con funzionalità simili, rubando così la proprietà intellettuale del modello.

Importanza del Problema

  1. Perdite Economiche: Gli attacchi di estrazione di modelli possono causare perdite economiche significative ai proprietari dei modelli
  2. Protezione della Proprietà Intellettuale: I modelli di deep learning hanno costi di addestramento elevati e richiedono protezione efficace
  3. Minacce alla Sicurezza: Gli attaccanti possono utilizzare i modelli estratti per condurre ulteriori attacchi avversariali

Limitazioni dei Metodi Esistenti

I metodi di difesa esistenti si dividono principalmente in due categorie:

  1. Difesa Passiva: Attraverso il rilevamento di interrogazioni malintenzionate o l'utilizzo di watermark per la verifica post-hoc, ma dipende da conoscenze preliminari con effetti limitati
  2. Difesa Attiva: Attraverso la perturbazione degli output del modello o l'aumento dei costi di interrogazione per prevenire l'estrazione, ma con elevati costi computazionali e potenzialmente aggirabile da attacchi avanzati

Motivazione della Ricerca

I metodi di difesa tradizionali presentano problemi di corsa agli armamenti. Il presente articolo propone un nuovo paradigma "attacco come difesa", attaccando attivamente il modello sostitutivo per compromettere la sua funzionalità, creando un forte effetto deterrente per gli attaccanti.

Contributi Fondamentali

  1. Nuovo Paradigma Difensivo: Propone per la prima volta il paradigma difensivo "attacco come difesa", conducendo attivamente attacchi backdoor contro i modelli sostitutivi
  2. Metodo HoneypotNet: Progetta uno strato honeypot leggero che sostituisce lo strato di classificazione originale, generando vettori di probabilità tossici attraverso un'ottimizzazione a doppio livello
  3. Backdoor Senza Trigger: Utilizza innovativamente perturbazioni avversariali universali (UAP) come trigger backdoor, senza necessità di iniezione esplicita di trigger nelle immagini
  4. Funzionalità Duale: Il backdoor iniettato può sia condurre la verifica della proprietà che compromettere la funzionalità del modello sostitutivo, creando un forte effetto deterrente
  5. Verifica Sperimentale: Verifica l'efficacia del metodo su quattro dataset di benchmark, con tassi di successo dell'attacco che raggiungono il 56,99%-92,35%

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello vittima F, l'obiettivo è progettare uno strato honeypot H tale che:

  • Mantenga le prestazioni originali su input normali
  • Quando l'attaccante utilizza l'output di H per addestrare un modello sostitutivo F̂, F̂ venga iniettato con un backdoor
  • Il backdoor possa essere utilizzato per la verifica della proprietà e per attacchi di controffensiva

Architettura del Modello

Progettazione dello Strato Honeypot

Lo strato honeypot H è definito come uno strato completamente connesso:

H(x) = W · F_feat(x) + b

dove F_feat(x) è l'output delle caratteristiche del modello vittima, e W e b sono parametri apprendibili.

Framework di Ottimizzazione a Doppio Livello

L'obiettivo di ottimizzazione principale è:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Vincoli:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Processo Iterativo a Tre Fasi

  1. Simulazione dell'Estrazione: Utilizza il modello shadow Fs per simulare il processo di estrazione del modello dell'attaccante
  2. Generazione del Trigger: Genera il trigger UAP attraverso l'aggiornamento del segno del gradiente
  3. Perfezionamento: Aggiorna i parametri dello strato honeypot per iniettare il backdoor mantenendo al contempo la funzionalità normale

Punti di Innovazione Tecnica

Perturbazioni Avversariali Universali come Trigger

  • Sfrutta la fragilità avversariale intrinseca dei modelli di deep learning
  • L'UAP può fungere da trigger non tossico, senza necessità di iniezione esplicita
  • Realizza il trasferimento del backdoor attraverso la condivisione della fragilità avversariale

Aggiornamento del Trigger Ottimizzato con Momentum

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Vincoli di Maschera

Utilizza una maschera predefinita M per limitare la posizione del trigger, aumentando la discrezione.

Configurazione Sperimentale

Dataset

  • Dataset del Modello Vittima: CIFAR10, CIFAR100, Caltech256, CUBS200
  • Dataset di Attacco: ImageNet (1,2 milioni di immagini)
  • Dataset Shadow: CC3M (5000 immagini selezionate casualmente)
  • Dataset di Verifica: Dataset di piccole dimensioni correlati al compito

Metriche di Valutazione

  1. Clean Test Accuracy (Acc_c): Accuratezza del modello sostitutivo su campioni di test puliti
  2. Verification Test Accuracy (Acc_v): Accuratezza del modello sostitutivo nel prevedere l'etichetta target su campioni con trigger
  3. Attack Success Rate (ASR): Tasso di successo del difensore nel condurre un attacco di controffensiva

Metodi di Confronto

  • Attacchi di Estrazione: KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
  • Difese di Base: Nessuna difesa, DVBW (metodo di verifica della proprietà del dataset)

Dettagli di Implementazione

  • Iterazioni BLO: 30 iterazioni, ciascuna contenente 3 fasi di 5 epoch ciascuna
  • Modello Shadow: ResNet18 (leggero)
  • Dimensione del Trigger: 6×6 per dataset CIFAR, 28×28 per altri dataset
  • Ottimizzatore: SGD, momentum 0,9, tasso di apprendimento 0,1 (modello shadow)/0,02 (strato honeypot)

Risultati Sperimentali

Risultati Principali

Con un budget di interrogazione di 30k, HoneypotNet ha ottenuto risultati significativi su tutti i dataset e metodi di attacco:

Metodo di AttaccoCIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
KnockoffNets59,35%85,71%78,31%79,13%
ActiveThief (Entropy)56,99%74,35%83,22%77,43%
ActiveThief (k-Center)67,49%74,63%80,27%80,80%
SPSG66,12%77,11%83,51%77,88%
BlackBox Dissector78,59%80,05%92,35%78,98%

Scoperte Chiave

  1. Tasso di Successo Elevato: L'ASR supera il 56% in tutti gli scenari di test
  2. Mantenimento delle Prestazioni: Acc_c è sostanzialmente equivalente al caso senza difesa, non suscitando sospetti negli attaccanti
  3. Forte Capacità di Verifica: Acc_v è significativamente superiore ai metodi di base, supportando efficacemente la verifica della proprietà
  4. Robustezza agli Attacchi con Etichette Dure: Mantiene un'elevata efficacia anche sotto l'attacco con etichette dure di BlackBox Dissector

Esperimenti di Ablazione

Impatto della Dimensione del Trigger

  • Gli esperimenti con dimensioni di trigger da 1×1 a 15×15 mostrano che:
  • Trigger più grandi portano a ASR più elevati
  • È necessario bilanciare la dimensione del trigger con la discrezione

Diverse Architetture di Modelli Sostitutivi

ArchitetturaCIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
ResNet3459,35%85,71%78,31%79,13%
VGG1697,16%87,10%89,82%62,17%
DenseNet12151,68%53,72%65,46%58,00%

Analisi della Robustezza Difensiva

Evasione del Rilevamento del Backdoor

Utilizzando il metodo di rilevamento Cognitive Distillation (CD), i risultati mostrano che la distribuzione della norma L1 tra campioni puliti e campioni backdoor è altamente simile, indicando che il trigger UAP possiede buona discrezione.

Robustezza alla Potatura Neuronale

I test contro la difesa Reconstructive Neuron Pruning (RNP) mostrano che anche dopo il trattamento di potatura, l'ASR rimane a livelli elevati, dimostrando la robustezza del backdoor.

Lavori Correlati

Attacchi di Estrazione di Modelli

  1. Metodi di Sintesi dei Dati: Utilizzo di GAN o modelli di diffusione per generare dati di addestramento sintetici
  2. Metodi di Selezione dei Dati: Selezione di campioni informativi da pool di dati preesistenti, come KnockoffNets, ActiveThief

Difese dall'Estrazione di Modelli

  1. Rilevamento dell'Estrazione: Monitoraggio del comportamento di interrogazione dell'utente per rilevare utenti malintenzionati
  2. Proof of Work: Aumento dei costi di interrogazione
  3. Watermark del Modello: Incorporamento di caratteristiche verificabili
  4. Perturbazione delle Predizioni: Aggiunta di perturbazioni alle predizioni del modello

Attacchi Backdoor

  1. Attacchi con Immagini Sporche: Iniezione di campioni con trigger nei dati di addestramento
  2. Attacchi con Immagini Pulite: Iniezione diretta di backdoor senza modifica delle immagini

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Nuovo Paradigma: Il paradigma "attacco come difesa" fornisce una nuova prospettiva per la difesa dall'estrazione di modelli
  2. Fattibilità Tecnica: HoneypotNet implementa con successo l'iniezione di backdoor leggera
  3. Valore Pratico: Il metodo mostra prestazioni eccellenti in vari scenari di attacco, con potenziale di applicazione pratica

Limitazioni

  1. Costi Computazionali: Sebbene relativamente leggero, richiede comunque un processo di ottimizzazione a doppio livello
  2. Visibilità del Trigger: Trigger più grandi potrebbero essere scoperti
  3. Dipendenza dall'Architettura: L'efficacia varia a seconda delle diverse architetture di modelli sostitutivi
  4. Difesa Contrapposta: Potrebbe affrontare metodi di difesa più avanzati

Direzioni Future

  1. Integrazione di Modelli Shadow Multipli: Utilizzo di più modelli shadow per aumentare la robustezza
  2. Trigger Adattivi: Progettazione di metodi di generazione di trigger più discreti
  3. Estensione dell'Applicazione: Estensione del metodo ad altri tipi di modelli e compiti
  4. Analisi Teorica: Fornire garanzie teoriche più approfondite

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Propone per la prima volta il paradigma difensivo "attacco come difesa", con approccio innovativo
  2. Tecnica Avanzata: Combina abilmente UAP e attacchi backdoor, risolvendo il problema tecnico dell'iniezione senza trigger
  3. Esperimenti Completi: Valutazione completa su più dataset e metodi di attacco
  4. Elevato Valore Pratico: Il metodo è leggero e adatto al dispiegamento in sistemi reali
  5. Funzionalità Duale: Realizza sia la verifica della proprietà che il compromesso della funzionalità, con forte effetto deterrente

Insufficienze

  1. Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza e la sicurezza del metodo
  2. Limitazioni della Difesa: La robustezza contro alcuni metodi di attacco avanzati richiede ulteriore verifica
  3. Considerazioni Etiche: L'attacco attivo ai modelli sostitutivi potrebbe sollevare questioni etiche e legali
  4. Ambito di Applicabilità: Principalmente focalizzato su compiti di classificazione di immagini, l'applicabilità ad altri compiti è sconosciuta

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo della difesa della sicurezza dei modelli
  2. Valore Pratico: Fornisce uno strumento di difesa pratico per le piattaforme MLaaS
  3. Riproducibilità: L'articolo fornisce dettagli di implementazione dettagliati, facilitando la riproduzione
  4. Ispirazione: Potrebbe ispirare più metodi di difesa di tipo "attacco come difesa"

Scenari Applicabili

  1. Piattaforme MLaaS: Protezione dei modelli nei servizi di machine learning cloud
  2. Modelli Commerciali: Protezione della proprietà intellettuale di modelli di deep learning ad alto valore
  3. Servizi API: Servizi di inferenza online che necessitano di protezione dal furto di modelli
  4. Dispiegamento Edge: Difesa leggera in ambienti con risorse limitate

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi della sicurezza del machine learning, degli attacchi e delle difese dall'estrazione di modelli, e degli attacchi backdoor, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Il metodo HoneypotNet proposto in questo articolo ha un significato innovativo importante nel campo della difesa dall'estrazione di modelli. L'approccio "attacco come difesa" apre una nuova direzione di ricerca in questo campo. L'implementazione tecnica è ingegnosa, la valutazione sperimentale è completa, e possiede elevato valore accademico e pratico. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e in alcuni dettagli tecnici, nel complesso si tratta di un lavoro di ricerca di alta qualità.