2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.

Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.

academic

HoneypotNet: Attacchi Backdoor Contro l'Estrazione di Modelli

Informazioni Fondamentali

ID Articolo: 2501.01090
Titolo: HoneypotNet: Attacchi Backdoor Contro l'Estrazione di Modelli
Autori: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
Classificazione: cs.CR (Crittografia e Sicurezza), cs.CV (Visione Artificiale)
Data di Pubblicazione/Conferenza: Sottomesso ad arXiv il 2 gennaio 2025
Link Articolo: https://arxiv.org/abs/2501.01090

Riassunto

Gli attacchi di estrazione di modelli rappresentano un attacco al momento dell'inferenza che, attraverso un numero determinato di interrogazioni rivolte a un modello vittima black-box, sfrutta i risultati predittivi del modello per addestrare un modello sostitutivo, approssimando così la funzionalità e le prestazioni del modello vittima. Tali attacchi costituiscono una grave minaccia per la sicurezza dei modelli in produzione e delle piattaforme MLaaS, potendo causare perdite economiche significative ai proprietari dei modelli. Il presente articolo propone un nuovo paradigma difensivo "attacco come difesa" (attack as defense), modificando gli output del modello per renderli tossici, in modo che qualsiasi utente malintenzionato che tenti di utilizzare questi output per addestrare un modello sostitutivo venga avvelenato. A tal fine, gli autori propongono HoneypotNet, un metodo di attacco backdoor leggero che sostituisce lo strato di classificazione del modello vittima con uno strato honeypot, e perfeziona lo strato honeypot attraverso un'ottimizzazione a doppio livello e un modello shadow (che simula il processo di estrazione del modello), rendendo gli output tossici mantenendo al contempo le prestazioni originali.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli attacchi di estrazione di modelli sono diventati una delle principali minacce affrontate dalle piattaforme di Machine Learning as a Service (MLaaS). Gli attaccanti interrogano il modello black-box tramite API, sfruttando i risultati predittivi restituiti per addestrare un modello sostitutivo con funzionalità simili, rubando così la proprietà intellettuale del modello.

Importanza del Problema

Perdite Economiche: Gli attacchi di estrazione di modelli possono causare perdite economiche significative ai proprietari dei modelli
Protezione della Proprietà Intellettuale: I modelli di deep learning hanno costi di addestramento elevati e richiedono protezione efficace
Minacce alla Sicurezza: Gli attaccanti possono utilizzare i modelli estratti per condurre ulteriori attacchi avversariali

Limitazioni dei Metodi Esistenti

I metodi di difesa esistenti si dividono principalmente in due categorie:

Difesa Passiva: Attraverso il rilevamento di interrogazioni malintenzionate o l'utilizzo di watermark per la verifica post-hoc, ma dipende da conoscenze preliminari con effetti limitati
Difesa Attiva: Attraverso la perturbazione degli output del modello o l'aumento dei costi di interrogazione per prevenire l'estrazione, ma con elevati costi computazionali e potenzialmente aggirabile da attacchi avanzati

Motivazione della Ricerca

I metodi di difesa tradizionali presentano problemi di corsa agli armamenti. Il presente articolo propone un nuovo paradigma "attacco come difesa", attaccando attivamente il modello sostitutivo per compromettere la sua funzionalità, creando un forte effetto deterrente per gli attaccanti.

Contributi Fondamentali

Nuovo Paradigma Difensivo: Propone per la prima volta il paradigma difensivo "attacco come difesa", conducendo attivamente attacchi backdoor contro i modelli sostitutivi
Metodo HoneypotNet: Progetta uno strato honeypot leggero che sostituisce lo strato di classificazione originale, generando vettori di probabilità tossici attraverso un'ottimizzazione a doppio livello
Backdoor Senza Trigger: Utilizza innovativamente perturbazioni avversariali universali (UAP) come trigger backdoor, senza necessità di iniezione esplicita di trigger nelle immagini
Funzionalità Duale: Il backdoor iniettato può sia condurre la verifica della proprietà che compromettere la funzionalità del modello sostitutivo, creando un forte effetto deterrente
Verifica Sperimentale: Verifica l'efficacia del metodo su quattro dataset di benchmark, con tassi di successo dell'attacco che raggiungono il 56,99%-92,35%

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello vittima F, l'obiettivo è progettare uno strato honeypot H tale che:

Mantenga le prestazioni originali su input normali
Quando l'attaccante utilizza l'output di H per addestrare un modello sostitutivo F̂, F̂ venga iniettato con un backdoor
Il backdoor possa essere utilizzato per la verifica della proprietà e per attacchi di controffensiva

Architettura del Modello

Progettazione dello Strato Honeypot

Lo strato honeypot H è definito come uno strato completamente connesso:

H(x) = W · F_feat(x) + b

dove F_feat(x) è l'output delle caratteristiche del modello vittima, e W e b sono parametri apprendibili.

Framework di Ottimizzazione a Doppio Livello

L'obiettivo di ottimizzazione principale è:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Vincoli:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Processo Iterativo a Tre Fasi

Simulazione dell'Estrazione: Utilizza il modello shadow Fs per simulare il processo di estrazione del modello dell'attaccante
Generazione del Trigger: Genera il trigger UAP attraverso l'aggiornamento del segno del gradiente
Perfezionamento: Aggiorna i parametri dello strato honeypot per iniettare il backdoor mantenendo al contempo la funzionalità normale

Punti di Innovazione Tecnica

Perturbazioni Avversariali Universali come Trigger

Sfrutta la fragilità avversariale intrinseca dei modelli di deep learning
L'UAP può fungere da trigger non tossico, senza necessità di iniezione esplicita
Realizza il trasferimento del backdoor attraverso la condivisione della fragilità avversariale

Aggiornamento del Trigger Ottimizzato con Momentum

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Vincoli di Maschera

Utilizza una maschera predefinita M per limitare la posizione del trigger, aumentando la discrezione.

Configurazione Sperimentale

Dataset

Dataset del Modello Vittima: CIFAR10, CIFAR100, Caltech256, CUBS200
Dataset di Attacco: ImageNet (1,2 milioni di immagini)
Dataset Shadow: CC3M (5000 immagini selezionate casualmente)
Dataset di Verifica: Dataset di piccole dimensioni correlati al compito

Metriche di Valutazione

Clean Test Accuracy (Acc_c): Accuratezza del modello sostitutivo su campioni di test puliti
Verification Test Accuracy (Acc_v): Accuratezza del modello sostitutivo nel prevedere l'etichetta target su campioni con trigger
Attack Success Rate (ASR): Tasso di successo del difensore nel condurre un attacco di controffensiva

Metodi di Confronto

Attacchi di Estrazione: KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
Difese di Base: Nessuna difesa, DVBW (metodo di verifica della proprietà del dataset)

Dettagli di Implementazione

Iterazioni BLO: 30 iterazioni, ciascuna contenente 3 fasi di 5 epoch ciascuna
Modello Shadow: ResNet18 (leggero)
Dimensione del Trigger: 6×6 per dataset CIFAR, 28×28 per altri dataset
Ottimizzatore: SGD, momentum 0,9, tasso di apprendimento 0,1 (modello shadow)/0,02 (strato honeypot)

Risultati Sperimentali

Risultati Principali

Con un budget di interrogazione di 30k, HoneypotNet ha ottenuto risultati significativi su tutti i dataset e metodi di attacco:

Metodo di Attacco	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
KnockoffNets	59,35%	85,71%	78,31%	79,13%
ActiveThief (Entropy)	56,99%	74,35%	83,22%	77,43%
ActiveThief (k-Center)	67,49%	74,63%	80,27%	80,80%
SPSG	66,12%	77,11%	83,51%	77,88%
BlackBox Dissector	78,59%	80,05%	92,35%	78,98%

Scoperte Chiave

Tasso di Successo Elevato: L'ASR supera il 56% in tutti gli scenari di test
Mantenimento delle Prestazioni: Acc_c è sostanzialmente equivalente al caso senza difesa, non suscitando sospetti negli attaccanti
Forte Capacità di Verifica: Acc_v è significativamente superiore ai metodi di base, supportando efficacemente la verifica della proprietà
Robustezza agli Attacchi con Etichette Dure: Mantiene un'elevata efficacia anche sotto l'attacco con etichette dure di BlackBox Dissector

Esperimenti di Ablazione

Impatto della Dimensione del Trigger

Gli esperimenti con dimensioni di trigger da 1×1 a 15×15 mostrano che:
Trigger più grandi portano a ASR più elevati
È necessario bilanciare la dimensione del trigger con la discrezione

Diverse Architetture di Modelli Sostitutivi

Architettura	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
ResNet34	59,35%	85,71%	78,31%	79,13%
VGG16	97,16%	87,10%	89,82%	62,17%
DenseNet121	51,68%	53,72%	65,46%	58,00%

Analisi della Robustezza Difensiva

Evasione del Rilevamento del Backdoor

Utilizzando il metodo di rilevamento Cognitive Distillation (CD), i risultati mostrano che la distribuzione della norma L1 tra campioni puliti e campioni backdoor è altamente simile, indicando che il trigger UAP possiede buona discrezione.

Robustezza alla Potatura Neuronale

I test contro la difesa Reconstructive Neuron Pruning (RNP) mostrano che anche dopo il trattamento di potatura, l'ASR rimane a livelli elevati, dimostrando la robustezza del backdoor.

Lavori Correlati

Attacchi di Estrazione di Modelli

Metodi di Sintesi dei Dati: Utilizzo di GAN o modelli di diffusione per generare dati di addestramento sintetici
Metodi di Selezione dei Dati: Selezione di campioni informativi da pool di dati preesistenti, come KnockoffNets, ActiveThief

Difese dall'Estrazione di Modelli

Rilevamento dell'Estrazione: Monitoraggio del comportamento di interrogazione dell'utente per rilevare utenti malintenzionati
Proof of Work: Aumento dei costi di interrogazione
Watermark del Modello: Incorporamento di caratteristiche verificabili
Perturbazione delle Predizioni: Aggiunta di perturbazioni alle predizioni del modello

Attacchi Backdoor

Attacchi con Immagini Sporche: Iniezione di campioni con trigger nei dati di addestramento
Attacchi con Immagini Pulite: Iniezione diretta di backdoor senza modifica delle immagini

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Nuovo Paradigma: Il paradigma "attacco come difesa" fornisce una nuova prospettiva per la difesa dall'estrazione di modelli
Fattibilità Tecnica: HoneypotNet implementa con successo l'iniezione di backdoor leggera
Valore Pratico: Il metodo mostra prestazioni eccellenti in vari scenari di attacco, con potenziale di applicazione pratica

Limitazioni

Costi Computazionali: Sebbene relativamente leggero, richiede comunque un processo di ottimizzazione a doppio livello
Visibilità del Trigger: Trigger più grandi potrebbero essere scoperti
Dipendenza dall'Architettura: L'efficacia varia a seconda delle diverse architetture di modelli sostitutivi
Difesa Contrapposta: Potrebbe affrontare metodi di difesa più avanzati

Direzioni Future

Integrazione di Modelli Shadow Multipli: Utilizzo di più modelli shadow per aumentare la robustezza
Trigger Adattivi: Progettazione di metodi di generazione di trigger più discreti
Estensione dell'Applicazione: Estensione del metodo ad altri tipi di modelli e compiti
Analisi Teorica: Fornire garanzie teoriche più approfondite

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Propone per la prima volta il paradigma difensivo "attacco come difesa", con approccio innovativo
Tecnica Avanzata: Combina abilmente UAP e attacchi backdoor, risolvendo il problema tecnico dell'iniezione senza trigger
Esperimenti Completi: Valutazione completa su più dataset e metodi di attacco
Elevato Valore Pratico: Il metodo è leggero e adatto al dispiegamento in sistemi reali
Funzionalità Duale: Realizza sia la verifica della proprietà che il compromesso della funzionalità, con forte effetto deterrente

Insufficienze

Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza e la sicurezza del metodo
Limitazioni della Difesa: La robustezza contro alcuni metodi di attacco avanzati richiede ulteriore verifica
Considerazioni Etiche: L'attacco attivo ai modelli sostitutivi potrebbe sollevare questioni etiche e legali
Ambito di Applicabilità: Principalmente focalizzato su compiti di classificazione di immagini, l'applicabilità ad altri compiti è sconosciuta

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo della difesa della sicurezza dei modelli
Valore Pratico: Fornisce uno strumento di difesa pratico per le piattaforme MLaaS
Riproducibilità: L'articolo fornisce dettagli di implementazione dettagliati, facilitando la riproduzione
Ispirazione: Potrebbe ispirare più metodi di difesa di tipo "attacco come difesa"

Scenari Applicabili

Piattaforme MLaaS: Protezione dei modelli nei servizi di machine learning cloud
Modelli Commerciali: Protezione della proprietà intellettuale di modelli di deep learning ad alto valore
Servizi API: Servizi di inferenza online che necessitano di protezione dal furto di modelli
Dispiegamento Edge: Difesa leggera in ambienti con risorse limitate

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi della sicurezza del machine learning, degli attacchi e delle difese dall'estrazione di modelli, e degli attacchi backdoor, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Il metodo HoneypotNet proposto in questo articolo ha un significato innovativo importante nel campo della difesa dall'estrazione di modelli. L'approccio "attacco come difesa" apre una nuova direzione di ricerca in questo campo. L'implementazione tecnica è ingegnosa, la valutazione sperimentale è completa, e possiede elevato valore accademico e pratico. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e in alcuni dettagli tecnici, nel complesso si tratta di un lavoro di ricerca di alta qualità.