HoneypotNet: Backdoor Attacks Against Model Extraction
Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic
HoneypotNet: Attacchi Backdoor Contro l'Estrazione di Modelli
Gli attacchi di estrazione di modelli rappresentano un attacco al momento dell'inferenza che, attraverso un numero determinato di interrogazioni rivolte a un modello vittima black-box, sfrutta i risultati predittivi del modello per addestrare un modello sostitutivo, approssimando così la funzionalità e le prestazioni del modello vittima. Tali attacchi costituiscono una grave minaccia per la sicurezza dei modelli in produzione e delle piattaforme MLaaS, potendo causare perdite economiche significative ai proprietari dei modelli. Il presente articolo propone un nuovo paradigma difensivo "attacco come difesa" (attack as defense), modificando gli output del modello per renderli tossici, in modo che qualsiasi utente malintenzionato che tenti di utilizzare questi output per addestrare un modello sostitutivo venga avvelenato. A tal fine, gli autori propongono HoneypotNet, un metodo di attacco backdoor leggero che sostituisce lo strato di classificazione del modello vittima con uno strato honeypot, e perfeziona lo strato honeypot attraverso un'ottimizzazione a doppio livello e un modello shadow (che simula il processo di estrazione del modello), rendendo gli output tossici mantenendo al contempo le prestazioni originali.
Gli attacchi di estrazione di modelli sono diventati una delle principali minacce affrontate dalle piattaforme di Machine Learning as a Service (MLaaS). Gli attaccanti interrogano il modello black-box tramite API, sfruttando i risultati predittivi restituiti per addestrare un modello sostitutivo con funzionalità simili, rubando così la proprietà intellettuale del modello.
I metodi di difesa esistenti si dividono principalmente in due categorie:
Difesa Passiva: Attraverso il rilevamento di interrogazioni malintenzionate o l'utilizzo di watermark per la verifica post-hoc, ma dipende da conoscenze preliminari con effetti limitati
Difesa Attiva: Attraverso la perturbazione degli output del modello o l'aumento dei costi di interrogazione per prevenire l'estrazione, ma con elevati costi computazionali e potenzialmente aggirabile da attacchi avanzati
I metodi di difesa tradizionali presentano problemi di corsa agli armamenti. Il presente articolo propone un nuovo paradigma "attacco come difesa", attaccando attivamente il modello sostitutivo per compromettere la sua funzionalità, creando un forte effetto deterrente per gli attaccanti.
Nuovo Paradigma Difensivo: Propone per la prima volta il paradigma difensivo "attacco come difesa", conducendo attivamente attacchi backdoor contro i modelli sostitutivi
Metodo HoneypotNet: Progetta uno strato honeypot leggero che sostituisce lo strato di classificazione originale, generando vettori di probabilità tossici attraverso un'ottimizzazione a doppio livello
Backdoor Senza Trigger: Utilizza innovativamente perturbazioni avversariali universali (UAP) come trigger backdoor, senza necessità di iniezione esplicita di trigger nelle immagini
Funzionalità Duale: Il backdoor iniettato può sia condurre la verifica della proprietà che compromettere la funzionalità del modello sostitutivo, creando un forte effetto deterrente
Verifica Sperimentale: Verifica l'efficacia del metodo su quattro dataset di benchmark, con tassi di successo dell'attacco che raggiungono il 56,99%-92,35%
Utilizzando il metodo di rilevamento Cognitive Distillation (CD), i risultati mostrano che la distribuzione della norma L1 tra campioni puliti e campioni backdoor è altamente simile, indicando che il trigger UAP possiede buona discrezione.
I test contro la difesa Reconstructive Neuron Pruning (RNP) mostrano che anche dopo il trattamento di potatura, l'ASR rimane a livelli elevati, dimostrando la robustezza del backdoor.
L'articolo cita importanti lavori nei campi della sicurezza del machine learning, degli attacchi e delle difese dall'estrazione di modelli, e degli attacchi backdoor, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Il metodo HoneypotNet proposto in questo articolo ha un significato innovativo importante nel campo della difesa dall'estrazione di modelli. L'approccio "attacco come difesa" apre una nuova direzione di ricerca in questo campo. L'implementazione tecnica è ingegnosa, la valutazione sperimentale è completa, e possiede elevato valore accademico e pratico. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e in alcuni dettagli tecnici, nel complesso si tratta di un lavoro di ricerca di alta qualità.