HoneypotNet: Backdoor Attacks Against Model Extraction
Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic
HoneypotNet: Ataques de Puerta Trasera Contra la Extracción de Modelos
Los ataques de extracción de modelos son ataques en tiempo de inferencia que entrenan modelos sustitutos mediante consultas a modelos víctima de caja negra, aproximando así la funcionalidad y el rendimiento del modelo víctima. Estos ataques representan una amenaza de seguridad grave para los modelos en producción y las plataformas de MLaaS, pudiendo causar pérdidas económicas significativas a los propietarios de modelos. Este artículo propone un nuevo paradigma de defensa "ataque como defensa" (attack as defense), modificando las salidas del modelo para hacerlas tóxicas, de modo que cualquier usuario malintencionado que intente entrenar un modelo sustituto con estas salidas sea envenenado. Para ello, los autores proponen HoneypotNet, un método de ataque de puerta trasera ligero que reemplaza la capa de clasificación del modelo víctima con una capa trampa (honeypot layer), y mediante optimización de dos niveles y un modelo sombra (que simula el proceso de extracción de modelos) ajusta la capa trampa, manteniendo el rendimiento original mientras hace tóxicas las salidas.
Los ataques de extracción de modelos se han convertido en una de las principales amenazas para las plataformas de aprendizaje automático como servicio (MLaaS). Los atacantes consultan modelos de caja negra a través de APIs, utilizando los resultados de predicción devueltos para entrenar modelos sustitutos funcionalmente similares, robando así la propiedad intelectual del modelo.
Los métodos de defensa existentes se dividen principalmente en dos categorías:
Defensa Pasiva: Detecta consultas maliciosas o utiliza marcas de agua para verificación posterior, pero depende de conocimiento previo con efectividad limitada
Defensa Activa: Perturba las salidas del modelo o aumenta el costo de consultas para prevenir la extracción, pero con gran sobrecarga computacional y susceptible a ataques avanzados
Los métodos de defensa tradicionales enfrentan un problema de carrera armamentista. Este artículo propone el nuevo paradigma "ataque como defensa", atacando activamente el modelo sustituto para destruir su funcionalidad, formando un fuerte efecto disuasorio para los atacantes.
Nuevo Paradigma de Defensa: Propone por primera vez el paradigma de defensa "ataque como defensa" (attack as defense), atacando activamente el modelo sustituto con puertas traseras
Método HoneypotNet: Diseña una capa trampa ligera que reemplaza la capa de clasificación original, generando vectores de probabilidad tóxicos mediante optimización de dos niveles
Puerta Trasera sin Disparador: Utiliza innovadoramente perturbaciones adversariales universales (UAP) como disparador de puerta trasera, sin necesidad de inyectar explícitamente disparadores en imágenes
Funcionalidad Dual: La puerta trasera inyectada puede realizar verificación de propiedad y destruir la funcionalidad del modelo sustituto, formando un fuerte efecto disuasorio
Verificación Experimental: Verifica la efectividad del método en cuatro conjuntos de datos de referencia, con tasas de éxito de ataque del 56.99%-92.35%
Utilizando el método de detección Cognitive Distillation (CD), los resultados muestran que la distribución de norma L1 entre muestras limpias y muestras con puerta trasera es altamente similar, indicando que el disparador UAP posee buena ocultación.
Las pruebas contra la defensa Reconstructive Neuron Pruning (RNP) muestran que incluso después del procesamiento de poda, ASR se mantiene en un nivel alto, demostrando la robustez de la puerta trasera.
El artículo cita trabajos importantes en seguridad de aprendizaje automático, ataques y defensas de extracción de modelos, y ataques de puerta trasera, incluyendo KnockoffNets, ActiveThief y trabajos fundacionales en ataques de puerta trasera, proporcionando una base teórica sólida para la investigación.
Evaluación General: El método HoneypotNet propuesto en este artículo posee un significado innovador importante en el campo de la defensa contra extracción de modelos. La idea de "ataque como defensa" abre una nueva dirección de investigación para este campo. La implementación técnica es ingeniosa, la evaluación experimental es completa, y posee alto valor académico y práctico. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es un trabajo de investigación de alta calidad.