2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.

Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.

academic

HoneypotNet: Ataques de Puerta Trasera Contra la Extracción de Modelos

Información Básica

ID del Artículo: 2501.01090
Título: HoneypotNet: Ataques de Puerta Trasera Contra la Extracción de Modelos
Autores: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
Clasificación: cs.CR (Criptografía y Seguridad), cs.CV (Visión por Computadora)
Fecha de Publicación/Conferencia: Presentado en arXiv el 2 de enero de 2025
Enlace del Artículo: https://arxiv.org/abs/2501.01090

Resumen

Los ataques de extracción de modelos son ataques en tiempo de inferencia que entrenan modelos sustitutos mediante consultas a modelos víctima de caja negra, aproximando así la funcionalidad y el rendimiento del modelo víctima. Estos ataques representan una amenaza de seguridad grave para los modelos en producción y las plataformas de MLaaS, pudiendo causar pérdidas económicas significativas a los propietarios de modelos. Este artículo propone un nuevo paradigma de defensa "ataque como defensa" (attack as defense), modificando las salidas del modelo para hacerlas tóxicas, de modo que cualquier usuario malintencionado que intente entrenar un modelo sustituto con estas salidas sea envenenado. Para ello, los autores proponen HoneypotNet, un método de ataque de puerta trasera ligero que reemplaza la capa de clasificación del modelo víctima con una capa trampa (honeypot layer), y mediante optimización de dos niveles y un modelo sombra (que simula el proceso de extracción de modelos) ajusta la capa trampa, manteniendo el rendimiento original mientras hace tóxicas las salidas.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los ataques de extracción de modelos se han convertido en una de las principales amenazas para las plataformas de aprendizaje automático como servicio (MLaaS). Los atacantes consultan modelos de caja negra a través de APIs, utilizando los resultados de predicción devueltos para entrenar modelos sustitutos funcionalmente similares, robando así la propiedad intelectual del modelo.

Importancia del Problema

Pérdidas Económicas: Los ataques de extracción de modelos pueden causar pérdidas económicas significativas a los propietarios de modelos
Protección de Propiedad Intelectual: El entrenamiento de modelos de aprendizaje profundo es costoso y requiere protección efectiva
Amenazas de Seguridad: Los atacantes pueden utilizar modelos extraídos para realizar ataques adversariales posteriores

Limitaciones de Métodos Existentes

Los métodos de defensa existentes se dividen principalmente en dos categorías:

Defensa Pasiva: Detecta consultas maliciosas o utiliza marcas de agua para verificación posterior, pero depende de conocimiento previo con efectividad limitada
Defensa Activa: Perturba las salidas del modelo o aumenta el costo de consultas para prevenir la extracción, pero con gran sobrecarga computacional y susceptible a ataques avanzados

Motivación de la Investigación

Los métodos de defensa tradicionales enfrentan un problema de carrera armamentista. Este artículo propone el nuevo paradigma "ataque como defensa", atacando activamente el modelo sustituto para destruir su funcionalidad, formando un fuerte efecto disuasorio para los atacantes.

Contribuciones Principales

Nuevo Paradigma de Defensa: Propone por primera vez el paradigma de defensa "ataque como defensa" (attack as defense), atacando activamente el modelo sustituto con puertas traseras
Método HoneypotNet: Diseña una capa trampa ligera que reemplaza la capa de clasificación original, generando vectores de probabilidad tóxicos mediante optimización de dos niveles
Puerta Trasera sin Disparador: Utiliza innovadoramente perturbaciones adversariales universales (UAP) como disparador de puerta trasera, sin necesidad de inyectar explícitamente disparadores en imágenes
Funcionalidad Dual: La puerta trasera inyectada puede realizar verificación de propiedad y destruir la funcionalidad del modelo sustituto, formando un fuerte efecto disuasorio
Verificación Experimental: Verifica la efectividad del método en cuatro conjuntos de datos de referencia, con tasas de éxito de ataque del 56.99%-92.35%

Explicación Detallada del Método

Definición de la Tarea

Dado un modelo víctima F, el objetivo es diseñar una capa trampa H tal que:

Mantenga el rendimiento original en entradas normales
Cuando un atacante entrena un modelo sustituto F̂ usando las salidas de H, F̂ sea inyectado con una puerta trasera
La puerta trasera pueda utilizarse para verificación de propiedad y ataque inverso

Arquitectura del Modelo

Diseño de la Capa Trampa

La capa trampa H se define como una capa completamente conectada:

H(x) = W · F_feat(x) + b

donde F_feat(x) es la salida de características del modelo víctima, y W y b son parámetros aprendibles.

Marco de Optimización de Dos Niveles

El objetivo de optimización central es:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Con restricciones:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Proceso Iterativo de Tres Pasos

Simulación de Extracción: Utiliza el modelo sombra Fs para simular el proceso de extracción de modelos del atacante
Generación de Disparador: Genera el disparador UAP mediante actualización de signo de gradiente
Ajuste Fino: Actualiza los parámetros de la capa trampa para inyectar la puerta trasera manteniendo la funcionalidad normal

Puntos de Innovación Técnica

Perturbación Adversarial Universal como Disparador

Aprovecha la fragilidad adversarial inherente de los modelos de aprendizaje profundo
UAP puede servir como disparador sin toxinas, sin necesidad de inyección explícita
Implementa transmisión de puerta trasera mediante fragilidad adversarial compartida

Actualización de Disparador con Optimización de Momento

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Restricción de Máscara

Utiliza una máscara predefinida M para limitar la ubicación del disparador, mejorando la ocultación.

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos del Modelo Víctima: CIFAR10, CIFAR100, Caltech256, CUBS200
Conjunto de Datos de Ataque: ImageNet (1.2 millones de imágenes)
Conjunto de Datos Sombra: CC3M (5000 imágenes seleccionadas aleatoriamente)
Conjunto de Datos de Validación: Conjunto de datos pequeño relacionado con la tarea

Métricas de Evaluación

Precisión en Prueba Limpia (Acc_c): Precisión del modelo sustituto en muestras de prueba limpias
Precisión en Prueba de Verificación (Acc_v): Precisión del modelo sustituto al predecir la etiqueta objetivo en muestras con disparador
Tasa de Éxito de Ataque (ASR): Tasa de éxito del defensor en realizar ataque inverso

Métodos de Comparación

Ataques de Extracción: KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
Defensas de Referencia: Sin defensa, DVBW (método de verificación de propiedad de conjunto de datos)

Detalles de Implementación

Iteraciones BLO: 30 iteraciones, cada una con 3 pasos de 5 épocas cada uno
Modelo Sombra: ResNet18 (ligero)
Tamaño del Disparador: 6×6 para conjuntos de datos CIFAR, 28×28 para otros
Optimizador: SGD, momento 0.9, tasa de aprendizaje 0.1 (modelo sombra)/0.02 (capa trampa)

Resultados Experimentales

Resultados Principales

Con un presupuesto de consultas de 30k, HoneypotNet logra resultados significativos en todos los conjuntos de datos y métodos de ataque:

Método de Ataque	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
KnockoffNets	59.35%	85.71%	78.31%	79.13%
ActiveThief (Entropy)	56.99%	74.35%	83.22%	77.43%
ActiveThief (k-Center)	67.49%	74.63%	80.27%	80.80%
SPSG	66.12%	77.11%	83.51%	77.88%
BlackBox Dissector	78.59%	80.05%	92.35%	78.98%

Hallazgos Clave

Alta Tasa de Éxito: ASR supera el 56% en todos los escenarios de prueba
Mantenimiento del Rendimiento: Acc_c es esencialmente equivalente al caso sin defensa, sin despertar sospechas del atacante
Fuerte Capacidad de Verificación: Acc_v significativamente superior a métodos de referencia, apoyando efectivamente la verificación de propiedad
Robustez ante Etiquetas Duras: Mantiene alta efectividad incluso bajo ataques de etiquetas duras de BlackBox Dissector

Experimentos de Ablación

Impacto del Tamaño del Disparador

Experimentos con tamaño de disparador de 1×1 a 15×15 muestran:
Disparadores más grandes resultan en ASR más alto
Necesidad de equilibrar tamaño del disparador con ocultación

Diferentes Arquitecturas de Modelo Sustituto

Arquitectura	CIFAR10 ASR	CIFAR100 ASR	CUBS200 ASR	Caltech256 ASR
ResNet34	59.35%	85.71%	78.31%	79.13%
VGG16	97.16%	87.10%	89.82%	62.17%
DenseNet121	51.68%	53.72%	65.46%	58.00%

Análisis de Robustez de Defensa

Evasión de Detección de Puerta Trasera

Utilizando el método de detección Cognitive Distillation (CD), los resultados muestran que la distribución de norma L1 entre muestras limpias y muestras con puerta trasera es altamente similar, indicando que el disparador UAP posee buena ocultación.

Robustez ante Poda de Neuronas

Las pruebas contra la defensa Reconstructive Neuron Pruning (RNP) muestran que incluso después del procesamiento de poda, ASR se mantiene en un nivel alto, demostrando la robustez de la puerta trasera.

Trabajo Relacionado

Ataques de Extracción de Modelos

Métodos de Síntesis de Datos: Utilizan GANs o modelos de difusión para generar datos de entrenamiento sintéticos
Métodos de Selección de Datos: Seleccionan muestras informativas de un conjunto de datos preexistente, como KnockoffNets, ActiveThief

Defensa contra Extracción de Modelos

Detección de Extracción: Monitorea el comportamiento de consultas de usuarios para detectar usuarios maliciosos
Prueba de Trabajo: Aumenta el costo de consultas
Marcas de Agua de Modelos: Incrusta características verificables
Perturbación de Predicciones: Añade perturbaciones a las predicciones del modelo

Ataques de Puerta Trasera

Ataques de Imagen Sucia: Inyecta muestras con disparador en datos de entrenamiento
Ataques de Imagen Limpia: Inyecta puertas traseras directamente sin modificar imágenes

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Nuevo Paradigma: El paradigma "ataque como defensa" proporciona una nueva perspectiva para la defensa contra extracción de modelos
Viabilidad Técnica: HoneypotNet implementa exitosamente la inyección de puerta trasera ligera
Valor Práctico: El método muestra excelente rendimiento en múltiples escenarios de ataque, con potencial de aplicación práctica

Limitaciones

Sobrecarga Computacional: Aunque es relativamente ligero, aún requiere un proceso de optimización de dos niveles
Visibilidad del Disparador: Los disparadores más grandes pueden ser descubiertos
Dependencia de Arquitectura: La efectividad varía con diferentes arquitecturas de modelo sustituto
Defensa Adversarial: Puede enfrentar métodos de defensa más avanzados

Direcciones Futuras

Integración de Modelos Sombra Múltiples: Utilizar múltiples modelos sombra para mejorar robustez
Disparadores Adaptativos: Diseñar métodos de generación de disparadores más ocultos
Extensión de Aplicaciones: Extender el método a otros tipos de modelos y tareas
Análisis Teórico: Proporcionar garantías teóricas más profundas

Evaluación Profunda

Fortalezas

Fuerte Innovación: Propone por primera vez el paradigma de defensa "ataque como defensa", con ideas novedosas
Técnica Avanzada: Combina ingeniosamente UAP y ataques de puerta trasera, resolviendo el desafío técnico de inyección sin disparador
Experimentación Completa: Realiza evaluación exhaustiva en múltiples conjuntos de datos y métodos de ataque
Alto Valor Práctico: El método es ligero y adecuado para despliegue en sistemas reales
Funcionalidad Dual: Logra simultáneamente verificación de propiedad y destrucción de funcionalidad, con fuerte efecto disuasorio

Insuficiencias

Análisis Teórico Limitado: Carece de garantías teóricas sobre convergencia y seguridad del método
Limitaciones de Defensa: La robustez contra ciertos métodos de ataque avanzados requiere verificación adicional
Consideraciones Éticas: El ataque activo a modelos sustitutos puede plantear cuestiones éticas y legales
Rango de Aplicabilidad: Principalmente enfocado en tareas de clasificación de imágenes, la aplicabilidad a otras tareas es desconocida

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para el campo de defensa de seguridad de modelos
Valor Práctico: Proporciona herramientas de defensa prácticas para plataformas MLaaS
Reproducibilidad: El artículo proporciona detalles de implementación detallados, facilitando la reproducción
Inspiración: Puede inspirar más métodos de defensa del tipo "ataque como defensa"

Escenarios de Aplicación

Plataformas MLaaS: Protección de modelos en servicios de aprendizaje automático en la nube
Modelos Comerciales: Protección de propiedad intelectual de modelos de aprendizaje profundo de alto valor
Servicios de API: Servicios de inferencia en línea que necesitan prevenir robo de modelos
Despliegue en Borde: Defensa ligera en entornos con recursos limitados

Referencias

El artículo cita trabajos importantes en seguridad de aprendizaje automático, ataques y defensas de extracción de modelos, y ataques de puerta trasera, incluyendo KnockoffNets, ActiveThief y trabajos fundacionales en ataques de puerta trasera, proporcionando una base teórica sólida para la investigación.

Evaluación General: El método HoneypotNet propuesto en este artículo posee un significado innovador importante en el campo de la defensa contra extracción de modelos. La idea de "ataque como defensa" abre una nueva dirección de investigación para este campo. La implementación técnica es ingeniosa, la evaluación experimental es completa, y posee alto valor académico y práctico. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es un trabajo de investigación de alta calidad.