2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic

HoneypotNet: Ataques de Puerta Trasera Contra la Extracción de Modelos

Información Básica

  • ID del Artículo: 2501.01090
  • Título: HoneypotNet: Ataques de Puerta Trasera Contra la Extracción de Modelos
  • Autores: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.CV (Visión por Computadora)
  • Fecha de Publicación/Conferencia: Presentado en arXiv el 2 de enero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.01090

Resumen

Los ataques de extracción de modelos son ataques en tiempo de inferencia que entrenan modelos sustitutos mediante consultas a modelos víctima de caja negra, aproximando así la funcionalidad y el rendimiento del modelo víctima. Estos ataques representan una amenaza de seguridad grave para los modelos en producción y las plataformas de MLaaS, pudiendo causar pérdidas económicas significativas a los propietarios de modelos. Este artículo propone un nuevo paradigma de defensa "ataque como defensa" (attack as defense), modificando las salidas del modelo para hacerlas tóxicas, de modo que cualquier usuario malintencionado que intente entrenar un modelo sustituto con estas salidas sea envenenado. Para ello, los autores proponen HoneypotNet, un método de ataque de puerta trasera ligero que reemplaza la capa de clasificación del modelo víctima con una capa trampa (honeypot layer), y mediante optimización de dos niveles y un modelo sombra (que simula el proceso de extracción de modelos) ajusta la capa trampa, manteniendo el rendimiento original mientras hace tóxicas las salidas.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los ataques de extracción de modelos se han convertido en una de las principales amenazas para las plataformas de aprendizaje automático como servicio (MLaaS). Los atacantes consultan modelos de caja negra a través de APIs, utilizando los resultados de predicción devueltos para entrenar modelos sustitutos funcionalmente similares, robando así la propiedad intelectual del modelo.

Importancia del Problema

  1. Pérdidas Económicas: Los ataques de extracción de modelos pueden causar pérdidas económicas significativas a los propietarios de modelos
  2. Protección de Propiedad Intelectual: El entrenamiento de modelos de aprendizaje profundo es costoso y requiere protección efectiva
  3. Amenazas de Seguridad: Los atacantes pueden utilizar modelos extraídos para realizar ataques adversariales posteriores

Limitaciones de Métodos Existentes

Los métodos de defensa existentes se dividen principalmente en dos categorías:

  1. Defensa Pasiva: Detecta consultas maliciosas o utiliza marcas de agua para verificación posterior, pero depende de conocimiento previo con efectividad limitada
  2. Defensa Activa: Perturba las salidas del modelo o aumenta el costo de consultas para prevenir la extracción, pero con gran sobrecarga computacional y susceptible a ataques avanzados

Motivación de la Investigación

Los métodos de defensa tradicionales enfrentan un problema de carrera armamentista. Este artículo propone el nuevo paradigma "ataque como defensa", atacando activamente el modelo sustituto para destruir su funcionalidad, formando un fuerte efecto disuasorio para los atacantes.

Contribuciones Principales

  1. Nuevo Paradigma de Defensa: Propone por primera vez el paradigma de defensa "ataque como defensa" (attack as defense), atacando activamente el modelo sustituto con puertas traseras
  2. Método HoneypotNet: Diseña una capa trampa ligera que reemplaza la capa de clasificación original, generando vectores de probabilidad tóxicos mediante optimización de dos niveles
  3. Puerta Trasera sin Disparador: Utiliza innovadoramente perturbaciones adversariales universales (UAP) como disparador de puerta trasera, sin necesidad de inyectar explícitamente disparadores en imágenes
  4. Funcionalidad Dual: La puerta trasera inyectada puede realizar verificación de propiedad y destruir la funcionalidad del modelo sustituto, formando un fuerte efecto disuasorio
  5. Verificación Experimental: Verifica la efectividad del método en cuatro conjuntos de datos de referencia, con tasas de éxito de ataque del 56.99%-92.35%

Explicación Detallada del Método

Definición de la Tarea

Dado un modelo víctima F, el objetivo es diseñar una capa trampa H tal que:

  • Mantenga el rendimiento original en entradas normales
  • Cuando un atacante entrena un modelo sustituto F̂ usando las salidas de H, F̂ sea inyectado con una puerta trasera
  • La puerta trasera pueda utilizarse para verificación de propiedad y ataque inverso

Arquitectura del Modelo

Diseño de la Capa Trampa

La capa trampa H se define como una capa completamente conectada:

H(x) = W · F_feat(x) + b

donde F_feat(x) es la salida de características del modelo víctima, y W y b son parámetros aprendibles.

Marco de Optimización de Dos Niveles

El objetivo de optimización central es:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Con restricciones:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Proceso Iterativo de Tres Pasos

  1. Simulación de Extracción: Utiliza el modelo sombra Fs para simular el proceso de extracción de modelos del atacante
  2. Generación de Disparador: Genera el disparador UAP mediante actualización de signo de gradiente
  3. Ajuste Fino: Actualiza los parámetros de la capa trampa para inyectar la puerta trasera manteniendo la funcionalidad normal

Puntos de Innovación Técnica

Perturbación Adversarial Universal como Disparador

  • Aprovecha la fragilidad adversarial inherente de los modelos de aprendizaje profundo
  • UAP puede servir como disparador sin toxinas, sin necesidad de inyección explícita
  • Implementa transmisión de puerta trasera mediante fragilidad adversarial compartida

Actualización de Disparador con Optimización de Momento

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Restricción de Máscara

Utiliza una máscara predefinida M para limitar la ubicación del disparador, mejorando la ocultación.

Configuración Experimental

Conjuntos de Datos

  • Conjunto de Datos del Modelo Víctima: CIFAR10, CIFAR100, Caltech256, CUBS200
  • Conjunto de Datos de Ataque: ImageNet (1.2 millones de imágenes)
  • Conjunto de Datos Sombra: CC3M (5000 imágenes seleccionadas aleatoriamente)
  • Conjunto de Datos de Validación: Conjunto de datos pequeño relacionado con la tarea

Métricas de Evaluación

  1. Precisión en Prueba Limpia (Acc_c): Precisión del modelo sustituto en muestras de prueba limpias
  2. Precisión en Prueba de Verificación (Acc_v): Precisión del modelo sustituto al predecir la etiqueta objetivo en muestras con disparador
  3. Tasa de Éxito de Ataque (ASR): Tasa de éxito del defensor en realizar ataque inverso

Métodos de Comparación

  • Ataques de Extracción: KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
  • Defensas de Referencia: Sin defensa, DVBW (método de verificación de propiedad de conjunto de datos)

Detalles de Implementación

  • Iteraciones BLO: 30 iteraciones, cada una con 3 pasos de 5 épocas cada uno
  • Modelo Sombra: ResNet18 (ligero)
  • Tamaño del Disparador: 6×6 para conjuntos de datos CIFAR, 28×28 para otros
  • Optimizador: SGD, momento 0.9, tasa de aprendizaje 0.1 (modelo sombra)/0.02 (capa trampa)

Resultados Experimentales

Resultados Principales

Con un presupuesto de consultas de 30k, HoneypotNet logra resultados significativos en todos los conjuntos de datos y métodos de ataque:

Método de AtaqueCIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
KnockoffNets59.35%85.71%78.31%79.13%
ActiveThief (Entropy)56.99%74.35%83.22%77.43%
ActiveThief (k-Center)67.49%74.63%80.27%80.80%
SPSG66.12%77.11%83.51%77.88%
BlackBox Dissector78.59%80.05%92.35%78.98%

Hallazgos Clave

  1. Alta Tasa de Éxito: ASR supera el 56% en todos los escenarios de prueba
  2. Mantenimiento del Rendimiento: Acc_c es esencialmente equivalente al caso sin defensa, sin despertar sospechas del atacante
  3. Fuerte Capacidad de Verificación: Acc_v significativamente superior a métodos de referencia, apoyando efectivamente la verificación de propiedad
  4. Robustez ante Etiquetas Duras: Mantiene alta efectividad incluso bajo ataques de etiquetas duras de BlackBox Dissector

Experimentos de Ablación

Impacto del Tamaño del Disparador

  • Experimentos con tamaño de disparador de 1×1 a 15×15 muestran:
  • Disparadores más grandes resultan en ASR más alto
  • Necesidad de equilibrar tamaño del disparador con ocultación

Diferentes Arquitecturas de Modelo Sustituto

ArquitecturaCIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
ResNet3459.35%85.71%78.31%79.13%
VGG1697.16%87.10%89.82%62.17%
DenseNet12151.68%53.72%65.46%58.00%

Análisis de Robustez de Defensa

Evasión de Detección de Puerta Trasera

Utilizando el método de detección Cognitive Distillation (CD), los resultados muestran que la distribución de norma L1 entre muestras limpias y muestras con puerta trasera es altamente similar, indicando que el disparador UAP posee buena ocultación.

Robustez ante Poda de Neuronas

Las pruebas contra la defensa Reconstructive Neuron Pruning (RNP) muestran que incluso después del procesamiento de poda, ASR se mantiene en un nivel alto, demostrando la robustez de la puerta trasera.

Trabajo Relacionado

Ataques de Extracción de Modelos

  1. Métodos de Síntesis de Datos: Utilizan GANs o modelos de difusión para generar datos de entrenamiento sintéticos
  2. Métodos de Selección de Datos: Seleccionan muestras informativas de un conjunto de datos preexistente, como KnockoffNets, ActiveThief

Defensa contra Extracción de Modelos

  1. Detección de Extracción: Monitorea el comportamiento de consultas de usuarios para detectar usuarios maliciosos
  2. Prueba de Trabajo: Aumenta el costo de consultas
  3. Marcas de Agua de Modelos: Incrusta características verificables
  4. Perturbación de Predicciones: Añade perturbaciones a las predicciones del modelo

Ataques de Puerta Trasera

  1. Ataques de Imagen Sucia: Inyecta muestras con disparador en datos de entrenamiento
  2. Ataques de Imagen Limpia: Inyecta puertas traseras directamente sin modificar imágenes

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Nuevo Paradigma: El paradigma "ataque como defensa" proporciona una nueva perspectiva para la defensa contra extracción de modelos
  2. Viabilidad Técnica: HoneypotNet implementa exitosamente la inyección de puerta trasera ligera
  3. Valor Práctico: El método muestra excelente rendimiento en múltiples escenarios de ataque, con potencial de aplicación práctica

Limitaciones

  1. Sobrecarga Computacional: Aunque es relativamente ligero, aún requiere un proceso de optimización de dos niveles
  2. Visibilidad del Disparador: Los disparadores más grandes pueden ser descubiertos
  3. Dependencia de Arquitectura: La efectividad varía con diferentes arquitecturas de modelo sustituto
  4. Defensa Adversarial: Puede enfrentar métodos de defensa más avanzados

Direcciones Futuras

  1. Integración de Modelos Sombra Múltiples: Utilizar múltiples modelos sombra para mejorar robustez
  2. Disparadores Adaptativos: Diseñar métodos de generación de disparadores más ocultos
  3. Extensión de Aplicaciones: Extender el método a otros tipos de modelos y tareas
  4. Análisis Teórico: Proporcionar garantías teóricas más profundas

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Propone por primera vez el paradigma de defensa "ataque como defensa", con ideas novedosas
  2. Técnica Avanzada: Combina ingeniosamente UAP y ataques de puerta trasera, resolviendo el desafío técnico de inyección sin disparador
  3. Experimentación Completa: Realiza evaluación exhaustiva en múltiples conjuntos de datos y métodos de ataque
  4. Alto Valor Práctico: El método es ligero y adecuado para despliegue en sistemas reales
  5. Funcionalidad Dual: Logra simultáneamente verificación de propiedad y destrucción de funcionalidad, con fuerte efecto disuasorio

Insuficiencias

  1. Análisis Teórico Limitado: Carece de garantías teóricas sobre convergencia y seguridad del método
  2. Limitaciones de Defensa: La robustez contra ciertos métodos de ataque avanzados requiere verificación adicional
  3. Consideraciones Éticas: El ataque activo a modelos sustitutos puede plantear cuestiones éticas y legales
  4. Rango de Aplicabilidad: Principalmente enfocado en tareas de clasificación de imágenes, la aplicabilidad a otras tareas es desconocida

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para el campo de defensa de seguridad de modelos
  2. Valor Práctico: Proporciona herramientas de defensa prácticas para plataformas MLaaS
  3. Reproducibilidad: El artículo proporciona detalles de implementación detallados, facilitando la reproducción
  4. Inspiración: Puede inspirar más métodos de defensa del tipo "ataque como defensa"

Escenarios de Aplicación

  1. Plataformas MLaaS: Protección de modelos en servicios de aprendizaje automático en la nube
  2. Modelos Comerciales: Protección de propiedad intelectual de modelos de aprendizaje profundo de alto valor
  3. Servicios de API: Servicios de inferencia en línea que necesitan prevenir robo de modelos
  4. Despliegue en Borde: Defensa ligera en entornos con recursos limitados

Referencias

El artículo cita trabajos importantes en seguridad de aprendizaje automático, ataques y defensas de extracción de modelos, y ataques de puerta trasera, incluyendo KnockoffNets, ActiveThief y trabajos fundacionales en ataques de puerta trasera, proporcionando una base teórica sólida para la investigación.


Evaluación General: El método HoneypotNet propuesto en este artículo posee un significado innovador importante en el campo de la defensa contra extracción de modelos. La idea de "ataque como defensa" abre una nueva dirección de investigación para este campo. La implementación técnica es ingeniosa, la evaluación experimental es completa, y posee alto valor académico y práctico. Aunque hay espacio para mejora en análisis teórico y ciertos detalles técnicos, en general es un trabajo de investigación de alta calidad.