2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao
In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Θ(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Θ(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
academic

Marcas de Agua Demostrables para Ataques de Envenenamiento de Datos

Información Básica

  • ID del Artículo: 2510.09210
  • Título: Provable Watermarking for Data Poisoning Attacks
  • Autores: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.LG (Aprendizaje Automático)
  • Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09210

Resumen

En años recientes, los ataques de envenenamiento de datos se han diseñado cada vez más para parecer inofensivos e incluso beneficiosos, utilizándose comúnmente para verificar la propiedad de conjuntos de datos o proteger datos privados contra el uso no autorizado. Sin embargo, estos desarrollos pueden conducir a malentendidos y conflictos, ya que el envenenamiento de datos se ha considerado tradicionalmente como una amenaza de seguridad para los sistemas de aprendizaje automático. Para abordar este problema, los generadores de envenenamiento inofensivo deben declarar la propiedad del conjunto de datos que generan, permitiendo a los usuarios identificar el envenenamiento potencial para prevenir el mal uso. Este artículo propone la implementación de esquemas de marca de agua como solución a este desafío, introduciendo dos métodos demostrables y prácticos de marca de agua para envenenamiento de datos: marca de agua posterior al envenenamiento y marca de agua concurrente con envenenamiento. El análisis demuestra que cuando la longitud de la marca de agua es Θ(√d/ε_w) (marca de agua posterior al envenenamiento) y está en el rango Θ(1/ε_w²) a O(√d/ε_p) (marca de agua concurrente con envenenamiento), el conjunto de datos envenenado con marca de agua garantiza demostrablemente la detectabilidad de la marca de agua y la utilidad del envenenamiento.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Cambio de Perspectiva Tradicional: Los ataques de envenenamiento de datos están evolucionando de amenazas maliciosas tradicionales hacia aplicaciones "benévolas", como la verificación de propiedad de conjuntos de datos y la prevención del uso no autorizado
  2. Problemas de Transparencia: Cuando el envenenamiento se utiliza con fines de protección, los usuarios autorizados pueden usar inadvertidamente datos envenenados, causando malentendidos y conflictos
  3. Falta de Responsabilidad: Los métodos de detección existentes carecen de un marco unificado y mecanismos de declaración demostrables

Importancia

  • Con el entrenamiento de modelos a gran escala dependiendo cada vez más de datos extraídos de la web o sintéticos, el impacto del envenenamiento de datos es cada vez más significativo
  • Artistas y creadores de datos necesitan proteger su propiedad intelectual contra el uso no autorizado de IA generativa
  • Es necesario establecer un equilibrio entre la protección de datos y la transparencia

Limitaciones de Métodos Existentes

  • Los métodos de detección varían según el tipo de ataque, lo que dificulta la unificación
  • Se basan en algoritmos de entrenamiento heurísticos, careciendo de mecanismos demostrables
  • No pueden proporcionar declaraciones claras y verificables para conjuntos de datos envenenados

Contribuciones Principales

  1. Primera Propuesta de Marco de Marca de Agua para Envenenamiento de Datos: Aplicación de técnicas de marca de agua al escenario de envenenamiento de datos, proporcionando transparencia y responsabilidad
  2. Dos Esquemas de Marca de Agua:
    • Marca de agua posterior al envenenamiento: Una entidad tercera crea una marca de agua para un conjunto de datos ya envenenado
    • Marca de agua concurrente con envenenamiento: El generador de envenenamiento crea simultáneamente la marca de agua y el envenenamiento
  3. Garantías Teóricas: Proporciona análisis teórico riguroso de la detectabilidad de la marca de agua y la utilidad del envenenamiento
  4. Verificación Práctica: Valida los hallazgos teóricos en múltiples ataques, modelos y conjuntos de datos

Explicación Detallada del Método

Definición de Tareas

  • Entrada: Conjunto de datos original D, presupuesto de envenenamiento ε_p, presupuesto de marca de agua ε_w
  • Salida: Conjunto de datos envenenado con marca de agua, clave de detección ζ
  • Restricciones: Mantener la utilidad del envenenamiento mientras se garantiza la detectabilidad de la marca de agua

Arquitectura del Modelo

1. Marca de Agua Posterior al Envenenamiento (Post-Poisoning Watermarking)

Datos originales x → Envenenamiento δ_p → Datos envenenados x' → Marca de agua δ_w → Datos finales x' + δ_w
  • Una entidad tercera añade una marca de agua a datos ya envenenados
  • Presupuesto de perturbación total: ε_p + ε_w
  • Requisito de longitud de marca de agua: Θ(√d/ε_w)

2. Marca de Agua Concurrente con Envenenamiento (Poisoning-Concurrent Watermarking)

Datos originales x → Aplicación simultánea de envenenamiento y marca de agua → Datos finales x + δ_p + δ_w
  • El generador de envenenamiento controla simultáneamente el envenenamiento y la marca de agua
  • Separación de dimensiones: Dimensiones de marca de agua W, dimensiones de envenenamiento P = d\W
  • Presupuesto de perturbación total: max{ε_p, ε_w}
  • Requisito de longitud de marca de agua: Θ(1/ε_w²) a O(√d/ε_p)

3. Mecanismo de Detección

  • Clave: Vector de d dimensiones ζ
  • Detección: Calcular el producto interno ζᵀx, comparar con umbral
  • Decisión: ζᵀ(datos envenenados) > umbral > ζᵀ(datos normales)

Puntos de Innovación Técnica

1. Innovación del Marco Teórico

  • Análisis a Nivel de Muestra: Marca de agua y clave independientes para cada punto de datos
  • Versión Universal: Una única clave aplicable a todas las muestras
  • Generalización de Distribución: Extensión de muestras finitas a distribución general

2. Garantías Matemáticas

Utilizando la desigualdad de McDiarmid y la teoría de dimensión VC, se demuestra:

  • Detectabilidad: Distinción de alta probabilidad entre datos envenenados y normales
  • Preservación de Utilidad: Impacto controlable de la marca de agua en el efecto del envenenamiento
  • Rendimiento de Generalización: Extensión de resultados de muestras finitas a distribución

3. Estrategia de Separación de Dimensiones

La marca de agua concurrente con envenenamiento evita interferencias mediante separación de dimensiones:

  • La marca de agua utiliza dimensiones W = {d₁, d₂, ..., d_q}
  • El envenenamiento utiliza dimensiones P = d\W
  • Reduce la interferencia mutua y mejora el rendimiento

Configuración Experimental

Conjuntos de Datos

  • CIFAR-10/CIFAR-100: Conjuntos de datos clásicos de clasificación de imágenes
  • Tiny-ImageNet: ImageNet a pequeña escala
  • SST-2: Conjunto de datos de análisis de sentimiento de texto

Métodos de Ataque

Ataques de Puerta Trasera

  • Narcissus: Ataque de puerta trasera de etiqueta limpia
  • AdvSc: Ataque de puerta trasera adversarial

Ataques de Disponibilidad

  • UE (Unlearnable Examples): Ejemplos no aprendibles
  • AP (Adversarial Poisoning): Envenenamiento adversarial

Arquitecturas de Modelos

  • ResNet-18/50, VGG-19, DenseNet121
  • WRN34-10, MobileNet v2, ViT-B
  • BERT-base (tareas de texto)

Métricas de Evaluación

  • Precisión (Acc): Rendimiento del modelo en el conjunto de prueba
  • Tasa de Éxito del Ataque (ASR): Efectividad del ataque de puerta trasera
  • AUROC: Rendimiento de detección de marca de agua
  • Sobrecarga Computacional: Análisis de costos de tiempo

Detalles de Implementación

  • Presupuesto de marca de agua/envenenamiento: 4/255 a 32/255
  • Longitud de marca de agua: 100 a 3000
  • Entrenamiento: 200 épocas, programación de tasa de aprendizaje coseno
  • Optimizador: SGD, momento 0.9, decaimiento de peso 10⁻⁴

Resultados Experimentales

Resultados Principales

1. Rendimiento de Detección de Marca de Agua

Longitud de Marca de AguaNarcissus (Posterior)Narcissus (Concurrente)AdvSc (Posterior)AdvSc (Concurrente)
5000.95090.99680.92180.9986
10000.99740.99920.98090.9995
20001.00001.00000.99941.0000

2. Preservación de Utilidad del Envenenamiento

  • Marca de Agua Posterior al Envenenamiento: Mantiene buen rendimiento de ataque en todas las longitudes de marca de agua
  • Marca de Agua Concurrente con Envenenamiento: Disminución notable del efecto de ataque cuando la longitud de marca de agua es excesiva

3. Verificación Teórica

Los resultados experimentales verifican las predicciones teóricas:

  • La marca de agua concurrente con envenenamiento requiere longitudes de marca de agua más cortas para lograr el mismo rendimiento de detección
  • La marca de agua posterior al envenenamiento tiene menor impacto en la utilidad del envenenamiento
  • La longitud de marca de agua está positivamente correlacionada con el rendimiento de detección

Experimentos de Ablación

1. Impacto del Presupuesto de Marca de Agua

Con el aumento de ε_w:

  • Mejora del rendimiento de detección (AUROC)
  • Disminución del efecto de envenenamiento
  • Verificación de la relación de compensación en la teoría

2. Análisis de Posición de Marca de Agua

Prueba de diferentes regiones de imagen (superior izquierda, inferior izquierda, superior derecha, inferior derecha):

  • Impacto mínimo de la posición en el rendimiento
  • Verificación de la independencia de posición en la teoría

3. Transferibilidad del Modelo

Demostración de buena transferibilidad entre diferentes arquitecturas:

  • Puntuaciones AUROC altas (>0.95)
  • Detección estable entre arquitecturas

Análisis de Robustez

1. Resistencia a Aumentación de Datos

Prueba de Random Flip, Cutout, Color Jitter, etc.:

  • AUROC mantiene 1.0000
  • Demuestra robustez fuerte

2. Métodos de Defensa

  • Privacidad Diferencial: Ruido severo causa fallo de entrenamiento
  • Purificación por Difusión: Destruye simultáneamente marca de agua y envenenamiento
  • Denoising Adversarial: Afecta la utilidad del envenenamiento

Trabajo Relacionado

Investigación sobre Envenenamiento de Datos

  • Ataques de Puerta Trasera: BadNets, Narcissus, etc.
  • Ataques de Disponibilidad: Ejemplos no aprendibles, envenenamiento adversarial
  • Métodos de Defensa: Algoritmos de detección, purificación de datos

Tecnología de Marca de Agua

  • Marca de Agua de Modelo: Protección de derechos de autor de redes neuronales
  • Marca de Agua de Datos: Verificación de propiedad de conjuntos de datos
  • Marca de Agua de Texto: Detección de contenido generado por modelos de lenguaje grande

Distinción Técnica

Este artículo es el primero en aplicar sistemáticamente técnicas de marca de agua al escenario de envenenamiento de datos, proporcionando garantías teóricas y soluciones prácticas.

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Establecimiento del marco teórico para marca de agua de envenenamiento de datos
  2. Soluciones Prácticas: Provisión de dos métodos de marca de agua desplegables
  3. Verificación de Rendimiento: Experimentos confirman la precisión de las predicciones teóricas
  4. Valor de Aplicación: Proporciona transparencia y responsabilidad para envenenamiento "benévolo"

Limitaciones

  1. Condiciones Necesarias Desconocidas: Solo se proporcionan condiciones suficientes, las condiciones necesarias requieren investigación adicional
  2. Fragilidad de Defensa: Disminución de rendimiento frente a métodos de defensa fuertes
  3. Sobrecarga Computacional: La marca de agua concurrente con envenenamiento requiere tiempo de cálculo adicional
  4. Rango de Aplicabilidad: Principalmente dirigido a ataques de envenenamiento imperceptibles

Direcciones Futuras

  1. Mayor Robustez: Diseño de esquemas de marca de agua resistentes a defensa
  2. Condiciones Necesarias: Exploración de condiciones necesarias para detectabilidad de marca de agua
  3. Optimización de Eficiencia: Reducción de sobrecarga computacional y de almacenamiento
  4. Extensión de Aplicaciones: Extensión a más tipos de envenenamiento y dominios

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda la necesidad práctica de transparencia en envenenamiento de datos
  2. Rigor Teórico: Proporciona análisis matemático completo y pruebas
  3. Innovación del Método: Primera combinación sistemática de técnicas de marca de agua y envenenamiento
  4. Experimentación Exhaustiva: Verificación completa en múltiples conjuntos de datos, modelos y ataques
  5. Valor Práctico: Proporciona soluciones desplegables

Deficiencias

  1. Consideración Insuficiente de Defensa: Robustez limitada contra métodos de defensa fuertes
  2. Completitud Teórica: Falta análisis de condiciones necesarias
  3. Limitación del Rango de Aplicabilidad: Principalmente aplicable a ataques imperceptibles
  4. Eficiencia Computacional: Sobrecarga relativamente alta en algunos escenarios

Impacto

  1. Contribución Académica: Combinación pionera de dos campos de seguridad importantes
  2. Valor Práctico: Proporciona nuevas herramientas para seguridad de IA y protección de datos
  3. Significado Teórico: Establece nuevo marco de análisis teórico
  4. Aplicación Industrial: Aplicable a protección de derechos de autor de conjuntos de datos, etc.

Escenarios de Aplicabilidad

  1. Publicación de Conjuntos de Datos: Protección de derechos de autor de conjuntos de datos de código abierto
  2. Protección de Obras de Arte: Prevención del uso no autorizado de IA generativa
  3. Compartición de Datos Empresariales: Seguimiento del uso de datos internos
  4. Investigación Académica: Verificación de origen de datos de investigación

Detalles de Implementación Técnica

Flujo de Algoritmos

Algoritmo de Marca de Agua Posterior al Envenenamiento

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Algoritmo de Detección

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Garantías Teóricas

Basadas en la desigualdad de McDiarmid, para marca de agua posterior al envenenamiento:

  • Cuando q > (2/ε_w)√(2d log(1/ω))
  • P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Consideraciones de Despliegue Práctico

  1. Gestión de Claves: Soporte para rotación de claves y autenticación HMAC
  2. Verificación de Integridad: Hash SHA256 para garantizar integridad de datos
  3. Control de Acceso: Distribución segura de claves basada en HTTPS
  4. Escalabilidad: Soporte para procesamiento de conjuntos de datos a gran escala

Resumen: Este artículo realiza contribuciones pioneras en el campo de intersección entre envenenamiento de datos y tecnología de marca de agua, proporcionando no solo análisis teórico riguroso sino también soluciones prácticas. Aunque hay espacio para mejora en robustez de defensa y completitud teórica, el problema que aborda tiene importancia práctica significativa, proporcionando nuevas direcciones de investigación y herramientas para los campos de seguridad de IA y protección de datos.