2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

Marcas de Agua Demostrables para Ataques de Envenenamiento de Datos

Información Básica

ID del Artículo: 2510.09210
Título: Provable Watermarking for Data Poisoning Attacks
Autores: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
Clasificación: cs.CR (Criptografía y Seguridad), cs.LG (Aprendizaje Automático)
Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2510.09210

Resumen

En años recientes, los ataques de envenenamiento de datos se han diseñado cada vez más para parecer inofensivos e incluso beneficiosos, utilizándose comúnmente para verificar la propiedad de conjuntos de datos o proteger datos privados contra el uso no autorizado. Sin embargo, estos desarrollos pueden conducir a malentendidos y conflictos, ya que el envenenamiento de datos se ha considerado tradicionalmente como una amenaza de seguridad para los sistemas de aprendizaje automático. Para abordar este problema, los generadores de envenenamiento inofensivo deben declarar la propiedad del conjunto de datos que generan, permitiendo a los usuarios identificar el envenenamiento potencial para prevenir el mal uso. Este artículo propone la implementación de esquemas de marca de agua como solución a este desafío, introduciendo dos métodos demostrables y prácticos de marca de agua para envenenamiento de datos: marca de agua posterior al envenenamiento y marca de agua concurrente con envenenamiento. El análisis demuestra que cuando la longitud de la marca de agua es Θ(√d/ε_w) (marca de agua posterior al envenenamiento) y está en el rango Θ(1/ε_w²) a O(√d/ε_p) (marca de agua concurrente con envenenamiento), el conjunto de datos envenenado con marca de agua garantiza demostrablemente la detectabilidad de la marca de agua y la utilidad del envenenamiento.

Antecedentes de Investigación y Motivación

Definición del Problema

Cambio de Perspectiva Tradicional: Los ataques de envenenamiento de datos están evolucionando de amenazas maliciosas tradicionales hacia aplicaciones "benévolas", como la verificación de propiedad de conjuntos de datos y la prevención del uso no autorizado
Problemas de Transparencia: Cuando el envenenamiento se utiliza con fines de protección, los usuarios autorizados pueden usar inadvertidamente datos envenenados, causando malentendidos y conflictos
Falta de Responsabilidad: Los métodos de detección existentes carecen de un marco unificado y mecanismos de declaración demostrables

Importancia

Con el entrenamiento de modelos a gran escala dependiendo cada vez más de datos extraídos de la web o sintéticos, el impacto del envenenamiento de datos es cada vez más significativo
Artistas y creadores de datos necesitan proteger su propiedad intelectual contra el uso no autorizado de IA generativa
Es necesario establecer un equilibrio entre la protección de datos y la transparencia

Limitaciones de Métodos Existentes

Los métodos de detección varían según el tipo de ataque, lo que dificulta la unificación
Se basan en algoritmos de entrenamiento heurísticos, careciendo de mecanismos demostrables
No pueden proporcionar declaraciones claras y verificables para conjuntos de datos envenenados

Contribuciones Principales

Primera Propuesta de Marco de Marca de Agua para Envenenamiento de Datos: Aplicación de técnicas de marca de agua al escenario de envenenamiento de datos, proporcionando transparencia y responsabilidad
Dos Esquemas de Marca de Agua:
- Marca de agua posterior al envenenamiento: Una entidad tercera crea una marca de agua para un conjunto de datos ya envenenado
- Marca de agua concurrente con envenenamiento: El generador de envenenamiento crea simultáneamente la marca de agua y el envenenamiento
Garantías Teóricas: Proporciona análisis teórico riguroso de la detectabilidad de la marca de agua y la utilidad del envenenamiento
Verificación Práctica: Valida los hallazgos teóricos en múltiples ataques, modelos y conjuntos de datos

Explicación Detallada del Método

Definición de Tareas

Entrada: Conjunto de datos original D, presupuesto de envenenamiento ε_p, presupuesto de marca de agua ε_w
Salida: Conjunto de datos envenenado con marca de agua, clave de detección ζ
Restricciones: Mantener la utilidad del envenenamiento mientras se garantiza la detectabilidad de la marca de agua

Arquitectura del Modelo

1. Marca de Agua Posterior al Envenenamiento (Post-Poisoning Watermarking)

Datos originales x → Envenenamiento δ_p → Datos envenenados x' → Marca de agua δ_w → Datos finales x' + δ_w

Una entidad tercera añade una marca de agua a datos ya envenenados
Presupuesto de perturbación total: ε_p + ε_w
Requisito de longitud de marca de agua: Θ(√d/ε_w)

2. Marca de Agua Concurrente con Envenenamiento (Poisoning-Concurrent Watermarking)

Datos originales x → Aplicación simultánea de envenenamiento y marca de agua → Datos finales x + δ_p + δ_w

El generador de envenenamiento controla simultáneamente el envenenamiento y la marca de agua
Separación de dimensiones: Dimensiones de marca de agua W, dimensiones de envenenamiento P = d\W
Presupuesto de perturbación total: max{ε_p, ε_w}
Requisito de longitud de marca de agua: Θ(1/ε_w²) a O(√d/ε_p)

3. Mecanismo de Detección

Clave: Vector de d dimensiones ζ
Detección: Calcular el producto interno ζᵀx, comparar con umbral
Decisión: ζᵀ(datos envenenados) > umbral > ζᵀ(datos normales)

Puntos de Innovación Técnica

1. Innovación del Marco Teórico

Análisis a Nivel de Muestra: Marca de agua y clave independientes para cada punto de datos
Versión Universal: Una única clave aplicable a todas las muestras
Generalización de Distribución: Extensión de muestras finitas a distribución general

2. Garantías Matemáticas

Utilizando la desigualdad de McDiarmid y la teoría de dimensión VC, se demuestra:

Detectabilidad: Distinción de alta probabilidad entre datos envenenados y normales
Preservación de Utilidad: Impacto controlable de la marca de agua en el efecto del envenenamiento
Rendimiento de Generalización: Extensión de resultados de muestras finitas a distribución

3. Estrategia de Separación de Dimensiones

La marca de agua concurrente con envenenamiento evita interferencias mediante separación de dimensiones:

La marca de agua utiliza dimensiones W = {d₁, d₂, ..., d_q}
El envenenamiento utiliza dimensiones P = d\W
Reduce la interferencia mutua y mejora el rendimiento

Configuración Experimental

Conjuntos de Datos

CIFAR-10/CIFAR-100: Conjuntos de datos clásicos de clasificación de imágenes
Tiny-ImageNet: ImageNet a pequeña escala
SST-2: Conjunto de datos de análisis de sentimiento de texto

Métodos de Ataque

Ataques de Puerta Trasera

Narcissus: Ataque de puerta trasera de etiqueta limpia
AdvSc: Ataque de puerta trasera adversarial

Ataques de Disponibilidad

UE (Unlearnable Examples): Ejemplos no aprendibles
AP (Adversarial Poisoning): Envenenamiento adversarial

Arquitecturas de Modelos

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (tareas de texto)

Métricas de Evaluación

Precisión (Acc): Rendimiento del modelo en el conjunto de prueba
Tasa de Éxito del Ataque (ASR): Efectividad del ataque de puerta trasera
AUROC: Rendimiento de detección de marca de agua
Sobrecarga Computacional: Análisis de costos de tiempo

Detalles de Implementación

Presupuesto de marca de agua/envenenamiento: 4/255 a 32/255
Longitud de marca de agua: 100 a 3000
Entrenamiento: 200 épocas, programación de tasa de aprendizaje coseno
Optimizador: SGD, momento 0.9, decaimiento de peso 10⁻⁴

Resultados Experimentales

Resultados Principales

1. Rendimiento de Detección de Marca de Agua

Longitud de Marca de Agua	Narcissus (Posterior)	Narcissus (Concurrente)	AdvSc (Posterior)	AdvSc (Concurrente)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. Preservación de Utilidad del Envenenamiento

Marca de Agua Posterior al Envenenamiento: Mantiene buen rendimiento de ataque en todas las longitudes de marca de agua
Marca de Agua Concurrente con Envenenamiento: Disminución notable del efecto de ataque cuando la longitud de marca de agua es excesiva

3. Verificación Teórica

Los resultados experimentales verifican las predicciones teóricas:

La marca de agua concurrente con envenenamiento requiere longitudes de marca de agua más cortas para lograr el mismo rendimiento de detección
La marca de agua posterior al envenenamiento tiene menor impacto en la utilidad del envenenamiento
La longitud de marca de agua está positivamente correlacionada con el rendimiento de detección

Experimentos de Ablación

1. Impacto del Presupuesto de Marca de Agua

Con el aumento de ε_w:

Mejora del rendimiento de detección (AUROC)
Disminución del efecto de envenenamiento
Verificación de la relación de compensación en la teoría

2. Análisis de Posición de Marca de Agua

Prueba de diferentes regiones de imagen (superior izquierda, inferior izquierda, superior derecha, inferior derecha):

Impacto mínimo de la posición en el rendimiento
Verificación de la independencia de posición en la teoría

3. Transferibilidad del Modelo

Demostración de buena transferibilidad entre diferentes arquitecturas:

Puntuaciones AUROC altas (>0.95)
Detección estable entre arquitecturas

Análisis de Robustez

1. Resistencia a Aumentación de Datos

Prueba de Random Flip, Cutout, Color Jitter, etc.:

AUROC mantiene 1.0000
Demuestra robustez fuerte

2. Métodos de Defensa

Privacidad Diferencial: Ruido severo causa fallo de entrenamiento
Purificación por Difusión: Destruye simultáneamente marca de agua y envenenamiento
Denoising Adversarial: Afecta la utilidad del envenenamiento

Trabajo Relacionado

Investigación sobre Envenenamiento de Datos

Ataques de Puerta Trasera: BadNets, Narcissus, etc.
Ataques de Disponibilidad: Ejemplos no aprendibles, envenenamiento adversarial
Métodos de Defensa: Algoritmos de detección, purificación de datos

Tecnología de Marca de Agua

Marca de Agua de Modelo: Protección de derechos de autor de redes neuronales
Marca de Agua de Datos: Verificación de propiedad de conjuntos de datos
Marca de Agua de Texto: Detección de contenido generado por modelos de lenguaje grande

Distinción Técnica

Este artículo es el primero en aplicar sistemáticamente técnicas de marca de agua al escenario de envenenamiento de datos, proporcionando garantías teóricas y soluciones prácticas.

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Establecimiento del marco teórico para marca de agua de envenenamiento de datos
Soluciones Prácticas: Provisión de dos métodos de marca de agua desplegables
Verificación de Rendimiento: Experimentos confirman la precisión de las predicciones teóricas
Valor de Aplicación: Proporciona transparencia y responsabilidad para envenenamiento "benévolo"

Limitaciones

Condiciones Necesarias Desconocidas: Solo se proporcionan condiciones suficientes, las condiciones necesarias requieren investigación adicional
Fragilidad de Defensa: Disminución de rendimiento frente a métodos de defensa fuertes
Sobrecarga Computacional: La marca de agua concurrente con envenenamiento requiere tiempo de cálculo adicional
Rango de Aplicabilidad: Principalmente dirigido a ataques de envenenamiento imperceptibles

Direcciones Futuras

Mayor Robustez: Diseño de esquemas de marca de agua resistentes a defensa
Condiciones Necesarias: Exploración de condiciones necesarias para detectabilidad de marca de agua
Optimización de Eficiencia: Reducción de sobrecarga computacional y de almacenamiento
Extensión de Aplicaciones: Extensión a más tipos de envenenamiento y dominios

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda la necesidad práctica de transparencia en envenenamiento de datos
Rigor Teórico: Proporciona análisis matemático completo y pruebas
Innovación del Método: Primera combinación sistemática de técnicas de marca de agua y envenenamiento
Experimentación Exhaustiva: Verificación completa en múltiples conjuntos de datos, modelos y ataques
Valor Práctico: Proporciona soluciones desplegables

Deficiencias

Consideración Insuficiente de Defensa: Robustez limitada contra métodos de defensa fuertes
Completitud Teórica: Falta análisis de condiciones necesarias
Limitación del Rango de Aplicabilidad: Principalmente aplicable a ataques imperceptibles
Eficiencia Computacional: Sobrecarga relativamente alta en algunos escenarios

Impacto

Contribución Académica: Combinación pionera de dos campos de seguridad importantes
Valor Práctico: Proporciona nuevas herramientas para seguridad de IA y protección de datos
Significado Teórico: Establece nuevo marco de análisis teórico
Aplicación Industrial: Aplicable a protección de derechos de autor de conjuntos de datos, etc.

Escenarios de Aplicabilidad

Publicación de Conjuntos de Datos: Protección de derechos de autor de conjuntos de datos de código abierto
Protección de Obras de Arte: Prevención del uso no autorizado de IA generativa
Compartición de Datos Empresariales: Seguimiento del uso de datos internos
Investigación Académica: Verificación de origen de datos de investigación

Detalles de Implementación Técnica

Flujo de Algoritmos

Algoritmo de Marca de Agua Posterior al Envenenamiento

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Algoritmo de Detección

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Garantías Teóricas

Basadas en la desigualdad de McDiarmid, para marca de agua posterior al envenenamiento:

Cuando q > (2/ε_w)√(2d log(1/ω))
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Consideraciones de Despliegue Práctico

Gestión de Claves: Soporte para rotación de claves y autenticación HMAC
Verificación de Integridad: Hash SHA256 para garantizar integridad de datos
Control de Acceso: Distribución segura de claves basada en HTTPS
Escalabilidad: Soporte para procesamiento de conjuntos de datos a gran escala

Resumen: Este artículo realiza contribuciones pioneras en el campo de intersección entre envenenamiento de datos y tecnología de marca de agua, proporcionando no solo análisis teórico riguroso sino también soluciones prácticas. Aunque hay espacio para mejora en robustez de defensa y completitud teórica, el problema que aborda tiene importancia práctica significativa, proporcionando nuevas direcciones de investigación y herramientas para los campos de seguridad de IA y protección de datos.