2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

Watermarking Provabile per Attacchi di Data Poisoning

Informazioni Fondamentali

ID Articolo: 2510.09210
Titolo: Provable Watermarking for Data Poisoning Attacks
Autori: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
Classificazione: cs.CR (Crittografia e Sicurezza), cs.LG (Machine Learning)
Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione delle Informazioni Neurali)
Link Articolo: https://arxiv.org/abs/2510.09210

Abstract

Negli ultimi anni, gli attacchi di data poisoning sono sempre più frequentemente progettati per assumere forme apparentemente innocue o addirittura vantaggiose, comunemente utilizzati per verificare la proprietà dei dataset o proteggere i dati privati dall'uso non autorizzato. Tuttavia, questi sviluppi potrebbero portare a malintesi e conflitti, poiché il data poisoning è tradizionalmente considerato una minaccia alla sicurezza dei sistemi di machine learning. Per affrontare questo problema, i generatori di poisoning innocuo devono dichiarare la proprietà dei dataset generati, consentendo agli utenti di identificare potenziali avvelenamenti per prevenire l'uso improprio. Questo articolo propone l'implementazione di schemi di watermarking come soluzione a questa sfida, introducendo due metodi di watermarking per data poisoning provabilmente sicuri e pratici: watermarking post-poisoning e watermarking concorrente al poisoning. L'analisi dimostra che quando la lunghezza del watermark è Θ(√d/ε_w) (watermarking post-poisoning) e nell'intervallo Θ(1/ε_w²) a O(√d/ε_p) (watermarking concorrente al poisoning), i dataset avvelenati con watermark garantiscono provabilmente la rilevabilità del watermark e l'utilità del poisoning.

Contesto di Ricerca e Motivazione

Definizione del Problema

Cambiamento di Prospettiva Tradizionale: Gli attacchi di data poisoning si stanno evolvendo da minacce maligne tradizionali verso applicazioni "benevole", come la verifica della proprietà dei dataset e la prevenzione dell'uso non autorizzato
Problemi di Trasparenza: Quando il poisoning viene utilizzato per scopi protettivi, gli utenti autorizzati potrebbero involontariamente utilizzare dati avvelenati, causando malintesi e conflitti
Mancanza di Responsabilità: I metodi di rilevamento esistenti mancano di un framework unificato e di meccanismi di dichiarazione provabili

Importanza

Con l'aumento della dipendenza dall'addestramento di modelli su larga scala da dati web-scraped o sintetici, l'impatto del data poisoning diventa sempre più significativo
Artisti e creatori di dati necessitano di proteggere la loro proprietà intellettuale dall'uso non autorizzato da parte dell'IA generativa
È necessario stabilire un equilibrio tra protezione dei dati e trasparenza

Limitazioni dei Metodi Esistenti

I metodi di rilevamento variano in base al tipo di attacco, rendendo difficile l'unificazione
Basati su algoritmi di addestramento euristici, mancano di meccanismi provabili
Non possono fornire dichiarazioni chiare e verificabili per dataset avvelenati

Contributi Principali

Primo Framework di Watermarking per Data Poisoning: Applica la tecnologia di watermarking allo scenario del data poisoning, fornendo trasparenza e responsabilità
Due Schemi di Watermarking:
- Watermarking Post-Poisoning: Un'entità terza crea watermark per dataset già avvelenati
- Watermarking Concorrente al Poisoning: Il generatore di poisoning crea simultaneamente watermark e poisoning
Garanzie Teoriche: Fornisce analisi teorica rigorosa della rilevabilità del watermark e dell'utilità del poisoning
Verifica Pratica: Convalida i risultati teorici su vari attacchi, modelli e dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Dataset originale D, budget di poisoning ε_p, budget di watermarking ε_w
Output: Dataset avvelenato con watermark, chiave di rilevamento ζ
Vincoli: Mantenere l'utilità del poisoning garantendo al contempo la rilevabilità del watermark

Architettura del Modello

1. Watermarking Post-Poisoning

Dati originali x → Poisoning δ_p → Dati avvelenati x' → Watermarking δ_w → Dati finali x' + δ_w

Un'entità terza aggiunge watermark ai dati già avvelenati
Budget di perturbazione totale: ε_p + ε_w
Requisito di lunghezza del watermark: Θ(√d/ε_w)

2. Watermarking Concorrente al Poisoning

Dati originali x → Applicazione simultanea di poisoning e watermarking → Dati finali x + δ_p + δ_w

Il generatore di poisoning controlla simultaneamente poisoning e watermarking
Separazione dimensionale: Dimensioni di watermarking W, Dimensioni di poisoning P = d\W
Budget di perturbazione totale: max{ε_p, ε_w}
Requisito di lunghezza del watermark: Θ(1/ε_w²) a O(√d/ε_p)

3. Meccanismo di Rilevamento

Chiave: Vettore d-dimensionale ζ
Rilevamento: Calcolo del prodotto interno ζᵀx, confronto con soglia
Decisione: ζᵀ(dati avvelenati) > soglia > ζᵀ(dati normali)

Punti di Innovazione Tecnica

1. Innovazione del Framework Teorico

Analisi a Livello di Campione: Ogni punto dati ha watermark e chiave indipendenti
Versione Universale: Una singola chiave applicabile a tutti i campioni
Generalizzazione Distributiva: Estensione da campioni finiti alla distribuzione complessiva

2. Garanzie Matematiche

Utilizzando la disuguaglianza di McDiarmid e la teoria della dimensione VC, si dimostra:

Rilevabilità: Distinzione ad alta probabilità tra dati avvelenati e normali
Mantenimento dell'Utilità: L'impatto del watermark sull'effetto del poisoning è controllabile
Prestazioni di Generalizzazione: Estensione dei risultati su campioni finiti alla distribuzione

3. Strategia di Separazione Dimensionale

Il watermarking concorrente al poisoning evita interferenze attraverso la separazione dimensionale:

Watermarking utilizza dimensioni W = {d₁, d₂, ..., d_q}
Poisoning utilizza dimensioni P = d\W
Riduce l'interferenza reciproca, migliora le prestazioni

Configurazione Sperimentale

Dataset

CIFAR-10/CIFAR-100: Dataset classici di classificazione di immagini
Tiny-ImageNet: Versione ridotta di ImageNet
SST-2: Dataset di analisi del sentimento testuale

Metodi di Attacco

Attacchi Backdoor

Narcissus: Attacco backdoor con etichette pulite
AdvSc: Attacco backdoor avversariale

Attacchi di Disponibilità

UE (Unlearnable Examples): Campioni non apprendibili
AP (Adversarial Poisoning): Poisoning avversariale

Architetture di Modelli

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (compiti testuali)

Metriche di Valutazione

Accuratezza (Acc): Prestazioni del modello sul set di test
Tasso di Successo dell'Attacco (ASR): Efficacia dell'attacco backdoor
AUROC: Prestazioni di rilevamento del watermark
Overhead Computazionale: Analisi dei costi temporali

Dettagli di Implementazione

Budget di watermarking/poisoning: 4/255 a 32/255
Lunghezza del watermark: 100 a 3000
Addestramento: 200 epoche, pianificazione del tasso di apprendimento cosinusoidale
Ottimizzatore: SGD, momento 0.9, decadimento del peso 10⁻⁴

Risultati Sperimentali

Risultati Principali

1. Prestazioni di Rilevamento del Watermark

Lunghezza Watermark	Narcissus (Post-Poisoning)	Narcissus (Concorrente)	AdvSc (Post-Poisoning)	AdvSc (Concorrente)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. Mantenimento dell'Utilità del Poisoning

Watermarking Post-Poisoning: Mantiene buone prestazioni di attacco a tutte le lunghezze di watermark
Watermarking Concorrente al Poisoning: L'effetto dell'attacco diminuisce notevolmente con lunghezze di watermark eccessive

3. Verifica Teorica

I risultati sperimentali confermano le previsioni teoriche:

Il watermarking concorrente al poisoning richiede lunghezze di watermark più brevi per raggiungere prestazioni di rilevamento equivalenti
Il watermarking post-poisoning ha un impatto minore sull'utilità del poisoning
La lunghezza del watermark è positivamente correlata alle prestazioni di rilevamento

Esperimenti di Ablazione

1. Impatto del Budget di Watermarking

Con l'aumento di ε_w:

Miglioramento delle prestazioni di rilevamento (AUROC)
Diminuzione dell'effetto del poisoning
Verifica della relazione di compromesso nella teoria

2. Analisi della Posizione del Watermark

Test di diverse regioni di immagini (angolo superiore sinistro, inferiore sinistro, superiore destro, inferiore destro):

Impatto minimo della posizione sulle prestazioni
Verifica dell'indipendenza dalla posizione nella teoria

3. Trasferibilità del Modello

Dimostra buona trasferibilità tra diverse architetture:

Punteggi AUROC elevati (>0.95)
Rilevamento stabile tra architetture

Analisi di Robustezza

1. Resistenza all'Aumento dei Dati

Test di Random Flip, Cutout, Color Jitter, ecc.:

AUROC mantiene 1.0000
Dimostra forte robustezza

2. Metodi di Difesa

Privacy Differenziale: Rumore grave causa fallimento dell'addestramento
Purificazione Diffusiva: Danneggia simultaneamente watermark e poisoning
Denoising Avversariale: Influisce sull'utilità del poisoning

Lavori Correlati

Ricerca sul Data Poisoning

Attacchi Backdoor: BadNets, Narcissus, ecc.
Attacchi di Disponibilità: Campioni non apprendibili, poisoning avversariale
Metodi di Difesa: Algoritmi di rilevamento, purificazione dei dati

Tecnologia di Watermarking

Watermarking di Modelli: Protezione del copyright delle reti neurali
Watermarking di Dati: Verifica della proprietà dei dataset
Watermarking Testuale: Rilevamento di contenuti generati da modelli linguistici di grandi dimensioni

Distinzioni Tecniche

Questo articolo applica per la prima volta sistematicamente la tecnologia di watermarking allo scenario del data poisoning, fornendo garanzie teoriche e soluzioni pratiche.

Conclusioni e Discussione

Conclusioni Principali

Contributo Teorico: Stabilisce il framework teorico per il watermarking del data poisoning
Soluzioni Pratiche: Fornisce due metodi di watermarking distribuibili
Verifica delle Prestazioni: Gli esperimenti confermano l'accuratezza delle previsioni teoriche
Valore Applicativo: Fornisce trasparenza e responsabilità per il poisoning "benevolo"

Limitazioni

Condizioni Necessarie Sconosciute: Fornisce solo condizioni sufficienti, le condizioni necessarie richiedono ulteriori ricerche
Vulnerabilità della Difesa: Le prestazioni diminuiscono di fronte a metodi di difesa forti
Overhead Computazionale: Il watermarking concorrente al poisoning richiede tempo di calcolo aggiuntivo
Ambito di Applicabilità: Principalmente orientato agli attacchi di poisoning impercettibili

Direzioni Future

Robustezza Maggiore: Progettazione di schemi di watermarking resistenti alla difesa
Condizioni Necessarie: Esplorazione delle condizioni necessarie per la rilevabilità del watermark
Ottimizzazione dell'Efficienza: Riduzione dell'overhead computazionale e di archiviazione
Estensione dell'Applicazione: Estensione a più tipi di poisoning e domini

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta le esigenze pratiche di trasparenza nel data poisoning
Rigore Teorico: Fornisce analisi matematica completa e prove
Innovazione del Metodo: Prima combinazione sistematica di tecnologie di watermarking e poisoning
Esperimenti Completi: Verifica completa su più dataset, modelli e attacchi
Valore Pratico: Fornisce soluzioni distribuibili

Carenze

Considerazione Insufficiente della Difesa: Robustezza limitata contro metodi di difesa forti
Completezza Teorica: Manca l'analisi delle condizioni necessarie
Limitazione dell'Ambito di Applicabilità: Principalmente applicabile agli attacchi impercettibili
Efficienza Computazionale: Overhead elevato in alcuni scenari

Impatto

Contributo Accademico: Combinazione pioneristico di due importanti domini della sicurezza
Valore Pratico: Fornisce nuovi strumenti per la sicurezza dell'IA e la protezione dei dati
Significato Teorico: Stabilisce un nuovo framework di analisi teorica
Applicazione Industriale: Applicabile a scenari come la protezione del copyright dei dataset

Scenari Applicabili

Rilascio di Dataset: Protezione del copyright per dataset open-source
Protezione di Opere d'Arte: Prevenzione dell'uso non autorizzato da parte dell'IA generativa
Condivisione di Dati Aziendali: Tracciamento dell'uso dei dati interni
Ricerca Accademica: Verifica della provenienza dei dati di ricerca

Dettagli di Implementazione Tecnica

Flusso dell'Algoritmo

Algoritmo di Watermarking Post-Poisoning

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Algoritmo di Rilevamento

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Garanzie Teoriche

Basate sulla disuguaglianza di McDiarmid, per il watermarking post-poisoning:

Quando q > (2/ε_w)√(2d log(1/ω))
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Considerazioni di Distribuzione Pratica

Gestione delle Chiavi: Supporto per rotazione delle chiavi e autenticazione HMAC
Verifica dell'Integrità: Hash SHA256 per garantire l'integrità dei dati
Controllo di Accesso: Distribuzione sicura delle chiavi basata su HTTPS
Scalabilità: Supporto per l'elaborazione di dataset su larga scala

Sintesi: Questo articolo fornisce contributi pioneristici nel dominio incrociato del data poisoning e della tecnologia di watermarking, offrendo non solo analisi teorica rigorosa ma anche soluzioni pratiche. Sebbene vi sia spazio per miglioramenti nella robustezza della difesa e nella completezza teorica, il problema affrontato ha un significato pratico importante, fornendo nuove direzioni di ricerca e strumenti per i campi della sicurezza dell'IA e della protezione dei dati.