2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao
In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Θ(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Θ(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
academic

Watermarking Provabile per Attacchi di Data Poisoning

Informazioni Fondamentali

  • ID Articolo: 2510.09210
  • Titolo: Provable Watermarking for Data Poisoning Attacks
  • Autori: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
  • Classificazione: cs.CR (Crittografia e Sicurezza), cs.LG (Machine Learning)
  • Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione delle Informazioni Neurali)
  • Link Articolo: https://arxiv.org/abs/2510.09210

Abstract

Negli ultimi anni, gli attacchi di data poisoning sono sempre più frequentemente progettati per assumere forme apparentemente innocue o addirittura vantaggiose, comunemente utilizzati per verificare la proprietà dei dataset o proteggere i dati privati dall'uso non autorizzato. Tuttavia, questi sviluppi potrebbero portare a malintesi e conflitti, poiché il data poisoning è tradizionalmente considerato una minaccia alla sicurezza dei sistemi di machine learning. Per affrontare questo problema, i generatori di poisoning innocuo devono dichiarare la proprietà dei dataset generati, consentendo agli utenti di identificare potenziali avvelenamenti per prevenire l'uso improprio. Questo articolo propone l'implementazione di schemi di watermarking come soluzione a questa sfida, introducendo due metodi di watermarking per data poisoning provabilmente sicuri e pratici: watermarking post-poisoning e watermarking concorrente al poisoning. L'analisi dimostra che quando la lunghezza del watermark è Θ(√d/ε_w) (watermarking post-poisoning) e nell'intervallo Θ(1/ε_w²) a O(√d/ε_p) (watermarking concorrente al poisoning), i dataset avvelenati con watermark garantiscono provabilmente la rilevabilità del watermark e l'utilità del poisoning.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Cambiamento di Prospettiva Tradizionale: Gli attacchi di data poisoning si stanno evolvendo da minacce maligne tradizionali verso applicazioni "benevole", come la verifica della proprietà dei dataset e la prevenzione dell'uso non autorizzato
  2. Problemi di Trasparenza: Quando il poisoning viene utilizzato per scopi protettivi, gli utenti autorizzati potrebbero involontariamente utilizzare dati avvelenati, causando malintesi e conflitti
  3. Mancanza di Responsabilità: I metodi di rilevamento esistenti mancano di un framework unificato e di meccanismi di dichiarazione provabili

Importanza

  • Con l'aumento della dipendenza dall'addestramento di modelli su larga scala da dati web-scraped o sintetici, l'impatto del data poisoning diventa sempre più significativo
  • Artisti e creatori di dati necessitano di proteggere la loro proprietà intellettuale dall'uso non autorizzato da parte dell'IA generativa
  • È necessario stabilire un equilibrio tra protezione dei dati e trasparenza

Limitazioni dei Metodi Esistenti

  • I metodi di rilevamento variano in base al tipo di attacco, rendendo difficile l'unificazione
  • Basati su algoritmi di addestramento euristici, mancano di meccanismi provabili
  • Non possono fornire dichiarazioni chiare e verificabili per dataset avvelenati

Contributi Principali

  1. Primo Framework di Watermarking per Data Poisoning: Applica la tecnologia di watermarking allo scenario del data poisoning, fornendo trasparenza e responsabilità
  2. Due Schemi di Watermarking:
    • Watermarking Post-Poisoning: Un'entità terza crea watermark per dataset già avvelenati
    • Watermarking Concorrente al Poisoning: Il generatore di poisoning crea simultaneamente watermark e poisoning
  3. Garanzie Teoriche: Fornisce analisi teorica rigorosa della rilevabilità del watermark e dell'utilità del poisoning
  4. Verifica Pratica: Convalida i risultati teorici su vari attacchi, modelli e dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Dataset originale D, budget di poisoning ε_p, budget di watermarking ε_w
  • Output: Dataset avvelenato con watermark, chiave di rilevamento ζ
  • Vincoli: Mantenere l'utilità del poisoning garantendo al contempo la rilevabilità del watermark

Architettura del Modello

1. Watermarking Post-Poisoning

Dati originali x → Poisoning δ_p → Dati avvelenati x' → Watermarking δ_w → Dati finali x' + δ_w
  • Un'entità terza aggiunge watermark ai dati già avvelenati
  • Budget di perturbazione totale: ε_p + ε_w
  • Requisito di lunghezza del watermark: Θ(√d/ε_w)

2. Watermarking Concorrente al Poisoning

Dati originali x → Applicazione simultanea di poisoning e watermarking → Dati finali x + δ_p + δ_w
  • Il generatore di poisoning controlla simultaneamente poisoning e watermarking
  • Separazione dimensionale: Dimensioni di watermarking W, Dimensioni di poisoning P = d\W
  • Budget di perturbazione totale: max{ε_p, ε_w}
  • Requisito di lunghezza del watermark: Θ(1/ε_w²) a O(√d/ε_p)

3. Meccanismo di Rilevamento

  • Chiave: Vettore d-dimensionale ζ
  • Rilevamento: Calcolo del prodotto interno ζᵀx, confronto con soglia
  • Decisione: ζᵀ(dati avvelenati) > soglia > ζᵀ(dati normali)

Punti di Innovazione Tecnica

1. Innovazione del Framework Teorico

  • Analisi a Livello di Campione: Ogni punto dati ha watermark e chiave indipendenti
  • Versione Universale: Una singola chiave applicabile a tutti i campioni
  • Generalizzazione Distributiva: Estensione da campioni finiti alla distribuzione complessiva

2. Garanzie Matematiche

Utilizzando la disuguaglianza di McDiarmid e la teoria della dimensione VC, si dimostra:

  • Rilevabilità: Distinzione ad alta probabilità tra dati avvelenati e normali
  • Mantenimento dell'Utilità: L'impatto del watermark sull'effetto del poisoning è controllabile
  • Prestazioni di Generalizzazione: Estensione dei risultati su campioni finiti alla distribuzione

3. Strategia di Separazione Dimensionale

Il watermarking concorrente al poisoning evita interferenze attraverso la separazione dimensionale:

  • Watermarking utilizza dimensioni W = {d₁, d₂, ..., d_q}
  • Poisoning utilizza dimensioni P = d\W
  • Riduce l'interferenza reciproca, migliora le prestazioni

Configurazione Sperimentale

Dataset

  • CIFAR-10/CIFAR-100: Dataset classici di classificazione di immagini
  • Tiny-ImageNet: Versione ridotta di ImageNet
  • SST-2: Dataset di analisi del sentimento testuale

Metodi di Attacco

Attacchi Backdoor

  • Narcissus: Attacco backdoor con etichette pulite
  • AdvSc: Attacco backdoor avversariale

Attacchi di Disponibilità

  • UE (Unlearnable Examples): Campioni non apprendibili
  • AP (Adversarial Poisoning): Poisoning avversariale

Architetture di Modelli

  • ResNet-18/50, VGG-19, DenseNet121
  • WRN34-10, MobileNet v2, ViT-B
  • BERT-base (compiti testuali)

Metriche di Valutazione

  • Accuratezza (Acc): Prestazioni del modello sul set di test
  • Tasso di Successo dell'Attacco (ASR): Efficacia dell'attacco backdoor
  • AUROC: Prestazioni di rilevamento del watermark
  • Overhead Computazionale: Analisi dei costi temporali

Dettagli di Implementazione

  • Budget di watermarking/poisoning: 4/255 a 32/255
  • Lunghezza del watermark: 100 a 3000
  • Addestramento: 200 epoche, pianificazione del tasso di apprendimento cosinusoidale
  • Ottimizzatore: SGD, momento 0.9, decadimento del peso 10⁻⁴

Risultati Sperimentali

Risultati Principali

1. Prestazioni di Rilevamento del Watermark

Lunghezza WatermarkNarcissus (Post-Poisoning)Narcissus (Concorrente)AdvSc (Post-Poisoning)AdvSc (Concorrente)
5000.95090.99680.92180.9986
10000.99740.99920.98090.9995
20001.00001.00000.99941.0000

2. Mantenimento dell'Utilità del Poisoning

  • Watermarking Post-Poisoning: Mantiene buone prestazioni di attacco a tutte le lunghezze di watermark
  • Watermarking Concorrente al Poisoning: L'effetto dell'attacco diminuisce notevolmente con lunghezze di watermark eccessive

3. Verifica Teorica

I risultati sperimentali confermano le previsioni teoriche:

  • Il watermarking concorrente al poisoning richiede lunghezze di watermark più brevi per raggiungere prestazioni di rilevamento equivalenti
  • Il watermarking post-poisoning ha un impatto minore sull'utilità del poisoning
  • La lunghezza del watermark è positivamente correlata alle prestazioni di rilevamento

Esperimenti di Ablazione

1. Impatto del Budget di Watermarking

Con l'aumento di ε_w:

  • Miglioramento delle prestazioni di rilevamento (AUROC)
  • Diminuzione dell'effetto del poisoning
  • Verifica della relazione di compromesso nella teoria

2. Analisi della Posizione del Watermark

Test di diverse regioni di immagini (angolo superiore sinistro, inferiore sinistro, superiore destro, inferiore destro):

  • Impatto minimo della posizione sulle prestazioni
  • Verifica dell'indipendenza dalla posizione nella teoria

3. Trasferibilità del Modello

Dimostra buona trasferibilità tra diverse architetture:

  • Punteggi AUROC elevati (>0.95)
  • Rilevamento stabile tra architetture

Analisi di Robustezza

1. Resistenza all'Aumento dei Dati

Test di Random Flip, Cutout, Color Jitter, ecc.:

  • AUROC mantiene 1.0000
  • Dimostra forte robustezza

2. Metodi di Difesa

  • Privacy Differenziale: Rumore grave causa fallimento dell'addestramento
  • Purificazione Diffusiva: Danneggia simultaneamente watermark e poisoning
  • Denoising Avversariale: Influisce sull'utilità del poisoning

Lavori Correlati

Ricerca sul Data Poisoning

  • Attacchi Backdoor: BadNets, Narcissus, ecc.
  • Attacchi di Disponibilità: Campioni non apprendibili, poisoning avversariale
  • Metodi di Difesa: Algoritmi di rilevamento, purificazione dei dati

Tecnologia di Watermarking

  • Watermarking di Modelli: Protezione del copyright delle reti neurali
  • Watermarking di Dati: Verifica della proprietà dei dataset
  • Watermarking Testuale: Rilevamento di contenuti generati da modelli linguistici di grandi dimensioni

Distinzioni Tecniche

Questo articolo applica per la prima volta sistematicamente la tecnologia di watermarking allo scenario del data poisoning, fornendo garanzie teoriche e soluzioni pratiche.

Conclusioni e Discussione

Conclusioni Principali

  1. Contributo Teorico: Stabilisce il framework teorico per il watermarking del data poisoning
  2. Soluzioni Pratiche: Fornisce due metodi di watermarking distribuibili
  3. Verifica delle Prestazioni: Gli esperimenti confermano l'accuratezza delle previsioni teoriche
  4. Valore Applicativo: Fornisce trasparenza e responsabilità per il poisoning "benevolo"

Limitazioni

  1. Condizioni Necessarie Sconosciute: Fornisce solo condizioni sufficienti, le condizioni necessarie richiedono ulteriori ricerche
  2. Vulnerabilità della Difesa: Le prestazioni diminuiscono di fronte a metodi di difesa forti
  3. Overhead Computazionale: Il watermarking concorrente al poisoning richiede tempo di calcolo aggiuntivo
  4. Ambito di Applicabilità: Principalmente orientato agli attacchi di poisoning impercettibili

Direzioni Future

  1. Robustezza Maggiore: Progettazione di schemi di watermarking resistenti alla difesa
  2. Condizioni Necessarie: Esplorazione delle condizioni necessarie per la rilevabilità del watermark
  3. Ottimizzazione dell'Efficienza: Riduzione dell'overhead computazionale e di archiviazione
  4. Estensione dell'Applicazione: Estensione a più tipi di poisoning e domini

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta le esigenze pratiche di trasparenza nel data poisoning
  2. Rigore Teorico: Fornisce analisi matematica completa e prove
  3. Innovazione del Metodo: Prima combinazione sistematica di tecnologie di watermarking e poisoning
  4. Esperimenti Completi: Verifica completa su più dataset, modelli e attacchi
  5. Valore Pratico: Fornisce soluzioni distribuibili

Carenze

  1. Considerazione Insufficiente della Difesa: Robustezza limitata contro metodi di difesa forti
  2. Completezza Teorica: Manca l'analisi delle condizioni necessarie
  3. Limitazione dell'Ambito di Applicabilità: Principalmente applicabile agli attacchi impercettibili
  4. Efficienza Computazionale: Overhead elevato in alcuni scenari

Impatto

  1. Contributo Accademico: Combinazione pioneristico di due importanti domini della sicurezza
  2. Valore Pratico: Fornisce nuovi strumenti per la sicurezza dell'IA e la protezione dei dati
  3. Significato Teorico: Stabilisce un nuovo framework di analisi teorica
  4. Applicazione Industriale: Applicabile a scenari come la protezione del copyright dei dataset

Scenari Applicabili

  1. Rilascio di Dataset: Protezione del copyright per dataset open-source
  2. Protezione di Opere d'Arte: Prevenzione dell'uso non autorizzato da parte dell'IA generativa
  3. Condivisione di Dati Aziendali: Tracciamento dell'uso dei dati interni
  4. Ricerca Accademica: Verifica della provenienza dei dati di ricerca

Dettagli di Implementazione Tecnica

Flusso dell'Algoritmo

Algoritmo di Watermarking Post-Poisoning

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Algoritmo di Rilevamento

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Garanzie Teoriche

Basate sulla disuguaglianza di McDiarmid, per il watermarking post-poisoning:

  • Quando q > (2/ε_w)√(2d log(1/ω))
  • P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Considerazioni di Distribuzione Pratica

  1. Gestione delle Chiavi: Supporto per rotazione delle chiavi e autenticazione HMAC
  2. Verifica dell'Integrità: Hash SHA256 per garantire l'integrità dei dati
  3. Controllo di Accesso: Distribuzione sicura delle chiavi basata su HTTPS
  4. Scalabilità: Supporto per l'elaborazione di dataset su larga scala

Sintesi: Questo articolo fornisce contributi pioneristici nel dominio incrociato del data poisoning e della tecnologia di watermarking, offrendo non solo analisi teorica rigorosa ma anche soluzioni pratiche. Sebbene vi sia spazio per miglioramenti nella robustezza della difesa e nella completezza teorica, il problema affrontato ha un significato pratico importante, fornendo nuove direzioni di ricerca e strumenti per i campi della sicurezza dell'IA e della protezione dei dati.