Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Huang, Zhang, Mumtaz
Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.
academic
Inferenza dell'appartenenza ai dati di addestramento tramite meta-modellazione con processi gaussiani: un approccio di analisi post-hoc
Gli attacchi di inferenza dell'appartenenza (MIAs) testano se i punti dati appartengono all'insieme di addestramento di un modello, costituendo un rischio grave per la privacy. I metodi esistenti dipendono tipicamente da modelli ombra o da un accesso estensivo alle query, limitandone l'applicabilità pratica. Questo articolo propone GP-MIA, un metodo efficiente e interpretabile basato sulla meta-modellazione con processi gaussiani (GP). Utilizzando metriche post-hoc da un singolo modello addestrato (come accuratezza, entropia, statistiche del dataset e caratteristiche di sensibilità opzionali come gradienti e misurazioni NTK), GP-MIA addestra un classificatore GP per distinguere tra membri e non-membri, fornendo al contempo stime di incertezza calibrate. Gli esperimenti su dati sintetici, dati reali di rilevamento frodi, CIFAR-10 e WikiText-2 dimostrano che GP-MIA raggiunge elevata accuratezza e capacità di generalizzazione, offrendo un'alternativa pratica ai metodi MIA esistenti.
Questo studio affronta il problema degli attacchi di inferenza dell'appartenenza nei modelli di apprendimento automatico. Dato un modello addestrato fθ* e un campione di test (x,y), l'obiettivo è progettare una regola di inferenza M(fθ*, x, y) ∈ {0,1} per determinare se il campione appartiene all'insieme di addestramento.
Gli attacchi di inferenza dell'appartenenza rappresentano una minaccia grave alla privacy, in particolare in settori sensibili come sanità, finanza o sicurezza, dove la semplice divulgazione che un record personale è stato utilizzato per l'addestramento potrebbe costituire una violazione della privacy. Le reti neurali profonde sono vulnerabili a tali attacchi perché mostrano differenze sistematiche di comportamento tra dati di addestramento e dati non visti.
Approcci con modelli ombra: richiedono l'addestramento di più modelli ausiliari per simulare il comportamento target, con elevati costi computazionali
Attacchi basati su rapporto di verosimiglianza (LiRA): richiedono query multiple al modello e risorse computazionali significative per la calibrazione
Limitazioni pratiche: i metodi esistenti generalmente richiedono risorse computazionali estese, dati ausiliari accuratamente pianificati o query multiple al modello target
Questo articolo propone un metodo efficiente che richiede solo accesso post-hoc a un singolo modello addestrato, evitando riaddestramenti o accessi interni, fornendo al contempo stime di incertezza calibrate per migliorare l'efficienza e l'interpretabilità.
Propone il framework GP-MIA: un nuovo metodo di attacco di inferenza dell'appartenenza post-hoc basato sulla meta-modellazione con processi gaussiani
Progetta un sistema di caratteristiche multilivello: che include caratteristiche di base (metriche di performance, confidenza), caratteristiche di gradiente e caratteristiche NTK in una rappresentazione unificata
Implementa inferenza efficiente: richiede solo una singola propagazione in avanti (con possibile retropropagazione), evitando l'addestramento di modelli ombra
Fornisce quantificazione dell'incertezza: il classificatore GP fornisce naturalmente previsioni probabilistiche calibrate e stime di incertezza
Verifica la capacità di generalizzazione cross-domain: valida l'efficacia su quattro domini diversi: dati sintetici, rilevamento frodi, classificazione di immagini e modellazione del linguaggio
Dato un modello di apprendimento supervisionato addestrato fθ*: Rd → Rm, il compito di inferenza dell'appartenenza consiste nel progettare una funzione M(fθ*, x, y) per determinare se il campione di test (x,y) appartiene all'insieme di addestramento X = {(xi, yi)}ni=1.
Verifica dell'adattabilità del classificatore GP attraverso due esperimenti sintetici:
Esperimento di grande separazione: quando la differenza tra distribuzioni di membri e non-membri è significativa, il GP mostra chiara capacità di classificazione
Esperimento di piccola separazione: dopo l'aggiunta di dati non-membri più vicini alla distribuzione di membri, il GP riesce a distinguere meglio i casi ambigui
Metodi con modelli ombra (Shokri et al.): addestramento di più modelli ausiliari per simulare il comportamento target
Attacchi basati su rapporto di verosimiglianza (Carlini et al.): confronto di verosimiglianza di membri/non-membri basato su framework di test di ipotesi
Metodi potenziati (Ye et al.): combinazione di distribuzioni di perdita e punteggi di confidenza
GP-MIA fornisce un framework flessibile e data-efficiente per l'inferenza dell'appartenenza, evitando i costi dei modelli ombra in modo post-hoc, catturando al contempo segnali di distribuzione informativi.
Shokri et al. (2017) - Attacco di inferenza dell'appartenenza con modelli ombra
Carlini et al. (2022) - Attacco basato su rapporto di verosimiglianza (LiRA)
Rasmussen & Williams (2006) - Apprendimento automatico con processi gaussiani
Ye et al. (2022) - Attacco di inferenza dell'appartenenza potenziato
Hu et al. (2022) - Rassegna degli attacchi di inferenza dell'appartenenza
Questo articolo propone un metodo innovativo di attacco di inferenza dell'appartenenza basato su processi gaussiani, che migliora significativamente l'efficienza e l'applicabilità pratica mantenendo elevata accuratezza. Nonostante alcune insufficienze teoriche e sperimentali, l'idea centrale e i risultati sperimentali forniscono contributi preziosi alla ricerca sugli attacchi alla privacy.