Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Huang, Zhang, Mumtaz
Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.
academic
Trainings-Datenmitgliedschaftsinferenz via Gaußscher Prozess-Metamodellierung: ein Post-hoc-Analyseverfahren
Mitgliedschaftsinferenzangriffe (MIAs) testen, ob Datenpunkte Teil des Trainingssatzes eines Modells sind, und stellen ein erhebliches Datenschutzrisiko dar. Bestehende Methoden beruhen typischerweise auf Schattenmodellen oder umfangreichen Abfragezugriffen, was ihre Praktikabilität einschränkt. Dieses Papier stellt GP-MIA vor, eine effiziente und interpretierbare Methode basierend auf Gaußscher Prozess (GP)-Metamodellierung. Unter Verwendung von Post-hoc-Metriken aus einem einzelnen Trainingsmodell (wie Genauigkeit, Entropie, Datensatzstatistiken und optionale Sensitivitätsmerkmale wie Gradienten und NTK-Messungen) trainiert GP-MIA einen GP-Klassifizierer, um Mitglieder und Nichtmitglieder zu unterscheiden und gleichzeitig kalibrierte Unsicherheitsschätzungen bereitzustellen. Experimente mit synthetischen Daten, realen Betrugserkennung, CIFAR-10 und WikiText-2 zeigen, dass GP-MIA hohe Genauigkeit und Verallgemeinerungsfähigkeit erreicht und eine praktische Alternative zu bestehenden MIAs bietet.
Diese Forschung zielt darauf ab, das Problem von Mitgliedschaftsinferenzangriffen in Maschinenlernen-Modellen zu lösen. Gegeben ein trainiertes Modell fθ* und ein Testdatenpaar (x,y) besteht das Ziel darin, eine Inferenzregel M(fθ*, x, y) ∈ {0,1} zu entwerfen, die bestimmt, ob die Stichprobe zum Trainingssatz gehört.
Mitgliedschaftsinferenzangriffe stellen eine ernsthafte Bedrohung für die Privatsphäre dar, besonders in sensiblen Bereichen wie Medizin, Finanzen oder Sicherheit, wo bereits die Offenlegung, ob ein persönlicher Datensatz zum Training verwendet wurde, einen Datenschutzverstoß darstellen kann. Tiefe neuronale Netze sind anfällig für solche Angriffe, da sie systematische Verhaltensunterschiede zwischen Trainingsdaten und ungesehenen Daten aufweisen.
Dieses Papier schlägt eine effiziente Methode vor, die nur Post-hoc-Zugriff auf ein einzelnes Trainingsmodell erfordert, Umschulung oder internen Zugriff vermeidet und gleichzeitig kalibrierte Unsicherheitsschätzungen bereitstellt, um Effizienz und Interpretierbarkeit zu verbessern.
Vorstellung des GP-MIA-Rahmens: Eine neuartige Post-hoc-Mitgliedschaftsinferenzangriffsmethode basierend auf Gaußscher Prozess-Metamodellierung
Entwurf eines mehrstufigen Merkmalssystems: Einheitliche Darstellung grundlegender Merkmale (Leistungsindikatoren, Konfidenz), Gradientenmerkmale und NTK-Merkmale
Effiziente Inferenz: Erfordert nur einen einzelnen Vorwärtsdurchlauf (optional Rückwärtsdurchlauf), vermeidet Schattenmodelltraining
Unsicherheitsquantifizierung: Der GP-Klassifizierer bietet natürlicherweise kalibrierte Wahrscheinlichkeitsvorhersagen und Unsicherheitsschätzungen
Validierung der domänenübergreifenden Verallgemeinerung: Überprüfung der Wirksamkeit in vier verschiedenen Bereichen: synthetische Daten, Betrugserkennung, Bildklassifizierung und Sprachmodellierung
Gegeben ein trainiertes überwachtes Modell fθ*: Rd → Rm besteht die Mitgliedschaftsinferenzaufgabe darin, eine Funktion M(fθ*, x, y) zu entwerfen, die bestimmt, ob die Testprobe (x,y) zum Trainingssatz X = {(xi, yi)}ni=1 gehört.
Validierung der Adaptivität des GP-Klassifizierers durch zwei synthetische Experimente:
Großer Trennungsgrad-Experiment: Wenn Mitglieds- und Nichtmitglieds-Verteilungen stark unterschiedlich sind, zeigt GP klare Klassifizierungsfähigkeit
Kleiner Trennungsgrad-Experiment: Nach Hinzufügen von Nichtmitgliedsdaten, die näher an der Mitgliedsverteilung liegen, kann GP mehrdeutige Fälle besser unterscheiden
GP-MIA bietet einen flexiblen und dateneffizienten Mitgliedschaftsinferenzrahmen, der in Post-hoc-Weise Schattenmodellkosten vermeidet und gleichzeitig informationsreiche Verteilungssignale erfasst.
Shokri et al. (2017) - Schattenmodell-Mitgliedschaftsinferenzangriffe
Carlini et al. (2022) - Likelihood-Ratio-Angriffe (LiRA)
Rasmussen & Williams (2006) - Gaußsche Prozess-Maschinenlernens
Ye et al. (2022) - Verbesserte Mitgliedschaftsinferenzangriffe
Hu et al. (2022) - Übersicht über Mitgliedschaftsinferenzangriffe
Dieses Papier stellt eine innovative Mitgliedschaftsinferenzangriffsmethode basierend auf Gaußschen Prozessen vor, die gleichzeitig hohe Genauigkeit mit erheblich verbesserter Effizienz und Praktikabilität erreicht. Trotz einiger theoretischer und experimenteller Mängel bietet sein Kerngedanke und experimentelle Ergebnisse wertvolle Beiträge zur Datenschutzangriffsforschung.