Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Huang, Zhang, Mumtaz
Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.
academic
Inférence d'appartenance aux données d'entraînement via méta-modélisation par processus gaussien : une approche d'analyse post-hoc
Les attaques par inférence d'appartenance (MIAs) testent si des points de données appartiennent à l'ensemble d'entraînement d'un modèle, constituant un risque de confidentialité grave. Les méthodes existantes dépendent généralement de modèles fantômes ou d'un accès à de nombreuses requêtes, limitant leur praticité. Cet article propose GP-MIA, une méthode efficace et interprétable basée sur la méta-modélisation par processus gaussien (PG). Utilisant des métriques post-hoc provenant d'un seul modèle d'entraînement (telles que la précision, l'entropie, les statistiques d'ensemble et des caractéristiques de sensibilité optionnelles comme les gradients et les mesures NTK), GP-MIA entraîne un classificateur PG pour distinguer les membres des non-membres, tout en fournissant des estimations d'incertitude calibrées. Les expériences sur des données synthétiques, des données réelles de détection de fraude, CIFAR-10 et WikiText-2 montrent que GP-MIA atteint une haute précision et une bonne capacité de généralisation, offrant une alternative pratique aux MIAs existantes.
Cette recherche vise à résoudre le problème des attaques par inférence d'appartenance dans les modèles d'apprentissage automatique. Étant donné un modèle entraîné fθ* et un échantillon de test (x,y), l'objectif est de concevoir une règle d'inférence M(fθ*, x, y) ∈ {0,1} pour déterminer si cet échantillon appartient à l'ensemble d'entraînement.
Les attaques par inférence d'appartenance posent une menace grave pour la confidentialité, particulièrement dans les domaines sensibles tels que la santé, la finance ou la sécurité, où la simple divulgation qu'un enregistrement personnel a été utilisé pour l'entraînement peut constituer une fuite de confidentialité. Les réseaux de neurones profonds sont particulièrement vulnérables à ces attaques en raison des différences de comportement systématiques qu'ils présentent entre les données d'entraînement et les données non vues.
Approches par modèles fantômes : Nécessitent l'entraînement de plusieurs modèles auxiliaires pour simuler le comportement cible, avec un coût computationnel élevé
Attaques par rapport de vraisemblance (LiRA) : Nécessitent plusieurs requêtes au modèle et des ressources computationnelles importantes pour l'étalonnage
Limitations pratiques : Les méthodes existantes requièrent généralement des ressources computationnelles considérables, des données auxiliaires soigneusement planifiées ou plusieurs requêtes au modèle cible
Cet article propose une méthode efficace nécessitant uniquement un accès post-hoc à un seul modèle d'entraînement, évitant le réentraînement ou l'accès interne, tout en fournissant des estimations d'incertitude calibrées, améliorant l'efficacité et l'interprétabilité.
Proposition du cadre GP-MIA : Nouvelle méthode d'attaque par inférence d'appartenance post-hoc basée sur la méta-modélisation par processus gaussien
Conception d'un système de caractéristiques multi-niveaux : Incluant des caractéristiques de base (métriques de performance, confiance), des caractéristiques de gradient et des caractéristiques NTK dans une représentation unifiée
Réalisation d'une inférence efficace : Nécessitant uniquement une propagation avant unique (rétropropagation optionnelle), évitant l'entraînement de modèles fantômes
Fourniture de quantification d'incertitude : Le classificateur PG fournit naturellement des prédictions probabilistes calibrées et des estimations d'incertitude
Validation de la capacité de généralisation inter-domaines : Vérification de l'efficacité dans quatre domaines différents : données synthétiques, détection de fraude, classification d'images et modélisation du langage
Étant donné un modèle supervisé entraîné fθ* : Rd → Rm, la tâche d'inférence d'appartenance consiste à concevoir une fonction M(fθ*, x, y) pour déterminer si l'échantillon de test (x,y) appartient à l'ensemble d'entraînement X = {(xi, yi)}ni=1.
Paradigme d'analyse post-hoc : Évite les frais d'entraînement des modèles fantômes et les requêtes répétées
Fusion de caractéristiques multimodales : Combine les caractéristiques de performance, statistiques et de sensibilité pour fournir des signaux d'appartenance riches
Quantification d'incertitude : Le cadre PG fournit naturellement des prédictions probabilistes calibrées
Indépendance du modèle : Applicable à diverses architectures d'apprentissage supervisé
Comparaison conceptuelle principale avec les méthodes traditionnelles de modèles fantômes et la méthode LiRA, mettant l'accent sur les avantages d'efficacité de GP-MIA.
Validation de l'adaptabilité du classificateur PG par deux expériences synthétiques :
Expérience de grande séparation : Lorsque les distributions de membres et non-membres diffèrent considérablement, le PG montre une capacité de classification claire
Expérience de petite séparation : Après ajout de données non-membres plus proches de la distribution des membres, le PG peut mieux distinguer les cas ambigus
GP-MIA fournit un cadre flexible et efficace en données pour l'inférence d'appartenance, évitant les frais des modèles fantômes de manière post-hoc tout en capturant des signaux de distribution informatifs.
Shokri et al. (2017) - Attaque par inférence d'appartenance avec modèles fantômes
Carlini et al. (2022) - Attaque par rapport de vraisemblance (LiRA)
Rasmussen & Williams (2006) - Apprentissage automatique par processus gaussien
Ye et al. (2022) - Attaque améliorée par inférence d'appartenance
Hu et al. (2022) - Enquête sur les attaques par inférence d'appartenance
Cet article propose une méthode innovante d'attaque par inférence d'appartenance basée sur les processus gaussiens, améliorant significativement l'efficacité et la praticité tout en maintenant une haute précision. Malgré certaines insuffisances théoriques et expérimentales, son approche fondamentale et ses résultats expérimentaux apportent une contribution précieuse à la recherche sur les attaques de confidentialité.