Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Huang, Zhang, Mumtaz
Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.
academic
Inferencia de pertenencia de datos de entrenamiento mediante metamodelado de procesos gaussianos: un enfoque de análisis post-hoc
Los ataques de inferencia de pertenencia (MIAs) prueban si un punto de datos pertenece al conjunto de entrenamiento de un modelo, constituyendo un riesgo grave de privacidad. Los métodos existentes típicamente dependen de modelos sombra o acceso a múltiples consultas, limitando su practicidad. Este artículo propone GP-MIA, un método eficiente e interpretable basado en metamodelado de procesos gaussianos (GP). Utilizando métricas post-hoc de un único modelo entrenado (como precisión, entropía, estadísticas de datos y características de sensibilidad opcionales como gradientes y mediciones NTK), GP-MIA entrena un clasificador GP para distinguir entre miembros y no miembros, proporcionando simultáneamente estimaciones de incertidumbre calibradas. Los experimentos en datos sintéticos, datos reales de detección de fraude, CIFAR-10 y WikiText-2 demuestran que GP-MIA logra alta precisión y capacidad de generalización, ofreciendo una alternativa práctica a los MIAs existentes.
Esta investigación aborda el problema de los ataques de inferencia de pertenencia en modelos de aprendizaje automático. Dado un modelo entrenado fθ* y un par de muestra de prueba (x,y), el objetivo es diseñar una regla de inferencia M(fθ*, x, y) ∈ {0,1} que determine si la muestra pertenece al conjunto de entrenamiento.
Los ataques de inferencia de pertenencia representan una amenaza grave para la privacidad, particularmente en dominios sensibles como medicina, finanzas o seguridad, donde la mera divulgación de si un registro personal se utilizó en el entrenamiento puede constituir una violación de privacidad. Las redes neuronales profundas son susceptibles a tales ataques porque exhiben diferencias de comportamiento sistemáticas entre datos de entrenamiento y datos no vistos.
Métodos de Modelos Sombra: Requieren entrenar múltiples modelos auxiliares para simular el comportamiento objetivo, con alto costo computacional
Ataques de Razón de Verosimilitud (LiRA): Requieren múltiples consultas al modelo y recursos computacionales sustanciales para calibración
Limitaciones de Practicidad: Los métodos existentes típicamente requieren recursos computacionales extensos, datos auxiliares cuidadosamente planificados o múltiples consultas al modelo objetivo
Este artículo propone un método eficiente que requiere solo acceso post-hoc a un único modelo entrenado, evitando reentrenamiento o acceso interno, mientras proporciona estimaciones de incertidumbre calibradas, mejorando la eficiencia e interpretabilidad.
Propone el Marco GP-MIA: Un nuevo método de ataque de inferencia de pertenencia post-hoc basado en metamodelado de procesos gaussianos
Diseña un Sistema de Características Multinivel: Incluye características básicas (métricas de rendimiento, confianza), características de gradiente y características NTK en una representación unificada
Implementa Inferencia Eficiente: Requiere solo una propagación hacia adelante (con retropropagación opcional), evitando el entrenamiento de modelos sombra
Proporciona Cuantificación de Incertidumbre: El clasificador GP proporciona naturalmente predicciones de probabilidad calibradas y estimaciones de incertidumbre
Valida Capacidad de Generalización Transdominio: Verifica efectividad en cuatro dominios distintos: datos sintéticos, detección de fraude, clasificación de imágenes y modelado de lenguaje
Dado un modelo supervisado entrenado fθ*: Rd → Rm, la tarea de inferencia de pertenencia es diseñar una función M(fθ*, x, y) que determine si la muestra de prueba (x,y) pertenece al conjunto de entrenamiento X = {(xi, yi)}ni=1.
Paradigma de Análisis Post-hoc: Evita los gastos de entrenamiento de modelos sombra y consultas repetidas
Fusión de Características Multimodales: Combina características de rendimiento, estadísticas y sensibilidad para proporcionar señales ricas de pertenencia
Cuantificación de Incertidumbre: El marco GP proporciona naturalmente predicciones de probabilidad calibradas
Independencia del Modelo: Aplicable a varios modelos de aprendizaje supervisado
Se valida la adaptabilidad del clasificador GP mediante dos experimentos sintéticos:
Experimento de gran separación: Cuando la diferencia entre distribuciones de miembros y no miembros es grande, el GP muestra capacidad de clasificación clara
Experimento de pequeña separación: Después de agregar datos de no miembros más cercanos a la distribución de miembros, el GP puede distinguir mejor casos ambiguos
GP-MIA proporciona un marco flexible y eficiente en datos para inferencia de pertenencia, evitando los gastos de modelos sombra de manera post-hoc mientras captura señales de distribución informativas.
Shokri et al. (2017) - Ataque de inferencia de pertenencia con modelos sombra
Carlini et al. (2022) - Ataque de razón de verosimilitud (LiRA)
Rasmussen & Williams (2006) - Aprendizaje automático con procesos gaussianos
Ye et al. (2022) - Ataque mejorado de inferencia de pertenencia
Hu et al. (2022) - Encuesta de ataques de inferencia de pertenencia
Este artículo propone un método innovador de ataque de inferencia de pertenencia basado en procesos gaussianos que mejora significativamente la eficiencia y practicidad mientras mantiene alta precisión. Aunque existen algunas deficiencias teóricas y experimentales, su idea central y resultados experimentales proporcionan contribuciones valiosas a la investigación de ataques de privacidad.