Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
Tang, Joshi, Kundu
Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
academic
Apollo: Ataque de Inferencia de Membresía A Posteriori Basado Únicamente en Etiquetas Hacia el Desaprendizaje Automático
El desaprendizaje automático (Machine Unlearning, MU) tiene como objetivo eliminar eficientemente muestras de entrenamiento y su influencia de modelos ya entrenados sin necesidad de reentrenamiento desde cero. Aunque MU se utiliza para proporcionar protección de privacidad y cumplimiento normativo, también puede aumentar la superficie de ataque del modelo. Los ataques de inferencia de privacidad existentes contra MU asumen que el atacante puede acceder al modelo antes y después del desaprendizaje, lo que limita su viabilidad en escenarios reales. Este artículo propone un nuevo ataque de privacidad novedoso—Apollo (Ataque de Inferencia de Membresía A Posteriori Basado Únicamente en Etiquetas)—que infiere si una muestra de datos fue desaprendida accediendo únicamente a las salidas de etiquetas del modelo desaprendido. Los experimentos demuestran que, aunque Apollo requiere menos acceso al modelo, aún logra una precisión relativamente alta en la inferencia del estado de membresía de muestras desaprendidas.
Problema Central: ¿El desaprendizaje automático como técnica de protección de privacidad filtra información de privacidad en sí mismo? Específicamente, ¿puede un atacante inferir qué datos fueron desaprendidos accediendo únicamente al modelo desaprendido?
Requisitos de Cumplimiento Normativo: Regulaciones como GDPR y CCPA otorgan a los usuarios el "derecho al olvido", requiriendo que los modelos ML puedan eliminar datos de usuarios
Paradoja de Privacidad: El desaprendizaje automático es en sí mismo un mecanismo de protección de privacidad, pero el proceso de desaprendizaje puede introducir nuevos riesgos de privacidad
Amenaza Práctica: En escenarios de MLaaS, los usuarios típicamente no pueden acceder al modelo original, haciendo que los métodos de ataque existentes sean inaplicables
Los ataques de inferencia de membresía (MIA) existentes contra MU presentan los siguientes problemas:
Requieren Acceso al Modelo Original: La mayoría de ataques (como Chen et al., Gao et al.) requieren acceso simultáneo a modelos antes y después del desaprendizaje
Requieren Probabilidades Posteriores: Muchos métodos dependen de distribuciones de probabilidad en las salidas del modelo
Modelo de Amenaza Poco Realista: En escenarios reales de MLaaS, los clientes típicamente no pueden obtener el modelo original
Este artículo propone el modelo de amenaza más estricto: el atacante solo puede acceder a las salidas de etiquetas del modelo desaprendido (label-only, a posteriori), lo que se acerca más a escenarios reales. La idea central es que los algoritmos de desaprendizaje aproximado producen dos tipos de artefactos en el espacio de decisión—DESAPRENDIZAJE INSUFICIENTE (UNDER-UNLEARNING) y DESAPRENDIZAJE EXCESIVO (OVER-UNLEARNING)—que pueden utilizarse para inferir el estado de membresía.
Propone el Ataque Apollo: Primer ataque de inferencia de membresía a posteriori que requiere únicamente acceso de caja negra y etiquetas, con el modelo de amenaza más estricto
Formaliza Artefactos de Desaprendizaje: Identifica y formaliza dos fenómenos—UNDER-UNLEARNING y OVER-UNLEARNING—y proporciona pruebas de límites teóricos (Teoremas III.3 e III.4)
Verificación Experimental Extensiva: Verifica en múltiples conjuntos de datos (CIFAR-10/100, ImageNet) y 6 algoritmos de desaprendizaje, demostrando que se logra inferencia de alta precisión incluso bajo modelos de amenaza estrictos
Revela Amenazas de Privacidad: Refuta directamente las afirmaciones de privacidad de métodos de desaprendizaje existentes, enfatizando la necesidad de métodos de desaprendizaje con protección de privacidad más cuidadosos
Para reducir costo computacional, reemplazar condición de sensibilidad con distancia de límite de decisión:
ℓUnoff(x′;x,y,Θ)=α∑id(x′,DB)+β∑iℓ^(x′;θis)
GA (4a): U-LiRA es más fuerte, Apollo es segundo, AUC general alto
FT (4b): Todos los ataques tienen bajo rendimiento, Apollo ligeramente superior
BT (4c): U-MIA es más fuerte (95% TPR), Apollo más débil
SCRUB (4d): Apollo claramente superior a U-LiRA
SalUn (4e): U-LiRA ligeramente superior
SFR-on (4f): Apollo tiene ventaja clara en región de FPR bajo
RT (4g): Todos los ataques cercanos a línea aleatoria
Amenaza de Privacidad Real: Incluso bajo modelo de amenaza más estricto (acceso solo a etiquetas, sin modelo original), los atacantes pueden inferir muestras desaprendidas con alta precisión
Fundamento Teórico Sólido: UNDER-UNLEARNING y OVER-UNLEARNING tienen límites teóricos claros (bajo condiciones Lipschitz)
Fortaleza Práctica:
Versión en línea: TPR máximo 68.5% (GA en CIFAR-10)
Versión fuera de línea: Rendimiento ligeramente inferior, pero costo computacional significativamente reducido
Diferencias Significativas Entre Algoritmos: Vulnerabilidad de diferentes algoritmos de desaprendizaje varía enormemente, requiriendo defensas específicas
Desafía Afirmaciones Existentes: Refuta directamente afirmaciones de protección de privacidad de la mayoría de métodos de desaprendizaje
Apollo es un artículo de alta calidad en seguridad del aprendizaje automático que revela riesgos de privacidad del desaprendizaje automático mediante el modelo de amenaza más estricto (label-only, a posteriori). Sus contribuciones principales son:
Método Práctico: Versiones en línea/fuera de línea, equilibra efectividad y costo
Experimentos Sólidos: Múltiples conjuntos de datos, algoritmos, ablaciones, resultados confiables
Aunque tiene limitaciones como suposición Lipschitz fuerte y tamaño de muestra pequeño, el artículo desafía directamente la efectividad del desaprendizaje como herramienta de privacidad, teniendo importante valor de advertencia para el campo. Se recomienda trabajo futuro en:
Explorar métodos de ataque en escenarios no-Lipschitz
Diseñar algoritmos de desaprendizaje robusto a Apollo