2025-11-24T16:37:17.242649

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

Tang, Joshi, Kundu
Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
academic

Apollo: Ataque de Inferencia de Membresía A Posteriori Basado Únicamente en Etiquetas Hacia el Desaprendizaje Automático

Información Básica

  • ID del Artículo: 2506.09923
  • Título: Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
  • Autores: Liou Tang, James Joshi (Universidad de Pittsburgh), Ashish Kundu (Cisco Research)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 27 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2506.09923v2
  • Enlace del Código: https://github.com/LiouTang/Unlearn-Apollo-Attack

Resumen

El desaprendizaje automático (Machine Unlearning, MU) tiene como objetivo eliminar eficientemente muestras de entrenamiento y su influencia de modelos ya entrenados sin necesidad de reentrenamiento desde cero. Aunque MU se utiliza para proporcionar protección de privacidad y cumplimiento normativo, también puede aumentar la superficie de ataque del modelo. Los ataques de inferencia de privacidad existentes contra MU asumen que el atacante puede acceder al modelo antes y después del desaprendizaje, lo que limita su viabilidad en escenarios reales. Este artículo propone un nuevo ataque de privacidad novedoso—Apollo (Ataque de Inferencia de Membresía A Posteriori Basado Únicamente en Etiquetas)—que infiere si una muestra de datos fue desaprendida accediendo únicamente a las salidas de etiquetas del modelo desaprendido. Los experimentos demuestran que, aunque Apollo requiere menos acceso al modelo, aún logra una precisión relativamente alta en la inferencia del estado de membresía de muestras desaprendidas.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: ¿El desaprendizaje automático como técnica de protección de privacidad filtra información de privacidad en sí mismo? Específicamente, ¿puede un atacante inferir qué datos fueron desaprendidos accediendo únicamente al modelo desaprendido?

Importancia

  1. Requisitos de Cumplimiento Normativo: Regulaciones como GDPR y CCPA otorgan a los usuarios el "derecho al olvido", requiriendo que los modelos ML puedan eliminar datos de usuarios
  2. Paradoja de Privacidad: El desaprendizaje automático es en sí mismo un mecanismo de protección de privacidad, pero el proceso de desaprendizaje puede introducir nuevos riesgos de privacidad
  3. Amenaza Práctica: En escenarios de MLaaS, los usuarios típicamente no pueden acceder al modelo original, haciendo que los métodos de ataque existentes sean inaplicables

Limitaciones de Métodos Existentes

Los ataques de inferencia de membresía (MIA) existentes contra MU presentan los siguientes problemas:

  1. Requieren Acceso al Modelo Original: La mayoría de ataques (como Chen et al., Gao et al.) requieren acceso simultáneo a modelos antes y después del desaprendizaje
  2. Requieren Probabilidades Posteriores: Muchos métodos dependen de distribuciones de probabilidad en las salidas del modelo
  3. Modelo de Amenaza Poco Realista: En escenarios reales de MLaaS, los clientes típicamente no pueden obtener el modelo original

Motivación de la Investigación

Este artículo propone el modelo de amenaza más estricto: el atacante solo puede acceder a las salidas de etiquetas del modelo desaprendido (label-only, a posteriori), lo que se acerca más a escenarios reales. La idea central es que los algoritmos de desaprendizaje aproximado producen dos tipos de artefactos en el espacio de decisión—DESAPRENDIZAJE INSUFICIENTE (UNDER-UNLEARNING) y DESAPRENDIZAJE EXCESIVO (OVER-UNLEARNING)—que pueden utilizarse para inferir el estado de membresía.

Contribuciones Principales

  1. Propone el Ataque Apollo: Primer ataque de inferencia de membresía a posteriori que requiere únicamente acceso de caja negra y etiquetas, con el modelo de amenaza más estricto
  2. Formaliza Artefactos de Desaprendizaje: Identifica y formaliza dos fenómenos—UNDER-UNLEARNING y OVER-UNLEARNING—y proporciona pruebas de límites teóricos (Teoremas III.3 e III.4)
  3. Verificación Experimental Extensiva: Verifica en múltiples conjuntos de datos (CIFAR-10/100, ImageNet) y 6 algoritmos de desaprendizaje, demostrando que se logra inferencia de alta precisión incluso bajo modelos de amenaza estrictos
  4. Revela Amenazas de Privacidad: Refuta directamente las afirmaciones de privacidad de métodos de desaprendizaje existentes, enfatizando la necesidad de métodos de desaprendizaje con protección de privacidad más cuidadosos

Detalles del Método

Definición de la Tarea

Entrada:

  • Modelo desaprendido θu=A[D,Du,A(D)]\theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)] (acceso únicamente a etiquetas)
  • Muestra objetivo (x,y)(x, y)
  • Conjunto de datos proxy DD' muestreado de la misma distribución

Salida: Decisión binaria b^{0,1}\hat{b} \in \{0,1\}, determinando si xDux \in D_u (desaprendido) o xDx \notin D (no participó en entrenamiento)

Restricciones:

  • No se puede acceder al modelo original θ\theta
  • No se puede acceder a probabilidades posteriores del modelo, solo se obtiene y^=argmaxfθu(x)\hat{y} = \arg\max f_{\theta_u}(x)
  • Se asume que el algoritmo de desaprendizaje es aproximado

Fundamentos Teóricos Principales

Suposición 1: Sobreaprendizaje

El aprendizaje causa sobreaprendizaje: para muestras de entrenamiento (x,y)D(x,y) \in D, existe xxx' \approx x tal que: fθ(x)=y (cuando xD),fθ(x)y (cuando xD)f_\theta(x') = y \text{ (cuando } x \in D), \quad f_\theta(x') \neq y \text{ (cuando } x \notin D)

Conjetura 1: DESAPRENDIZAJE INSUFICIENTE (UNDER-UNLEARNING)

El desaprendizaje aproximado retiene información parcial. Para muestras desaprendidas (x,y)Du(x,y) \in D_u, existe xxx' \approx x tal que:

  • fθ(x)=yf_\theta(x') = y (modelo original ha aprendido)
  • fθr(x)yf_{\theta_r}(x') \neq y (desaprendizaje exacto/reentrenamiento posterior no retiene)
  • fθu(x)=yf_{\theta_u}(x') = y (desaprendizaje aproximado aún retiene, desaprendizaje insuficiente)

Interpretación Intuitiva: El límite de decisión no se movió suficientemente, el desaprendizaje es incompleto (región roja en Figura 2b)

Conjetura 2: DESAPRENDIZAJE EXCESIVO (OVER-UNLEARNING)

El desaprendizaje aproximado causa pérdida de rendimiento. Para muestras desaprendidas (x,y)Du(x,y) \in D_u, existe xxx' \approx x tal que:

  • fθ(x)=yf_\theta(x') = y (modelo original ha aprendido)
  • fθr(x)=yf_{\theta_r}(x') = y (desaprendizaje exacto retiene)
  • fθu(x)yf_{\theta_u}(x') \neq y (desaprendizaje aproximado cambia, desaprendizaje excesivo)

Interpretación Intuitiva: El límite de decisión se ajustó excesivamente, afectando el rendimiento del conjunto retenido (región verde en Figura 2c)

Límites Teóricos

Lema III.1 (Propiedad Lipschitz del Margen)

Definiendo margen mθ(x):=fθ(x)ymaxjyfθ(x)jm_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j, bajo condiciones Lipschitz estándar: mθ(x)mθ(x)Lxxx+Lθθθ|m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\|

Teorema III.3 (Límite de DESAPRENDIZAJE INSUFICIENTE)

Para xx' que satisface UNDER-UNLEARNING, el radio de perturbación r=xxr = \|x-x'\| satisface: (mθ(x)LθΔrLx)+=:LUnr<mθ(x)LθΔuLx=:UUn\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}}

donde Δu=θuθ\Delta_u = \|\theta_u - \theta\|, Δr=θrθ\Delta_r = \|\theta_r - \theta\|

Teorema III.4 (Límite de DESAPRENDIZAJE EXCESIVO)

De manera similar, el límite de OVER-UNLEARNING es: (mθ(x)LθΔuLx)+=:LOvr<mθ(x)LθΔrLx=:UOv\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}}

Significado: Proporciona un espacio de búsqueda teóricamente viable, guiando la generación de muestras adversariales

Arquitectura del Modelo: Flujo del Ataque Apollo

Ataque en Línea (Online Attack)

  1. Entrenar Modelos Sombra: Entrenar mm modelos sombra Θs={θis}\Theta^s = \{\theta^s_i\}, cada uno en conjunto de datos DisD^s_i
  2. Desaprender Modelos Sombra: Para cada θis\theta^s_i, desaprender la muestra objetivo xx, obteniendo θisu\theta^{su}_i
  3. Generar Muestras Adversariales: Optimizar xx' para satisfacer condiciones de sensibilidad y especificidad

Función de Pérdida de DESAPRENDIZAJE INSUFICIENTE: Un(x;x,y,Θ)=αxDis(x;θisu)+βxDis^(x;θis)\ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i)

donde:

  • Primer término (sensibilidad): xx' debe predecir clase yy en modelo desaprendido
  • Segundo término (especificidad): xx' no debe predecir yy en modelos que no entrenaron xx
  • ^=\hat{\ell} = -\ell (negativo de entropía cruzada)

Función de Pérdida de DESAPRENDIZAJE EXCESIVO: Ov(x;x,y,Θ)=αxDis^(x;θisu)+βxDis(x;θis)\ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i)

Ataque Fuera de Línea (Offline Attack)

Para reducir costo computacional, reemplazar condición de sensibilidad con distancia de límite de decisión: Unoff(x;x,y,Θ)=αid(x,DB)+βi^(x;θis)\ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i)

Algoritmo 1: Generación de Muestras Adversariales

Entrada: Modelo objetivo θ_u, muestra objetivo (x,y), modelos sombra Θ^s, tamaño de paso ε
Salida: Muestra adversarial x'

x' ← x
para t = 1 hasta T:
    Calcular gradiente g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
    x' ← SGD(x', gradiente promedio)
    Proyectar a cáscara esférica B_{tε}(x) \ B_{(t-1)ε}(x)  // restricción de localidad
    si confianza promedio < τ:
        detener anticipadamente
retornar x'

Diseños Clave:

  • Expandir radio de búsqueda gradualmente (de (t1)ϵ(t-1)\epsilon a tϵt\epsilon)
  • Proyección garantiza localidad (perturbación total Tϵ\leq T\cdot\epsilon)
  • Mecanismo de parada anticipada mejora eficiencia

Puntos de Innovación Técnica

  1. Cambio de Paradigma: De comparar modelos antes/después del desaprendizaje → comparar modelo desaprendido con modelo reentrenado ideal
  2. Apoyo Teórico: Primeros límites teóricos Lipschitz para ataques de desaprendizaje
  3. Fortaleza Práctica: Versión fuera de línea evita reentrenamiento de modelos sombra para cada muestra objetivo
  4. Buena Adaptabilidad: Aprovecha simultáneamente fenómenos UNDER y OVER, mejorando robustez

Configuración Experimental

Conjuntos de Datos

Conjunto de DatosTamaño EntrenamientoTamaño PruebaClasesProporción Desaprendizaje
CIFAR-1020,00010,0001010%
CIFAR-10020,00010,00010010%
ImageNet512,466256,2351,00010%

Estrategia de Partición de Datos:

  • Partición (a): Conjunto de entrenamiento DD
  • Partición (b): Conjuntos de datos sombra (fuera de línea)
  • Partición (c): Conjunto de prueba DtD_t
  • Ataque en línea: Conjuntos sombra muestreados de (a)+(b); Ataque fuera de línea: Solo de (b)

Arquitecturas de Modelo

  • ResNet-18: Modelo principal para experimentos
  • VGG-16: Experimentos de ablación
  • Swin Transformer: Pruebas de transferibilidad

Configuración de Entrenamiento:

  • Optimizador: AdamW
  • Tasa de aprendizaje: 1×1041 \times 10^{-4}
  • Tamaño de lote: 64
  • Épocas: 100 (modelo objetivo), 50 (modelos sombra)
  • Requisito de precisión: ≥75% en DtD_t

Algoritmos de Desaprendizaje

Prueba de 6 algoritmos representativos + línea base de reentrenamiento:

AlgoritmoTipoIdea Central
GA 45Línea BaseAscenso de gradiente, enfocado solo en DuD_u
FT 18Línea BaseAjuste fino, enfocado solo en DrD_r
BT 54Destilación de ConocimientoGuía desaprendizaje usando "maestro malo"
SCRUB 10Divergencia PosteriorMaximiza diferencia entre modelos antes/después
SalUn 55SOTASelección de parámetros basada en saliencia
SFR-on 53SOTAPreservación de geometría del conjunto retenido
RTDesaprendizaje ExactoReentrenamiento desde cero (inmune teóricamente)

Métricas de Evaluación

Métrica Principal: TPR @ FPR bajo (Tasa de Verdaderos Positivos a Tasa de Falsos Positivos baja)

  • Razón: Mayor precisión es más valiosa para ataques de privacidad
  • Forma de Reporte: TPR @ FPR más bajo alcanzable por cada algoritmo

Métricas Auxiliares: Precisión, Recuperación, Curvas ROC

Métodos de Comparación

  1. U-MIA 10: Método ingenuo, usa clasificador SVM (núcleo RBF, C=3)
  2. U-LiRA 11: Ataque basado en razón de verosimilitud, usa transformación logit de probabilidades posteriores

Nota: No incluye Chen et al., Gao et al., Lu et al., ya que requieren acceso al modelo original

Detalles de Implementación

Hiperparámetros de Apollo:

  • Número de modelos sombra: m=32m = 32
  • Tamaño de paso de búsqueda: ϵ=1.0\epsilon = 1.0
  • Número de rondas de búsqueda: T=50T = 50
  • Pesos de pérdida: α=1,β=4\alpha = 1, \beta = 4 (enfatizar especificidad)
  • Número de muestras objetivo: 200 (conjunto desaprendido) + 200 (conjunto prueba)

Hardware: NVIDIA A100 (40GB), tiempo de entrenamiento aproximado 20 minutos/modelo

Resultados Experimentales

Resultados Principales

Tabla II: Rendimiento en CIFAR-10

MétodoGAFTBTSCRUBSalUnSFR-onRT
U-MIA16.5@6.0%11.5@9.5%95.0@2.5%9.0@4.0%15.5@4.5%3.0@2.5%5.5@4.5%
U-LiRA68.5@6.0%6.5@9.5%28.0@2.5%6.0@4.0%20.0@4.5%2.5@2.5%4.0@4.5%
Apollo18.0@6.0%6.5@9.5%4.0@2.5%21.5@4.0%4.5@4.5%10.0@2.5%5.0@4.5%
Apollo (Off)16.0@6.0%6.5@9.5%3.0@2.5%15.0@4.0%7.5@4.5%5.0@2.5%7.0@4.5%

Hallazgos Clave:

  1. GA Más Vulnerable: U-LiRA alcanza 68.5% TPR, Apollo alcanza 18%
  2. SCRUB Fácilmente Atacable: Apollo supera a U-LiRA (21.5% vs 6.0%)
  3. Rendimiento de SFR-on: Apollo alcanza 10% TPR, U-LiRA solo 2.5%
  4. RT Básicamente Seguro: Todos los ataques TPR ≤ 7%, cercano a adivinanza aleatoria

Tabla III: Rendimiento en CIFAR-100

MétodoGAFTBTSCRUBSalUnSFR-onRT
U-MIA7.5@0.5%0.5@1.0%48.5@13.5%17.0@5.0%8.5@1.5%2.0@1.5%1.0@1.0%
U-LiRA14.5@0.5%1.0@1.0%25.0@13.5%12.5@5.0%17.0@1.5%2.0@1.5%1.5@1.0%
Apollo15.5@0.5%2.0@1.0%50.0@13.5%41.5@5.0%5.0@1.5%0.5@1.5%1.5@1.0%
Apollo (Off)13.0@0.5%2.0@1.0%41.5@13.5%39.0@5.0%4.5@1.5%1.0@1.5%0.5@1.0%

Hallazgos Clave:

  1. Mejora de Rendimiento: Apollo funciona mejor en CIFAR-100 (más clases, menos muestras por clase)
  2. Desventaja Significativa de SCRUB: Apollo alcanza 41.5%, muy superior a U-LiRA 12.5%
  3. BT Continúa Vulnerable: Apollo alcanza 50% TPR

Tabla IV: Rendimiento en ImageNet

Las tendencias son similares a CIFAR-100, Apollo muestra rendimiento excelente en GA y SCRUB

Análisis de Curvas ROC (Figura 4)

GA (4a): U-LiRA es más fuerte, Apollo es segundo, AUC general alto FT (4b): Todos los ataques tienen bajo rendimiento, Apollo ligeramente superior BT (4c): U-MIA es más fuerte (95% TPR), Apollo más débil SCRUB (4d): Apollo claramente superior a U-LiRA SalUn (4e): U-LiRA ligeramente superior SFR-on (4f): Apollo tiene ventaja clara en región de FPR bajo RT (4g): Todos los ataques cercanos a línea aleatoria

Experimentos de Ablación

1. Dinámica UNDER vs OVER (Figura 5)

Mostrar mediante mapas de calor TPR bajo diferentes radios de búsqueda para dos fenómenos:

Casos de Éxito (GA, SFR-on):

  • Efectos de límite claros: región de bajo TPR cerca del eje
  • Verifica límites teóricos de Teoremas III.3 e III.4
  • UNDER y OVER efectivos en rangos de radio diferentes

Casos de Fracaso (BT, SalUn):

  • OVER-UNLEARNING casi uniformemente distribuido
  • UNDER-UNLEARNING escaso
  • Sospecha: Diseño de algoritmo viola suposición Lipschitz local

2. Impacto de Hiperparámetros (Figura 6)

Peso de Pérdida β/α\beta/\alpha (6a):

  • Mayor β/α\beta/\alpha → mejor equilibrio precisión-recuperación
  • Recomendado β/α=4\beta/\alpha = 4 (enfatizar especificidad)

Número de Modelos Sombra mm (6b):

  • m16m \leq 16: Aumentar mm mejora rendimiento
  • m=32m = 32: Rendimiento disminuye (sobreajuste a modelos sombra específicos)
  • Consistente con observación de Wen et al. 36

3. Transferibilidad de Arquitectura (Tabla V)

Modelo ObjetivoModelo SombraTPR@FPR
ResNet-18ResNet-1818.0@6.0%
ResNet-18VGG-1612.0@6.0%
ResNet-18Swin-T13.5@6.0%
VGG-16VGG-165.5@2.5%
Swin-TSwin-T11.5@4.5%

Conclusión: Desajuste de arquitectura reduce rendimiento, pero mantiene alta precisión

Análisis de Casos: Ejemplo 2D (Figura 3)

Configuración Experimental:

  • Datos: R2×{0,1,2,3}\mathbb{R}^2 \times \{0,1,2,3\}, 500 muestras
  • Modelo: Red neuronal pequeña de 12 capas (Tabla VI)
  • Desaprendizaje: 10% conjunto entrenamiento, usando GA

Observaciones (3a):

  • Región roja: UNDER-UNLEARNING (θu\theta_u predice igual a θ\theta, diferente de θr\theta_r)
  • Región verde: OVER-UNLEARNING (θu\theta_u predice diferente de θr\theta_r, igual a θ\theta)
  • Ambos fenómenos presentes simultáneamente

Trayectoria de Muestra Adversarial (3c):

  • Comienza desde muestra desaprendida
  • Se mueve gradualmente a región UNDER-UNLEARNING
  • Verifica efectividad del Algoritmo 1

Hallazgos Experimentales

  1. Diferencias Enormes Entre Algoritmos de Desaprendizaje:
    • GA, SCRUB, SFR-on fácilmente atacables
    • BT vulnerable a U-MIA, robusto a Apollo
    • SalUn relativamente seguro en general
  2. Impacto de Complejidad del Conjunto de Datos:
    • Ataques más efectivos en CIFAR-100 e ImageNet (más clases, menos muestras)
    • Límites de decisión más sensibles
  3. Consistencia Teoría-Práctica:
    • Ataques exitosos muestran efectos de límite claros
    • Casos de fracaso posiblemente violan suposición Lipschitz
  4. Viabilidad de Ataque Fuera de Línea:
    • Rendimiento ligeramente inferior a versión en línea
    • Reduce significativamente costo computacional
  5. Amenaza Ubicua:
    • Incluso bajo modelo de amenaza más estricto, la mayoría de algoritmos pueden ser atacados
    • Reentrenamiento (RT) básicamente seguro, pero no escalable

Trabajo Relacionado

Desaprendizaje Automático

Desaprendizaje Exacto:

  • Bourtoule et al. 2 SISA: Entrenamiento particionado, reentrenamiento solo de submodelos afectados
  • Yan et al. 20: Particionamiento por clase

Desaprendizaje Aproximado (enfoque de este artículo):

  • Línea Base: GA 45 (ascenso de gradiente), FT 18 (ajuste fino)
  • Destilación de Conocimiento: BT 54
  • Divergencia Posterior: SCRUB 10
  • Métodos de Saliencia: SalUn 55, SFR-on 53

Ataques de Inferencia de Membresía (MIA)

MIA Clásico:

  • Shokri et al. 27: Ataque de modelo sombra con clasificador
  • Yeom et al. 28: Explotación de ventaja de miembro causada por sobreajuste
  • Carlini et al. 29: Ataque basado en razón de verosimilitud LiRA

Ataques Basados en Etiquetas:

  • Choquette-Choo et al. 32: Primer MIA label-only
  • Peng et al. 33 OSLO: Medición de confianza mediante perturbación adversarial
  • Wu et al. 34 YOQO: Reducción de número de consultas

MIA Contra MU

AtaqueAcceso a θ\thetaAcceso a θu\theta_uProbabilidades Posteriores
Chen et al. 7
Gao et al. 8
Lu et al. 9
U-MIA 10
U-LiRA 11
Apollo

Ventaja de Este Artículo: Modelo de amenaza más estricto, sin necesidad de modelo original ni probabilidades posteriores

Conclusiones y Discusión

Conclusiones Principales

  1. Amenaza de Privacidad Real: Incluso bajo modelo de amenaza más estricto (acceso solo a etiquetas, sin modelo original), los atacantes pueden inferir muestras desaprendidas con alta precisión
  2. Fundamento Teórico Sólido: UNDER-UNLEARNING y OVER-UNLEARNING tienen límites teóricos claros (bajo condiciones Lipschitz)
  3. Fortaleza Práctica:
    • Versión en línea: TPR máximo 68.5% (GA en CIFAR-10)
    • Versión fuera de línea: Rendimiento ligeramente inferior, pero costo computacional significativamente reducido
  4. Diferencias Significativas Entre Algoritmos: Vulnerabilidad de diferentes algoritmos de desaprendizaje varía enormemente, requiriendo defensas específicas
  5. Desafía Afirmaciones Existentes: Refuta directamente afirmaciones de protección de privacidad de la mayoría de métodos de desaprendizaje

Limitaciones

Limitaciones Reconocidas por Autores:

  1. Dificultad en Ajuste de FPR: Ajustar FPR mediante hiperparámetros (T,ϵ,τT, \epsilon, \tau) no es tan flexible como métodos basados en verosimilitud
  2. Costo Computacional: Requiere entrenar múltiples modelos sombra (aunque versión fuera de línea mitiga esto)
  3. Suposiciones Teóricas: Condición Lipschitz local no siempre se cumple (como en casos BT, SalUn)

Problemas Potenciales No Mencionados:

  1. Sesgo de Selección de Muestras: Solo prueba 200 muestras, puede no representar distribución completa
  2. Proporción de Desaprendizaje Fija: Solo prueba 10% desaprendizaje, otras proporciones desconocidas
  3. Defensas Adversariales: No discute posibles defensas (como agregar ruido, privacidad diferencial)
  4. Aplicabilidad a LLM: Principalmente enfocado en clasificación de imágenes, desaprendizaje en modelos de lenguaje grande no probado

Direcciones Futuras

  1. Ataques Más Eficientes: Reducir número de modelos sombra y consultas
  2. Mecanismos de Defensa: Diseñar algoritmos de desaprendizaje robustos a Apollo
  3. Teoría Mejorada: Relajar suposición Lipschitz, extender a casos no locales
  4. Otras Modalidades: Extender a tareas de texto, generación de imágenes, etc.
  5. Desaprendizaje con Privacidad: Métodos de desaprendizaje combinados con privacidad diferencial

Evaluación Profunda

Fortalezas

Innovación del Método:

  1. Cambio de Paradigma: De "comparar antes/después" a "comparar desaprendizaje con reentrenamiento", más alineado con definición de desaprendizaje
  2. Profundidad Teórica: Primeros límites teóricos Lipschitz, formalización de fenómenos UNDER/OVER
  3. Modelo de Amenaza Estricto: label-only + a posteriori es la configuración más desafiante

Suficiencia Experimental:

  1. Diversidad de Conjuntos de Datos: CIFAR-10/100 (pequeña escala), ImageNet (gran escala)
  2. Cobertura de Algoritmos: 6 algoritmos de desaprendizaje representativos + línea base de reentrenamiento
  3. Ablación Detallada: Hiperparámetros, transferibilidad de arquitectura, dinámicas UNDER/OVER
  4. Visualización Clara: Ejemplo 2D demuestra intuitivamente idea central

Poder de Convicción de Resultados:

  1. Comparación Completa: Comparación con U-MIA, U-LiRA, destaca ventajas
  2. Significancia Estadística: 200 muestras × múltiples experimentos, resultados confiables
  3. Verificación Teórica: Observaciones experimentales consistentes con predicciones teóricas (Figura 5)

Calidad de Escritura:

  1. Estructura Clara: De motivación → teoría → método → experimentos, lógica rigurosa
  2. Terminología Estándar: Definiciones formales (Def. 1-3), pruebas de teoremas completas
  3. Reproducibilidad: Código abierto, hiperparámetros detallados (Tabla VII)

Insuficiencias

Limitaciones del Método:

  1. Suposición Lipschitz Fuerte: No aplicable a todos los modelos y algoritmos de desaprendizaje (como fracaso de BT)
  2. Restricción de Localidad: Radio de búsqueda TϵT\cdot\epsilon fijo, puede perder artefactos distantes
  3. Simplificación Binaria: Ignora membresía en DrD_r, problema realmente ternario

Defectos Experimentales:

  1. Proporción de Desaprendizaje Única: Solo prueba 10%, desconocidas tasas 1% o 50%
  2. Tamaño de Muestra Pequeño: 200+200 muestras posiblemente insuficientes para evaluar riesgos de cola
  3. Falta de Experimentos de Defensa: No prueba defensas como agregar ruido, privacidad diferencial
  4. Cobertura de Arquitectura Limitada: Principalmente ResNet-18, pruebas insuficientes de modelos Transformer

Análisis Insuficiente:

  1. Razones de Fracaso Superficiales: "Viola Lipschitz" carece de análisis profundo
  2. Diferencias de Algoritmos No Explicadas: ¿Por qué BT es vulnerable a U-MIA pero robusto a Apollo?
  3. Discusión de Practicidad Faltante: Viabilidad en escenarios reales de MLaaS (como límites de consulta)

Consideraciones Éticas:

  1. Naturaleza de Doble Filo: Método de ataque puede ser usado maliciosamente
  2. Recomendaciones de Defensa Insuficientes: Solo enfatiza "necesidad de cuidado", sin soluciones concretas

Impacto

Contribuciones al Campo:

  1. Rompe Suposiciones: Demuestra que sin modelo original también se puede atacar, impulsa definiciones de privacidad más estrictas
  2. Herramientas Teóricas: Límites Lipschitz aplicables a análisis de otros métodos de desaprendizaje
  3. Referencia de Evaluación: Apollo puede servir como herramienta de auditoría de privacidad para algoritmos de desaprendizaje

Valor Práctico:

  1. Herramienta de Auditoría: Ayuda evaluar riesgo de fuga de privacidad de servicios de desaprendizaje
  2. Guía de Diseño: Fenómenos UNDER/OVER sugieren direcciones de mejora de algoritmos
  3. Referencia Normativa: Proporciona base técnica para implementación de regulaciones como GDPR

Reproducibilidad:

  • ✅ Código abierto: https://github.com/LiouTang/Unlearn-Apollo-Attack
  • ✅ Hiperparámetros detallados: Tabla VII completa
  • ✅ Conjuntos de datos públicos: CIFAR, ImageNet disponibles
  • ⚠️ Recursos computacionales: Requiere GPU A100, puede limitar reproducción

Impacto Potencial:

  1. Corto Plazo: Impulsa mejora de algoritmos de desaprendizaje (como optimización adicional de SalUn, SFR-on)
  2. Mediano Plazo: Posiblemente desencadena ola de investigación en desaprendizaje con privacidad (como DP-Unlearning)
  3. Largo Plazo: Influye en formulación de estándares técnicos de regulaciones de privacidad

Escenarios Aplicables

Aplicaciones Apropiadas:

  1. Auditoría de Privacidad: Evaluar garantías de privacidad de servicios de desaprendizaje
  2. Prueba de Algoritmos: Prueba de robustez de nuevos métodos de desaprendizaje
  3. Cumplimiento Normativo: Verificar cumplimiento de requisitos GDPR

Aplicaciones Inapropiadas:

  1. Desaprendizaje de LLM: Definición de "etiqueta" poco clara en generación de texto
  2. Escenarios de Pocas Muestras: Entrenamiento de modelo sombra requiere muchos datos
  3. Sistemas en Tiempo Real: Generación de muestra adversarial consume tiempo (50 pasos SGD)

Potencial de Generalización:

  • Otras Tareas: Detección de objetos, segmentación semántica (requiere redefinir "etiqueta")
  • Aprendizaje Federado: Auditoría de privacidad de desaprendizaje distribuido
  • Compresión de Modelos: Inferencia de membresía en escenarios de poda, destilación

Referencias (Clave)

  1. Cao & Yang (2015): Concepto inicial de desaprendizaje automático
  2. Bourtoule et al. (2021): Algoritmo SISA de desaprendizaje exacto
  3. Carlini et al. (2022): Ataque LiRA basado en razón de verosimilitud
  4. Choquette-Choo et al. (2021): Primer MIA label-only
  5. Hayes et al. (2024): Ataque U-LiRA contra desaprendizaje
  6. Huang et al. (2024): Marco unificado SFR-on de desaprendizaje por gradiente
  7. Fan et al. (2024): Desaprendizaje SalUn basado en saliencia

Resumen

Apollo es un artículo de alta calidad en seguridad del aprendizaje automático que revela riesgos de privacidad del desaprendizaje automático mediante el modelo de amenaza más estricto (label-only, a posteriori). Sus contribuciones principales son:

  1. Innovación Teórica: Formaliza UNDER/OVER-UNLEARNING, proporciona límites Lipschitz
  2. Método Práctico: Versiones en línea/fuera de línea, equilibra efectividad y costo
  3. Experimentos Sólidos: Múltiples conjuntos de datos, algoritmos, ablaciones, resultados confiables

Aunque tiene limitaciones como suposición Lipschitz fuerte y tamaño de muestra pequeño, el artículo desafía directamente la efectividad del desaprendizaje como herramienta de privacidad, teniendo importante valor de advertencia para el campo. Se recomienda trabajo futuro en:

  • Explorar métodos de ataque en escenarios no-Lipschitz
  • Diseñar algoritmos de desaprendizaje robusto a Apollo
  • Extender a otras modalidades como LLM

Índice de Recomendación: ⭐⭐⭐⭐☆ (4.5/5)

  • Innovación: 5/5
  • Rigor: 4/5
  • Practicidad: 4/5
  • Legibilidad: 5/5