2025-11-24T16:37:17.242649

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

Tang, Joshi, Kundu

Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.

academic

Apollo: Ataque de Inferencia de Membresía A Posteriori Basado Únicamente en Etiquetas Hacia el Desaprendizaje Automático

Información Básica

ID del Artículo: 2506.09923
Título: Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
Autores: Liou Tang, James Joshi (Universidad de Pittsburgh), Ashish Kundu (Cisco Research)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 27 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2506.09923v2
Enlace del Código: https://github.com/LiouTang/Unlearn-Apollo-Attack

Resumen

El desaprendizaje automático (Machine Unlearning, MU) tiene como objetivo eliminar eficientemente muestras de entrenamiento y su influencia de modelos ya entrenados sin necesidad de reentrenamiento desde cero. Aunque MU se utiliza para proporcionar protección de privacidad y cumplimiento normativo, también puede aumentar la superficie de ataque del modelo. Los ataques de inferencia de privacidad existentes contra MU asumen que el atacante puede acceder al modelo antes y después del desaprendizaje, lo que limita su viabilidad en escenarios reales. Este artículo propone un nuevo ataque de privacidad novedoso—Apollo (Ataque de Inferencia de Membresía A Posteriori Basado Únicamente en Etiquetas)—que infiere si una muestra de datos fue desaprendida accediendo únicamente a las salidas de etiquetas del modelo desaprendido. Los experimentos demuestran que, aunque Apollo requiere menos acceso al modelo, aún logra una precisión relativamente alta en la inferencia del estado de membresía de muestras desaprendidas.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: ¿El desaprendizaje automático como técnica de protección de privacidad filtra información de privacidad en sí mismo? Específicamente, ¿puede un atacante inferir qué datos fueron desaprendidos accediendo únicamente al modelo desaprendido?

Importancia

Requisitos de Cumplimiento Normativo: Regulaciones como GDPR y CCPA otorgan a los usuarios el "derecho al olvido", requiriendo que los modelos ML puedan eliminar datos de usuarios
Paradoja de Privacidad: El desaprendizaje automático es en sí mismo un mecanismo de protección de privacidad, pero el proceso de desaprendizaje puede introducir nuevos riesgos de privacidad
Amenaza Práctica: En escenarios de MLaaS, los usuarios típicamente no pueden acceder al modelo original, haciendo que los métodos de ataque existentes sean inaplicables

Limitaciones de Métodos Existentes

Los ataques de inferencia de membresía (MIA) existentes contra MU presentan los siguientes problemas:

Requieren Acceso al Modelo Original: La mayoría de ataques (como Chen et al., Gao et al.) requieren acceso simultáneo a modelos antes y después del desaprendizaje
Requieren Probabilidades Posteriores: Muchos métodos dependen de distribuciones de probabilidad en las salidas del modelo
Modelo de Amenaza Poco Realista: En escenarios reales de MLaaS, los clientes típicamente no pueden obtener el modelo original

Motivación de la Investigación

Este artículo propone el modelo de amenaza más estricto: el atacante solo puede acceder a las salidas de etiquetas del modelo desaprendido (label-only, a posteriori), lo que se acerca más a escenarios reales. La idea central es que los algoritmos de desaprendizaje aproximado producen dos tipos de artefactos en el espacio de decisión—DESAPRENDIZAJE INSUFICIENTE (UNDER-UNLEARNING) y DESAPRENDIZAJE EXCESIVO (OVER-UNLEARNING)—que pueden utilizarse para inferir el estado de membresía.

Contribuciones Principales

Propone el Ataque Apollo: Primer ataque de inferencia de membresía a posteriori que requiere únicamente acceso de caja negra y etiquetas, con el modelo de amenaza más estricto
Formaliza Artefactos de Desaprendizaje: Identifica y formaliza dos fenómenos—UNDER-UNLEARNING y OVER-UNLEARNING—y proporciona pruebas de límites teóricos (Teoremas III.3 e III.4)
Verificación Experimental Extensiva: Verifica en múltiples conjuntos de datos (CIFAR-10/100, ImageNet) y 6 algoritmos de desaprendizaje, demostrando que se logra inferencia de alta precisión incluso bajo modelos de amenaza estrictos
Revela Amenazas de Privacidad: Refuta directamente las afirmaciones de privacidad de métodos de desaprendizaje existentes, enfatizando la necesidad de métodos de desaprendizaje con protección de privacidad más cuidadosos

Detalles del Método

Definición de la Tarea

Entrada:

Modelo desaprendido $\theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)]$ (acceso únicamente a etiquetas)
Muestra objetivo $(x, y)$
Conjunto de datos proxy $D'$ muestreado de la misma distribución

Salida: Decisión binaria $\hat{b} \in \{0,1\}$ , determinando si $x \in D_u$ (desaprendido) o $x \notin D$ (no participó en entrenamiento)

Restricciones:

No se puede acceder al modelo original $\theta$
No se puede acceder a probabilidades posteriores del modelo, solo se obtiene $\hat{y} = \arg\max f_{\theta_u}(x)$
Se asume que el algoritmo de desaprendizaje es aproximado

Fundamentos Teóricos Principales

Suposición 1: Sobreaprendizaje

El aprendizaje causa sobreaprendizaje: para muestras de entrenamiento $(x,y) \in D$ , existe $x' \approx x$ tal que: $f_\theta(x') = y \text{ (cuando } x \in D), \quad f_\theta(x') \neq y \text{ (cuando } x \notin D)$

Conjetura 1: DESAPRENDIZAJE INSUFICIENTE (UNDER-UNLEARNING)

El desaprendizaje aproximado retiene información parcial. Para muestras desaprendidas $(x,y) \in D_u$ , existe $x' \approx x$ tal que:

$f_\theta(x') = y$ (modelo original ha aprendido)
$f_{\theta_r}(x') \neq y$ (desaprendizaje exacto/reentrenamiento posterior no retiene)
$f_{\theta_u}(x') = y$ (desaprendizaje aproximado aún retiene, desaprendizaje insuficiente)

Interpretación Intuitiva: El límite de decisión no se movió suficientemente, el desaprendizaje es incompleto (región roja en Figura 2b)

Conjetura 2: DESAPRENDIZAJE EXCESIVO (OVER-UNLEARNING)

El desaprendizaje aproximado causa pérdida de rendimiento. Para muestras desaprendidas $(x,y) \in D_u$ , existe $x' \approx x$ tal que:

$f_\theta(x') = y$ (modelo original ha aprendido)
$f_{\theta_r}(x') = y$ (desaprendizaje exacto retiene)
$f_{\theta_u}(x') \neq y$ (desaprendizaje aproximado cambia, desaprendizaje excesivo)

Interpretación Intuitiva: El límite de decisión se ajustó excesivamente, afectando el rendimiento del conjunto retenido (región verde en Figura 2c)

Límites Teóricos

Lema III.1 (Propiedad Lipschitz del Margen)

Definiendo margen $m_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j$ , bajo condiciones Lipschitz estándar: $|m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\|$

Teorema III.3 (Límite de DESAPRENDIZAJE INSUFICIENTE)

Para $x'$ que satisface UNDER-UNLEARNING, el radio de perturbación $r = \|x-x'\|$ satisface: $\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}}$

donde $\Delta_u = \|\theta_u - \theta\|$ , $\Delta_r = \|\theta_r - \theta\|$

Teorema III.4 (Límite de DESAPRENDIZAJE EXCESIVO)

De manera similar, el límite de OVER-UNLEARNING es: $\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}}$

Significado: Proporciona un espacio de búsqueda teóricamente viable, guiando la generación de muestras adversariales

Arquitectura del Modelo: Flujo del Ataque Apollo

Ataque en Línea (Online Attack)

Entrenar Modelos Sombra: Entrenar $m$ modelos sombra $\Theta^s = \{\theta^s_i\}$ , cada uno en conjunto de datos $D^s_i$
Desaprender Modelos Sombra: Para cada $\theta^s_i$ , desaprender la muestra objetivo $x$ , obteniendo $\theta^{su}_i$
Generar Muestras Adversariales: Optimizar $x'$ para satisfacer condiciones de sensibilidad y especificidad

Función de Pérdida de DESAPRENDIZAJE INSUFICIENTE: $\ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i)$

donde:

Primer término (sensibilidad): $x'$ debe predecir clase $y$ en modelo desaprendido
Segundo término (especificidad): $x'$ no debe predecir $y$ en modelos que no entrenaron $x$
$\hat{\ell} = -\ell$ (negativo de entropía cruzada)

Función de Pérdida de DESAPRENDIZAJE EXCESIVO: $\ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i)$

Ataque Fuera de Línea (Offline Attack)

Para reducir costo computacional, reemplazar condición de sensibilidad con distancia de límite de decisión: $\ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i)$

Algoritmo 1: Generación de Muestras Adversariales

Entrada: Modelo objetivo θ_u, muestra objetivo (x,y), modelos sombra Θ^s, tamaño de paso ε
Salida: Muestra adversarial x'

x' ← x
para t = 1 hasta T:
    Calcular gradiente g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
    x' ← SGD(x', gradiente promedio)
    Proyectar a cáscara esférica B_{tε}(x) \ B_{(t-1)ε}(x)  // restricción de localidad
    si confianza promedio < τ:
        detener anticipadamente
retornar x'

Diseños Clave:

Expandir radio de búsqueda gradualmente (de $(t-1)\epsilon$ a $t\epsilon$ )
Proyección garantiza localidad (perturbación total $\leq T\cdot\epsilon$ )
Mecanismo de parada anticipada mejora eficiencia

Puntos de Innovación Técnica

Cambio de Paradigma: De comparar modelos antes/después del desaprendizaje → comparar modelo desaprendido con modelo reentrenado ideal
Apoyo Teórico: Primeros límites teóricos Lipschitz para ataques de desaprendizaje
Fortaleza Práctica: Versión fuera de línea evita reentrenamiento de modelos sombra para cada muestra objetivo
Buena Adaptabilidad: Aprovecha simultáneamente fenómenos UNDER y OVER, mejorando robustez

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos	Tamaño Entrenamiento	Tamaño Prueba	Clases	Proporción Desaprendizaje
CIFAR-10	20,000	10,000	10	10%
CIFAR-100	20,000	10,000	100	10%
ImageNet	512,466	256,235	1,000	10%

Estrategia de Partición de Datos:

Partición (a): Conjunto de entrenamiento $D$
Partición (b): Conjuntos de datos sombra (fuera de línea)
Partición (c): Conjunto de prueba $D_t$
Ataque en línea: Conjuntos sombra muestreados de (a)+(b); Ataque fuera de línea: Solo de (b)

Arquitecturas de Modelo

ResNet-18: Modelo principal para experimentos
VGG-16: Experimentos de ablación
Swin Transformer: Pruebas de transferibilidad

Configuración de Entrenamiento:

Optimizador: AdamW
Tasa de aprendizaje: $1 \times 10^{-4}$
Tamaño de lote: 64
Épocas: 100 (modelo objetivo), 50 (modelos sombra)
Requisito de precisión: ≥75% en $D_t$

Algoritmos de Desaprendizaje

Prueba de 6 algoritmos representativos + línea base de reentrenamiento:

Algoritmo	Tipo	Idea Central
GA 45	Línea Base	Ascenso de gradiente, enfocado solo en $D_u$
FT 18	Línea Base	Ajuste fino, enfocado solo en $D_r$
BT 54	Destilación de Conocimiento	Guía desaprendizaje usando "maestro malo"
SCRUB 10	Divergencia Posterior	Maximiza diferencia entre modelos antes/después
SalUn 55	SOTA	Selección de parámetros basada en saliencia
SFR-on 53	SOTA	Preservación de geometría del conjunto retenido
RT	Desaprendizaje Exacto	Reentrenamiento desde cero (inmune teóricamente)

Métricas de Evaluación

Métrica Principal: TPR @ FPR bajo (Tasa de Verdaderos Positivos a Tasa de Falsos Positivos baja)

Razón: Mayor precisión es más valiosa para ataques de privacidad
Forma de Reporte: TPR @ FPR más bajo alcanzable por cada algoritmo

Métricas Auxiliares: Precisión, Recuperación, Curvas ROC

Métodos de Comparación

U-MIA 10: Método ingenuo, usa clasificador SVM (núcleo RBF, C=3)
U-LiRA 11: Ataque basado en razón de verosimilitud, usa transformación logit de probabilidades posteriores

Nota: No incluye Chen et al., Gao et al., Lu et al., ya que requieren acceso al modelo original

Detalles de Implementación

Hiperparámetros de Apollo:

Número de modelos sombra: $m = 32$
Tamaño de paso de búsqueda: $\epsilon = 1.0$
Número de rondas de búsqueda: $T = 50$
Pesos de pérdida: $\alpha = 1, \beta = 4$ (enfatizar especificidad)
Número de muestras objetivo: 200 (conjunto desaprendido) + 200 (conjunto prueba)

Hardware: NVIDIA A100 (40GB), tiempo de entrenamiento aproximado 20 minutos/modelo

Resultados Experimentales

Resultados Principales

Tabla II: Rendimiento en CIFAR-10

Método	GA	FT	BT	SCRUB	SalUn	SFR-on	RT
U-MIA	16.5@6.0%	11.5@9.5%	95.0@2.5%	9.0@4.0%	15.5@4.5%	3.0@2.5%	5.5@4.5%
U-LiRA	68.5@6.0%	6.5@9.5%	28.0@2.5%	6.0@4.0%	20.0@4.5%	2.5@2.5%	4.0@4.5%
Apollo	18.0@6.0%	6.5@9.5%	4.0@2.5%	21.5@4.0%	4.5@4.5%	10.0@2.5%	5.0@4.5%
Apollo (Off)	16.0@6.0%	6.5@9.5%	3.0@2.5%	15.0@4.0%	7.5@4.5%	5.0@2.5%	7.0@4.5%

Hallazgos Clave:

GA Más Vulnerable: U-LiRA alcanza 68.5% TPR, Apollo alcanza 18%
SCRUB Fácilmente Atacable: Apollo supera a U-LiRA (21.5% vs 6.0%)
Rendimiento de SFR-on: Apollo alcanza 10% TPR, U-LiRA solo 2.5%
RT Básicamente Seguro: Todos los ataques TPR ≤ 7%, cercano a adivinanza aleatoria

Tabla III: Rendimiento en CIFAR-100

Método	GA	FT	BT	SCRUB	SalUn	SFR-on	RT
U-MIA	7.5@0.5%	0.5@1.0%	48.5@13.5%	17.0@5.0%	8.5@1.5%	2.0@1.5%	1.0@1.0%
U-LiRA	14.5@0.5%	1.0@1.0%	25.0@13.5%	12.5@5.0%	17.0@1.5%	2.0@1.5%	1.5@1.0%
Apollo	15.5@0.5%	2.0@1.0%	50.0@13.5%	41.5@5.0%	5.0@1.5%	0.5@1.5%	1.5@1.0%
Apollo (Off)	13.0@0.5%	2.0@1.0%	41.5@13.5%	39.0@5.0%	4.5@1.5%	1.0@1.5%	0.5@1.0%

Hallazgos Clave:

Mejora de Rendimiento: Apollo funciona mejor en CIFAR-100 (más clases, menos muestras por clase)
Desventaja Significativa de SCRUB: Apollo alcanza 41.5%, muy superior a U-LiRA 12.5%
BT Continúa Vulnerable: Apollo alcanza 50% TPR

Tabla IV: Rendimiento en ImageNet

Las tendencias son similares a CIFAR-100, Apollo muestra rendimiento excelente en GA y SCRUB

Análisis de Curvas ROC (Figura 4)

GA (4a): U-LiRA es más fuerte, Apollo es segundo, AUC general alto FT (4b): Todos los ataques tienen bajo rendimiento, Apollo ligeramente superior BT (4c): U-MIA es más fuerte (95% TPR), Apollo más débil SCRUB (4d): Apollo claramente superior a U-LiRA SalUn (4e): U-LiRA ligeramente superior SFR-on (4f): Apollo tiene ventaja clara en región de FPR bajo RT (4g): Todos los ataques cercanos a línea aleatoria

Experimentos de Ablación

1. Dinámica UNDER vs OVER (Figura 5)

Mostrar mediante mapas de calor TPR bajo diferentes radios de búsqueda para dos fenómenos:

Casos de Éxito (GA, SFR-on):

Efectos de límite claros: región de bajo TPR cerca del eje
Verifica límites teóricos de Teoremas III.3 e III.4
UNDER y OVER efectivos en rangos de radio diferentes

Casos de Fracaso (BT, SalUn):

OVER-UNLEARNING casi uniformemente distribuido
UNDER-UNLEARNING escaso
Sospecha: Diseño de algoritmo viola suposición Lipschitz local

2. Impacto de Hiperparámetros (Figura 6)

Peso de Pérdida $\beta/\alpha$ (6a):

Mayor $\beta/\alpha$ → mejor equilibrio precisión-recuperación
Recomendado $\beta/\alpha = 4$ (enfatizar especificidad)

Número de Modelos Sombra $m$ (6b):

$m \leq 16$ : Aumentar $m$ mejora rendimiento
$m = 32$ : Rendimiento disminuye (sobreajuste a modelos sombra específicos)
Consistente con observación de Wen et al. 36

3. Transferibilidad de Arquitectura (Tabla V)

Modelo Objetivo	Modelo Sombra	TPR@FPR
ResNet-18	ResNet-18	18.0@6.0%
ResNet-18	VGG-16	12.0@6.0%
ResNet-18	Swin-T	13.5@6.0%
VGG-16	VGG-16	5.5@2.5%
Swin-T	Swin-T	11.5@4.5%

Conclusión: Desajuste de arquitectura reduce rendimiento, pero mantiene alta precisión

Análisis de Casos: Ejemplo 2D (Figura 3)

Configuración Experimental:

Datos: $\mathbb{R}^2 \times \{0,1,2,3\}$ , 500 muestras
Modelo: Red neuronal pequeña de 12 capas (Tabla VI)
Desaprendizaje: 10% conjunto entrenamiento, usando GA

Observaciones (3a):

Región roja: UNDER-UNLEARNING ( $\theta_u$ predice igual a $\theta$ , diferente de $\theta_r$ )
Región verde: OVER-UNLEARNING ( $\theta_u$ predice diferente de $\theta_r$ , igual a $\theta$ )
Ambos fenómenos presentes simultáneamente

Trayectoria de Muestra Adversarial (3c):

Comienza desde muestra desaprendida
Se mueve gradualmente a región UNDER-UNLEARNING
Verifica efectividad del Algoritmo 1

Hallazgos Experimentales

Diferencias Enormes Entre Algoritmos de Desaprendizaje:
- GA, SCRUB, SFR-on fácilmente atacables
- BT vulnerable a U-MIA, robusto a Apollo
- SalUn relativamente seguro en general
Impacto de Complejidad del Conjunto de Datos:
- Ataques más efectivos en CIFAR-100 e ImageNet (más clases, menos muestras)
- Límites de decisión más sensibles
Consistencia Teoría-Práctica:
- Ataques exitosos muestran efectos de límite claros
- Casos de fracaso posiblemente violan suposición Lipschitz
Viabilidad de Ataque Fuera de Línea:
- Rendimiento ligeramente inferior a versión en línea
- Reduce significativamente costo computacional
Amenaza Ubicua:
- Incluso bajo modelo de amenaza más estricto, la mayoría de algoritmos pueden ser atacados
- Reentrenamiento (RT) básicamente seguro, pero no escalable

Trabajo Relacionado

Desaprendizaje Automático

Desaprendizaje Exacto:

Bourtoule et al. 2 SISA: Entrenamiento particionado, reentrenamiento solo de submodelos afectados
Yan et al. 20: Particionamiento por clase

Desaprendizaje Aproximado (enfoque de este artículo):

Línea Base: GA 45 (ascenso de gradiente), FT 18 (ajuste fino)
Destilación de Conocimiento: BT 54
Divergencia Posterior: SCRUB 10
Métodos de Saliencia: SalUn 55, SFR-on 53

Ataques de Inferencia de Membresía (MIA)

MIA Clásico:

Shokri et al. 27: Ataque de modelo sombra con clasificador
Yeom et al. 28: Explotación de ventaja de miembro causada por sobreajuste
Carlini et al. 29: Ataque basado en razón de verosimilitud LiRA

Ataques Basados en Etiquetas:

Choquette-Choo et al. 32: Primer MIA label-only
Peng et al. 33 OSLO: Medición de confianza mediante perturbación adversarial
Wu et al. 34 YOQO: Reducción de número de consultas

MIA Contra MU

Ataque	Acceso a $\theta$	Acceso a $\theta_u$	Probabilidades Posteriores
Chen et al. 7	✓	✓	✓
Gao et al. 8	✓	✓	✓
Lu et al. 9	✓	✓	✗
U-MIA 10	✗	✓	✓
U-LiRA 11	✗	✓	✓
Apollo	✗	✓	✗

Ventaja de Este Artículo: Modelo de amenaza más estricto, sin necesidad de modelo original ni probabilidades posteriores

Conclusiones y Discusión

Conclusiones Principales

Amenaza de Privacidad Real: Incluso bajo modelo de amenaza más estricto (acceso solo a etiquetas, sin modelo original), los atacantes pueden inferir muestras desaprendidas con alta precisión
Fundamento Teórico Sólido: UNDER-UNLEARNING y OVER-UNLEARNING tienen límites teóricos claros (bajo condiciones Lipschitz)
Fortaleza Práctica:
- Versión en línea: TPR máximo 68.5% (GA en CIFAR-10)
- Versión fuera de línea: Rendimiento ligeramente inferior, pero costo computacional significativamente reducido
Diferencias Significativas Entre Algoritmos: Vulnerabilidad de diferentes algoritmos de desaprendizaje varía enormemente, requiriendo defensas específicas
Desafía Afirmaciones Existentes: Refuta directamente afirmaciones de protección de privacidad de la mayoría de métodos de desaprendizaje

Limitaciones

Limitaciones Reconocidas por Autores:

Dificultad en Ajuste de FPR: Ajustar FPR mediante hiperparámetros ( $T, \epsilon, \tau$ ) no es tan flexible como métodos basados en verosimilitud
Costo Computacional: Requiere entrenar múltiples modelos sombra (aunque versión fuera de línea mitiga esto)
Suposiciones Teóricas: Condición Lipschitz local no siempre se cumple (como en casos BT, SalUn)

Problemas Potenciales No Mencionados:

Sesgo de Selección de Muestras: Solo prueba 200 muestras, puede no representar distribución completa
Proporción de Desaprendizaje Fija: Solo prueba 10% desaprendizaje, otras proporciones desconocidas
Defensas Adversariales: No discute posibles defensas (como agregar ruido, privacidad diferencial)
Aplicabilidad a LLM: Principalmente enfocado en clasificación de imágenes, desaprendizaje en modelos de lenguaje grande no probado

Direcciones Futuras

Ataques Más Eficientes: Reducir número de modelos sombra y consultas
Mecanismos de Defensa: Diseñar algoritmos de desaprendizaje robustos a Apollo
Teoría Mejorada: Relajar suposición Lipschitz, extender a casos no locales
Otras Modalidades: Extender a tareas de texto, generación de imágenes, etc.
Desaprendizaje con Privacidad: Métodos de desaprendizaje combinados con privacidad diferencial

Evaluación Profunda

Fortalezas

Innovación del Método:

Cambio de Paradigma: De "comparar antes/después" a "comparar desaprendizaje con reentrenamiento", más alineado con definición de desaprendizaje
Profundidad Teórica: Primeros límites teóricos Lipschitz, formalización de fenómenos UNDER/OVER
Modelo de Amenaza Estricto: label-only + a posteriori es la configuración más desafiante

Suficiencia Experimental:

Diversidad de Conjuntos de Datos: CIFAR-10/100 (pequeña escala), ImageNet (gran escala)
Cobertura de Algoritmos: 6 algoritmos de desaprendizaje representativos + línea base de reentrenamiento
Ablación Detallada: Hiperparámetros, transferibilidad de arquitectura, dinámicas UNDER/OVER
Visualización Clara: Ejemplo 2D demuestra intuitivamente idea central

Poder de Convicción de Resultados:

Comparación Completa: Comparación con U-MIA, U-LiRA, destaca ventajas
Significancia Estadística: 200 muestras × múltiples experimentos, resultados confiables
Verificación Teórica: Observaciones experimentales consistentes con predicciones teóricas (Figura 5)

Calidad de Escritura:

Estructura Clara: De motivación → teoría → método → experimentos, lógica rigurosa
Terminología Estándar: Definiciones formales (Def. 1-3), pruebas de teoremas completas
Reproducibilidad: Código abierto, hiperparámetros detallados (Tabla VII)

Insuficiencias

Limitaciones del Método:

Suposición Lipschitz Fuerte: No aplicable a todos los modelos y algoritmos de desaprendizaje (como fracaso de BT)
Restricción de Localidad: Radio de búsqueda $T\cdot\epsilon$ fijo, puede perder artefactos distantes
Simplificación Binaria: Ignora membresía en $D_r$ , problema realmente ternario

Defectos Experimentales:

Proporción de Desaprendizaje Única: Solo prueba 10%, desconocidas tasas 1% o 50%
Tamaño de Muestra Pequeño: 200+200 muestras posiblemente insuficientes para evaluar riesgos de cola
Falta de Experimentos de Defensa: No prueba defensas como agregar ruido, privacidad diferencial
Cobertura de Arquitectura Limitada: Principalmente ResNet-18, pruebas insuficientes de modelos Transformer

Análisis Insuficiente:

Razones de Fracaso Superficiales: "Viola Lipschitz" carece de análisis profundo
Diferencias de Algoritmos No Explicadas: ¿Por qué BT es vulnerable a U-MIA pero robusto a Apollo?
Discusión de Practicidad Faltante: Viabilidad en escenarios reales de MLaaS (como límites de consulta)

Consideraciones Éticas:

Naturaleza de Doble Filo: Método de ataque puede ser usado maliciosamente
Recomendaciones de Defensa Insuficientes: Solo enfatiza "necesidad de cuidado", sin soluciones concretas

Impacto

Contribuciones al Campo:

Rompe Suposiciones: Demuestra que sin modelo original también se puede atacar, impulsa definiciones de privacidad más estrictas
Herramientas Teóricas: Límites Lipschitz aplicables a análisis de otros métodos de desaprendizaje
Referencia de Evaluación: Apollo puede servir como herramienta de auditoría de privacidad para algoritmos de desaprendizaje

Valor Práctico:

Herramienta de Auditoría: Ayuda evaluar riesgo de fuga de privacidad de servicios de desaprendizaje
Guía de Diseño: Fenómenos UNDER/OVER sugieren direcciones de mejora de algoritmos
Referencia Normativa: Proporciona base técnica para implementación de regulaciones como GDPR

Reproducibilidad:

✅ Código abierto: https://github.com/LiouTang/Unlearn-Apollo-Attack
✅ Hiperparámetros detallados: Tabla VII completa
✅ Conjuntos de datos públicos: CIFAR, ImageNet disponibles
⚠️ Recursos computacionales: Requiere GPU A100, puede limitar reproducción

Impacto Potencial:

Corto Plazo: Impulsa mejora de algoritmos de desaprendizaje (como optimización adicional de SalUn, SFR-on)
Mediano Plazo: Posiblemente desencadena ola de investigación en desaprendizaje con privacidad (como DP-Unlearning)
Largo Plazo: Influye en formulación de estándares técnicos de regulaciones de privacidad

Escenarios Aplicables

Aplicaciones Apropiadas:

Auditoría de Privacidad: Evaluar garantías de privacidad de servicios de desaprendizaje
Prueba de Algoritmos: Prueba de robustez de nuevos métodos de desaprendizaje
Cumplimiento Normativo: Verificar cumplimiento de requisitos GDPR

Aplicaciones Inapropiadas:

Desaprendizaje de LLM: Definición de "etiqueta" poco clara en generación de texto
Escenarios de Pocas Muestras: Entrenamiento de modelo sombra requiere muchos datos
Sistemas en Tiempo Real: Generación de muestra adversarial consume tiempo (50 pasos SGD)

Potencial de Generalización:

Otras Tareas: Detección de objetos, segmentación semántica (requiere redefinir "etiqueta")
Aprendizaje Federado: Auditoría de privacidad de desaprendizaje distribuido
Compresión de Modelos: Inferencia de membresía en escenarios de poda, destilación

Referencias (Clave)

Cao & Yang (2015): Concepto inicial de desaprendizaje automático
Bourtoule et al. (2021): Algoritmo SISA de desaprendizaje exacto
Carlini et al. (2022): Ataque LiRA basado en razón de verosimilitud
Choquette-Choo et al. (2021): Primer MIA label-only
Hayes et al. (2024): Ataque U-LiRA contra desaprendizaje
Huang et al. (2024): Marco unificado SFR-on de desaprendizaje por gradiente
Fan et al. (2024): Desaprendizaje SalUn basado en saliencia

Resumen

Apollo es un artículo de alta calidad en seguridad del aprendizaje automático que revela riesgos de privacidad del desaprendizaje automático mediante el modelo de amenaza más estricto (label-only, a posteriori). Sus contribuciones principales son:

Innovación Teórica: Formaliza UNDER/OVER-UNLEARNING, proporciona límites Lipschitz
Método Práctico: Versiones en línea/fuera de línea, equilibra efectividad y costo
Experimentos Sólidos: Múltiples conjuntos de datos, algoritmos, ablaciones, resultados confiables

Aunque tiene limitaciones como suposición Lipschitz fuerte y tamaño de muestra pequeño, el artículo desafía directamente la efectividad del desaprendizaje como herramienta de privacidad, teniendo importante valor de advertencia para el campo. Se recomienda trabajo futuro en:

Explorar métodos de ataque en escenarios no-Lipschitz
Diseñar algoritmos de desaprendizaje robusto a Apollo
Extender a otras modalidades como LLM

Índice de Recomendación: ⭐⭐⭐⭐☆ (4.5/5)

Innovación: 5/5
Rigor: 4/5
Practicidad: 4/5
Legibilidad: 5/5