Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
Tang, Joshi, Kundu
Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
academic
Apollo: Un Attacco di Inferenza di Appartenenza A Posteriori Solo su Etichette Verso l'Apprendimento Non Supervisionato
L'apprendimento non supervisionato (Machine Unlearning, MU) mira a rimuovere efficientemente i campioni di addestramento e il loro impatto da un modello già addestrato, senza necessità di riaddestrare da zero. Sebbene l'MU sia utilizzato per fornire protezione della privacy e conformità normativa, potrebbe anche aumentare la superficie di attacco del modello. Gli attuali attacchi di inferenza della privacy verso l'MU presuppongono che l'attaccante possa accedere al modello prima e dopo l'oblio, il che limita la fattibilità in scenari reali. Questo articolo propone un nuovo attacco di privacy — Apollo (A Posteriori Label-Only Membership Inference Attack) — che deduce se un campione di dati è stato dimenticato accedendo solo agli output di etichette del modello dopo l'oblio. Gli esperimenti dimostrano che, sebbene Apollo richieda un accesso al modello minore, raggiunge comunque una precisione relativamente elevata nell'inferenza dello stato di appartenenza dei campioni dimenticati.
Problema Centrale: L'apprendimento non supervisionato, come tecnica di protezione della privacy, potrebbe esso stesso divulgare informazioni sulla privacy? Nello specifico, può un attaccante dedurre quali dati sono stati dimenticati accedendo solo al modello dopo l'oblio?
Esigenze di Conformità Normativa: Normative come GDPR e CCPA concedono agli utenti il "diritto all'oblio", richiedendo ai modelli ML di rimuovere i dati degli utenti
Paradosso della Privacy: L'apprendimento non supervisionato è esso stesso un mezzo di protezione della privacy, ma il processo di oblio potrebbe introdurre nuovi rischi di privacy
Minaccia Pratica: Negli scenari MLaaS, gli utenti tipicamente non possono accedere al modello originale, rendendo i metodi di attacco esistenti inapplicabili
Gli attuali attacchi di inferenza di appartenenza (MIA) verso l'MU presentano i seguenti problemi:
Necessità di Accesso al Modello Originale: La maggior parte degli attacchi (come Chen et al., Gao et al.) richiede l'accesso simultaneo ai modelli prima e dopo l'oblio
Dipendenza dalle Probabilità Posteriori: Molti metodi si basano sulla distribuzione di probabilità degli output del modello
Modello di Minaccia Non Realistico: In scenari MLaaS reali, i client tipicamente non possono ottenere il modello originale
Questo articolo propone il modello di minaccia più rigoroso: l'attaccante può accedere solo agli output di etichette del modello dopo l'oblio (label-only, a posteriori), il che è più vicino agli scenari reali. L'intuizione centrale è che gli algoritmi di oblio approssimato producono due classi di artefatti nello spazio decisionale — UNDER-UNLEARNING e OVER-UNLEARNING — che possono essere utilizzati per dedurre lo stato di appartenenza.
Propone l'Attacco Apollo: Primo attacco di inferenza di appartenenza a posteriori che richiede solo accesso black-box e alle etichette, con il modello di minaccia più rigoroso
Formalizza gli Artefatti di Oblio: Identifica e formalizza due fenomeni — UNDER-UNLEARNING e OVER-UNLEARNING — e fornisce prove di limiti teorici (Teorema III.3 e III.4)
Verifica Sperimentale Ampia: Verifica su più dataset (CIFAR-10/100, ImageNet) e 6 algoritmi di oblio, dimostrando l'inferenza ad alta precisione anche sotto modelli di minaccia rigorosi
Rivela Minacce di Privacy: Contraddice direttamente le affermazioni di privacy dei metodi di oblio esistenti, sottolineando la necessità di metodi di protezione della privacy più cauti
L'apprendimento causa apprendimento eccessivo: per il campione di addestramento (x,y)∈D, esiste x′≈x tale che:
fθ(x′)=y (quando x∈D),fθ(x′)=y (quando x∈/D)
Spiegazione Intuitiva: Il confine decisionale si è regolato eccessivamente, influenzando le prestazioni del set conservato (regione verde in Figura 2c)
Per ridurre il costo computazionale, sostituire la condizione di sensibilità con la distanza dal confine decisionale:
ℓUnoff(x′;x,y,Θ)=α∑id(x′,DB)+β∑iℓ^(x′;θis)
GA (4a): U-LiRA più forte, Apollo secondo, AUC complessivo alto
FT (4b): Tutti gli attacchi inefficaci, Apollo leggermente superiore
BT (4c): U-MIA più forte (95% TPR), Apollo più debole
SCRUB (4d): Apollo chiaramente superiore a U-LiRA
SalUn (4e): U-LiRA leggermente superiore
SFR-on (4f): Vantaggio evidente di Apollo nella regione a basso FPR
RT (4g): Tutti gli attacchi vicini alla linea casuale
Minaccia di Privacy Reale: Anche sotto il modello di minaccia più rigoroso (solo accesso alle etichette, senza modello originale), gli attaccanti possono dedurre campioni dimenticati con alta precisione
Fondamenti Teorici Solidi: UNDER-UNLEARNING e OVER-UNLEARNING hanno limiti teorici chiari (sotto condizioni Lipschitz)
Forte Praticità:
Versione online: TPR massimo 68.5% (GA su CIFAR-10)
Versione offline: prestazioni leggermente inferiori, ma costo computazionale significativamente ridotto
Differenze Algoritmo Significative: Vulnerabilità molto diverse tra algoritmi di oblio diversi, richiedendo difese mirate
Sfida Affermazioni Esistenti: Contraddice direttamente le affermazioni di protezione della privacy di molti metodi di oblio
Apollo è un articolo di alta qualità sulla sicurezza dell'apprendimento automatico, che rivela rischi privacy dell'apprendimento non supervisionato attraverso il modello di minaccia più rigoroso (label-only, a posteriori). I contributi principali sono:
Sebbene presenti limitazioni come assunzione Lipschitz forte e dimensione campione piccola, l'articolo sfida direttamente l'efficacia dell'oblio come strumento privacy, con importante effetto avvertimento sul campo. Lavori futuri consigliati: