2025-11-24T16:37:17.242649

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

Tang, Joshi, Kundu

Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.

academic

Apollo: 기계 학습 제거를 위한 사후 레이블 전용 멤버십 추론 공격

기본 정보

논문 ID: 2506.09923
제목: Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
저자: Liou Tang, James Joshi (University of Pittsburgh), Ashish Kundu (Cisco Research)
분류: cs.LG (기계 학습)
발표 시간: 2025년 10월 27일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2506.09923v2
코드 링크: https://github.com/LiouTang/Unlearn-Apollo-Attack

초록

기계 학습 제거(Machine Unlearning, MU)는 훈련된 모델에서 훈련 샘플 및 그 영향을 효율적으로 제거하는 것을 목표로 하며, 처음부터 다시 훈련할 필요가 없습니다. MU 자체는 개인정보 보호 및 규제 준수를 제공하는 데 사용되지만, 모델의 공격 표면을 증가시킬 수 있습니다. MU에 대한 기존 개인정보 추론 공격은 공격자가 제거 전후의 모델에 접근할 수 있다고 가정하므로, 실제 시나리오에서의 실행 가능성이 제한됩니다. 본 논문은 제거 후 모델의 레이블 출력에만 접근하여 데이터 샘플이 제거되었는지 여부를 추론하는 새로운 개인정보 공격인 Apollo(사후 레이블 전용 멤버십 추론 공격)를 제안합니다. 실험 결과, Apollo가 필요로 하는 모델 접근 권한이 훨씬 적음에도 불구하고 제거된 샘플의 멤버십 상태 추론에서 상대적으로 높은 정확도를 달성할 수 있음을 보여줍니다.

연구 배경 및 동기

문제 정의

핵심 문제: 개인정보 보호 기술로서의 기계 학습 제거가 자체적으로 개인정보를 유출할 수 있는가? 구체적으로, 공격자가 제거 후 모델에만 접근하여 어떤 데이터가 제거되었는지 추론할 수 있는가?

중요성

규제 준수 요구사항: GDPR 및 CCPA 등의 규정은 사용자에게 "잊혀질 권리"를 부여하며, ML 모델이 사용자 데이터를 제거할 수 있어야 합니다
개인정보 보호의 역설: 기계 학습 제거는 개인정보 보호 수단이지만, 제거 과정 자체가 새로운 개인정보 위험을 야기할 수 있습니다
실제 위협: MLaaS 시나리오에서 사용자는 일반적으로 원본 모델에 접근할 수 없으므로 기존 공격 방법이 적용되지 않습니다

기존 방법의 한계

MU에 대한 기존 멤버십 추론 공격(MIA)에는 다음과 같은 문제가 있습니다:

원본 모델 접근 필요: 대부분의 공격(Chen et al., Gao et al.)은 제거 전후 모델에 동시에 접근해야 합니다
사후 확률 필요: 많은 방법이 모델 출력의 확률 분포에 의존합니다
비현실적 위협 모델: 실제 MLaaS 시나리오에서 클라이언트는 일반적으로 원본 모델을 얻을 수 없습니다

연구 동기

본 논문은 가장 엄격한 위협 모델을 제안합니다: 공격자는 제거 후 모델의 레이블 출력에만 접근 가능(레이블 전용, 사후)하며, 이는 실제 시나리오에 더 가깝습니다. 핵심 통찰은 근사 제거 알고리즘이 결정 공간에서 두 가지 유형의 인공물을 생성한다는 것입니다: **과소 제거(UNDER-UNLEARNING)**와 **과도 제거(OVER-UNLEARNING)**로, 이를 멤버십 상태 추론에 사용할 수 있습니다.

핵심 기여

Apollo 공격 제안: 흑상자, 레이블 접근만 필요한 첫 번째 사후(a posteriori) 멤버십 추론 공격으로, 위협 모델이 가장 엄격합니다
제거 인공물 형식화: UNDER-UNLEARNING과 OVER-UNLEARNING 두 가지 현상을 식별하고 형식화하며, 이론적 경계 증명을 제공합니다(정리 III.3 및 III.4)
광범위한 실험 검증: 여러 데이터셋(CIFAR-10/100, ImageNet)과 6가지 제거 알고리즘에서 검증하여 엄격한 위협 모델에서도 높은 정확도의 추론을 달성할 수 있음을 증명합니다
개인정보 보호 위협 공개: 기존 제거 방법의 개인정보 보호 주장에 직접 이의를 제기하며, 더욱 신중한 개인정보 보호 제거 방법의 필요성을 강조합니다

방법 상세 설명

작업 정의

입력:

제거 후 모델 $\theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)]$ (레이블 접근만 가능)
목표 샘플 $(x, y)$
동일한 분포에서 샘플링된 대리 데이터셋 $D'$

출력: 이진 결정 $\hat{b} \in \{0,1\}$ 로, $x \in D_u$ (제거됨) 또는 $x \notin D$ (훈련에 참여하지 않음)를 판단합니다

제약 조건:

원본 모델 $\theta$ 에 접근 불가
모델 사후 확률에 접근 불가, $\hat{y} = \arg\max f_{\theta_u}(x)$ 만 획득 가능
제거 알고리즘이 근사 제거라고 가정

핵심 이론적 기초

가정 1: 과도 학습(Over-Learning)

학습은 과도 학습을 야기합니다: 훈련 샘플 $(x,y) \in D$ 에 대해, $x' \approx x$ 가 존재하여: $f_\theta(x') = y \text{ (when } x \in D), \quad f_\theta(x') \neq y \text{ (when } x \notin D)$

추측 1: 과소 제거(UNDER-UNLEARNING)

근사 제거는 부분 정보를 보존합니다. 제거된 샘플 $(x,y) \in D_u$ 에 대해, $x' \approx x$ 가 존재하여:

$f_\theta(x') = y$ (원본 모델이 학습함)
$f_{\theta_r}(x') \neq y$ (정확한 제거/재훈련 후 보존되지 않음)
$f_{\theta_u}(x') = y$ (근사 제거 후에도 보존됨, 과소 제거)

직관적 설명: 결정 경계가 충분히 이동하지 않아 제거가 불완전합니다(그림 2b 빨간색 영역)

추측 2: 과도 제거(OVER-UNLEARNING)

근사 제거는 성능 손실을 야기합니다. 제거된 샘플 $(x,y) \in D_u$ 에 대해, $x' \approx x$ 가 존재하여:

$f_\theta(x') = y$ (원본 모델이 학습함)
$f_{\theta_r}(x') = y$ (정확한 제거 후 보존됨)
$f_{\theta_u}(x') \neq y$ (근사 제거 후 변경됨, 과도 제거)

직관적 설명: 결정 경계가 과도하게 조정되어 보존 집합의 성능에 영향을 미칩니다(그림 2c 녹색 영역)

이론적 경계

보조정리 III.1 (여백의 Lipschitz 성질)

여백을 $m_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j$ 로 정의하면, 표준 Lipschitz 조건 하에서: $|m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\|$

정리 III.3 (과소 제거 경계)

UNDER-UNLEARNING을 만족하는 $x'$ 에 대해, 교란 반경 $r = \|x-x'\|$ 는 다음을 만족합니다: $\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}}$

여기서 $\Delta_u = \|\theta_u - \theta\|$ , $\Delta_r = \|\theta_r - \theta\|$

정리 III.4 (과도 제거 경계)

유사하게, OVER-UNLEARNING의 경계는: $\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}}$

의미: 이론적으로 실행 가능한 탐색 공간을 제공하여 대적 샘플 생성을 지도합니다

모델 아키텍처: Apollo 공격 흐름

온라인 공격(Online Attack)

섀도우 모델 훈련: $m$ 개의 섀도우 모델 $\Theta^s = \{\theta^s_i\}$ 를 훈련하며, 각각 데이터셋 $D^s_i$ 에서 훈련합니다
섀도우 모델 제거: 각 $\theta^s_i$ 에 대해 목표 샘플 $x$ 를 제거하여 $\theta^{su}_i$ 를 얻습니다
대적 샘플 생성: $x'$ 를 최적화하여 민감도 및 특이도 조건을 만족하도록 합니다

과소 제거 손실 함수: $\ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i)$

여기서:

첫 번째 항(민감도): $x'$ 는 제거 후 모델에서 클래스 $y$ 로 예측되어야 합니다
두 번째 항(특이도): $x'$ 는 $x$ 를 훈련하지 않은 모델에서 $y$ 로 예측되지 않아야 합니다
$\hat{\ell} = -\ell$ (교차 엔트로피의 음수)

과도 제거 손실 함수: $\ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i)$

오프라인 공격(Offline Attack)

계산 비용을 줄이기 위해 민감도 조건을 결정 경계 거리로 대체합니다: $\ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i)$

알고리즘 1: 대적 샘플 생성

입력: 목표 모델θ_u, 목표 샘플(x,y), 섀도우 모델Θ^s, 스텝 크기ε
출력: 대적 샘플x'

x' ← x
for t = 1 to T:
    그래디언트 계산 g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
    x' ← SGD(x', 평균 그래디언트)
    구 껍질에 투영 B_{tε}(x) \ B_{(t-1)ε}(x)  // 국소성 제약
    if 평균 신뢰도 < τ:
        조기 종료
return x'

주요 설계:

탐색 반경을 점진적으로 확대 ( $(t-1)\epsilon$ 에서 $t\epsilon$ 로)
투영이 국소성을 보장 (총 교란 $\leq T\cdot\epsilon$ )
조기 종료 메커니즘으로 효율성 향상

기술적 혁신점

패러다임 전환: 제거 전후 모델 비교 → 제거 모델과 이상적 재훈련 모델 비교
이론적 지원: 제거 공격에 대한 Lipschitz 이론적 경계를 처음으로 제공
실용성 강함: 오프라인 버전은 각 목표 샘플마다 섀도우 모델을 다시 제거할 필요가 없음
적응성 우수: UNDER과 OVER 두 가지 현상을 모두 활용하여 견고성 향상

실험 설정

데이터셋

데이터셋	훈련 집합 크기	테스트 집합 크기	클래스 수	제거 비율
CIFAR-10	20,000	10,000	10	10%
CIFAR-100	20,000	10,000	100	10%
ImageNet	512,466	256,235	1,000	10%

데이터 분할 전략:

슬라이스(a): 훈련 집합 $D$
슬라이스(b): 섀도우 데이터셋(오프라인)
슬라이스(c): 테스트 집합 $D_t$
온라인 공격: 섀도우 집합은 (a)+(b)에서 샘플링; 오프라인 공격: (b)에서만 샘플링

모델 아키텍처

ResNet-18: 주요 실험 모델
VGG-16: 소거 실험
Swin Transformer: 전이성 테스트

훈련 구성:

최적화기: AdamW
학습률: $1 \times 10^{-4}$
배치 크기: 64
에포크: 100(목표 모델), 50(섀도우 모델)
정확도 요구사항: $D_t$ 에서 ≥75%

제거 알고리즘

6가지 대표적 알고리즘 + 재훈련 기준선 테스트:

알고리즘	유형	핵심 아이디어
GA 45	기준선	그래디언트 상승, $D_u$ 에만 초점
FT 18	기준선	미세 조정, $D_r$ 에만 초점
BT 54	지식 증류	"나쁜 교사"를 사용하여 제거 유도
SCRUB 10	사후 발산	제거 전후 모델 차이 최대화
SalUn 55	SOTA	현저성 기반 매개변수 선택
SFR-on 53	SOTA	보존 집합 기하학 보존
RT	정확한 제거	처음부터 재훈련(이론적으로 면역)

평가 지표

주요 지표: 낮은 FPR에서의 TPR(True Positive Rate at low False Positive Rate)

이유: 높은 정확도가 개인정보 공격에 더 가치 있음
보고 방식: 각 알고리즘이 달성할 수 있는 최저 FPR에서의 TPR

보조 지표: 정밀도, 재현율, ROC 곡선

비교 방법

U-MIA 10: 순진한 방법으로 SVM 분류기 사용(RBF 커널, C=3)
U-LiRA 11: 우도비 기반 공격으로 로짓 변환된 사후 확률 사용

참고: Chen et al., Gao et al., Lu et al.은 포함되지 않음. 원본 모델 접근이 필요하기 때문입니다

구현 세부사항

Apollo 하이퍼파라미터:

섀도우 모델 수: $m = 32$
탐색 스텝 크기: $\epsilon = 1.0$
탐색 라운드: $T = 50$
손실 가중치: $\alpha = 1, \beta = 4$ (특이도 강조)
목표 샘플 수: 200(제거 집합) + 200(테스트 집합)

하드웨어: NVIDIA A100 (40GB), 모델당 훈련 시간 약 20분

실험 결과

주요 결과

표 II: CIFAR-10에서의 성능

방법	GA	FT	BT	SCRUB	SalUn	SFR-on	RT
U-MIA	16.5@6.0%	11.5@9.5%	95.0@2.5%	9.0@4.0%	15.5@4.5%	3.0@2.5%	5.5@4.5%
U-LiRA	68.5@6.0%	6.5@9.5%	28.0@2.5%	6.0@4.0%	20.0@4.5%	2.5@2.5%	4.0@4.5%
Apollo	18.0@6.0%	6.5@9.5%	4.0@2.5%	21.5@4.0%	4.5@4.5%	10.0@2.5%	5.0@4.5%
Apollo (Off)	16.0@6.0%	6.5@9.5%	3.0@2.5%	15.0@4.0%	7.5@4.5%	5.0@2.5%	7.0@4.5%

주요 발견:

GA가 가장 취약: U-LiRA가 68.5% TPR 달성, Apollo가 18% 달성
SCRUB 공격에 취약: Apollo가 U-LiRA보다 우수(21.5% vs 6.0%)
SFR-on 성능: Apollo가 10% TPR 달성, U-LiRA는 2.5%만 달성
RT 기본적으로 안전: 모든 공격 TPR ≤ 7%, 무작위 추측에 가까움

표 III: CIFAR-100에서의 성능

방법	GA	FT	BT	SCRUB	SalUn	SFR-on	RT
U-MIA	7.5@0.5%	0.5@1.0%	48.5@13.5%	17.0@5.0%	8.5@1.5%	2.0@1.5%	1.0@1.0%
U-LiRA	14.5@0.5%	1.0@1.0%	25.0@13.5%	12.5@5.0%	17.0@1.5%	2.0@1.5%	1.5@1.0%
Apollo	15.5@0.5%	2.0@1.0%	50.0@13.5%	41.5@5.0%	5.0@1.5%	0.5@1.5%	1.5@1.0%
Apollo (Off)	13.0@0.5%	2.0@1.0%	41.5@13.5%	39.0@5.0%	4.5@1.5%	1.0@1.5%	0.5@1.0%

주요 발견:

성능 향상: CIFAR-100에서 Apollo 성능이 더 우수(클래스 많음, 클래스당 샘플 적음)
SCRUB 큰 약점: Apollo가 41.5% 달성, U-LiRA는 12.5%를 훨씬 초과
BT 지속적 취약: Apollo가 50% TPR 달성

표 IV: ImageNet에서의 성능

추세는 CIFAR-100과 유사하며, Apollo는 GA, SCRUB에서 우수한 성능을 보입니다

ROC 곡선 분석(그림 4)

GA (4a): U-LiRA가 가장 강력, Apollo가 차선, 전체 AUC 높음 FT (4b): 모든 공격 효과 미흡, Apollo가 약간 우수 BT (4c): U-MIA가 가장 강력(95% TPR), Apollo가 약함 SCRUB (4d): Apollo가 U-LiRA보다 명확히 우수 SalUn (4e): U-LiRA가 약간 우수 SFR-on (4f): Apollo가 낮은 FPR 영역에서 명확한 우위 RT (4g): 모든 공격이 무작위선에 가까움

소거 실험

1. UNDER vs OVER 동역학(그림 5)

다양한 탐색 반경에서 두 가지 현상의 TPR을 히트맵으로 표시:

성공 사례(GA, SFR-on):

명확한 경계 효과: 축 근처의 낮은 TPR 영역
정리 III.3 및 III.4의 이론적 경계 검증
UNDER과 OVER이 다양한 반경 범위에서 작동

실패 사례(BT, SalUn):

OVER-UNLEARNING이 거의 균등 분포
UNDER-UNLEARNING이 희귀
추측 원인: 알고리즘 설계가 국소 Lipschitz 가정 위반

2. 하이퍼파라미터 영향(그림 6)

손실 가중치 $\beta/\alpha$ (6a):

더 높은 $\beta/\alpha$ → 더 나은 정밀도-재현율 균형
권장 $\beta/\alpha = 4$ (특이도 강조)

섀도우 모델 수량 $m$ (6b):

$m \leq 16$ : $m$ 증가가 성능 향상
$m = 32$ : 성능 저하(특정 섀도우 모델에 과적합)
Wen et al. 36의 관찰과 일치

3. 아키텍처 전이성(표 V)

목표 모델	섀도우 모델	TPR@FPR
ResNet-18	ResNet-18	18.0@6.0%
ResNet-18	VGG-16	12.0@6.0%
ResNet-18	Swin-T	13.5@6.0%
VGG-16	VGG-16	5.5@2.5%
Swin-T	Swin-T	11.5@4.5%

결론: 아키텍처 불일치가 성능을 저하시키지만 여전히 높은 정확도 유지

사례 분석: 2D 예제(그림 3)

실험 설정:

데이터: $\mathbb{R}^2 \times \{0,1,2,3\}$ , 500개 샘플
모델: 12층 소형 NN(표 VI)
제거: 훈련 집합의 10%, GA 사용

관찰(3a):

빨간색 영역: UNDER-UNLEARNING( $\theta_u$ 가 $\theta$ 와 동일하게 예측, $\theta_r$ 과는 다름)
녹색 영역: OVER-UNLEARNING( $\theta_u$ 가 $\theta_r$ 과 다르게 예측, $\theta$ 와는 동일)
두 가지 현상이 동시에 존재

대적 샘플 궤적(3c):

제거된 샘플에서 출발
점진적으로 UNDER-UNLEARNING 영역으로 이동
알고리즘 1의 효과성 검증

실험 발견

제거 알고리즘 차이 거대:
- GA, SCRUB, SFR-on이 공격에 취약
- BT는 U-MIA에 취약하지만 Apollo에 견고
- SalUn이 전반적으로 더 안전
데이터셋 복잡도 영향:
- CIFAR-100과 ImageNet에서 공격이 더 효과적(클래스 많음, 샘플 적음)
- 결정 경계가 더 민감
이론과 실제 일치:
- 성공한 공격이 명확한 경계 효과 표시
- 실패 사례가 Lipschitz 가정 위반 가능성
오프라인 공격 실행 가능:
- 온라인 버전보다 성능 약간 저하
- 계산 비용 대폭 감소
위협 광범위:
- 가장 엄격한 위협 모델에서도 대부분의 알고리즘 공격 가능
- 재훈련(RT)이 기본적으로 안전하지만 확장 불가능

공격	$\theta$ 접근	$\theta_u$ 접근	사후 확률
Chen et al. 7	✓	✓	✓
Gao et al. 8	✓	✓	✓
Lu et al. 9	✓	✓	✗
U-MIA 10	✗	✓	✓
U-LiRA 11	✗	✓	✓
Apollo	✗	✓	✗

결론 및 논의

주요 결론

개인정보 보호 위협 실제 존재: 가장 엄격한 위협 모델(레이블 접근만, 원본 모델 없음)에서도 공격자가 높은 정확도로 제거된 샘플을 추론할 수 있습니다
견고한 이론적 기초: UNDER-UNLEARNING과 OVER-UNLEARNING이 명확한 이론적 경계를 가집니다(Lipschitz 조건 하에서)
강한 실용성:
- 온라인 버전: 최고 TPR 68.5%(CIFAR-10의 GA)
- 오프라인 버전: 성능 약간 저하, 계산 비용 대폭 감소
알고리즘 차이 현저: 다양한 제거 알고리즘의 취약성 차이가 거대하여 맞춤형 방어 필요
기존 주장 도전: 대부분의 제거 방법의 개인정보 보호 주장에 직접 이의 제기