Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
논문 ID : 2506.09923제목 : Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning저자 : Liou Tang, James Joshi (University of Pittsburgh), Ashish Kundu (Cisco Research)분류 : cs.LG (기계 학습)발표 시간 : 2025년 10월 27일 (arXiv v2)논문 링크 : https://arxiv.org/abs/2506.09923v2 코드 링크 : https://github.com/LiouTang/Unlearn-Apollo-Attack 기계 학습 제거(Machine Unlearning, MU)는 훈련된 모델에서 훈련 샘플 및 그 영향을 효율적으로 제거하는 것을 목표로 하며, 처음부터 다시 훈련할 필요가 없습니다. MU 자체는 개인정보 보호 및 규제 준수를 제공하는 데 사용되지만, 모델의 공격 표면을 증가시킬 수 있습니다. MU에 대한 기존 개인정보 추론 공격은 공격자가 제거 전후의 모델에 접근할 수 있다고 가정하므로, 실제 시나리오에서의 실행 가능성이 제한됩니다. 본 논문은 제거 후 모델의 레이블 출력에만 접근하여 데이터 샘플이 제거되었는지 여부를 추론하는 새로운 개인정보 공격인 Apollo(사후 레이블 전용 멤버십 추론 공격)를 제안합니다. 실험 결과, Apollo가 필요로 하는 모델 접근 권한이 훨씬 적음에도 불구하고 제거된 샘플의 멤버십 상태 추론에서 상대적으로 높은 정확도를 달성할 수 있음을 보여줍니다.
핵심 문제 : 개인정보 보호 기술로서의 기계 학습 제거가 자체적으로 개인정보를 유출할 수 있는가? 구체적으로, 공격자가 제거 후 모델에만 접근하여 어떤 데이터가 제거되었는지 추론할 수 있는가?
규제 준수 요구사항 : GDPR 및 CCPA 등의 규정은 사용자에게 "잊혀질 권리"를 부여하며, ML 모델이 사용자 데이터를 제거할 수 있어야 합니다개인정보 보호의 역설 : 기계 학습 제거는 개인정보 보호 수단이지만, 제거 과정 자체가 새로운 개인정보 위험을 야기할 수 있습니다실제 위협 : MLaaS 시나리오에서 사용자는 일반적으로 원본 모델에 접근할 수 없으므로 기존 공격 방법이 적용되지 않습니다MU에 대한 기존 멤버십 추론 공격(MIA)에는 다음과 같은 문제가 있습니다:
원본 모델 접근 필요 : 대부분의 공격(Chen et al., Gao et al.)은 제거 전후 모델에 동시에 접근해야 합니다사후 확률 필요 : 많은 방법이 모델 출력의 확률 분포에 의존합니다비현실적 위협 모델 : 실제 MLaaS 시나리오에서 클라이언트는 일반적으로 원본 모델을 얻을 수 없습니다본 논문은 가장 엄격한 위협 모델을 제안합니다: 공격자는 제거 후 모델의 레이블 출력에만 접근 가능 (레이블 전용, 사후)하며, 이는 실제 시나리오에 더 가깝습니다. 핵심 통찰은 근사 제거 알고리즘이 결정 공간에서 두 가지 유형의 인공물을 생성한다는 것입니다: **과소 제거(UNDER-UNLEARNING)**와 **과도 제거(OVER-UNLEARNING)**로, 이를 멤버십 상태 추론에 사용할 수 있습니다.
Apollo 공격 제안 : 흑상자, 레이블 접근만 필요한 첫 번째 사후(a posteriori) 멤버십 추론 공격으로, 위협 모델이 가장 엄격합니다제거 인공물 형식화 : UNDER-UNLEARNING과 OVER-UNLEARNING 두 가지 현상을 식별하고 형식화하며, 이론적 경계 증명을 제공합니다(정리 III.3 및 III.4)광범위한 실험 검증 : 여러 데이터셋(CIFAR-10/100, ImageNet)과 6가지 제거 알고리즘에서 검증하여 엄격한 위협 모델에서도 높은 정확도의 추론을 달성할 수 있음을 증명합니다개인정보 보호 위협 공개 : 기존 제거 방법의 개인정보 보호 주장에 직접 이의를 제기하며, 더욱 신중한 개인정보 보호 제거 방법의 필요성을 강조합니다입력 :
제거 후 모델 θ u = A [ D , D u , A ( D ) ] \theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)] θ u = A [ D , D u , A ( D )] (레이블 접근만 가능) 목표 샘플 ( x , y ) (x, y) ( x , y ) 동일한 분포에서 샘플링된 대리 데이터셋 D ′ D' D ′ 출력 : 이진 결정 b ^ ∈ { 0 , 1 } \hat{b} \in \{0,1\} b ^ ∈ { 0 , 1 } 로, x ∈ D u x \in D_u x ∈ D u (제거됨) 또는 x ∉ D x \notin D x ∈ / D (훈련에 참여하지 않음)를 판단합니다
제약 조건 :
원본 모델 θ \theta θ 에 접근 불가 모델 사후 확률에 접근 불가, y ^ = arg max f θ u ( x ) \hat{y} = \arg\max f_{\theta_u}(x) y ^ = arg max f θ u ( x ) 만 획득 가능 제거 알고리즘이 근사 제거라고 가정 학습은 과도 학습을 야기합니다: 훈련 샘플 ( x , y ) ∈ D (x,y) \in D ( x , y ) ∈ D 에 대해, x ′ ≈ x x' \approx x x ′ ≈ x 가 존재하여:
f θ ( x ′ ) = y (when x ∈ D ) , f θ ( x ′ ) ≠ y (when x ∉ D ) f_\theta(x') = y \text{ (when } x \in D), \quad f_\theta(x') \neq y \text{ (when } x \notin D) f θ ( x ′ ) = y (when x ∈ D ) , f θ ( x ′ ) = y (when x ∈ / D )
근사 제거는 부분 정보를 보존합니다. 제거된 샘플 ( x , y ) ∈ D u (x,y) \in D_u ( x , y ) ∈ D u 에 대해, x ′ ≈ x x' \approx x x ′ ≈ x 가 존재하여:
f θ ( x ′ ) = y f_\theta(x') = y f θ ( x ′ ) = y (원본 모델이 학습함)f θ r ( x ′ ) ≠ y f_{\theta_r}(x') \neq y f θ r ( x ′ ) = y (정확한 제거/재훈련 후 보존되지 않음)f θ u ( x ′ ) = y f_{\theta_u}(x') = y f θ u ( x ′ ) = y (근사 제거 후에도 보존됨, 과소 제거 )직관적 설명 : 결정 경계가 충분히 이동하지 않아 제거가 불완전합니다(그림 2b 빨간색 영역)
근사 제거는 성능 손실을 야기합니다. 제거된 샘플 ( x , y ) ∈ D u (x,y) \in D_u ( x , y ) ∈ D u 에 대해, x ′ ≈ x x' \approx x x ′ ≈ x 가 존재하여:
f θ ( x ′ ) = y f_\theta(x') = y f θ ( x ′ ) = y (원본 모델이 학습함)f θ r ( x ′ ) = y f_{\theta_r}(x') = y f θ r ( x ′ ) = y (정확한 제거 후 보존됨)f θ u ( x ′ ) ≠ y f_{\theta_u}(x') \neq y f θ u ( x ′ ) = y (근사 제거 후 변경됨, 과도 제거 )직관적 설명 : 결정 경계가 과도하게 조정되어 보존 집합의 성능에 영향을 미칩니다(그림 2c 녹색 영역)
여백을 m θ ( x ) : = f θ ( x ) y − max j ≠ y f θ ( x ) j m_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j m θ ( x ) := f θ ( x ) y − max j = y f θ ( x ) j 로 정의하면, 표준 Lipschitz 조건 하에서:
∣ m θ ( x ) − m θ ′ ( x ′ ) ∣ ≤ L x ∥ x − x ′ ∥ + L θ ∥ θ − θ ′ ∥ |m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\| ∣ m θ ( x ) − m θ ′ ( x ′ ) ∣ ≤ L x ∥ x − x ′ ∥ + L θ ∥ θ − θ ′ ∥
UNDER-UNLEARNING을 만족하는 x ′ x' x ′ 에 대해, 교란 반경 r = ∥ x − x ′ ∥ r = \|x-x'\| r = ∥ x − x ′ ∥ 는 다음을 만족합니다:
( m θ ( x ) − L θ Δ r L x ) + ⏟ = : L U n ≤ r < m θ ( x ) − L θ Δ u L x ⏟ = : U U n \underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}} =: L U n ( L x m θ ( x ) − L θ Δ r ) + ≤ r < =: U U n L x m θ ( x ) − L θ Δ u
여기서 Δ u = ∥ θ u − θ ∥ \Delta_u = \|\theta_u - \theta\| Δ u = ∥ θ u − θ ∥ , Δ r = ∥ θ r − θ ∥ \Delta_r = \|\theta_r - \theta\| Δ r = ∥ θ r − θ ∥
유사하게, OVER-UNLEARNING의 경계는:
( m θ ( x ) − L θ Δ u L x ) + ⏟ = : L O v ≤ r < m θ ( x ) − L θ Δ r L x ⏟ = : U O v \underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}} =: L O v ( L x m θ ( x ) − L θ Δ u ) + ≤ r < =: U O v L x m θ ( x ) − L θ Δ r
의미 : 이론적으로 실행 가능한 탐색 공간을 제공하여 대적 샘플 생성을 지도합니다
섀도우 모델 훈련 : m m m 개의 섀도우 모델 Θ s = { θ i s } \Theta^s = \{\theta^s_i\} Θ s = { θ i s } 를 훈련하며, 각각 데이터셋 D i s D^s_i D i s 에서 훈련합니다섀도우 모델 제거 : 각 θ i s \theta^s_i θ i s 에 대해 목표 샘플 x x x 를 제거하여 θ i s u \theta^{su}_i θ i s u 를 얻습니다대적 샘플 생성 : x ′ x' x ′ 를 최적화하여 민감도 및 특이도 조건을 만족하도록 합니다과소 제거 손실 함수 :
ℓ U n ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ( x ′ ; θ i s u ) + β ∑ x ∉ D i s ℓ ^ ( x ′ ; θ i s ) \ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i) ℓ U n ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ( x ′ ; θ i s u ) + β ∑ x ∈ / D i s ℓ ^ ( x ′ ; θ i s )
여기서:
첫 번째 항(민감도): x ′ x' x ′ 는 제거 후 모델에서 클래스 y y y 로 예측되어야 합니다 두 번째 항(특이도): x ′ x' x ′ 는 x x x 를 훈련하지 않은 모델에서 y y y 로 예측되지 않아야 합니다 ℓ ^ = − ℓ \hat{\ell} = -\ell ℓ ^ = − ℓ (교차 엔트로피의 음수)과도 제거 손실 함수 :
ℓ O v ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ^ ( x ′ ; θ i s u ) + β ∑ x ∉ D i s ℓ ( x ′ ; θ i s ) \ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i) ℓ O v ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ^ ( x ′ ; θ i s u ) + β ∑ x ∈ / D i s ℓ ( x ′ ; θ i s )
계산 비용을 줄이기 위해 민감도 조건을 결정 경계 거리로 대체합니다:
ℓ U n o f f ( x ′ ; x , y , Θ ) = α ∑ i d ( x ′ , D B ) + β ∑ i ℓ ^ ( x ′ ; θ i s ) \ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i) ℓ U n o ff ( x ′ ; x , y , Θ ) = α ∑ i d ( x ′ , D B ) + β ∑ i ℓ ^ ( x ′ ; θ i s )
입력: 목표 모델θ_u, 목표 샘플(x,y), 섀도우 모델Θ^s, 스텝 크기ε
출력: 대적 샘플x'
x' ← x
for t = 1 to T:
그래디언트 계산 g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
x' ← SGD(x', 평균 그래디언트)
구 껍질에 투영 B_{tε}(x) \ B_{(t-1)ε}(x) // 국소성 제약
if 평균 신뢰도 < τ:
조기 종료
return x'
주요 설계 :
탐색 반경을 점진적으로 확대 (( t − 1 ) ϵ (t-1)\epsilon ( t − 1 ) ϵ 에서 t ϵ t\epsilon t ϵ 로) 투영이 국소성을 보장 (총 교란 ≤ T ⋅ ϵ \leq T\cdot\epsilon ≤ T ⋅ ϵ ) 조기 종료 메커니즘으로 효율성 향상 패러다임 전환 : 제거 전후 모델 비교 → 제거 모델과 이상적 재훈련 모델 비교이론적 지원 : 제거 공격에 대한 Lipschitz 이론적 경계를 처음으로 제공실용성 강함 : 오프라인 버전은 각 목표 샘플마다 섀도우 모델을 다시 제거할 필요가 없음적응성 우수 : UNDER과 OVER 두 가지 현상을 모두 활용하여 견고성 향상데이터셋 훈련 집합 크기 테스트 집합 크기 클래스 수 제거 비율 CIFAR-10 20,000 10,000 10 10% CIFAR-100 20,000 10,000 100 10% ImageNet 512,466 256,235 1,000 10%
데이터 분할 전략 :
슬라이스(a): 훈련 집합 D D D 슬라이스(b): 섀도우 데이터셋(오프라인) 슬라이스(c): 테스트 집합 D t D_t D t 온라인 공격: 섀도우 집합은 (a)+(b)에서 샘플링; 오프라인 공격: (b)에서만 샘플링 ResNet-18 : 주요 실험 모델VGG-16 : 소거 실험Swin Transformer : 전이성 테스트훈련 구성 :
최적화기: AdamW 학습률: 1 × 10 − 4 1 \times 10^{-4} 1 × 1 0 − 4 배치 크기: 64 에포크: 100(목표 모델), 50(섀도우 모델) 정확도 요구사항: D t D_t D t 에서 ≥75% 6가지 대표적 알고리즘 + 재훈련 기준선 테스트:
알고리즘 유형 핵심 아이디어 GA 45 기준선 그래디언트 상승, D u D_u D u 에만 초점 FT 18 기준선 미세 조정, D r D_r D r 에만 초점 BT 54 지식 증류 "나쁜 교사"를 사용하여 제거 유도 SCRUB 10 사후 발산 제거 전후 모델 차이 최대화 SalUn 55 SOTA 현저성 기반 매개변수 선택 SFR-on 53 SOTA 보존 집합 기하학 보존 RT 정확한 제거 처음부터 재훈련(이론적으로 면역)
주요 지표 : 낮은 FPR에서의 TPR(True Positive Rate at low False Positive Rate)
이유: 높은 정확도가 개인정보 공격에 더 가치 있음 보고 방식: 각 알고리즘이 달성할 수 있는 최저 FPR에서의 TPR 보조 지표 : 정밀도, 재현율, ROC 곡선
U-MIA 10 : 순진한 방법으로 SVM 분류기 사용(RBF 커널, C=3)U-LiRA 11 : 우도비 기반 공격으로 로짓 변환된 사후 확률 사용참고 : Chen et al., Gao et al., Lu et al.은 포함되지 않음. 원본 모델 접근이 필요하기 때문입니다
Apollo 하이퍼파라미터 :
섀도우 모델 수: m = 32 m = 32 m = 32 탐색 스텝 크기: ϵ = 1.0 \epsilon = 1.0 ϵ = 1.0 탐색 라운드: T = 50 T = 50 T = 50 손실 가중치: α = 1 , β = 4 \alpha = 1, \beta = 4 α = 1 , β = 4 (특이도 강조) 목표 샘플 수: 200(제거 집합) + 200(테스트 집합) 하드웨어 : NVIDIA A100 (40GB), 모델당 훈련 시간 약 20분
방법 GA FT BT SCRUB SalUn SFR-on RT U-MIA 16.5@6.0% 11.5@9.5% 95.0@2.5% 9.0@4.0% 15.5@4.5% 3.0@2.5% 5.5@4.5% U-LiRA 68.5@6.0% 6.5@9.5% 28.0@2.5% 6.0@4.0% 20.0@4.5% 2.5@2.5% 4.0@4.5% Apollo 18.0@6.0% 6.5@9.5% 4.0@2.5% 21.5@4.0% 4.5@4.5% 10.0@2.5% 5.0@4.5% Apollo (Off) 16.0@6.0% 6.5@9.5% 3.0@2.5% 15.0@4.0% 7.5@4.5% 5.0@2.5% 7.0@4.5%
주요 발견 :
GA가 가장 취약 : U-LiRA가 68.5% TPR 달성, Apollo가 18% 달성SCRUB 공격에 취약 : Apollo가 U-LiRA보다 우수(21.5% vs 6.0%)SFR-on 성능 : Apollo가 10% TPR 달성, U-LiRA는 2.5%만 달성RT 기본적으로 안전 : 모든 공격 TPR ≤ 7%, 무작위 추측에 가까움방법 GA FT BT SCRUB SalUn SFR-on RT U-MIA 7.5@0.5% 0.5@1.0% 48.5@13.5% 17.0@5.0% 8.5@1.5% 2.0@1.5% 1.0@1.0% U-LiRA 14.5@0.5% 1.0@1.0% 25.0@13.5% 12.5@5.0% 17.0@1.5% 2.0@1.5% 1.5@1.0% Apollo 15.5@0.5% 2.0@1.0% 50.0@13.5% 41.5@5.0% 5.0@1.5% 0.5@1.5% 1.5@1.0% Apollo (Off) 13.0@0.5% 2.0@1.0% 41.5@13.5% 39.0@5.0% 4.5@1.5% 1.0@1.5% 0.5@1.0%
주요 발견 :
성능 향상 : CIFAR-100에서 Apollo 성능이 더 우수(클래스 많음, 클래스당 샘플 적음)SCRUB 큰 약점 : Apollo가 41.5% 달성, U-LiRA는 12.5%를 훨씬 초과BT 지속적 취약 : Apollo가 50% TPR 달성추세는 CIFAR-100과 유사하며, Apollo는 GA, SCRUB에서 우수한 성능을 보입니다
GA (4a) : U-LiRA가 가장 강력, Apollo가 차선, 전체 AUC 높음
FT (4b) : 모든 공격 효과 미흡, Apollo가 약간 우수
BT (4c) : U-MIA가 가장 강력(95% TPR), Apollo가 약함
SCRUB (4d) : Apollo가 U-LiRA보다 명확히 우수
SalUn (4e) : U-LiRA가 약간 우수
SFR-on (4f) : Apollo가 낮은 FPR 영역에서 명확한 우위
RT (4g) : 모든 공격이 무작위선에 가까움
다양한 탐색 반경에서 두 가지 현상의 TPR을 히트맵으로 표시:
성공 사례(GA, SFR-on) :
명확한 경계 효과: 축 근처의 낮은 TPR 영역 정리 III.3 및 III.4의 이론적 경계 검증 UNDER과 OVER이 다양한 반경 범위에서 작동 실패 사례(BT, SalUn) :
OVER-UNLEARNING이 거의 균등 분포 UNDER-UNLEARNING이 희귀 추측 원인 : 알고리즘 설계가 국소 Lipschitz 가정 위반손실 가중치 β / α \beta/\alpha β / α (6a) :
더 높은 β / α \beta/\alpha β / α → 더 나은 정밀도-재현율 균형 권장 β / α = 4 \beta/\alpha = 4 β / α = 4 (특이도 강조) 섀도우 모델 수량 m m m (6b) :
m ≤ 16 m \leq 16 m ≤ 16 : m m m 증가가 성능 향상m = 32 m = 32 m = 32 : 성능 저하(특정 섀도우 모델에 과적합)Wen et al. 36 의 관찰과 일치 목표 모델 섀도우 모델 TPR@FPR ResNet-18 ResNet-18 18.0@6.0% ResNet-18 VGG-16 12.0@6.0% ResNet-18 Swin-T 13.5@6.0% VGG-16 VGG-16 5.5@2.5% Swin-T Swin-T 11.5@4.5%
결론 : 아키텍처 불일치가 성능을 저하시키지만 여전히 높은 정확도 유지
실험 설정 :
데이터: R 2 × { 0 , 1 , 2 , 3 } \mathbb{R}^2 \times \{0,1,2,3\} R 2 × { 0 , 1 , 2 , 3 } , 500개 샘플 모델: 12층 소형 NN(표 VI) 제거: 훈련 집합의 10%, GA 사용 관찰(3a) :
빨간색 영역: UNDER-UNLEARNING(θ u \theta_u θ u 가 θ \theta θ 와 동일하게 예측, θ r \theta_r θ r 과는 다름) 녹색 영역: OVER-UNLEARNING(θ u \theta_u θ u 가 θ r \theta_r θ r 과 다르게 예측, θ \theta θ 와는 동일) 두 가지 현상이 동시에 존재 대적 샘플 궤적(3c) :
제거된 샘플에서 출발 점진적으로 UNDER-UNLEARNING 영역으로 이동 알고리즘 1의 효과성 검증 제거 알고리즘 차이 거대 :GA, SCRUB, SFR-on이 공격에 취약 BT는 U-MIA에 취약하지만 Apollo에 견고 SalUn이 전반적으로 더 안전 데이터셋 복잡도 영향 :CIFAR-100과 ImageNet에서 공격이 더 효과적(클래스 많음, 샘플 적음) 결정 경계가 더 민감 이론과 실제 일치 :성공한 공격이 명확한 경계 효과 표시 실패 사례가 Lipschitz 가정 위반 가능성 오프라인 공격 실행 가능 :온라인 버전보다 성능 약간 저하 계산 비용 대폭 감소 위협 광범위 :가장 엄격한 위협 모델에서도 대부분의 알고리즘 공격 가능 재훈련(RT)이 기본적으로 안전하지만 확장 불가능 정확한 제거 :
Bourtoule et al. 2 SISA: 분할 훈련, 영향받은 부분 모델만 재훈련 Yan et al. 20 : 클래스별 분할 근사 제거 (본 논문 초점):
기준선: GA [45](그래디언트 상승), FT [18](미세 조정) 지식 증류: BT 54 사후 발산: SCRUB 10 현저성 방법: SalUn 55 , SFR-on 53 고전적 MIA :
Shokri et al. 27 : 섀도우 모델 훈련 공격 분류기 Yeom et al. 28 : 과적합으로 인한 멤버 우위 활용 Carlini et al. 29 : 우도비 기반 LiRA 공격 레이블 공격 :
Choquette-Choo et al. 32 : 첫 번째 레이블 전용 MIA Peng et al. 33 OSLO: 대적 교란으로 신뢰도 측정 Wu et al. 34 YOQO: 쿼리 수 감소 공격 θ \theta θ 접근θ u \theta_u θ u 접근사후 확률 Chen et al. 7 ✓ ✓ ✓ Gao et al. 8 ✓ ✓ ✓ Lu et al. 9 ✓ ✓ ✗ U-MIA 10 ✗ ✓ ✓ U-LiRA 11 ✗ ✓ ✓ Apollo ✗ ✓ ✗
본 논문 우위 : 위협 모델이 가장 엄격하며, 원본 모델과 사후 확률이 필요 없음
개인정보 보호 위협 실제 존재 : 가장 엄격한 위협 모델(레이블 접근만, 원본 모델 없음)에서도 공격자가 높은 정확도로 제거된 샘플을 추론할 수 있습니다견고한 이론적 기초 : UNDER-UNLEARNING과 OVER-UNLEARNING이 명확한 이론적 경계를 가집니다(Lipschitz 조건 하에서)강한 실용성 :온라인 버전: 최고 TPR 68.5%(CIFAR-10의 GA) 오프라인 버전: 성능 약간 저하, 계산 비용 대폭 감소 알고리즘 차이 현저 : 다양한 제거 알고리즘의 취약성 차이가 거대하여 맞춤형 방어 필요기존 주장 도전 : 대부분의 제거 방법의 개인정보 보호 주장에 직접 이의 제기저자가 인정한 한계 :
FPR 조정 어려움 : 하이퍼파라미터(T , ϵ , τ T, \epsilon, \tau T , ϵ , τ )를 통한 FPR 조정이 우도 방법만큼 유연하지 않음계산 비용 : 여러 섀도우 모델 훈련 필요(오프라인 버전이 이를 완화하지만)이론적 가정 : 국소 Lipschitz 조건이 항상 성립하지 않음(BT, SalUn 사례)언급되지 않은 잠재적 문제 :
샘플 선택 편향 : 200개 샘플만 테스트하여 전체 분포를 대표하지 않을 수 있음제거 비율 고정 : 10% 제거율만 테스트, 다른 비율 미지수대적 방어 : 노이즈 추가, 차분 개인정보 보호 등 가능한 방어 조치 미논의LLM 적용성 : 주로 이미지 분류 대상, 대규모 언어 모델의 제거 미테스트더 효율적인 공격 : 섀도우 모델 수 및 쿼리 횟수 감소방어 메커니즘 : Apollo에 견고한 제거 알고리즘 설계이론 완성 : Lipschitz 가정 완화, 비국소 경우로 확장다른 모달리티 : 텍스트, 이미지 생성 등 작업으로 확장개인정보 보호 제거 : 차분 개인정보 보호 결합 제거 방법방법의 혁신성 :
패러다임 전환 : "제거 전후 비교" → "제거와 재훈련 비교", 제거 정의에 더 부합이론적 깊이 : Lipschitz 이론적 경계를 처음으로 제공, UNDER/OVER 현상 형식화엄격한 위협 모델 : 레이블 전용 + 사후는 가장 도전적인 설정실험의 충분성 :
다양한 데이터셋 : CIFAR-10/100(소규모), ImageNet(대규모)광범위한 알고리즘 : 6가지 대표적 제거 알고리즘 + 재훈련 기준선상세한 소거 : 하이퍼파라미터, 아키텍처 전이, UNDER/OVER 동역학명확한 시각화 : 2D 예제가 핵심 아이디어를 직관적으로 표시결과의 설득력 :
포괄적 비교 : U-MIA, U-LiRA와 비교하여 우위 강조통계적 유의성 : 200개 샘플 × 다중 실험, 결과 신뢰성이론 검증 : 실험 관찰이 이론 예측과 일치(그림 5)작성 품질 :
명확한 구조 : 동기 → 이론 → 방법 → 실험, 논리 엄밀규범적 용어 : 형식적 정의(정의 1-3), 정리 증명 완전재현 가능성 : 코드 공개, 하이퍼파라미터 상세(표 VII)방법의 한계 :
Lipschitz 가정 강함 : 모든 모델과 제거 알고리즘에 적용되지 않음(BT 실패)국소성 제약 : 탐색 반경 T ⋅ ϵ T\cdot\epsilon T ⋅ ϵ 고정, 먼 거리의 인공물 놓칠 수 있음이진 분류 단순화 : D r D_r D r 멤버 무시, 실제는 삼분류 문제실험의 결함 :
제거 비율 단일 : 10%만 테스트, 1% 또는 50% 미지수샘플 수 적음 : 200+200개 샘플이 꼬리 위험 평가에 불충분할 수 있음방어 실험 부재 : 노이즈 추가, 차분 개인정보 보호 등 방어 미테스트아키텍처 제한 : 주로 ResNet-18, Transformer 모델 테스트 부족분석 부족 :
실패 원인 피상적 : "Lipschitz 위반"이 깊이 있는 분석 부족알고리즘 차이 미설명 : BT가 U-MIA에 취약하지만 Apollo에 견고한 이유?실용성 논의 부재 : 실제 MLaaS 시나리오의 실행 가능성(쿼리 제한 등)윤리적 고려 :
양날의 검 특성 : 공격 방법이 악의적으로 사용될 수 있음방어 제안 부족 : "더 신중한 방어 필요"만 강조, 구체적 방안 미제시분야에 대한 기여 :
가정 타파 : 원본 모델 없이도 공격 가능 증명, 더 엄격한 개인정보 정의 추진이론적 도구 : Lipschitz 경계를 다른 제거 방법 분석에 활용 가능평가 기준 : Apollo를 제거 알고리즘의 개인정보 감사 도구로 활용실용적 가치 :
감사 도구 : 제거 알고리즘의 개인정보 유출 위험 평가설계 지도 : UNDER/OVER 현상이 알고리즘 개선 방향 제시규제 참고 : GDPR 등 법규의 기술 구현 기준 제공재현 가능성 :
✅ 코드 공개: https://github.com/LiouTang/Unlearn-Apollo-Attack ✅ 하이퍼파라미터 상세: 표 VII 완전 나열 ✅ 데이터셋 공개: CIFAR, ImageNet 모두 접근 가능 ⚠️ 계산 자원: A100 GPU 필요, 재현 제약 가능 잠재적 영향 :
단기 : 제거 알고리즘 개선 추진(SalUn, SFR-on 추가 최적화)중기 : 개인정보 보호 제거 연구 열풍 가능(DP-Unlearning 등)장기 : 개인정보 법규의 기술 표준 제정 영향적합한 응용 :
개인정보 감사 : 제거 서비스의 개인정보 보장 평가알고리즘 테스트 : 새 제거 방법의 견고성 테스트규제 준수 : GDPR 요구사항 충족 여부 검증부적합한 응용 :
LLM 제거 : 텍스트 생성 작업의 "레이블" 정의 불명확소표본 시나리오 : 섀도우 모델 훈련에 대량 데이터 필요실시간 시스템 : 대적 샘플 생성 시간 소요(50단계 SGD)확장 가능성 :
다른 작업 : 객체 탐지, 의미론적 분할(재정의된 "레이블" 필요)연합 학습 : 분산 제거의 개인정보 감사모델 압축 : 가지치기, 증류 등 시나리오의 멤버십 추론Cao & Yang (2015) : 기계 학습 제거 개념 최초 제안Bourtoule et al. (2021) : SISA 정확한 제거 알고리즘Carlini et al. (2022) : LiRA 우도비 공격Choquette-Choo et al. (2021) : 첫 번째 레이블 전용 MIAHayes et al. (2024) : U-LiRA 제거 대상 공격Huang et al. (2024) : SFR-on 통합 그래디언트 제거 프레임워크Fan et al. (2024) : SalUn 현저성 제거Apollo는 가장 엄격한 위협 모델 (레이블 전용, 사후)을 통해 기계 학습 제거의 개인정보 위험을 공개하는 고품질 기계 학습 보안 논문입니다. 핵심 기여는:
이론적 혁신 : UNDER/OVER-UNLEARNING 형식화, Lipschitz 경계 제공방법의 실용성 : 온라인/오프라인 두 버전으로 효과와 비용 균형실험의 견고성 : 다중 데이터셋, 다중 알고리즘, 상세한 소거, 신뢰할 수 있는 결론Lipschitz 가정 강함, 샘플 수 적음 등의 한계가 있지만, 논문은 제거를 개인정보 도구로서의 유효성에 직접 도전 하여 분야에 중요한 경고 역할을 합니다. 후속 연구 권장사항:
비Lipschitz 시나리오의 공격 방법 탐색 Apollo에 견고한 제거 알고리즘 설계 LLM 등 다른 모달리티로 확장 추천 지수 : ⭐⭐⭐⭐☆ (4.5/5)
혁신성: 5/5 엄밀성: 4/5 실용성: 4/5 가독성: 5/5