2025-11-24T16:37:17.242649

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

Tang, Joshi, Kundu

Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.

academic

Apollo: 機械学習アンラーニングに対する事後ラベルのみメンバーシップ推論攻撃

基本情報

論文ID: 2506.09923
タイトル: Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
著者: Liou Tang, James Joshi (ピッツバーグ大学), Ashish Kundu (Cisco Research)
分類: cs.LG (機械学習)
発表日時: 2025年10月27日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2506.09923v2
コードリンク: https://github.com/LiouTang/Unlearn-Apollo-Attack

要約

機械学習アンラーニング(Machine Unlearning, MU)は、訓練済みモデルから訓練サンプルとその影響を効率的に削除することを目的としており、ゼロから再訓練する必要がない。MU自体はプライバシー保護と規制遵守を提供するために使用されるが、モデルの攻撃面を増加させる可能性もある。MUに対する既存のプライバシー推論攻撃は、攻撃者がアンラーニング前後のモデルにアクセスできることを想定しており、これは実際のシナリオでの実現可能性を制限している。本論文は、アンラーニング後のモデルのラベル出力のみにアクセスすることで、データサンプルがアンラーニングされたかどうかを推論する新規なプライバシー攻撃——Apollo(A Posteriori Label-Only Membership Inference Attack)を提案する。実験により、Apolloが必要とするモデルアクセス権限がはるかに少ないにもかかわらず、アンラーニングサンプルのメンバーシップ状態推論において相対的に高い精度を達成できることが示されている。

研究背景と動機

問題定義

中核的問題：機械学習アンラーニングがプライバシー保護技術として機能する一方で、それ自体がプライバシー情報を漏洩させる可能性があるのか？具体的には、攻撃者がアンラーニング後のモデルのみにアクセスすることで、どのデータがアンラーニングされたかを推論できるのか？

重要性

規制遵守の必要性：GDPRおよびCCPAなどの規制により、ユーザーに「忘れられる権利」が付与され、MLモデルがユーザーデータを削除できることが要求される
プライバシーのパラドックス：機械学習アンラーニングはプライバシー保護手段であるが、アンラーニングプロセス自体が新たなプライバシーリスクをもたらす可能性がある
実際の脅威：MLaaS(Machine Learning as a Service)シナリオでは、ユーザーは通常、元のモデルにアクセスできず、既存の攻撃方法は適用不可能である

既存方法の制限

MUに対するメンバーシップ推論攻撃(MIA)には以下の問題が存在する：

元のモデルへのアクセスが必要：ほとんどの攻撃(Chen et al., Gao et al.など)は、アンラーニング前後の両方のモデルへのアクセスが必要
事後確率が必要：多くの方法はモデル出力の確率分布に依存している
脅威モデルが非現実的：実際のMLaaSシナリオでは、クライアントは通常、元のモデルを取得できない

研究動機

本論文は最も厳格な脅威モデルを提案する：攻撃者はアンラーニング後のモデルのラベル出力のみにアクセス可能(ラベルのみ、事後)である。これはより実際のシナリオに近い。中核的な洞察は、近似アンラーニングアルゴリズムが決定空間に2つのクラスの人工物を生成する——アンダーアンラーニング(UNDER-UNLEARNING)とオーバーアンラーニング(OVER-UNLEARNING)——であり、これらはメンバーシップ状態の推論に使用できるということである。

中核的貢献

Apollo攻撃の提案：ブラックボックス、ラベルアクセスのみが必要な初の事後(a posteriori)メンバーシップ推論攻撃であり、脅威モデルが最も厳格
アンラーニング人工物の形式化：UNDER-UNLEARNINGおよびOVER-UNLEARNING現象を識別・形式化し、理論的境界証明を提供(定理III.3およびIII.4)
広範な実験検証：複数のデータセット(CIFAR-10/100、ImageNet)および6つのアンラーニングアルゴリズムで検証し、厳格な脅威モデルでも高精度推論が実現可能であることを証明
プライバシー脅威の暴露：既存のアンラーニング方法のプライバシー主張に直接異議を唱え、より慎重なプライバシー保護アンラーニング方法の必要性を強調

方法の詳細

タスク定義

入力：

アンラーニング後のモデル $\theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)]$ (ラベルアクセスのみ)
目標サンプル $(x, y)$
同じ分布から抽出された代理データセット $D'$

出力：二値決定 $\hat{b} \in \{0,1\}$ 、 $x \in D_u$ (アンラーニング済み)または $x \notin D$ (未訓練)を判定

制約：

元のモデル $\theta$ にアクセス不可
モデルの事後確率にアクセス不可、 $\hat{y} = \arg\max f_{\theta_u}(x)$ のみ取得可能
アンラーニングアルゴリズムが近似アンラーニングであると仮定

中核的理論基礎

仮定1: オーバーラーニング

学習はオーバーラーニングをもたらす：訓練サンプル $(x,y) \in D$ に対して、 $x' \approx x$ が存在して： $f_\theta(x') = y \text{ (when } x \in D), \quad f_\theta(x') \neq y \text{ (when } x \notin D)$

推測1: UNDER-UNLEARNING

近似アンラーニングは部分的な情報を保持する。アンラーニングされたサンプル $(x,y) \in D_u$ に対して、 $x' \approx x$ が存在して：

$f_\theta(x') = y$ (元のモデルが学習済み)
$f_{\theta_r}(x') \neq y$ (正確なアンラーニング/再訓練後は保持されない)
$f_{\theta_u}(x') = y$ (近似アンラーニング後も保持、アンダーアンラーニング)

直感的説明：決定境界が十分に移動されず、アンラーニングが不完全(図2b赤色領域)

推測2: OVER-UNLEARNING

近似アンラーニングはパフォーマンス低下をもたらす。アンラーニングされたサンプル $(x,y) \in D_u$ に対して、 $x' \approx x$ が存在して：

$f_\theta(x') = y$ (元のモデルが学習済み)
$f_{\theta_r}(x') = y$ (正確なアンラーニング後は保持)
$f_{\theta_u}(x') \neq y$ (近似アンラーニング後に変更、オーバーアンラーニング)

直感的説明：決定境界が過度に調整され、保持セットのパフォーマンスに影響(図2c緑色領域)

理論的境界

補題III.1 (マージンのリプシッツ性)

マージンを定義 $m_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j$ 、標準的なリプシッツ条件下で： $|m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\|$

定理III.3 (UNDER-UNLEARNING境界)

UNDER-UNLEARNINGを満たす $x'$ に対して、摂動半径 $r = \|x-x'\|$ は以下を満たす： $\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}}$

ここで $\Delta_u = \|\theta_u - \theta\|$ 、 $\Delta_r = \|\theta_r - \theta\|$

定理III.4 (OVER-UNLEARNING境界)

同様に、OVER-UNLEARNINGの境界は： $\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}}$

意義：理論的に実行可能な探索空間を提供し、対抗的サンプル生成を指導する

モデルアーキテクチャ：Apollo攻撃フロー

オンライン攻撃(Online Attack)

シャドウモデルの訓練： $m$ 個のシャドウモデル $\Theta^s = \{\theta^s_i\}$ を訓練、各々がデータセット $D^s_i$ で訓練
シャドウモデルのアンラーニング：各 $\theta^s_i$ に対して、目標サンプル $x$ をアンラーニング、 $\theta^{su}_i$ を取得
対抗的サンプルの生成： $x'$ を最適化して感度と特異性条件を満たす

UNDER-UNLEARNING損失関数： $\ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i)$

ここで：

第1項(感度)： $x'$ はアンラーニング後のモデルでクラス $y$ と予測されるべき
第2項(特異性)： $x'$ は $x$ を訓練していないモデルでクラス $y$ と予測されるべきでない
$\hat{\ell} = -\ell$ (交差エントロピーの負値)

OVER-UNLEARNING損失関数： $\ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i)$

オフライン攻撃(Offline Attack)

計算コストを削減するため、感度条件を決定境界距離で置き換える： $\ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i)$

アルゴリズム1: 対抗的サンプル生成

入力: 目標モデルθ_u, 目標サンプル(x,y), シャドウモデルΘ^s, ステップサイズε
出力: 対抗的サンプルx'

x' ← x
for t = 1 to T:
    勾配を計算 g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
    x' ← SGD(x', 平均勾配)
    球殻に投影 B_{tε}(x) \ B_{(t-1)ε}(x)  // 局所性制約
    if 平均信頼度 < τ:
        早期停止
return x'

主要な設計：

探索半径を段階的に拡大((t-1)εから tε)
投影により局所性を保証(総摂動 $\leq T\cdot\epsilon$ )
早期停止メカニズムで効率を向上

技術的革新点

パラダイムシフト：アンラーニング前後のモデル比較 → アンラーニングモデルと理想的な再訓練モデルの比較
理論的支援：初めてアンラーニング攻撃にリプシッツ理論的境界を提供
実用性が高い：オフライン版は各目標サンプルのシャドウモデル再アンラーニングを回避
適応性が良い：UNDER/OVERの両現象を活用し、ロバスト性を向上

実験設定

データセット

データセット	訓練セットサイズ	テストセットサイズ	クラス数	アンラーニング比率
CIFAR-10	20,000	10,000	10	10%
CIFAR-100	20,000	10,000	100	10%
ImageNet	512,466	256,235	1,000	10%

データ分割戦略：

スライス(a)：訓練セット $D$
スライス(b)：シャドウデータセット(オフライン)
スライス(c)：テストセット $D_t$
オンライン攻撃：シャドウセットは(a)+(b)から抽出；オフライン攻撃：(b)からのみ抽出

モデルアーキテクチャ

ResNet-18：主要実験モデル
VGG-16：アブレーション実験
Swin Transformer：転移性テスト

訓練設定：

オプティマイザー：AdamW
学習率： $1 \times 10^{-4}$
バッチサイズ：64
エポック数：100(目標モデル)、50(シャドウモデル)
精度要件： $D_t$ で≥75%

アンラーニングアルゴリズム

6つの代表的アルゴリズム + 再訓練ベースラインをテスト：

アルゴリズム	タイプ	中核的思想
GA 45	ベースライン	勾配上昇、 $D_u$ のみに焦点
FT 18	ベースライン	微調整、 $D_r$ のみに焦点
BT 54	知識蒸留	「悪い教師」を使用してアンラーニングを指導
SCRUB 10	事後発散	アンラーニング前後のモデル差異を最大化
SalUn 55	SOTA	顕著性ベースのパラメータ選択
SFR-on 53	SOTA	保持セット幾何学保存
RT	正確なアンラーニング	ゼロから再訓練(理論的に免疫)

評価指標

主要指標：低FPRでのTPR(True Positive Rate at low False Positive Rate)

理由：高精度はプライバシー攻撃に対してより価値がある
報告方法：各アルゴリズムが達成できる最低FPRでのTPR

補助指標：精度、再現率、ROC曲線

比較方法

U-MIA 10：素朴な方法、SVMクラシファイア使用(RBFカーネル、C=3)
U-LiRA 11：尤度比ベースの攻撃、ロジット変換された事後確率を使用

注：Chen et al., Gao et al., Lu et al.は含まれていない。これらは元のモデルへのアクセスが必要なため

実装詳細

Apollo超パラメータ：

シャドウモデル数： $m = 32$
探索ステップサイズ： $\epsilon = 1.0$
探索ラウンド数： $T = 50$
損失重み： $\alpha = 1, \beta = 4$ (特異性を強調)
目標サンプル数：200(アンラーニングセット) + 200(テストセット)

ハードウェア：NVIDIA A100 (40GB)、訓練時間約20分/モデル

実験結果

主要結果

表II: CIFAR-10でのパフォーマンス

方法	GA	FT	BT	SCRUB	SalUn	SFR-on	RT
U-MIA	16.5@6.0%	11.5@9.5%	95.0@2.5%	9.0@4.0%	15.5@4.5%	3.0@2.5%	5.5@4.5%
U-LiRA	68.5@6.0%	6.5@9.5%	28.0@2.5%	6.0@4.0%	20.0@4.5%	2.5@2.5%	4.0@4.5%
Apollo	18.0@6.0%	6.5@9.5%	4.0@2.5%	21.5@4.0%	4.5@4.5%	10.0@2.5%	5.0@4.5%
Apollo (Off)	16.0@6.0%	6.5@9.5%	3.0@2.5%	15.0@4.0%	7.5@4.5%	5.0@2.5%	7.0@4.5%

主要な発見：

GAが最も脆弱：U-LiRAは68.5% TPRに達し、Apolloは18%
SCRUBが攻撃を受けやすい：Apolloが優位(21.5% vs 6.0%)
SFR-onのパフォーマンス：Apolloは10% TPRに達し、U-LiRAはわずか2.5%
RTが基本的に安全：すべての攻撃TPR ≤ 7%、ランダム推測に近い

表III: CIFAR-100でのパフォーマンス

方法	GA	FT	BT	SCRUB	SalUn	SFR-on	RT
U-MIA	7.5@0.5%	0.5@1.0%	48.5@13.5%	17.0@5.0%	8.5@1.5%	2.0@1.5%	1.0@1.0%
U-LiRA	14.5@0.5%	1.0@1.0%	25.0@13.5%	12.5@5.0%	17.0@1.5%	2.0@1.5%	1.5@1.0%
Apollo	15.5@0.5%	2.0@1.0%	50.0@13.5%	41.5@5.0%	5.0@1.5%	0.5@1.5%	1.5@1.0%
Apollo (Off)	13.0@0.5%	2.0@1.0%	41.5@13.5%	39.0@5.0%	4.5@1.5%	1.0@1.5%	0.5@1.0%

主要な発見：

パフォーマンス向上：CIFAR-100ではApolloがより良好(クラスが多く、クラスあたりのサンプルが少ない)
SCRUBの大幅な劣位：Apolloは41.5%に達し、U-LiRAの12.5%をはるかに上回る
BTが継続的に脆弱：Apolloは50% TPRに達する

表IV: ImageNetでのパフォーマンス

傾向はCIFAR-100と同様で、Apolloはga、SCRUBで優れたパフォーマンスを示す

ROC曲線分析(図4)

GA (4a)：U-LiRAが最強、Apolloが次点、全体的にAUCが高い FT (4b)：すべての攻撃効果が低く、Apolloがわずかに優位 BT (4c)：U-MIAが最強(95% TPR)、Apolloが弱い SCRUB (4d)：Apolloが明らかにU-LiRAを上回る SalUn (4e)：U-LiRAがわずかに優位 SFR-on (4f)：低FPR領域でApolloが明らかに優位 RT (4g)：すべての攻撃がランダム線に近い

アブレーション実験

1. UNDER vs OVER動的(図5)

異なる探索半径下での両現象のTPRをヒートマップで表示：

成功事例(GA、SFR-on)：

明らかな境界効果：軸に近い低TPR領域
定理III.3およびIII.4の理論的境界を検証
UNDERとOVERが異なる半径範囲で有効

失敗事例(BT、SalUn)：

OVER-UNLEARNINGがほぼ均一に分布
UNDER-UNLEARNINGが稀
推測原因：アルゴリズム設計が局所的リプシッツ仮定に違反

2. 超パラメータ影響(図6)

損失重み $\beta/\alpha$ (6a)：

より高い $\beta/\alpha$ → より良い精度-再現率トレードオフ
推奨 $\beta/\alpha = 4$ (特異性を強調)

シャドウモデル数量 $m$ (6b)：

$m \leq 16$ ： $m$ を増やすとパフォーマンスが向上
$m = 32$ ：パフォーマンス低下(特定のシャドウモデルへの過適合)
Wen et al. 36の観察と一致

3. アーキテクチャ転移性(表V)

目標モデル	シャドウモデル	TPR@FPR
ResNet-18	ResNet-18	18.0@6.0%
ResNet-18	VGG-16	12.0@6.0%
ResNet-18	Swin-T	13.5@6.0%
VGG-16	VGG-16	5.5@2.5%
Swin-T	Swin-T	11.5@4.5%

結論：アーキテクチャの不一致はパフォーマンスを低下させるが、高精度を維持

ケース分析：2D例(図3)

実験設定：

データ： $\mathbb{R}^2 \times \{0,1,2,3\}$ 、500サンプル
モデル：12層小型NN(表VI)
アンラーニング：訓練セットの10%、GAを使用

観察(3a)：

赤色領域：UNDER-UNLEARNING( $\theta_u$ が $\theta$ と同じ予測、 $\theta_r$ と異なる)
緑色領域：OVER-UNLEARNING( $\theta_u$ が $\theta_r$ と異なる予測、 $\theta$ と同じ)
両現象が同時に存在

対抗的サンプル軌跡(3c)：

アンラーニングサンプルから開始
段階的にUNDER-UNLEARNING領域に移動
アルゴリズム1の有効性を検証

実験発見

アンラーニングアルゴリズムの大きな差異：
- GA、SCRUB、SFR-onが攻撃を受けやすい
- BTはU-MIAに脆弱だがApolloに対してロバスト
- SalUnが全体的に安全
データセット複雑性の影響：
- CIFAR-100およびImageNetでの攻撃がより効果的(クラスが多く、サンプルが少ない)
- 決定境界がより敏感
理論と実践の一致：
- 成功した攻撃は明らかな境界効果を示す
- 失敗事例はリプシッツ仮定に違反する可能性
オフライン攻撃の実現可能性：
- オンライン版よりパフォーマンスがわずかに低い
- 計算コストを大幅に削減
脅威が普遍的に存在：
- 最も厳格な脅威モデルでも、ほとんどのアルゴリズムが攻撃を受ける可能性がある
- 再訓練(RT)は基本的に安全だが、スケーラビリティがない

攻撃	$\theta$ へのアクセス	$\theta_u$ へのアクセス	事後確率
Chen et al. 7	✓	✓	✓
Gao et al. 8	✓	✓	✓
Lu et al. 9	✓	✓	✗
U-MIA 10	✗	✓	✓
U-LiRA 11	✗	✓	✓
Apollo	✗	✓	✗

結論と議論

主要な結論

プライバシー脅威が実在する：最も厳格な脅威モデル(ラベルのみアクセス、元のモデルなし)でも、攻撃者はアンラーニングサンプルを高精度で推論できる
理論基礎が堅実：UNDER-UNLEARNINGおよびOVER-UNLEARNING現象には明確な理論的境界がある(リプシッツ条件下)
実用性が高い：
- オンライン版：最高TPR 68.5%(CIFAR-10のGA)
- オフライン版：パフォーマンスがわずかに低下するが、計算コストを大幅に削減
アルゴリズム差異が顕著：異なるアンラーニングアルゴリズムの脆弱性に大きな差があり、針対性のある防御が必要
既存の主張に異議：既存のアンラーニング方法のプライバシー保護主張に直接異議を唱える