Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
معرّف الورقة : 2506.09923العنوان : Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearningالمؤلفون : Liou Tang, James Joshi (جامعة بيتسبرغ)، Ashish Kundu (بحوث سيسكو)التصنيف : cs.LG (التعلم الآلي)تاريخ النشر : 27 أكتوبر 2025 (arXiv v2)رابط الورقة : https://arxiv.org/abs/2506.09923v2 رابط الكود : https://github.com/LiouTang/Unlearn-Apollo-Attack يهدف إلغاء التعلم الآلي (Machine Unlearning, MU) إلى إزالة عينات التدريب وتأثيراتها بكفاءة من نموذج مدرب بالفعل، دون الحاجة إلى إعادة التدريب من الصفر. بينما يُستخدم إلغاء التعلم نفسه لتوفير الحماية من الخصوصية والامتثال التنظيمي، إلا أنه قد يزيد من سطح الهجوم على النموذج. تفترض هجمات الاستدلال على الخصوصية الموجودة الموجهة نحو إلغاء التعلم أن المهاجم يمكنه الوصول إلى النموذج قبل وبعد الإلغاء، مما يحد من جدواه في السيناريوهات الحقيقية. تقدم هذه الورقة هجوماً خصوصياً جديداً - أبولو (A Posteriori Label-Only Membership Inference Attack) - الذي يستدل على ما إذا كانت عينة بيانات قد تم إلغاؤها من خلال الوصول فقط إلى مخرجات التسميات من النموذج بعد الإلغاء. تُظهر التجارب أنه على الرغم من أن أبولو يتطلب وصولاً أقل إلى النموذج، إلا أنه لا يزال يحقق دقة نسبية عالية في الاستدلال على حالة العضوية للعينات المحذوفة.
المشكلة الأساسية : هل إلغاء التعلم الآلي، كتقنية حماية خصوصية، قد يسرب معلومات الخصوصية بنفسه؟ بشكل محدد، هل يمكن للمهاجم الاستدلال على البيانات المحذوفة من خلال الوصول فقط إلى النموذج بعد الإلغاء؟
متطلبات الامتثال التنظيمي : تمنح اللوائح مثل GDPR و CCPA المستخدمين "الحق في النسيان"، مما يتطلب من نماذج التعلم الآلي إزالة بيانات المستخدممفارقة الخصوصية : إلغاء التعلم نفسه هو وسيلة حماية الخصوصية، لكن عملية الإلغاء قد تقدم مخاطر خصوصية جديدةالتهديد الفعلي : في سيناريوهات خدمات التعلم الآلي (MLaaS)، لا يمكن للمستخدمين عادة الوصول إلى النموذج الأصلي، وبالتالي لا تنطبق طرق الهجوم الموجودةتعاني هجمات الاستدلال على العضوية (MIA) الموجهة نحو إلغاء التعلم من المشاكل التالية:
الحاجة إلى الوصول إلى النموذج الأصلي : تتطلب معظم الهجمات (مثل Chen et al., Gao et al.) الوصول المتزامن إلى النموذج قبل وبعد الإلغاءالاعتماد على الاحتمالات اللاحقة : تعتمد العديد من الطرق على توزيع الاحتمالات لمخرجات النموذجنموذج التهديد غير الواقعي : في سيناريوهات MLaaS الحقيقية، لا يمكن للعملاء عادة الحصول على النموذج الأصليتقدم هذه الورقة نموذج التهديد الأكثر صرامة: المهاجم يمكنه الوصول فقط إلى مخرجات التسميات من النموذج بعد الإلغاء (label-only, a posteriori)، وهو ما يقترب أكثر من السيناريوهات الحقيقية. الرؤية الأساسية هي أن خوارزميات الإلغاء التقريبية تنتج نوعين من الآثار الجانبية في فضاء القرار - الإلغاء الناقص (UNDER-UNLEARNING) و الإلغاء الزائد (OVER-UNLEARNING) - والتي يمكن استخدامها للاستدلال على حالة العضوية.
تقديم هجوم أبولو : أول هجوم استدلال على العضوية بعد التعلم اللاحق يتطلب وصولاً أسود الصندوق وتسميات فقط، مع نموذج تهديد الأكثر صرامةتشكيل رسمي للآثار الجانبية للإلغاء : تحديد وتعريف رسمي لظاهرتي الإلغاء الناقص والإلغاء الزائد، مع إثبات حدود نظرية (النظرية III.3 و III.4)التحقق التجريبي الشامل : التحقق على عدة مجموعات بيانات (CIFAR-10/100, ImageNet) و 6 خوارزميات إلغاء، مما يثبت تحقيق دقة عالية حتى في نموذج التهديد الصارمالكشف عن تهديدات الخصوصية : دحض مباشر لادعاءات الحماية من الخصوصية للطرق الموجودة للإلغاء، مع التأكيد على الحاجة إلى طرق إلغاء أكثر حذراً لحماية الخصوصيةالمدخلات :
النموذج بعد الإلغاء θ u = A [ D , D u , A ( D ) ] \theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)] θ u = A [ D , D u , A ( D )] (وصول التسميات فقط) العينة المستهدفة ( x , y ) (x, y) ( x , y ) مجموعة بيانات وكيلة D ′ D' D ′ مأخوذة من نفس التوزيع المخرجات : قرار ثنائي b ^ ∈ { 0 , 1 } \hat{b} \in \{0,1\} b ^ ∈ { 0 , 1 } ، يحدد ما إذا كان x ∈ D u x \in D_u x ∈ D u (تم حذفها) أو x ∉ D x \notin D x ∈ / D (لم تشارك في التدريب)
القيود :
لا يمكن الوصول إلى النموذج الأصلي θ \theta θ لا يمكن الوصول إلى احتمالات النموذج اللاحقة، فقط إلى y ^ = arg max f θ u ( x ) \hat{y} = \arg\max f_{\theta_u}(x) y ^ = arg max f θ u ( x ) افتراض أن خوارزمية الإلغاء تقريبية يؤدي التعلم إلى الإفراط في التعلم: بالنسبة لعينة التدريب ( x , y ) ∈ D (x,y) \in D ( x , y ) ∈ D ، يوجد x ′ ≈ x x' \approx x x ′ ≈ x بحيث:
f θ ( x ′ ) = y (عندما x ∈ D ) , f θ ( x ′ ) ≠ y (عندما x ∉ D ) f_\theta(x') = y \text{ (عندما } x \in D), \quad f_\theta(x') \neq y \text{ (عندما } x \notin D) f θ ( x ′ ) = y (عندما x ∈ D ) , f θ ( x ′ ) = y (عندما x ∈ / D )
يحتفظ الإلغاء التقريبي بجزء من المعلومات. بالنسبة لعينة محذوفة ( x , y ) ∈ D u (x,y) \in D_u ( x , y ) ∈ D u ، يوجد x ′ ≈ x x' \approx x x ′ ≈ x بحيث:
f θ ( x ′ ) = y f_\theta(x') = y f θ ( x ′ ) = y (تم تعلمها بواسطة النموذج الأصلي)f θ r ( x ′ ) ≠ y f_{\theta_r}(x') \neq y f θ r ( x ′ ) = y (لم يتم الاحتفاظ بها بعد الإلغاء الدقيق/إعادة التدريب)f θ u ( x ′ ) = y f_{\theta_u}(x') = y f θ u ( x ′ ) = y (لا تزال محتفظ بها بعد الإلغاء التقريبي، إلغاء ناقص )التفسير الحدسي : لم تتحرك حدود القرار بشكل كافٍ، الإلغاء غير كامل (المنطقة الحمراء في الشكل 2b)
يؤدي الإلغاء التقريبي إلى فقدان الأداء. بالنسبة لعينة محذوفة ( x , y ) ∈ D u (x,y) \in D_u ( x , y ) ∈ D u ، يوجد x ′ ≈ x x' \approx x x ′ ≈ x بحيث:
f θ ( x ′ ) = y f_\theta(x') = y f θ ( x ′ ) = y (تم تعلمها بواسطة النموذج الأصلي)f θ r ( x ′ ) = y f_{\theta_r}(x') = y f θ r ( x ′ ) = y (لا تزال محتفظ بها بعد الإلغاء الدقيق)f θ u ( x ′ ) ≠ y f_{\theta_u}(x') \neq y f θ u ( x ′ ) = y (تم تغييرها بعد الإلغاء التقريبي، إلغاء زائد )التفسير الحدسي : تم تعديل حدود القرار بشكل مفرط، مما يؤثر على أداء مجموعة الاحتفاظ (المنطقة الخضراء في الشكل 2c)
تعريف الهامش m θ ( x ) : = f θ ( x ) y − max j ≠ y f θ ( x ) j m_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j m θ ( x ) := f θ ( x ) y − max j = y f θ ( x ) j ، تحت شروط Lipschitz القياسية:
∣ m θ ( x ) − m θ ′ ( x ′ ) ∣ ≤ L x ∥ x − x ′ ∥ + L θ ∥ θ − θ ′ ∥ |m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\| ∣ m θ ( x ) − m θ ′ ( x ′ ) ∣ ≤ L x ∥ x − x ′ ∥ + L θ ∥ θ − θ ′ ∥
بالنسبة لـ x ′ x' x ′ التي تحقق الإلغاء الناقص، نصف قطر الاضطراب r = ∥ x − x ′ ∥ r = \|x-x'\| r = ∥ x − x ′ ∥ يحقق:
( m θ ( x ) − L θ Δ r L x ) + ⏟ = : L U n ≤ r < m θ ( x ) − L θ Δ u L x ⏟ = : U U n \underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}} =: L U n ( L x m θ ( x ) − L θ Δ r ) + ≤ r < =: U U n L x m θ ( x ) − L θ Δ u
حيث Δ u = ∥ θ u − θ ∥ \Delta_u = \|\theta_u - \theta\| Δ u = ∥ θ u − θ ∥ ، Δ r = ∥ θ r − θ ∥ \Delta_r = \|\theta_r - \theta\| Δ r = ∥ θ r − θ ∥
بالمثل، حد الإلغاء الزائد هو:
( m θ ( x ) − L θ Δ u L x ) + ⏟ = : L O v ≤ r < m θ ( x ) − L θ Δ r L x ⏟ = : U O v \underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}} =: L O v ( L x m θ ( x ) − L θ Δ u ) + ≤ r < =: U O v L x m θ ( x ) − L θ Δ r
الأهمية : توفير مساحة بحث قابلة للتطبيق نظرياً، توجيه توليد العينات الخصومة
تدريب نماذج الظل : تدريب m m m نموذج ظل Θ s = { θ i s } \Theta^s = \{\theta^s_i\} Θ s = { θ i s } ، كل واحد على مجموعة بيانات D i s D^s_i D i s إلغاء نماذج الظل : لكل θ i s \theta^s_i θ i s ، إلغاء العينة المستهدفة x x x ، الحصول على θ i s u \theta^{su}_i θ i s u توليد عينات خصومة : تحسين x ′ x' x ′ بحيث تحقق شروط الحساسية والخصوصيةدالة خسارة الإلغاء الناقص :
ℓ U n ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ( x ′ ; θ i s u ) + β ∑ x ∉ D i s ℓ ^ ( x ′ ; θ i s ) \ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i) ℓ U n ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ( x ′ ; θ i s u ) + β ∑ x ∈ / D i s ℓ ^ ( x ′ ; θ i s )
حيث:
الحد الأول (الحساسية): يجب أن تتنبأ x ′ x' x ′ بالفئة y y y على النموذج المحذوف الحد الثاني (الخصوصية): يجب ألا تتنبأ x ′ x' x ′ بـ y y y على النموذج الذي لم يتم تدريب x x x عليه ℓ ^ = − ℓ \hat{\ell} = -\ell ℓ ^ = − ℓ (سالب الإنتروبيا المتقاطعة)دالة خسارة الإلغاء الزائد :
ℓ O v ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ^ ( x ′ ; θ i s u ) + β ∑ x ∉ D i s ℓ ( x ′ ; θ i s ) \ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i) ℓ O v ( x ′ ; x , y , Θ ) = α ∑ x ∈ D i s ℓ ^ ( x ′ ; θ i s u ) + β ∑ x ∈ / D i s ℓ ( x ′ ; θ i s )
لتقليل التكلفة الحسابية، استبدال شرط الحساسية بمسافة حدود القرار:
ℓ U n o f f ( x ′ ; x , y , Θ ) = α ∑ i d ( x ′ , D B ) + β ∑ i ℓ ^ ( x ′ ; θ i s ) \ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i) ℓ U n o ff ( x ′ ; x , y , Θ ) = α ∑ i d ( x ′ , D B ) + β ∑ i ℓ ^ ( x ′ ; θ i s )
المدخلات: النموذج المستهدف θ_u، العينة المستهدفة (x,y)، نماذج الظل Θ^s، حجم الخطوة ε
المخرجات: عينة خصومة x'
x' ← x
لـ t = 1 إلى T:
حساب التدرج g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
x' ← SGD(x'، متوسط التدرج)
إسقاط على الكرة الكروية B_{tε}(x) \ B_{(t-1)ε}(x) // قيد المحلية
إذا كان متوسط الثقة < τ:
إيقاف مبكر
إرجاع x'
نقاط التصميم الرئيسية :
توسيع نطاق البحث تدريجياً (من ( t − 1 ) ϵ (t-1)\epsilon ( t − 1 ) ϵ إلى t ϵ t\epsilon t ϵ ) الإسقاط يضمن المحلية (إجمالي الاضطراب ≤ T ⋅ ϵ \leq T\cdot\epsilon ≤ T ⋅ ϵ ) آلية الإيقاف المبكر تحسن الكفاءة تحول النموذج : من مقارنة النموذج قبل وبعد الإلغاء → مقارنة نموذج الإلغاء مع نموذج إعادة التدريب المثاليالدعم النظري : أول حدود نظرية Lipschitz لهجمات الإلغاءقوة عملية : تجنب الإصدار غير المتصل إعادة إلغاء نماذج الظل لكل عينة مستهدفةالتكيف الجيد : الاستفادة من ظاهرتي الإلغاء الناقص والزائد معاً، تحسين الاستقرارمجموعة البيانات حجم التدريب حجم الاختبار عدد الفئات نسبة الإلغاء CIFAR-10 20,000 10,000 10 10% CIFAR-100 20,000 10,000 100 10% ImageNet 512,466 256,235 1,000 10%
استراتيجية تقسيم البيانات :
الشريحة (a): مجموعة التدريب D D D الشريحة (b): مجموعات بيانات الظل (غير المتصل) الشريحة (c): مجموعة الاختبار D t D_t D t الهجوم عبر الإنترنت: يتم أخذ عينات من مجموعة الظل من (a)+(b)؛ الهجوم غير المتصل: من (b) فقط ResNet-18 : نموذج التجارب الرئيسيVGG-16 : تجارب الاستئصالSwin Transformer : اختبار القابلية للنقلإعدادات التدريب :
المحسّن: AdamW معدل التعلم: 1 × 10 − 4 1 \times 10^{-4} 1 × 1 0 − 4 حجم الدفعة: 64 الحقب: 100 (النموذج المستهدف)، 50 (نماذج الظل) متطلب الدقة: ≥75% على D t D_t D t اختبار 6 خوارزميات تمثيلية + معيار إعادة التدريب:
الخوارزمية النوع الفكرة الأساسية GA 45 خط أساس صعود التدرج، التركيز على D u D_u D u فقط FT 18 خط أساس الضبط الدقيق، التركيز على D r D_r D r فقط BT 54 تقطير المعرفة استخدام "معلم سيء" لتوجيه الإلغاء SCRUB 10 تباعد لاحق تعظيم الفرق بين نموذج الإلغاء والأصلي SalUn 55 SOTA اختيار المعاملات بناءً على الأهمية SFR-on 53 SOTA الحفاظ على الهندسة لمجموعة الاحتفاظ RT إلغاء دقيق إعادة تدريب من الصفر (محصن نظرياً)
المقياس الرئيسي : TPR @ low FPR (معدل الإيجابيات الحقيقية عند معدل إيجابيات كاذبة منخفض)
السبب: الدقة العالية أكثر قيمة لهجمات الخصوصية طريقة الإبلاغ: TPR @ أقل FPR يمكن للخوارزمية تحقيقه مقاييس مساعدة : الدقة، الاستدعاء، منحنيات ROC
U-MIA 10 : طريقة ساذجة، استخدام مصنف SVM (نواة RBF، C=3)U-LiRA 11 : هجوم قائم على نسبة الاحتمالية، استخدام تحويل logit للاحتمالات اللاحقةملاحظة : لا تشمل Chen et al., Gao et al., Lu et al.، لأنها تتطلب الوصول إلى النموذج الأصلي
معاملات أبولو الفائقة :
عدد نماذج الظل: m = 32 m = 32 m = 32 خطوة البحث: ϵ = 1.0 \epsilon = 1.0 ϵ = 1.0 عدد جولات البحث: T = 50 T = 50 T = 50 أوزان الخسارة: α = 1 , β = 4 \alpha = 1, \beta = 4 α = 1 , β = 4 (التأكيد على الخصوصية) عدد العينات المستهدفة: 200 (مجموعة الإلغاء) + 200 (مجموعة الاختبار) الأجهزة : NVIDIA A100 (40GB)، وقت التدريب حوالي 20 دقيقة/نموذج
الطريقة GA FT BT SCRUB SalUn SFR-on RT U-MIA 16.5@6.0% 11.5@9.5% 95.0@2.5% 9.0@4.0% 15.5@4.5% 3.0@2.5% 5.5@4.5% U-LiRA 68.5@6.0% 6.5@9.5% 28.0@2.5% 6.0@4.0% 20.0@4.5% 2.5@2.5% 4.0@4.5% Apollo 18.0@6.0% 6.5@9.5% 4.0@2.5% 21.5@4.0% 4.5@4.5% 10.0@2.5% 5.0@4.5% Apollo (Off) 16.0@6.0% 6.5@9.5% 3.0@2.5% 15.0@4.0% 7.5@4.5% 5.0@2.5% 7.0@4.5%
النتائج الرئيسية :
GA الأكثر ضعفاً : U-LiRA يحقق 68.5% TPR، أبولو يحقق 18%SCRUB عرضة للهجوم : أبولو يتفوق على U-LiRA (21.5% مقابل 6.0%)أداء SFR-on : أبولو يحقق 10% TPR، U-LiRA فقط 2.5%RT آمن بشكل أساسي : جميع الهجمات TPR ≤ 7%، قريب من التخمين العشوائيالطريقة GA FT BT SCRUB SalUn SFR-on RT U-MIA 7.5@0.5% 0.5@1.0% 48.5@13.5% 17.0@5.0% 8.5@1.5% 2.0@1.5% 1.0@1.0% U-LiRA 14.5@0.5% 1.0@1.0% 25.0@13.5% 12.5@5.0% 17.0@1.5% 2.0@1.5% 1.5@1.0% Apollo 15.5@0.5% 2.0@1.0% 50.0@13.5% 41.5@5.0% 5.0@1.5% 0.5@1.5% 1.5@1.0% Apollo (Off) 13.0@0.5% 2.0@1.0% 41.5@13.5% 39.0@5.0% 4.5@1.5% 1.0@1.5% 0.5@1.0%
النتائج الرئيسية :
تحسن الأداء : أبولو يؤدي بشكل أفضل على CIFAR-100 (فئات أكثر، عينات أقل لكل فئة)ضعف SCRUB الكبير : أبولو يحقق 41.5%، يتفوق بكثير على U-LiRA بـ 12.5%ضعف BT المستمر : أبولو يحقق 50% TPRالاتجاهات مشابهة لـ CIFAR-100، أبولو يؤدي بشكل ممتاز على GA و SCRUB
GA (4a) : U-LiRA الأقوى، أبولو الثاني، AUC عام عالي
FT (4b) : جميع الهجمات ضعيفة، أبولو أفضل قليلاً
BT (4c) : U-MIA الأقوى (95% TPR)، أبولو أضعف
SCRUB (4d) : أبولو يتفوق بوضوح على U-LiRA
SalUn (4e) : U-LiRA أفضل قليلاً
SFR-on (4f) : ميزة أبولو واضحة في منطقة FPR المنخفضة
RT (4g) : جميع الهجمات قريبة من الخط العشوائي
عرض خريطة حرارية لـ TPR تحت نصف قطر بحث مختلف:
حالات النجاح (GA, SFR-on) :
تأثيرات حدود واضحة: منطقة TPR منخفضة بالقرب من المحور التحقق من حدود النظرية III.3 و III.4 الإلغاء الناقص والزائد فعالان في نطاقات نصف قطر مختلفة حالات الفشل (BT, SalUn) :
توزيع الإلغاء الزائد شبه موحد الإلغاء الناقص نادر الافتراض : قد تنتهك تصميمات الخوارزمية افتراض Lipschitz المحليوزن الخسارة β / α \beta/\alpha β / α (6a) :
β / α \beta/\alpha β / α أعلى → توازن أفضل بين الدقة والاستدعاءموصى به β / α = 4 \beta/\alpha = 4 β / α = 4 (التأكيد على الخصوصية) عدد نماذج الظل m m m (6b) :
m ≤ 16 m \leq 16 m ≤ 16 : زيادة m m m تحسن الأداءm = 32 m = 32 m = 32 : انخفاض الأداء (الإفراط في التدريب على نماذج ظل محددة)متسق مع ملاحظات Wen et al. 36 النموذج المستهدف نموذج الظل TPR@FPR ResNet-18 ResNet-18 18.0@6.0% ResNet-18 VGG-16 12.0@6.0% ResNet-18 Swin-T 13.5@6.0% VGG-16 VGG-16 5.5@2.5% Swin-T Swin-T 11.5@4.5%
الخلاصة : عدم تطابق المعمارية يقلل الأداء، لكن لا يزال يحافظ على دقة عالية
إعداد التجربة :
البيانات: R 2 × { 0 , 1 , 2 , 3 } \mathbb{R}^2 \times \{0,1,2,3\} R 2 × { 0 , 1 , 2 , 3 } ، 500 عينة النموذج: شبكة عصبية صغيرة 12 طبقة (الجدول VI) الإلغاء: 10% من مجموعة التدريب، باستخدام GA الملاحظات (3a) :
المنطقة الحمراء: الإلغاء الناقص (θ u \theta_u θ u يتنبأ مثل θ \theta θ ، بخلاف θ r \theta_r θ r ) المنطقة الخضراء: الإلغاء الزائد (θ u \theta_u θ u يتنبأ بخلاف θ r \theta_r θ r ، مثل θ \theta θ ) كلا الظاهرتين موجودتان مسار العينة الخصومة (3c) :
البدء من العينة المحذوفة التحرك تدريجياً نحو منطقة الإلغاء الناقص التحقق من فعالية الخوارزمية 1 اختلافات خوارزمية الإلغاء ضخمة :GA و SCRUB و SFR-on عرضة للهجوم BT ضعيف ضد U-MIA، قوي ضد أبولو SalUn آمن بشكل عام تأثير تعقيد مجموعة البيانات :CIFAR-100 و ImageNet أكثر عرضة للهجوم (فئات أكثر، عينات أقل) حدود القرار أكثر حساسية اتساق النظرية والممارسة :الهجمات الناجحة تظهر تأثيرات حدود واضحة قد تنتهك حالات الفشل افتراض Lipschitz جدوى الهجوم غير المتصل :أداء أقل قليلاً من الإصدار عبر الإنترنت تقليل كبير في التكلفة الحسابية التهديد منتشر :حتى في نموذج التهديد الأكثر صرامة، معظم الخوارزميات قابلة للهجوم إعادة التدريب (RT) آمنة بشكل أساسي، لكن غير قابلة للتوسع الإلغاء الدقيق :
Bourtoule et al. 2 SISA: تدريب مقسم، إعادة تدريب فقط النماذج الفرعية المتأثرة Yan et al. 20 : تقسيم حسب الفئة الإلغاء التقريبي (تركيز هذه الورقة):
خطوط أساس: GA 45 (صعود التدرج)، FT 18 (الضبط الدقيق) تقطير المعرفة: BT 54 تباعد لاحق: SCRUB 10 طرق الأهمية: SalUn 55 ، SFR-on 53 MIA الكلاسيكية :
Shokri et al. 27 : هجوم مصنف التدريب بنموذج الظل Yeom et al. 28 : الاستفادة من ميزة العضو الناجمة عن الإفراط في التدريب Carlini et al. 29 : هجوم LiRA القائم على نسبة الاحتمالية هجمات التسميات :
Choquette-Choo et al. 32 : أول MIA بتسميات فقط Peng et al. 33 OSLO: قياس الثقة بالاضطراب الخصومة Wu et al. 34 YOQO: تقليل عدد الاستعلامات الهجوم الوصول إلى θ \theta θ الوصول إلى θ u \theta_u θ u احتمالات لاحقة Chen et al. 7 ✓ ✓ ✓ Gao et al. 8 ✓ ✓ ✓ Lu et al. 9 ✓ ✓ ✗ U-MIA 10 ✗ ✓ ✓ U-LiRA 11 ✗ ✓ ✓ Apollo ✗ ✓ ✗
ميزة هذه الورقة : نموذج التهديد الأكثر صرامة، لا يتطلب النموذج الأصلي أو الاحتمالات اللاحقة
تهديد الخصوصية حقيقي : حتى في نموذج التهديد الأكثر صرامة (وصول التسميات فقط، بدون نموذج أصلي)، لا يزال بإمكان المهاجم الاستدلال على العينات المحذوفة بدقة عاليةأساس نظري متين : ظاهرتا الإلغاء الناقص والزائد لهما حدود نظرية واضحة (تحت شروط Lipschitz)قوة عملية :الإصدار عبر الإنترنت: أعلى TPR يصل إلى 68.5% (GA على CIFAR-10) الإصدار غير المتصل: أداء أقل قليلاً، لكن تقليل كبير في التكلفة الحسابية اختلافات خوارزمية كبيرة : الفرق في الضعف بين خوارزميات الإلغاء المختلفة ضخم، يتطلب دفاعات موجهةتحدي الادعاءات الموجودة : دحض مباشر لادعاءات الحماية من الخصوصية لمعظم طرق الإلغاءالقيود التي يعترف بها المؤلفون :
صعوبة تعديل FPR : تعديل FPR من خلال المعاملات الفائقة (T , ϵ , τ T, \epsilon, \tau T , ϵ , τ ) ليس مرناً مثل طرق الاحتماليةالتكلفة الحسابية : الحاجة إلى تدريب عدة نماذج ظل (على الرغم من أن الإصدار غير المتصل يخفف هذه المشكلة)افتراضات نظرية : شرط Lipschitz المحلي لا ينطبق دائماً (كما في حالات BT و SalUn)المشاكل المحتملة غير المذكورة :
انحياز اختيار العينة : اختبار 200 عينة فقط قد لا يمثل التوزيع الكاملنسبة إلغاء ثابتة : اختبار 10% فقط، نسب أخرى غير معروفةالدفاع الخصومة : لم يتم مناقشة تدابير الدفاع المحتملة (مثل إضافة الضوضاء، الخصوصية التفاضلية)قابلية تطبيق LLM : يركز بشكل أساسي على تصنيف الصور، إلغاء نماذج اللغة الكبيرة لم يتم اختبارههجمات أكثر كفاءة : تقليل عدد نماذج الظل وعدد الاستعلاماتآليات الدفاع : تصميم خوارزميات إلغاء قوية ضد أبولوتحسين النظرية : تخفيف افتراض Lipschitz، التوسع إلى الحالات غير المحليةطرائق أخرى : التوسع إلى النصوص والصور المولدة وغيرهاإلغاء محمي بالخصوصية : طرق إلغاء مدمجة مع الخصوصية التفاضليةالابتكار في الطريقة :
تحول النموذج : من "مقارنة قبل وبعد الإلغاء" إلى "مقارنة الإلغاء مع إعادة التدريب"، أكثر توافقاً مع تعريف الإلغاءالعمق النظري : أول حدود نظرية Lipschitz، تشكيل رسمي لظاهرتي الإلغاء الناقص والزائدصرامة نموذج التهديد : label-only + a posteriori هو الإعداد الأكثر تحدياًكفاية التجارب :
تنوع مجموعات البيانات : CIFAR-10/100 (صغيرة)، ImageNet (كبيرة)تغطية الخوارزميات : 6 خوارزميات إلغاء تمثيلية + معيار إعادة التدريباستئصال شامل : معاملات فائقة، نقل معماري، ديناميكية الإلغاء الناقص/الزائدتصور واضح : مثال ثنائي الأبعاد يعرض الفكرة الأساسية بشكل حدسيقوة النتائج :
مقارنة شاملة : مقارنة مع U-MIA و U-LiRA، تبرز المزاياأهمية إحصائية : 200 عينة × تجارب متعددة، النتائج موثوقةالتحقق النظري : الملاحظات التجريبية متسقة مع التنبؤات النظرية (الشكل 5)جودة الكتابة :
وضوح البنية : من الدافع → النظرية → الطريقة → التجارب، منطق صارممعايير المصطلحات : تعريفات رسمية (Def. 1-3)، إثبات النظريات كاملقابلية إعادة الإنتاج : الكود مفتوح المصدر، المعاملات الفائقة مفصلة (الجدول VII)قيود الطريقة :
افتراض Lipschitz قوي : لا ينطبق على جميع النماذج وخوارزميات الإلغاء (مثل فشل BT)قيد المحلية : نصف قطر البحث T ⋅ ϵ T\cdot\epsilon T ⋅ ϵ ثابت، قد يفوت الآثار البعيدةتبسيط التصنيف الثنائي : تجاهل عضوية D r D_r D r ، المشكلة الفعلية ثلاثيةعيوب التجارب :
نسبة إلغاء واحدة : اختبار 10% فقط، نسب 1% أو 50% غير معروفةحجم عينة صغير : 200+200 عينة قد تكون غير كافية لتقييم المخاطر الطرفيةغياب تجارب الدفاع : لم يتم اختبار إضافة الضوضاء والخصوصية التفاضلية وغيرهامعمارية محدودة : استخدام ResNet-18 بشكل أساسي، اختبار نماذج Transformer غير كافٍنقص التحليل :
أسباب الفشل سطحية : "انتهاك Lipschitz" يفتقر إلى تحليل عميقعدم شرح الاختلافات الخوارزمية : لماذا BT ضعيف ضد U-MIA لكن قوي ضد أبولو؟نقاش الجدوى : قابلية التطبيق في سيناريوهات MLaaS الحقيقية (مثل حدود الاستعلام)الاعتبارات الأخلاقية :
طبيعة ذات حدين : قد تُستخدم طريقة الهجوم بشكل خبيثنقص اقتراحات الدفاع : التأكيد فقط على "الحاجة إلى الحذر"، بدون حلول محددةالمساهمة في المجال :
كسر الافتراضات : إثبات إمكانية الهجوم بدون النموذج الأصلي، دفع نحو تعريفات خصوصية أكثر صرامةأدوات نظرية : حدود Lipschitz يمكن استخدامها لتحليل طرق إلغاء أخرىمعيار التقييم : أبولو يمكن أن يكون أداة تدقيق خصوصية لخوارزميات الإلغاءالقيمة العملية :
أداة التدقيق : تساعد في تقييم مخاطر تسرب الخصوصية لخدمات الإلغاءتوجيه التصميم : ظاهرتا الإلغاء الناقص والزائد توحي باتجاهات تحسين الخوارزميةمرجع تنظيمي : توفير أساس تقني لتنفيذ لوائح مثل GDPRقابلية إعادة الإنتاج :
✅ الكود مفتوح المصدر: https://github.com/LiouTang/Unlearn-Apollo-Attack ✅ معاملات فائقة مفصلة: الجدول VII كامل ✅ مجموعات بيانات عامة: CIFAR و ImageNet متاحة ⚠️ موارد حسابية: يتطلب GPU A100، قد يحد من إعادة الإنتاج التأثير المحتمل :
قصير الأجل : دفع تحسينات خوارزميات الإلغاء (مثل تحسينات SalUn و SFR-on)متوسط الأجل : قد يثير موجة بحثية حول إلغاء محمي بالخصوصية (مثل DP-Unlearning)طويل الأجل : التأثير على وضع معايير تقنية للوائح الخصوصيةالتطبيقات المناسبة :
تدقيق الخصوصية : تقييم ضمانات الخصوصية لخدمات الإلغاءاختبار الخوارزمية : اختبار الاستقرار لطرق إلغاء جديدةالامتثال التنظيمي : التحقق من استيفاء متطلبات GDPRالتطبيقات غير المناسبة :
إلغاء LLM : تعريف "التسميات" غير واضح لمهام توليد النصوصسيناريوهات العينات الصغيرة : يتطلب تدريب نموذج ظل كمية بيانات كبيرةالأنظمة الفورية : توليد العينات الخصومة يستغرق وقتاً (50 خطوة SGD)إمكانية التوسع :
مهام أخرى : الكشف عن الأجسام والتقسيم الدلالي (يتطلب إعادة تعريف "التسميات")التعلم الموحد : تدقيق الخصوصية للإلغاء الموزعضغط النموذج : الاستدلال على العضوية في سيناريوهات القص والتقطيرCao & Yang (2015) : أول اقتراح لمفهوم إلغاء التعلمBourtoule et al. (2021) : خوارزمية إلغاء دقيقة SISACarlini et al. (2022) : هجوم نسبة الاحتمالية LiRAChoquette-Choo et al. (2021) : أول MIA بتسميات فقطHayes et al. (2024) : U-LiRA هجوم موجه نحو الإلغاءHuang et al. (2024) : إطار عمل إلغاء موحد SFR-onFan et al. (2024) : إلغاء قائم على الأهمية SalUnأبولو ورقة عالية الجودة في مجال أمان التعلم الآلي، تكشف عن مخاطر الخصوصية في إلغاء التعلم من خلال نموذج تهديد الأكثر صرامة (label-only, a posteriori). تكمن المساهمات الأساسية في:
الابتكار النظري : تشكيل رسمي للإلغاء الناقص والزائد، توفير حدود Lipschitzالجدوى العملية : نسختان عبر الإنترنت وغير متصلة، توازن بين الفعالية والتكلفةالتجارب الصارمة : مجموعات بيانات متعددة وخوارزميات وتجارب استئصال شاملةعلى الرغم من وجود قيود مثل افتراض Lipschitz القوي وحجم العينة الصغير، فإن الورقة تطعن مباشرة في فعالية الإلغاء كأداة خصوصية ، مما له تأثير تحذيري مهم على المجال. يُوصى بالأعمال المستقبلية:
استكشاف طرق هجوم في سيناريوهات غير Lipschitz تصميم خوارزميات إلغاء قوية ضد أبولو التوسع إلى طرائق أخرى مثل LLM مؤشر التوصية : ⭐⭐⭐⭐☆ (4.5/5)
الابتكارية: 5/5 الصرامة: 4/5 الجدوى: 4/5 سهولة القراءة: 5/5