2025-11-24T16:37:17.242649

Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

Tang, Joshi, Kundu
Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
academic

أبولو: هجوم الاستدلال على العضوية بناءً على التسميات فقط بعد التعلم اللاحق نحو إلغاء التعلم الآلي

المعلومات الأساسية

  • معرّف الورقة: 2506.09923
  • العنوان: Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
  • المؤلفون: Liou Tang, James Joshi (جامعة بيتسبرغ)، Ashish Kundu (بحوث سيسكو)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 27 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2506.09923v2
  • رابط الكود: https://github.com/LiouTang/Unlearn-Apollo-Attack

الملخص

يهدف إلغاء التعلم الآلي (Machine Unlearning, MU) إلى إزالة عينات التدريب وتأثيراتها بكفاءة من نموذج مدرب بالفعل، دون الحاجة إلى إعادة التدريب من الصفر. بينما يُستخدم إلغاء التعلم نفسه لتوفير الحماية من الخصوصية والامتثال التنظيمي، إلا أنه قد يزيد من سطح الهجوم على النموذج. تفترض هجمات الاستدلال على الخصوصية الموجودة الموجهة نحو إلغاء التعلم أن المهاجم يمكنه الوصول إلى النموذج قبل وبعد الإلغاء، مما يحد من جدواه في السيناريوهات الحقيقية. تقدم هذه الورقة هجوماً خصوصياً جديداً - أبولو (A Posteriori Label-Only Membership Inference Attack) - الذي يستدل على ما إذا كانت عينة بيانات قد تم إلغاؤها من خلال الوصول فقط إلى مخرجات التسميات من النموذج بعد الإلغاء. تُظهر التجارب أنه على الرغم من أن أبولو يتطلب وصولاً أقل إلى النموذج، إلا أنه لا يزال يحقق دقة نسبية عالية في الاستدلال على حالة العضوية للعينات المحذوفة.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية: هل إلغاء التعلم الآلي، كتقنية حماية خصوصية، قد يسرب معلومات الخصوصية بنفسه؟ بشكل محدد، هل يمكن للمهاجم الاستدلال على البيانات المحذوفة من خلال الوصول فقط إلى النموذج بعد الإلغاء؟

الأهمية

  1. متطلبات الامتثال التنظيمي: تمنح اللوائح مثل GDPR و CCPA المستخدمين "الحق في النسيان"، مما يتطلب من نماذج التعلم الآلي إزالة بيانات المستخدم
  2. مفارقة الخصوصية: إلغاء التعلم نفسه هو وسيلة حماية الخصوصية، لكن عملية الإلغاء قد تقدم مخاطر خصوصية جديدة
  3. التهديد الفعلي: في سيناريوهات خدمات التعلم الآلي (MLaaS)، لا يمكن للمستخدمين عادة الوصول إلى النموذج الأصلي، وبالتالي لا تنطبق طرق الهجوم الموجودة

قيود الطرق الموجودة

تعاني هجمات الاستدلال على العضوية (MIA) الموجهة نحو إلغاء التعلم من المشاكل التالية:

  1. الحاجة إلى الوصول إلى النموذج الأصلي: تتطلب معظم الهجمات (مثل Chen et al., Gao et al.) الوصول المتزامن إلى النموذج قبل وبعد الإلغاء
  2. الاعتماد على الاحتمالات اللاحقة: تعتمد العديد من الطرق على توزيع الاحتمالات لمخرجات النموذج
  3. نموذج التهديد غير الواقعي: في سيناريوهات MLaaS الحقيقية، لا يمكن للعملاء عادة الحصول على النموذج الأصلي

الدافع البحثي

تقدم هذه الورقة نموذج التهديد الأكثر صرامة: المهاجم يمكنه الوصول فقط إلى مخرجات التسميات من النموذج بعد الإلغاء (label-only, a posteriori)، وهو ما يقترب أكثر من السيناريوهات الحقيقية. الرؤية الأساسية هي أن خوارزميات الإلغاء التقريبية تنتج نوعين من الآثار الجانبية في فضاء القرار - الإلغاء الناقص (UNDER-UNLEARNING) و الإلغاء الزائد (OVER-UNLEARNING) - والتي يمكن استخدامها للاستدلال على حالة العضوية.

المساهمات الأساسية

  1. تقديم هجوم أبولو: أول هجوم استدلال على العضوية بعد التعلم اللاحق يتطلب وصولاً أسود الصندوق وتسميات فقط، مع نموذج تهديد الأكثر صرامة
  2. تشكيل رسمي للآثار الجانبية للإلغاء: تحديد وتعريف رسمي لظاهرتي الإلغاء الناقص والإلغاء الزائد، مع إثبات حدود نظرية (النظرية III.3 و III.4)
  3. التحقق التجريبي الشامل: التحقق على عدة مجموعات بيانات (CIFAR-10/100, ImageNet) و 6 خوارزميات إلغاء، مما يثبت تحقيق دقة عالية حتى في نموذج التهديد الصارم
  4. الكشف عن تهديدات الخصوصية: دحض مباشر لادعاءات الحماية من الخصوصية للطرق الموجودة للإلغاء، مع التأكيد على الحاجة إلى طرق إلغاء أكثر حذراً لحماية الخصوصية

شرح الطريقة

تعريف المهمة

المدخلات:

  • النموذج بعد الإلغاء θu=A[D,Du,A(D)]\theta_u = \mathcal{A}[D, D_u, \mathcal{A}(D)] (وصول التسميات فقط)
  • العينة المستهدفة (x,y)(x, y)
  • مجموعة بيانات وكيلة DD' مأخوذة من نفس التوزيع

المخرجات: قرار ثنائي b^{0,1}\hat{b} \in \{0,1\}، يحدد ما إذا كان xDux \in D_u (تم حذفها) أو xDx \notin D (لم تشارك في التدريب)

القيود:

  • لا يمكن الوصول إلى النموذج الأصلي θ\theta
  • لا يمكن الوصول إلى احتمالات النموذج اللاحقة، فقط إلى y^=argmaxfθu(x)\hat{y} = \arg\max f_{\theta_u}(x)
  • افتراض أن خوارزمية الإلغاء تقريبية

الأساس النظري الأساسي

الافتراض 1: الإفراط في التعلم

يؤدي التعلم إلى الإفراط في التعلم: بالنسبة لعينة التدريب (x,y)D(x,y) \in D، يوجد xxx' \approx x بحيث: fθ(x)=y (عندما xD),fθ(x)y (عندما xD)f_\theta(x') = y \text{ (عندما } x \in D), \quad f_\theta(x') \neq y \text{ (عندما } x \notin D)

الحدسية 1: الإلغاء الناقص (UNDER-UNLEARNING)

يحتفظ الإلغاء التقريبي بجزء من المعلومات. بالنسبة لعينة محذوفة (x,y)Du(x,y) \in D_u، يوجد xxx' \approx x بحيث:

  • fθ(x)=yf_\theta(x') = y (تم تعلمها بواسطة النموذج الأصلي)
  • fθr(x)yf_{\theta_r}(x') \neq y (لم يتم الاحتفاظ بها بعد الإلغاء الدقيق/إعادة التدريب)
  • fθu(x)=yf_{\theta_u}(x') = y (لا تزال محتفظ بها بعد الإلغاء التقريبي، إلغاء ناقص)

التفسير الحدسي: لم تتحرك حدود القرار بشكل كافٍ، الإلغاء غير كامل (المنطقة الحمراء في الشكل 2b)

الحدسية 2: الإلغاء الزائد (OVER-UNLEARNING)

يؤدي الإلغاء التقريبي إلى فقدان الأداء. بالنسبة لعينة محذوفة (x,y)Du(x,y) \in D_u، يوجد xxx' \approx x بحيث:

  • fθ(x)=yf_\theta(x') = y (تم تعلمها بواسطة النموذج الأصلي)
  • fθr(x)=yf_{\theta_r}(x') = y (لا تزال محتفظ بها بعد الإلغاء الدقيق)
  • fθu(x)yf_{\theta_u}(x') \neq y (تم تغييرها بعد الإلغاء التقريبي، إلغاء زائد)

التفسير الحدسي: تم تعديل حدود القرار بشكل مفرط، مما يؤثر على أداء مجموعة الاحتفاظ (المنطقة الخضراء في الشكل 2c)

الحدود النظرية

اللمة III.1 (خاصية Lipschitz للهامش)

تعريف الهامش mθ(x):=fθ(x)ymaxjyfθ(x)jm_\theta(x) := f_\theta(x)_y - \max_{j\neq y} f_\theta(x)_j، تحت شروط Lipschitz القياسية: mθ(x)mθ(x)Lxxx+Lθθθ|m_\theta(x) - m_{\theta'}(x')| \leq L_x\|x-x'\| + L_\theta\|\theta-\theta'\|

النظرية III.3 (حد الإلغاء الناقص)

بالنسبة لـ xx' التي تحقق الإلغاء الناقص، نصف قطر الاضطراب r=xxr = \|x-x'\| يحقق: (mθ(x)LθΔrLx)+=:LUnr<mθ(x)LθΔuLx=:UUn\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}\right)_+}_{=: L_{Un}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}}_{=: U_{Un}}

حيث Δu=θuθ\Delta_u = \|\theta_u - \theta\|، Δr=θrθ\Delta_r = \|\theta_r - \theta\|

النظرية III.4 (حد الإلغاء الزائد)

بالمثل، حد الإلغاء الزائد هو: (mθ(x)LθΔuLx)+=:LOvr<mθ(x)LθΔrLx=:UOv\underbrace{\left(\frac{m_\theta(x) - L_\theta\Delta_u}{L_x}\right)_+}_{=: L_{Ov}} \leq r < \underbrace{\frac{m_\theta(x) - L_\theta\Delta_r}{L_x}}_{=: U_{Ov}}

الأهمية: توفير مساحة بحث قابلة للتطبيق نظرياً، توجيه توليد العينات الخصومة

معمارية النموذج: تدفق هجوم أبولو

الهجوم عبر الإنترنت (Online Attack)

  1. تدريب نماذج الظل: تدريب mm نموذج ظل Θs={θis}\Theta^s = \{\theta^s_i\}، كل واحد على مجموعة بيانات DisD^s_i
  2. إلغاء نماذج الظل: لكل θis\theta^s_i، إلغاء العينة المستهدفة xx، الحصول على θisu\theta^{su}_i
  3. توليد عينات خصومة: تحسين xx' بحيث تحقق شروط الحساسية والخصوصية

دالة خسارة الإلغاء الناقص: Un(x;x,y,Θ)=αxDis(x;θisu)+βxDis^(x;θis)\ell_{Un}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \ell(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \hat{\ell}(x'; \theta^s_i)

حيث:

  • الحد الأول (الحساسية): يجب أن تتنبأ xx' بالفئة yy على النموذج المحذوف
  • الحد الثاني (الخصوصية): يجب ألا تتنبأ xx' بـ yy على النموذج الذي لم يتم تدريب xx عليه
  • ^=\hat{\ell} = -\ell (سالب الإنتروبيا المتقاطعة)

دالة خسارة الإلغاء الزائد: Ov(x;x,y,Θ)=αxDis^(x;θisu)+βxDis(x;θis)\ell_{Ov}(x'; x,y,\Theta) = \alpha \sum_{x \in D^s_i} \hat{\ell}(x'; \theta^{su}_i) + \beta \sum_{x \notin D^s_i} \ell(x'; \theta^s_i)

الهجوم غير المتصل (Offline Attack)

لتقليل التكلفة الحسابية، استبدال شرط الحساسية بمسافة حدود القرار: Unoff(x;x,y,Θ)=αid(x,DB)+βi^(x;θis)\ell^{off}_{Un}(x'; x,y,\Theta) = \alpha \sum_i d(x', DB) + \beta \sum_i \hat{\ell}(x'; \theta^s_i)

الخوارزمية 1: توليد العينات الخصومة

المدخلات: النموذج المستهدف θ_u، العينة المستهدفة (x,y)، نماذج الظل Θ^s، حجم الخطوة ε
المخرجات: عينة خصومة x'

x' ← x
لـ t = 1 إلى T:
    حساب التدرج g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
    x' ← SGD(x'، متوسط التدرج)
    إسقاط على الكرة الكروية B_{tε}(x) \ B_{(t-1)ε}(x)  // قيد المحلية
    إذا كان متوسط الثقة < τ:
        إيقاف مبكر
إرجاع x'

نقاط التصميم الرئيسية:

  • توسيع نطاق البحث تدريجياً (من (t1)ϵ(t-1)\epsilon إلى tϵt\epsilon)
  • الإسقاط يضمن المحلية (إجمالي الاضطراب Tϵ\leq T\cdot\epsilon)
  • آلية الإيقاف المبكر تحسن الكفاءة

نقاط الابتكار التقني

  1. تحول النموذج: من مقارنة النموذج قبل وبعد الإلغاء → مقارنة نموذج الإلغاء مع نموذج إعادة التدريب المثالي
  2. الدعم النظري: أول حدود نظرية Lipschitz لهجمات الإلغاء
  3. قوة عملية: تجنب الإصدار غير المتصل إعادة إلغاء نماذج الظل لكل عينة مستهدفة
  4. التكيف الجيد: الاستفادة من ظاهرتي الإلغاء الناقص والزائد معاً، تحسين الاستقرار

إعداد التجارب

مجموعات البيانات

مجموعة البياناتحجم التدريبحجم الاختبارعدد الفئاتنسبة الإلغاء
CIFAR-1020,00010,0001010%
CIFAR-10020,00010,00010010%
ImageNet512,466256,2351,00010%

استراتيجية تقسيم البيانات:

  • الشريحة (a): مجموعة التدريب DD
  • الشريحة (b): مجموعات بيانات الظل (غير المتصل)
  • الشريحة (c): مجموعة الاختبار DtD_t
  • الهجوم عبر الإنترنت: يتم أخذ عينات من مجموعة الظل من (a)+(b)؛ الهجوم غير المتصل: من (b) فقط

معمارية النموذج

  • ResNet-18: نموذج التجارب الرئيسي
  • VGG-16: تجارب الاستئصال
  • Swin Transformer: اختبار القابلية للنقل

إعدادات التدريب:

  • المحسّن: AdamW
  • معدل التعلم: 1×1041 \times 10^{-4}
  • حجم الدفعة: 64
  • الحقب: 100 (النموذج المستهدف)، 50 (نماذج الظل)
  • متطلب الدقة: ≥75% على DtD_t

خوارزميات الإلغاء

اختبار 6 خوارزميات تمثيلية + معيار إعادة التدريب:

الخوارزميةالنوعالفكرة الأساسية
GA 45خط أساسصعود التدرج، التركيز على DuD_u فقط
FT 18خط أساسالضبط الدقيق، التركيز على DrD_r فقط
BT 54تقطير المعرفةاستخدام "معلم سيء" لتوجيه الإلغاء
SCRUB 10تباعد لاحقتعظيم الفرق بين نموذج الإلغاء والأصلي
SalUn 55SOTAاختيار المعاملات بناءً على الأهمية
SFR-on 53SOTAالحفاظ على الهندسة لمجموعة الاحتفاظ
RTإلغاء دقيقإعادة تدريب من الصفر (محصن نظرياً)

مقاييس التقييم

المقياس الرئيسي: TPR @ low FPR (معدل الإيجابيات الحقيقية عند معدل إيجابيات كاذبة منخفض)

  • السبب: الدقة العالية أكثر قيمة لهجمات الخصوصية
  • طريقة الإبلاغ: TPR @ أقل FPR يمكن للخوارزمية تحقيقه

مقاييس مساعدة: الدقة، الاستدعاء، منحنيات ROC

طرق المقارنة

  1. U-MIA 10: طريقة ساذجة، استخدام مصنف SVM (نواة RBF، C=3)
  2. U-LiRA 11: هجوم قائم على نسبة الاحتمالية، استخدام تحويل logit للاحتمالات اللاحقة

ملاحظة: لا تشمل Chen et al., Gao et al., Lu et al.، لأنها تتطلب الوصول إلى النموذج الأصلي

تفاصيل التنفيذ

معاملات أبولو الفائقة:

  • عدد نماذج الظل: m=32m = 32
  • خطوة البحث: ϵ=1.0\epsilon = 1.0
  • عدد جولات البحث: T=50T = 50
  • أوزان الخسارة: α=1,β=4\alpha = 1, \beta = 4 (التأكيد على الخصوصية)
  • عدد العينات المستهدفة: 200 (مجموعة الإلغاء) + 200 (مجموعة الاختبار)

الأجهزة: NVIDIA A100 (40GB)، وقت التدريب حوالي 20 دقيقة/نموذج

نتائج التجارب

النتائج الرئيسية

الجدول II: الأداء على CIFAR-10

الطريقةGAFTBTSCRUBSalUnSFR-onRT
U-MIA16.5@6.0%11.5@9.5%95.0@2.5%9.0@4.0%15.5@4.5%3.0@2.5%5.5@4.5%
U-LiRA68.5@6.0%6.5@9.5%28.0@2.5%6.0@4.0%20.0@4.5%2.5@2.5%4.0@4.5%
Apollo18.0@6.0%6.5@9.5%4.0@2.5%21.5@4.0%4.5@4.5%10.0@2.5%5.0@4.5%
Apollo (Off)16.0@6.0%6.5@9.5%3.0@2.5%15.0@4.0%7.5@4.5%5.0@2.5%7.0@4.5%

النتائج الرئيسية:

  1. GA الأكثر ضعفاً: U-LiRA يحقق 68.5% TPR، أبولو يحقق 18%
  2. SCRUB عرضة للهجوم: أبولو يتفوق على U-LiRA (21.5% مقابل 6.0%)
  3. أداء SFR-on: أبولو يحقق 10% TPR، U-LiRA فقط 2.5%
  4. RT آمن بشكل أساسي: جميع الهجمات TPR ≤ 7%، قريب من التخمين العشوائي

الجدول III: الأداء على CIFAR-100

الطريقةGAFTBTSCRUBSalUnSFR-onRT
U-MIA7.5@0.5%0.5@1.0%48.5@13.5%17.0@5.0%8.5@1.5%2.0@1.5%1.0@1.0%
U-LiRA14.5@0.5%1.0@1.0%25.0@13.5%12.5@5.0%17.0@1.5%2.0@1.5%1.5@1.0%
Apollo15.5@0.5%2.0@1.0%50.0@13.5%41.5@5.0%5.0@1.5%0.5@1.5%1.5@1.0%
Apollo (Off)13.0@0.5%2.0@1.0%41.5@13.5%39.0@5.0%4.5@1.5%1.0@1.5%0.5@1.0%

النتائج الرئيسية:

  1. تحسن الأداء: أبولو يؤدي بشكل أفضل على CIFAR-100 (فئات أكثر، عينات أقل لكل فئة)
  2. ضعف SCRUB الكبير: أبولو يحقق 41.5%، يتفوق بكثير على U-LiRA بـ 12.5%
  3. ضعف BT المستمر: أبولو يحقق 50% TPR

الجدول IV: الأداء على ImageNet

الاتجاهات مشابهة لـ CIFAR-100، أبولو يؤدي بشكل ممتاز على GA و SCRUB

تحليل منحنيات ROC (الشكل 4)

GA (4a): U-LiRA الأقوى، أبولو الثاني، AUC عام عالي FT (4b): جميع الهجمات ضعيفة، أبولو أفضل قليلاً BT (4c): U-MIA الأقوى (95% TPR)، أبولو أضعف SCRUB (4d): أبولو يتفوق بوضوح على U-LiRA SalUn (4e): U-LiRA أفضل قليلاً SFR-on (4f): ميزة أبولو واضحة في منطقة FPR المنخفضة RT (4g): جميع الهجمات قريبة من الخط العشوائي

تجارب الاستئصال

1. ديناميكية الإلغاء الناقص مقابل الزائد (الشكل 5)

عرض خريطة حرارية لـ TPR تحت نصف قطر بحث مختلف:

حالات النجاح (GA, SFR-on):

  • تأثيرات حدود واضحة: منطقة TPR منخفضة بالقرب من المحور
  • التحقق من حدود النظرية III.3 و III.4
  • الإلغاء الناقص والزائد فعالان في نطاقات نصف قطر مختلفة

حالات الفشل (BT, SalUn):

  • توزيع الإلغاء الزائد شبه موحد
  • الإلغاء الناقص نادر
  • الافتراض: قد تنتهك تصميمات الخوارزمية افتراض Lipschitz المحلي

2. تأثير المعاملات الفائقة (الشكل 6)

وزن الخسارة β/α\beta/\alpha (6a):

  • β/α\beta/\alpha أعلى → توازن أفضل بين الدقة والاستدعاء
  • موصى به β/α=4\beta/\alpha = 4 (التأكيد على الخصوصية)

عدد نماذج الظل mm (6b):

  • m16m \leq 16: زيادة mm تحسن الأداء
  • m=32m = 32: انخفاض الأداء (الإفراط في التدريب على نماذج ظل محددة)
  • متسق مع ملاحظات Wen et al. 36

3. قابلية النقل المعماري (الجدول V)

النموذج المستهدفنموذج الظلTPR@FPR
ResNet-18ResNet-1818.0@6.0%
ResNet-18VGG-1612.0@6.0%
ResNet-18Swin-T13.5@6.0%
VGG-16VGG-165.5@2.5%
Swin-TSwin-T11.5@4.5%

الخلاصة: عدم تطابق المعمارية يقلل الأداء، لكن لا يزال يحافظ على دقة عالية

تحليل الحالة: مثال ثنائي الأبعاد (الشكل 3)

إعداد التجربة:

  • البيانات: R2×{0,1,2,3}\mathbb{R}^2 \times \{0,1,2,3\}، 500 عينة
  • النموذج: شبكة عصبية صغيرة 12 طبقة (الجدول VI)
  • الإلغاء: 10% من مجموعة التدريب، باستخدام GA

الملاحظات (3a):

  • المنطقة الحمراء: الإلغاء الناقص (θu\theta_u يتنبأ مثل θ\theta، بخلاف θr\theta_r)
  • المنطقة الخضراء: الإلغاء الزائد (θu\theta_u يتنبأ بخلاف θr\theta_r، مثل θ\theta)
  • كلا الظاهرتين موجودتان

مسار العينة الخصومة (3c):

  • البدء من العينة المحذوفة
  • التحرك تدريجياً نحو منطقة الإلغاء الناقص
  • التحقق من فعالية الخوارزمية 1

نتائج التجارب

  1. اختلافات خوارزمية الإلغاء ضخمة:
    • GA و SCRUB و SFR-on عرضة للهجوم
    • BT ضعيف ضد U-MIA، قوي ضد أبولو
    • SalUn آمن بشكل عام
  2. تأثير تعقيد مجموعة البيانات:
    • CIFAR-100 و ImageNet أكثر عرضة للهجوم (فئات أكثر، عينات أقل)
    • حدود القرار أكثر حساسية
  3. اتساق النظرية والممارسة:
    • الهجمات الناجحة تظهر تأثيرات حدود واضحة
    • قد تنتهك حالات الفشل افتراض Lipschitz
  4. جدوى الهجوم غير المتصل:
    • أداء أقل قليلاً من الإصدار عبر الإنترنت
    • تقليل كبير في التكلفة الحسابية
  5. التهديد منتشر:
    • حتى في نموذج التهديد الأكثر صرامة، معظم الخوارزميات قابلة للهجوم
    • إعادة التدريب (RT) آمنة بشكل أساسي، لكن غير قابلة للتوسع

الأعمال ذات الصلة

إلغاء التعلم الآلي

الإلغاء الدقيق:

  • Bourtoule et al. 2 SISA: تدريب مقسم، إعادة تدريب فقط النماذج الفرعية المتأثرة
  • Yan et al. 20: تقسيم حسب الفئة

الإلغاء التقريبي (تركيز هذه الورقة):

  • خطوط أساس: GA 45 (صعود التدرج)، FT 18 (الضبط الدقيق)
  • تقطير المعرفة: BT 54
  • تباعد لاحق: SCRUB 10
  • طرق الأهمية: SalUn 55، SFR-on 53

هجمات الاستدلال على العضوية (MIA)

MIA الكلاسيكية:

  • Shokri et al. 27: هجوم مصنف التدريب بنموذج الظل
  • Yeom et al. 28: الاستفادة من ميزة العضو الناجمة عن الإفراط في التدريب
  • Carlini et al. 29: هجوم LiRA القائم على نسبة الاحتمالية

هجمات التسميات:

  • Choquette-Choo et al. 32: أول MIA بتسميات فقط
  • Peng et al. 33 OSLO: قياس الثقة بالاضطراب الخصومة
  • Wu et al. 34 YOQO: تقليل عدد الاستعلامات

MIA الموجهة نحو إلغاء التعلم

الهجومالوصول إلى θ\thetaالوصول إلى θu\theta_uاحتمالات لاحقة
Chen et al. 7
Gao et al. 8
Lu et al. 9
U-MIA 10
U-LiRA 11
Apollo

ميزة هذه الورقة: نموذج التهديد الأكثر صرامة، لا يتطلب النموذج الأصلي أو الاحتمالات اللاحقة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تهديد الخصوصية حقيقي: حتى في نموذج التهديد الأكثر صرامة (وصول التسميات فقط، بدون نموذج أصلي)، لا يزال بإمكان المهاجم الاستدلال على العينات المحذوفة بدقة عالية
  2. أساس نظري متين: ظاهرتا الإلغاء الناقص والزائد لهما حدود نظرية واضحة (تحت شروط Lipschitz)
  3. قوة عملية:
    • الإصدار عبر الإنترنت: أعلى TPR يصل إلى 68.5% (GA على CIFAR-10)
    • الإصدار غير المتصل: أداء أقل قليلاً، لكن تقليل كبير في التكلفة الحسابية
  4. اختلافات خوارزمية كبيرة: الفرق في الضعف بين خوارزميات الإلغاء المختلفة ضخم، يتطلب دفاعات موجهة
  5. تحدي الادعاءات الموجودة: دحض مباشر لادعاءات الحماية من الخصوصية لمعظم طرق الإلغاء

القيود

القيود التي يعترف بها المؤلفون:

  1. صعوبة تعديل FPR: تعديل FPR من خلال المعاملات الفائقة (T,ϵ,τT, \epsilon, \tau) ليس مرناً مثل طرق الاحتمالية
  2. التكلفة الحسابية: الحاجة إلى تدريب عدة نماذج ظل (على الرغم من أن الإصدار غير المتصل يخفف هذه المشكلة)
  3. افتراضات نظرية: شرط Lipschitz المحلي لا ينطبق دائماً (كما في حالات BT و SalUn)

المشاكل المحتملة غير المذكورة:

  1. انحياز اختيار العينة: اختبار 200 عينة فقط قد لا يمثل التوزيع الكامل
  2. نسبة إلغاء ثابتة: اختبار 10% فقط، نسب أخرى غير معروفة
  3. الدفاع الخصومة: لم يتم مناقشة تدابير الدفاع المحتملة (مثل إضافة الضوضاء، الخصوصية التفاضلية)
  4. قابلية تطبيق LLM: يركز بشكل أساسي على تصنيف الصور، إلغاء نماذج اللغة الكبيرة لم يتم اختباره

الاتجاهات المستقبلية

  1. هجمات أكثر كفاءة: تقليل عدد نماذج الظل وعدد الاستعلامات
  2. آليات الدفاع: تصميم خوارزميات إلغاء قوية ضد أبولو
  3. تحسين النظرية: تخفيف افتراض Lipschitz، التوسع إلى الحالات غير المحلية
  4. طرائق أخرى: التوسع إلى النصوص والصور المولدة وغيرها
  5. إلغاء محمي بالخصوصية: طرق إلغاء مدمجة مع الخصوصية التفاضلية

التقييم المتعمق

المميزات

الابتكار في الطريقة:

  1. تحول النموذج: من "مقارنة قبل وبعد الإلغاء" إلى "مقارنة الإلغاء مع إعادة التدريب"، أكثر توافقاً مع تعريف الإلغاء
  2. العمق النظري: أول حدود نظرية Lipschitz، تشكيل رسمي لظاهرتي الإلغاء الناقص والزائد
  3. صرامة نموذج التهديد: label-only + a posteriori هو الإعداد الأكثر تحدياً

كفاية التجارب:

  1. تنوع مجموعات البيانات: CIFAR-10/100 (صغيرة)، ImageNet (كبيرة)
  2. تغطية الخوارزميات: 6 خوارزميات إلغاء تمثيلية + معيار إعادة التدريب
  3. استئصال شامل: معاملات فائقة، نقل معماري، ديناميكية الإلغاء الناقص/الزائد
  4. تصور واضح: مثال ثنائي الأبعاد يعرض الفكرة الأساسية بشكل حدسي

قوة النتائج:

  1. مقارنة شاملة: مقارنة مع U-MIA و U-LiRA، تبرز المزايا
  2. أهمية إحصائية: 200 عينة × تجارب متعددة، النتائج موثوقة
  3. التحقق النظري: الملاحظات التجريبية متسقة مع التنبؤات النظرية (الشكل 5)

جودة الكتابة:

  1. وضوح البنية: من الدافع → النظرية → الطريقة → التجارب، منطق صارم
  2. معايير المصطلحات: تعريفات رسمية (Def. 1-3)، إثبات النظريات كامل
  3. قابلية إعادة الإنتاج: الكود مفتوح المصدر، المعاملات الفائقة مفصلة (الجدول VII)

أوجه القصور

قيود الطريقة:

  1. افتراض Lipschitz قوي: لا ينطبق على جميع النماذج وخوارزميات الإلغاء (مثل فشل BT)
  2. قيد المحلية: نصف قطر البحث TϵT\cdot\epsilon ثابت، قد يفوت الآثار البعيدة
  3. تبسيط التصنيف الثنائي: تجاهل عضوية DrD_r، المشكلة الفعلية ثلاثية

عيوب التجارب:

  1. نسبة إلغاء واحدة: اختبار 10% فقط، نسب 1% أو 50% غير معروفة
  2. حجم عينة صغير: 200+200 عينة قد تكون غير كافية لتقييم المخاطر الطرفية
  3. غياب تجارب الدفاع: لم يتم اختبار إضافة الضوضاء والخصوصية التفاضلية وغيرها
  4. معمارية محدودة: استخدام ResNet-18 بشكل أساسي، اختبار نماذج Transformer غير كافٍ

نقص التحليل:

  1. أسباب الفشل سطحية: "انتهاك Lipschitz" يفتقر إلى تحليل عميق
  2. عدم شرح الاختلافات الخوارزمية: لماذا BT ضعيف ضد U-MIA لكن قوي ضد أبولو؟
  3. نقاش الجدوى: قابلية التطبيق في سيناريوهات MLaaS الحقيقية (مثل حدود الاستعلام)

الاعتبارات الأخلاقية:

  1. طبيعة ذات حدين: قد تُستخدم طريقة الهجوم بشكل خبيث
  2. نقص اقتراحات الدفاع: التأكيد فقط على "الحاجة إلى الحذر"، بدون حلول محددة

التأثير

المساهمة في المجال:

  1. كسر الافتراضات: إثبات إمكانية الهجوم بدون النموذج الأصلي، دفع نحو تعريفات خصوصية أكثر صرامة
  2. أدوات نظرية: حدود Lipschitz يمكن استخدامها لتحليل طرق إلغاء أخرى
  3. معيار التقييم: أبولو يمكن أن يكون أداة تدقيق خصوصية لخوارزميات الإلغاء

القيمة العملية:

  1. أداة التدقيق: تساعد في تقييم مخاطر تسرب الخصوصية لخدمات الإلغاء
  2. توجيه التصميم: ظاهرتا الإلغاء الناقص والزائد توحي باتجاهات تحسين الخوارزمية
  3. مرجع تنظيمي: توفير أساس تقني لتنفيذ لوائح مثل GDPR

قابلية إعادة الإنتاج:

  • ✅ الكود مفتوح المصدر: https://github.com/LiouTang/Unlearn-Apollo-Attack
  • ✅ معاملات فائقة مفصلة: الجدول VII كامل
  • ✅ مجموعات بيانات عامة: CIFAR و ImageNet متاحة
  • ⚠️ موارد حسابية: يتطلب GPU A100، قد يحد من إعادة الإنتاج

التأثير المحتمل:

  1. قصير الأجل: دفع تحسينات خوارزميات الإلغاء (مثل تحسينات SalUn و SFR-on)
  2. متوسط الأجل: قد يثير موجة بحثية حول إلغاء محمي بالخصوصية (مثل DP-Unlearning)
  3. طويل الأجل: التأثير على وضع معايير تقنية للوائح الخصوصية

السيناريوهات المناسبة

التطبيقات المناسبة:

  1. تدقيق الخصوصية: تقييم ضمانات الخصوصية لخدمات الإلغاء
  2. اختبار الخوارزمية: اختبار الاستقرار لطرق إلغاء جديدة
  3. الامتثال التنظيمي: التحقق من استيفاء متطلبات GDPR

التطبيقات غير المناسبة:

  1. إلغاء LLM: تعريف "التسميات" غير واضح لمهام توليد النصوص
  2. سيناريوهات العينات الصغيرة: يتطلب تدريب نموذج ظل كمية بيانات كبيرة
  3. الأنظمة الفورية: توليد العينات الخصومة يستغرق وقتاً (50 خطوة SGD)

إمكانية التوسع:

  • مهام أخرى: الكشف عن الأجسام والتقسيم الدلالي (يتطلب إعادة تعريف "التسميات")
  • التعلم الموحد: تدقيق الخصوصية للإلغاء الموزع
  • ضغط النموذج: الاستدلال على العضوية في سيناريوهات القص والتقطير

المراجع (الرئيسية)

  1. Cao & Yang (2015): أول اقتراح لمفهوم إلغاء التعلم
  2. Bourtoule et al. (2021): خوارزمية إلغاء دقيقة SISA
  3. Carlini et al. (2022): هجوم نسبة الاحتمالية LiRA
  4. Choquette-Choo et al. (2021): أول MIA بتسميات فقط
  5. Hayes et al. (2024): U-LiRA هجوم موجه نحو الإلغاء
  6. Huang et al. (2024): إطار عمل إلغاء موحد SFR-on
  7. Fan et al. (2024): إلغاء قائم على الأهمية SalUn

الملخص

أبولو ورقة عالية الجودة في مجال أمان التعلم الآلي، تكشف عن مخاطر الخصوصية في إلغاء التعلم من خلال نموذج تهديد الأكثر صرامة (label-only, a posteriori). تكمن المساهمات الأساسية في:

  1. الابتكار النظري: تشكيل رسمي للإلغاء الناقص والزائد، توفير حدود Lipschitz
  2. الجدوى العملية: نسختان عبر الإنترنت وغير متصلة، توازن بين الفعالية والتكلفة
  3. التجارب الصارمة: مجموعات بيانات متعددة وخوارزميات وتجارب استئصال شاملة

على الرغم من وجود قيود مثل افتراض Lipschitz القوي وحجم العينة الصغير، فإن الورقة تطعن مباشرة في فعالية الإلغاء كأداة خصوصية، مما له تأثير تحذيري مهم على المجال. يُوصى بالأعمال المستقبلية:

  • استكشاف طرق هجوم في سيناريوهات غير Lipschitz
  • تصميم خوارزميات إلغاء قوية ضد أبولو
  • التوسع إلى طرائق أخرى مثل LLM

مؤشر التوصية: ⭐⭐⭐⭐☆ (4.5/5)

  • الابتكارية: 5/5
  • الصرامة: 4/5
  • الجدوى: 4/5
  • سهولة القراءة: 5/5