2025-11-14T05:43:10.071295

Defending Diffusion Models Against Membership Inference Attacks via Higher-Order Langevin Dynamics

Sterling, El-Laham, Bugallo
Recent advances in generative artificial intelligence applications have raised new data security concerns. This paper focuses on defending diffusion models against membership inference attacks. This type of attack occurs when the attacker can determine if a certain data point was used to train the model. Although diffusion models are intrinsically more resistant to membership inference attacks than other generative models, they are still susceptible. The defense proposed here utilizes critically-damped higher-order Langevin dynamics, which introduces several auxiliary variables and a joint diffusion process along these variables. The idea is that the presence of auxiliary variables mixes external randomness that helps to corrupt sensitive input data earlier on in the diffusion process. This concept is theoretically investigated and validated on a toy dataset and a speech dataset using the Area Under the Receiver Operating Characteristic (AUROC) curves and the FID metric.
academic

الدفاع عن نماذج الانتشار ضد هجمات الاستدلال على العضوية عبر ديناميكيات لانجفين من الرتبة الأعلى

المعلومات الأساسية

  • معرّف الورقة: 2509.14225
  • العنوان: الدفاع عن نماذج الانتشار ضد هجمات الاستدلال على العضوية عبر ديناميكيات لانجفين من الرتبة الأعلى
  • المؤلفون: بنجامين ستيرلينج (جامعة ستوني بروك)، يوسف الليهام (جامعة ستوني بروك)، مونيكا إف. بوجالو (جامعة ستوني بروك)
  • التصنيف: cs.LG, stat.ML
  • تاريخ النشر: 16 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2509.14225

الملخص

تركز هذه الورقة على معالجة مشاكل أمان البيانات الجديدة التي تظهر في تطبيقات الذكاء الاصطناعي التوليدي، مع التركيز على الدفاع عن نماذج الانتشار ضد هجمات الاستدلال على العضوية. يشير الاستدلال على العضوية إلى قدرة المهاجم على تحديد ما إذا كانت نقطة بيانات معينة قد استُخدمت في تدريب النموذج. على الرغم من أن نماذج الانتشار تتمتع بمقاومة أقوى بطبيعتها ضد هجمات الاستدلال على العضوية مقارنة بالنماذج التوليدية الأخرى، إلا أنها تظل عرضة للهجوم. تقترح هذه الورقة طريقة دفاع تستفيد من ديناميكيات لانجفين من الرتبة الأعلى المخمدة بشكل حرج (HOLD++)، مما يؤدي إلى إدخال متغيرات مساعدة وعمليات انتشار مشتركة على طول هذه المتغيرات. الفكرة الأساسية هي أن وجود المتغيرات المساعدة يمزج العشوائية الخارجية، مما يساعد على تعطيل بيانات الإدخال الحساسة في المراحل المبكرة من عملية الانتشار. تم التحقق من هذا المفهوم من خلال الدراسة النظرية وعلى مجموعات بيانات لعبة وبيانات الكلام باستخدام منحنيات AUROC ومقاييس FID.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى هذه الدراسة إلى حلها هي تهديد هجمات الاستدلال على العضوية (Membership Inference Attacks, MIA) لنماذج الانتشار. يشير الاستدلال على العضوية إلى هجوم خصوصية حيث يحاول المهاجم تحديد ما إذا كانت عينة بيانات معينة قد استُخدمت في تدريب النموذج المستهدف.

تحليل الأهمية

  1. الحاجة إلى حماية خصوصية البيانات: مع التطور السريع لتطبيقات الذكاء الاصطناعي التوليدي، خاصة في المجالات الطبية والملكية الفكرية الحساسة، أصبحت حماية خصوصية بيانات التدريب حاسمة
  2. ضعف نماذج الانتشار: على الرغم من أن نماذج الانتشار تتمتع بمقاومة أفضل ضد الهجمات مقارنة بنماذج أخرى مثل GANs، إلا أنها لا تزال عرضة للهجمات الخلفية وهجمات الاستدلال على العضوية والهجمات الخصومية
  3. قيود طرق الدفاع الحالية: تعاني طرق الدفاع الرئيسية الحالية مثل نماذج الانتشار ذات الخصوصية التفاضلية (DPDM) من مشكلة المقايضة بين الخصوصية والفائدة، أي أن مستوى حماية الخصوصية يرتبط مباشرة بجودة العينات المولدة

دافع البحث

يركز الدفاع الحالي ضد هجمات الاستدلال على العضوية بشكل أساسي على الخصوصية التفاضلية والتنظيم L2 وتقطير المعرفة. يكمن دافع هذه الورقة في استكشاف استراتيجية دفاع جديدة من خلال تحسينات في بنية عملية الانتشار نفسها لتعزيز حماية الخصوصية، دون الحاجة إلى تعزيز بيانات مباشر أو قيود خصوصية تفاضلية صارمة.

المساهمات الأساسية

  1. اقتراح إطار دفاع جديد قائم على ديناميكيات لانجفين من الرتبة الأعلى المخمدة بشكل حرج (HOLD++) من خلال إدخال متغيرات مساعدة لتعزيز المقاومة ضد هجمات الاستدلال على العضوية
  2. إنشاء ضمانات نظرية للخصوصية التفاضلية من رينيي لـ HOLD++، مما يثبت أن خسارة الخصوصية تصل إلى أقصى قيمة في بداية عملية الانتشار وتتناقص بشكل رتيب بمرور الوقت
  3. الكشف عن العلاقة بين المتغيرات المساعدة وحماية الخصوصية، مما يثبت أن متوسط الخطأ التربيعي يمكن "ضبطه" من خلال تعديل المعاملات β و L^(-1) و n
  4. التحقق من فعالية الطريقة على مجموعة بيانات Swiss Roll وبيانات كلام LJ Speech، باستخدام مقاييس AUROC و FID لتقييم تأثير الدفاع وجودة التوليد

شرح الطريقة

تعريف المهمة

الإدخال: مجموعة بيانات التدريب D، معاملات نموذج الانتشار الإخراج: نموذج انتشار قادر على مقاومة هجمات الاستدلال على العضوية القيود: تعظيم حماية الخصوصية مع الحفاظ على جودة التوليد

معمارية النموذج

عملية HOLD++ الأمامية

تُعرّف معادلة التفاضل العشوائي الأمامية لـ HOLD++ كما يلي:

dx_t = Fx_t dt + G dw

حيث:

  • F = Σ(i=1 to n-1) γ_i(E_{i,i+1} - E_{i+1,i}) - ξE_{n,n}
  • G = √(2ξL^(-1))E_{n,n}
  • x_0 = (q_0^T, p_0^T, s_0^T, ...)^T

التعبيرات الرياضية الرئيسية

المتوسط والتباين المشترك للعملية الأمامية:

μ_t = exp(Ft)x_0
Σ_t = L^(-1)I + exp(Ft)(Σ_0 - L^(-1)I)exp(Ft)^T

يتم الأخذ من العينات من خلال تحليل تشوليسكي:

x_t = μ_t + L_t ε

تكيف هجوم PIA

مؤشر هجوم PIA الموجه ضد HOLD++ يصبح:

R_{t,p} = ||Fx_t - (1/2)GG^T S_θ(x_t,t)||_p

نقاط الابتكار التقني

  1. إدخال المتغيرات المساعدة للعشوائية المختلطة: من خلال إدخال متغيرات مساعدة مثل السرعة والتسارع، يتم إدخال عشوائية إضافية في المراحل المبكرة من عملية الانتشار، مما يجعل من الصعب على المهاجم تقدير البيانات الأصلية بدقة
  2. دالة النقاط غير الحتمية: تقوم شبكة النقاط في HOLD++ بنمذجة نقاط المتغير المساعد الأخير فقط، مما يجعل الهجوم الحتمي الكامل مستحيلاً
  3. ضمانات الخصوصية النظرية: توفر تحليل خصوصية تفاضلية من رينيي صارم وإثبات الحد الأعلى لخسارة الخصوصية

إعداد التجارب

مجموعات البيانات

  1. مجموعة بيانات Swiss Roll: مجموعة بيانات لعبة ثنائية الأبعاد، تُستخدم للتحقق من التنبؤات النظرية
  2. مجموعة بيانات LJ Speech: مجموعة بيانات كلام حقيقية، باستخدام Grad-TTS لتحويل النص إلى كلام

مؤشرات التقييم

  1. AUROC (المساحة تحت منحنى ROC): تقييم فعالية هجوم الاستدلال على العضوية
    • الاقتراب من 1.0 يشير إلى أن الهجوم يمكنه التمييز بشكل مثالي بين بيانات التدريب/عدم التدريب
    • الاقتراب من 0.5 يشير إلى أن تأثير الهجوم مساوٍ للتخمين العشوائي
  2. FID (مسافة البدء الفريشيت): تقييم جودة البيانات المولدة

طرق المقارنة

  • نموذج الانتشار التقليدي (n=1)
  • HOLD++ بدرجات مختلفة (n=2,3,...)
  • تكوينات مختلفة لعامل التباين β

تفاصيل التنفيذ

  • تجارب Swiss Roll: 40,000 جولة تدريب، شبكة متصلة بالكامل من 15 طبقة، تفعيل ReLU، تطبيع الطبقة
  • تجارب LJ Speech: استخدام معمارية Grad-TTS، اختبار أقصى حد n=2 (يصعب تدريب الرتب الأعلى)
  • تكرار 25 تجربة للحصول على فترات ثقة بنسبة 95%

نتائج التجارب

النتائج الرئيسية

مجموعة بيانات Swiss Roll

  • ينخفض AUROC بشكل كبير مع زيادة رتبة النموذج n وعامل التباين β
  • فترات الثقة بنسبة 95% لـ β=2 و β=10 غير متداخلة، مما يشير إلى الأهمية الإحصائية
  • النماذج من الرتبة الأعلى (n>1) تتفوق بشكل واضح على نموذج الانتشار التقليدي في حماية الخصوصية

مجموعة بيانات LJ Speech

تشير نتائج التجارب إلى أن n=2 يتمتع بحماية خصوصية وجودة توليد أفضل مقارنة بـ n=1:

الحقبFID (n=1)FID (n=2)AUROC (n=1)AUROC (n=2)
3091.6577.500.5030.597
6094.3162.570.6860.481
90102.5065.200.8690.525
18089.1857.430.9490.696

التجارب الاستئصالية

  • تأثير رتبة النموذج n: مع زيادة n، ينخفض AUROC بشكل كبير، مما يعزز حماية الخصوصية
  • تأثير عامل التباين β: تؤفر قيم β الأكبر حماية خصوصية أفضل
  • تحليل التوزيع الزمني: تتركز الضعف في الخصوصية بشكل أساسي في المراحل المبكرة من عملية الانتشار

النتائج التجريبية

  1. النتائج غير المتوقعة على CIFAR-10: على مجموعة بيانات الصور، يقترب AUROC من 0.5، مما يشير إلى أن نماذج الانتشار المستمرة الزمن نفسها تتمتع بمقاومة قوية بطبيعتها ضد MIA
  2. خصوصية بيانات الكلام: يصعب تعزيز بيانات الطيف الميلي مقارنة بالصور، مما يجعل بيانات الكلام أكثر عرضة لهجمات MIA
  3. المقايضة بين الجودة والخصوصية: توفر النماذج من الرتبة الأعلى حماية خصوصية أفضل، وفي الوقت نفسه تنتج عينات مولدة ذات جودة أعلى

الأعمال ذات الصلة

أمان نماذج الانتشار

  • SecMI: أول هجوم MIA على نماذج الانتشار المنفصلة
  • PIA (هجوم التهيئة القريبة): نسخة الوقت المستمر من هجوم MIA
  • DPDM: طريقة الخصوصية التفاضلية التي تجمع بين DP-SGD ونماذج الانتشار المستمرة الزمن

ديناميكيات لانجفين من الرتبة الأعلى

  • CLD (ديناميكيات لانجفين المخمدة بشكل حرج): إدخال متغيرات مساعدة للسرعة
  • TOLD (ديناميكيات لانجفين من الرتبة الثالثة): إضافة متغيرات التسارع
  • HOLD++: ديناميكيات لانجفين من الرتبة الأعلى المخمدة بشكل حرج

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يوفر HOLD++ دفاعاً فعالاً ضد MIA: تقلل العشوائية المقدمة من خلال المتغيرات المساعدة بشكل كبير من معدل نجاح هجمات الاستدلال على العضوية
  2. تتطابق الضمانات النظرية مع التحقق العملي: يتوافق تحليل الخصوصية التفاضلية من رينيي مع نتائج التجارب
  3. تحسين مزدوج للجودة والخصوصية: في بعض الحالات، تحسن النماذج من الرتبة الأعلى كلاً من جودة التوليد وحماية الخصوصية

القيود

  1. زيادة تعقيد التدريب: يصعب تدريب النماذج من الرتبة الأعلى، خاصة على مجموعات البيانات المعقدة
  2. تعقيد ضبط المعاملات: يتطلب المقايضة بين رتبة النموذج n وعامل التباين β ومعاملات الخصوصية ε_num
  3. التحقق المحدود من الرتب الأعلى: تم التحقق فقط حتى n=2 على مجموعات البيانات الحقيقية، ولم يتم التحقق الكامل من تأثير الرتب الأعلى

الاتجاهات المستقبلية

  1. استكشاف طرق تدريب أكثر كفاءة للنماذج من الرتبة الأعلى
  2. دراسة تطبيق ديناميكيات الرتبة الأعلى على أنواع أخرى من النماذج التوليدية
  3. تطوير استراتيجيات اختيار معاملات تكيفية

التقييم المتعمق

المميزات

  1. الابتكار النظري قوي: يجمع بين ديناميكيات لانجفين من الرتبة الأعلى وحماية الخصوصية بذكاء، مما يوفر منظوراً نظرياً جديداً
  2. التحليل الرياضي دقيق: يوفر إثبات خصوصية تفاضلية من رينيي كاملة وتحليل الحد الأعلى لخسارة الخصوصية
  3. تصميم التجارب معقول: استراتيجية التحقق التدريجية من مجموعات البيانات اللعبة إلى البيانات الحقيقية علمية وفعالة
  4. القيمة العملية عالية: توفر طريقة دفاع جديدة بخلاف الخصوصية التفاضلية التقليدية

أوجه القصور

  1. نطاق التجارب محدود: تم التحقق فقط على مجموعتي بيانات، مع نقص التجارب على مجموعات بيانات كبيرة الحجم
  2. تحليل التكلفة الحسابية مفقود: لم يتم تحليل تكاليف الحساب الإضافية الناجمة عن النماذج من الرتبة الأعلى بالتفصيل
  3. المقارنة مع طرق الدفاع الأخرى غير كافية: المقارنة تركز بشكل أساسي على نموذج الانتشار التقليدي، مع نقص المقارنة المباشرة مع طرق مثل DPDM
  4. تحليل حساسية المعاملات غير عميق بما فيه الكفاية: الإرشادات حول اختيار المعاملات الرئيسية غير واضحة بما يكفي

التأثير

  1. المساهمة الأكاديمية: توفر إطار نظري وطريقة عملية جديدة لحماية خصوصية نماذج الانتشار
  2. القيمة العملية: لها إمكانية تطبيق مهمة في المجالات الحساسة مثل الطب والمالية
  3. قابلية إعادة الإنتاج: يوفر المؤلفون الكود مفتوح المصدر، مما يسهل إعادة الإنتاج والتوسع

السيناريوهات القابلة للتطبيق

  1. توليد البيانات الحساسة: مهام التوليد التي تتضمن الخصوصية مثل التصوير الطبي وتوليف الكلام
  2. بيئات التعلم الموحد: الحاجة إلى حماية خصوصية البيانات أثناء التدريب التعاوني
  3. التطبيقات الصناعية: نشر النماذج التوليدية التي تتطلب حماية صارمة للملكية الفكرية

المراجع

تستشهد هذه الورقة بـ 17 مرجعاً مهماً، تغطي النظرية الأساسية لنماذج الانتشار وطرق هجمات الاستدلال على العضوية وتقنيات الخصوصية التفاضلية وديناميكيات لانجفين من الرتبة الأعلى والأعمال التمثيلية في المجالات الرئيسية الأخرى، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الشامل: هذه ورقة بحثية ذات أهمية ابتكارية مهمة في مجال حماية الخصوصية لنماذج الانتشار. من خلال الجمع بين ديناميكيات لانجفين من الرتبة الأعلى والدفاع ضد هجمات الاستدلال على العضوية، توفر حلاً جديداً وفعالاً. على الرغم من وجود مجال للتحسين في نطاق التجارب وبعض التفاصيل التقنية، فإن مساهماتها النظرية وقيمتها العملية تجعلها تقدماً مهماً في هذا المجال.