2025-11-18T11:19:13.666890

Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness

Abdelghafar, Aliakbarpour, Jermaine

Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.

academic

تحديد الكشف عن المعلومات أثناء انحدار التدرج باستخدام تفرد التدرج

المعلومات الأساسية

معرّف الورقة: 2510.10902
العنوان: تحديد الكشف عن المعلومات أثناء انحدار التدرج باستخدام تفرد التدرج
المؤلفون: محمود عبدالغفار (جامعة رايس)، مريم علي أكبرپور (جامعة رايس)، كريس جيرمين (جامعة رايس)
التصنيف: cs.LG stat.ML
تاريخ النشر: 13 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.10902v1

الملخص

يمثل نشر نماذج التعلم الآلي مخاطر خصوصية مهمة من خلال تسريب المعلومات الخاصة. بديهياً، يجب أن يكون نشر نموذج مدرب أقل خطورة من نشر مجموعة البيانات مباشرة، لكن ما حجم المخاطر بالضبط؟ تقترح هذه الورقة طريقة قياس الكشف القائمة على المبادئ الأساسية تسمى تفرد التدرج (Gradient Uniqueness, GNQ)، والتي تنبع من الاشتقاق الرياضي لحد أعلى لكمية الكشف عن المعلومات عند نشر نموذج التعلم. يوفر تفرد التدرج طريقة حدسية لتدقيق الخصوصية، مع اشتقاق رياضي عام لا يفترض أي افتراضات حول معمارية النموذج أو نوع مجموعة البيانات أو استراتيجية المهاجم. تُظهر الدراسة أن طرق الدفاع البسيطة المراقبة بواسطة GNQ يمكنها أن تضاهي الطرق الكلاسيكية مثل DP-SGD من حيث حماية الخصوصية، مع تحقيق أداء أفضل في دقة الاختبار.

خلفية البحث والدافع

المشكلة الأساسية

تتمثل المشكلة الأساسية التي يعالجها هذا البحث في: كيفية تحديد مخاطر تسريب الخصوصية أثناء نشر نماذج التعلم الآلي. بشكل محدد، عند استخدام الانحدار العشوائي للتدرج (SGD) لتدريب نموذج ونشر معاملات النموذج النهائية، كم من المعلومات حول بيانات التدريب يمكن للمهاجم استنتاجها؟

أهمية المشكلة

الحاجة العملية ملحة: تكاليف تدريب أنظمة الذكاء الاصطناعي الحديثة (مثل نماذج اللغة الكبيرة) عالية جداً، والمنظمات غير راغبة في تعديل خوارزميات التدريب بشكل كبير من أجل حماية الخصوصية
قيود الطرق الموجودة: بينما توفر الخصوصية التفاضلية (DP-SGD) ضمانات نظرية، فإنها تسبب ضرراً شديداً على أداء النموذج
غياب وسائل التحديد الكمي: تعتمد الطرق الموجودة بشكل أساسي على تجارب الهجوم، وتفتقر إلى مؤشرات تحديد كمي لمخاطر الخصوصية مدعومة بنظرية

قيود الطرق الموجودة

طرق الخصوصية التفاضلية متحفظة جداً: يتطلب DP-SGD إضافة ضوضاء وقص على كل تدرج، مما يؤدي إلى انخفاض شديد في أداء النموذج
طرق التدقيق القائمة على الهجوم: تعتمد على استراتيجيات هجوم محددة، وتفتقر إلى العمومية والأساس النظري
افتراضات الحالة الأسوأ: غالباً ما يعتمد التحليل النظري الموجود على افتراضات الحالة الأسوأ، وهو متشائم جداً في التطبيقات العملية

دافع البحث

الفكرة الأساسية للورقة هي: بما أن SGD نفسه يتمتع بالعشوائية، هل يمكننا الاستفادة من خاصية الحماية الخصوصية المدمجة هذه لتحديد المخاطر دون الحاجة إلى تعديل خوارزمية التدريب؟ هذا النهج يتوافق بشكل أفضل مع احتياجات التطبيقات العملية.

المساهمات الأساسية

اقتراح مؤشر تفرد التدرج (GNQ): طريقة قياس مخاطر الخصوصية المشتقة من نظرية المعلومات، ترتبط بشكل رتيب بحد أعلى لتسريب المعلومات
العمومية النظرية: الاشتقاق الرياضي لا يعتمد على معمارية النموذج أو نوع مجموعة البيانات أو استراتيجية المهاجم، مع قابلية تطبيق واسعة
التحقق التجريبي: إثبات أن GNQ يمكنه التنبؤ بفعالية وتفسير معدل نجاح الهجمات المختلفة
طريقة دفاع بسيطة وفعالة: إزالة نقاط البيانات عالية المخاطر بناءً على ترتيب GNQ، مما يوفر حماية الخصوصية مع الحفاظ على فائدة النموذج

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات عامة $D = \{d_j\}_{j=1}^N$ ، يتم أخذ عينة موحدة بدون استبدال للحصول على مجموعة تدريب خاصة $D_t$ . يتم تدريب نموذج معاملات $h_\theta$ باستخدام الانحدار العشوائي للتدرج، ويلاحظ المهاجم معاملات النموذج النهائية $\theta_{N_r}$ ، والهدف هو استنتاج ما إذا كانت نقطة بيانات $d_j$ موجودة في مجموعة التدريب $D_t$ .

تعريف تفرد التدرج

التعريف 1 (تفرد التدرج): بالنسبة لدفعة التدريب $i$ ، يُعرّف تفرد التدرج لنقطة البيانات $d_j$ بالنسبة للدفعة $i$ على النحو التالي:

$\text{GNQ}_{ij} = g_{ij}^T S^+ g_{ij}$

حيث:

$S = \sum_{k=1, k \neq j}^N g_{ik} g_{ik}^T \in \mathbb{R}^{N_p \times N_p}$
$S^+$ تمثل الشبه معكوس Moore-Penrose
$g_{ij} = \nabla_\theta[\ell[\theta_i, d_j]] \in \mathbb{R}^{N_p}$ هو التدرج لدالة الخسارة عند نقطة البيانات $d_j$

النتيجة النظرية الأساسية

النظرية (نسخة غير رسمية): يتم تحديد كمية المعلومات (بالبت) التي يمكن لأي مهاجم استخراجها من خلال فحص $\theta_{N_r}$ لتحديد $d_j \in D_t$ بواسطة دالة تزداد بشكل رتيب مع $\sum_{i=1}^{N_r-1} \text{GNQ}_{ij}$ .

الفهم الهندسي الحدسي

يمكن تمثيل حساب GNQ هندسياً على النحو التالي:

بناء بيضاوي يلخص جميع التدرجات
يقيس $\text{GNQ}_{ij}$ مدى شذوذ تدرج نقطة البيانات $d_j$ بالنسبة للبيضاوي
كلما كان التدرج أكثر "تفرداً" (انحرافاً عن اتجاه التدرجات الأخرى)، كلما كانت قيمة GNQ أعلى، وكانت مخاطر الخصوصية أكبر

نقاط الابتكار التقني

الأساس النظري للمعلومات: يستند إلى نظرية المعلومات المتبادلة، مما يؤسس الربط الرياضي بين GNQ وحد أعلى لتسريب المعلومات
عدم الاعتماد على الهجوم: لا يعتمد على طريقة هجوم محددة، ويوفر تقييماً عاماً لمخاطر الخصوصية
التفسير الهندسي: من خلال التحليل الهندسي لفضاء التدرج، يوفر فهماً حدسياً للمخاطر
الكفاءة الحسابية: يقترح تقنيات مثل التقريب القطري، مما يجعل الطريقة قابلة للتطبيق على النماذج الكبيرة

إعداد التجارب

مجموعات البيانات

MNIST: التعرف على الأرقام المكتوبة بخط اليد
CIFAR-10/100: تصنيف الصور الطبيعية
قاعدة بيانات AT&T للوجوه: التعرف على الوجوه
Tiny ImageNet: تصنيف الصور على نطاق واسع
IMDB: تحليل المشاعر

معمارية النموذج

MLP: شبكة متعددة الطبقات
CNN: شبكة عصبية تلافيفية
ResNet: شبكة متبقية (رؤية الحاسوب)
BERT: مصنف نصي قائم على Transformer

مؤشرات التقييم

حماية الخصوصية: قيمة AUC ROC لهجوم الاستدلال على العضوية (MIA)
فائدة النموذج: دقة مجموعة الاختبار
هجوم إعادة البناء: جودة إعادة البناء لهجوم عكس النموذج

طرق المقارنة

الخط الأساسي: التدريب القياسي بدون حماية الخصوصية
DP-SGD: الانحدار العشوائي للتدرج بالخصوصية التفاضلية ( $\epsilon \in \{2, 8, 512\}$ )
القائم على GNQ: طريقة الدفاع القائمة على تفرد التدرج

نتائج التجارب

النتائج الرئيسية

يعرض الجدول 1 نتائج المقارنة بين طريقة تصفية GNQ و DP-SGD:

مجموعة البيانات	النموذج	الإعداد	AUC ROC	دقة الاختبار
CIFAR10	ResNet	الخط الأساسي	0.7294	80.80%
		إزالة أعلى 10% GNQ	0.5122	71.33%
		DP-SGD (ε=2)	0.5008	41.83%
CIFAR100	ResNet	الخط الأساسي	0.8752	49.58%
		إزالة أعلى 20% GNQ	0.5137	34.92%
		DP-SGD (ε=2)	0.5015	6.83%

النتائج الرئيسية:

تستطيع طريقة GNQ تقليل معدل نجاح هجوم MIA إلى مستوى التخمين العشوائي (AUC ≈ 0.5)
عند نفس مستوى حماية الخصوصية، دقة النموذج لطريقة GNQ أعلى بكثير من DP-SGD
بالنسبة إلى CIFAR100، تبلغ دقة DP-SGD 6.83% فقط، بينما تصل طريقة GNQ إلى 34.92%

GNQ كمؤشر للتنبؤ بمعدل نجاح الهجوم

يعرض الشكل 5 العلاقة بين GNQ ومعدل نجاح هجوم MIA عبر مجموعات بيانات مختلفة:

عبر جميع النماذج ومجموعات البيانات، يزداد معدل نجاح الهجوم مع زيادة قيمة GNQ
العينات ذات قيم GNQ الأعلى هي بالضبط العينات التي يكون الهجوم عليها أسهل
يثبت أن GNQ مؤشر فعال لمخاطر الخصوصية

تجارب هجوم إعادة البناء

أظهرت التجارب على قاعدة بيانات AT&T للوجوه:

بعد إزالة العينة ذات أعلى درجة GNQ، تنخفض جودة إعادة البناء لهجوم عكس النموذج بشكل ملحوظ
تنخفض دقة التحقق من 95.31% إلى 94.15% فقط، لكن تأثير حماية الخصوصية واضح

تأثير معاملات SGD على الخصوصية

يعرض الشكل 7 العلاقة بين معاملات التدريب المختلفة و GNQ ومعدل نجاح الهجوم:

عدد جولات التدريب: المزيد من الجولات يؤدي إلى مخاطر خصوصية أعلى
حجم مجموعة البيانات: مجموعات البيانات الأصغر تحمل مخاطر أعلى
حجم النموذج: النماذج الأكبر عادة ما تحمل مخاطر أعلى
حجم الدفعة: الدفعات الأصغر تزيد المخاطر
معدل التعلم: معدل التعلم الأعلى قد يزيد المخاطر

الأعمال ذات الصلة

التدقيق القائم على الهجوم

هجوم الاستدلال على العضوية بنموذج الظل: استخدام الاحتمالية اللاحقة للنموذج كميزة هجوم
هجوم الصندوق الأبيض: الاستفادة من المعلومات الداخلية مثل التدرجات والقيم المنشطة
هجوم قائم على الخسارة: استخدام خسارة النموذج عند النقاط المرشحة كمؤشر العضوية
هجوم عكس التدرج: من خلال تحسين هدف إعادة البناء لاستعادة بيانات التدريب

تدقيق الخصوصية التفاضلية

تركز الطرق الموجودة بشكل أساسي على التحقق من ما إذا كانت تطبيقات DP تحقق مستويات الخصوصية المعلنة، بينما يحدد GNQ مخاطر الخصوصية لأي نموذج تدريب.

النسيان الآلي

يمكن لـ GNQ توجيه النسيان الحساس للمخاطر أثناء التدريب، والعمل كمؤشر مدمج لتدقيق التغييرات في المخاطر.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يوفر GNQ طريقة تحديد كمي لمخاطر الخصوصية مدعومة بنظرية، بدون الاعتماد على استراتيجيات هجوم محددة
طرق الدفاع البسيطة القائمة على GNQ تتفوق على DP-SGD في المقايضة بين الخصوصية والفائدة
يمكن لـ GNQ شرح والتنبؤ بأنماط نجاح هجمات الخصوصية المختلفة

القيود

الافتراضات النظرية: تعتمد على افتراضات مثل توزيع التدرج الغاوسي والارتباط الخطي للتدرجات
التعقيد الحسابي: بالنسبة للنماذج الكبيرة، تتطلب طرق التقريب (مثل القطرية)
طرق الدفاع البسيطة: تم النظر فقط في استراتيجية إزالة نقاط البيانات

الاتجاهات المستقبلية

استراتيجيات دفاع أكثر دقة: بدلاً من إزالة نقاط البيانات بالكامل، إضافة كمية صغيرة من الضوضاء إلى تدرجات النقاط عالية المخاطر
تطبيقات النسيان الآلي: يمكن لـ GNQ خدمة مجال النسيان الآلي الناشئ
تحسين النماذج الكبيرة: تطوير طرق حساب GNQ أكثر كفاءة

التقييم المتعمق

المزايا

الابتكار النظري قوي: أول ربط كمي بين الهندسة التدرجية وتسريب الخصوصية من منظور نظرية المعلومات
القيمة العملية عالية: توفير طريقة تقييم الخصوصية بدون الحاجة إلى تعديل خوارزمية التدريب، وهو ما يتوافق مع احتياجات التطبيقات العملية
العمومية جيدة: الطريقة لا تعتمد على معمارية نموذج محددة أو استراتيجية هجوم
التجارب شاملة: التحقق من فعالية الطريقة عبر مجموعات بيانات ونماذج متعددة

أوجه القصور

الافتراضات النظرية قوية: قد لا يكون افتراض التوزيع الغاوسي للتدرج صحيحاً في الممارسة العملية
مشاكل قابلية التوسع: حتى مع استخدام طرق التقريب، قد تكون النفقات الحسابية كبيرة للنماذج الضخمة جداً
استراتيجية دفاع واحدة: تم استكشاف طريقة دفاع واحدة فقط وهي إزالة البيانات
ضمانات الخصوصية طويلة الأجل: غياب تحليل استمرارية حماية الخصوصية في البيئات الديناميكية

التأثير

المساهمة النظرية: توفير أداة نظرية جديدة لحماية الخصوصية في التعلم الآلي
التوجيه العملي: توفير طريقة تقييم مخاطر الخصوصية لأنظمة ML المنشورة فعلياً
الإلهام البحثي: فتح اتجاه جديد لتحليل الخصوصية بناءً على ديناميكيات التدريب

السيناريوهات المناسبة

أنظمة ML للمؤسسات: الحاجة إلى تقييم مخاطر الخصوصية دون تعديل كبير لعملية التدريب
نشر النماذج مفتوحة المصدر: تقييم وتقليل مخاطر تسريب الخصوصية قبل نشر النموذج
الامتثال التنظيمي: توفير أداة كمية لامتثال قوانين الخصوصية
أداة البحث: توفير وسيلة تحليل جديدة لأبحاث حماية الخصوصية في التعلم الآلي

التقييم الشامل: هذه ورقة بحثية ذات قيمة نظرية وعملية مهمة في مجال حماية الخصوصية في التعلم الآلي. يملأ مفهوم تفرد التدرج المقترح في الورقة فجوة مهمة في الطرق الموجودة، ويوفر أداة تقييم مخاطر الخصوصية أكثر عملية للتطبيقات الفعلية. على الرغم من وجود بعض القيود في الافتراضات النظرية والتعقيد الحسابي، فإن ابتكارها وقيمتها العملية تجعلها مساهمة مهمة في هذا المجال.