Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Huang, Zhang, Mumtaz
Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.
academic
استدلال عضوية بيانات التدريب عبر نمذجة عملية غاوس الفوقية: منهج تحليل لاحق
تختبر هجمات استدلال العضوية (MIAs) ما إذا كانت نقطة بيانات تنتمي إلى مجموعة التدريب الخاصة بالنموذج، مما يشكل خطراً خطيراً على الخصوصية. تعتمد الطرق الموجودة عادةً على نماذج الظل أو الوصول إلى استعلامات كثيرة، مما يحد من فائدتها العملية. تقترح هذه الورقة GP-MIA، وهي طريقة فعالة وقابلة للتفسير تعتمد على نمذجة عملية غاوس (GP) الفوقية. باستخدام مقاييس لاحقة من نموذج تدريب واحد (مثل الدقة والإنتروبيا والإحصائيات الخاصة بمجموعة البيانات والميزات الحساسة الاختيارية مثل التدرجات وقياسات NTK)، يقوم GP-MIA بتدريب مصنف GP للتمييز بين الأعضاء وغير الأعضاء، مع توفير تقديرات عدم يقين معايرة. تُظهر التجارب على البيانات الاصطناعية وبيانات الكشف عن الاحتيال في العالم الحقيقي و CIFAR-10 و WikiText-2 أن GP-MIA يحقق دقة عالية وقدرة تعميم، مما يوفر بديلاً عملياً للهجمات الموجودة.
يهدف هذا البحث إلى حل مشكلة هجمات استدلال العضوية في نماذج التعلم الآلي. بالنظر إلى نموذج مدرب fθ* وعينة اختبار (x,y)، الهدف هو تصميم قاعدة استدلال M(fθ*, x, y) ∈ {0,1} لتحديد ما إذا كانت العينة تنتمي إلى مجموعة التدريب.
تشكل هجمات استدلال العضوية تهديداً خطيراً للخصوصية، خاصة في المجالات الحساسة مثل الطب والتمويل والأمان، حيث قد يشكل مجرد الكشف عن ما إذا كان السجل الشخصي قد استُخدم في التدريب انتهاكاً للخصوصية. تكون الشبكات العصبية العميقة عرضة لمثل هذه الهجمات لأنها تُظهر اختلافات سلوكية منهجية بين بيانات التدريب والبيانات غير المرئية.
تقترح هذه الورقة طريقة فعالة تتطلب فقط وصول لاحق إلى نموذج تدريب واحد، مما يتجنب إعادة التدريب أو الوصول الداخلي، مع توفير تقديرات عدم يقين معايرة، مما يعزز الكفاءة والقابلية للتفسير.
بالنظر إلى نموذج إشراف مدرب fθ*: Rd → Rm، فإن مهمة استدلال العضوية هي تصميم دالة M(fθ*, x, y) لتحديد ما إذا كانت العينة (x,y) تنتمي إلى مجموعة التدريب X = {(xi, yi)}ni=1.
Carlini وآخرون (2022) - هجوم نسبة الاحتمالية (LiRA)
Rasmussen & Williams (2006) - تعلم الآلة بعملية غاوس
Ye وآخرون (2022) - هجوم استدلال العضوية المحسّن
Hu وآخرون (2022) - مسح هجمات استدلال العضوية
تقترح هذه الورقة طريقة هجوم استدلال عضوية مبتكرة تعتمد على عملية غاوس، مما يحسن بشكل كبير الكفاءة والفائدة العملية مع الحفاظ على دقة عالية. على الرغم من وجود بعض أوجه القصور النظرية والتجريبية، فإن الفكرة الأساسية والنتائج التجريبية توفر مساهمة قيمة لأبحاث هجمات الخصوصية.