2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger

Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.

academic

نشر الميزات متعددة الآراء في الرسوم البيانية لحماية الخصوصية وندرة الميزات

المعلومات الأساسية

معرّف الورقة: 2510.11347
العنوان: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
المؤلفون: Etzion Harari, Moshe Unger (جامعة تل أبيب)
التصنيف: cs.LG (التعلم الآلي)
تاريخ النشر: 13 أكتوبر 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.11347v1

الملخص

حققت شبكات الأعصاب الرسومية (GNNs) نجاحاً ملحوظاً في مهام تصنيف العقد في البيانات العلائقية، لكن فعاليتها غالباً ما تعتمد على توفر ميزات العقد الكاملة. ومع ذلك، في العديد من السيناريوهات الواقعية، تكون مصفوفة الميزات نادرة جداً أو تحتوي على معلومات حساسة، مما يؤدي إلى تدهور الأداء وزيادة مخاطر الخصوصية. لمعالجة هذه التحديات، تقترح هذه الورقة إطار عمل جديد لنشر الميزات متعددة الآراء (MFP) يعزز أداء تصنيف العقد في ظروف ندرة الميزات مع تعزيز حماية الخصوصية. يوسع MFP نشر الميزات التقليدي (FP) بتقسيم الميزات المتاحة إلى عدة آراء مع ضوضاء غاوسية، حيث ينتشر كل رأي المعلومات بشكل مستقل عبر طوبولوجيا الرسم البياني. ينتج عن تجميع التمثيلات تضمينات عقدة غنية وقوية.

السياق البحثي والدافع

تعريف المشكلة

يعالج هذا البحث مشكلتين أساسيتين في شبكات الأعصاب الرسومية:

مشكلة ندرة الميزات: في التطبيقات العملية، غالباً ما تكون مصفوفة ميزات عقد البيانات الرسومية نادرة جداً أو غير مكتملة، مما يؤدي إلى انخفاض حاد في أداء GNN
مشكلة حماية الخصوصية: غالباً ما تحتوي ميزات العقد على معلومات شخصية حساسة (مثل البيانات الديموغرافية وأنماط السلوك)، وقد يؤدي الاستخدام المباشر إلى تسرب الخصوصية

أهمية المشكلة

الاحتياجات العملية: تواجه الشبكات الاجتماعية والتجارة الإلكترونية والأنظمة الطبية مشاكل شائعة في نقص الميزات وحساسية الخصوصية
المتطلبات التنظيمية: تتطلب لوائح الخصوصية مثل GDPR تقليل التعرض للمعلومات الحساسة في تحليل البيانات
التحديات التقنية: تواجه الطرق الموجودة مقايضة شديدة بين حماية الخصوصية وأداء النموذج

قيود الطرق الموجودة

نشر الميزات التقليدي (FP): على الرغم من أنه يمكن تخفيف ندرة الميزات، إلا أن الأداء لا تزال أقل بكثير من النماذج المدربة على ميزات كاملة، وقد تعيد بناء المعلومات الحساسة
طرق الخصوصية التفاضلية: تحمي الخصوصية بإضافة ضوضاء، لكنها غالباً ما تضحي بأداء النموذج
إخفاء الهوية الرسومي: قد يدمر البنية الرسومية بشكل مفرط، مما يؤثر على فعالية التعلم

المساهمات الأساسية

اقتراح إطار عمل MFP: أول إطار عمل للتعلم الرسومي يعالج ندرة الميزات وحماية الخصوصية معاً
آلية النشر متعددة الآراء: من خلال النشر المستقل والتجميع لعدة آراء جزئية مع ضوضاء، يتم تحسين قدرة التعلم التمثيلي
التحقق من حماية الخصوصية: إثبات أن مخرجات النشر هي استيفاء بديل للميزات الأصلية وليس إعادة بناء، مما يحمي الخصوصية من التسرب
التقييم التجريبي الشامل: التحقق من فعالية وقوة MFP على عدة مجموعات بيانات معيارية
تحليل الحساسية: تحليل منهجي لتأثير التجانس الرسومي وعمق النشر وعدد الآراء والعوامل الرئيسية الأخرى

شرح الطريقة

تعريف المهمة

الإدخال: رسم بياني نسبي G = {X, E}، حيث E هي مجموعة الحواف، X ∈ R^{|V|×d} هي مصفوفة ميزات العقد التي قد تحتوي على سمات حساسة الإخراج: تنبؤات تصنيف العقد Ŷ ∈ R^{|V|} الهدف: تحقيق تصنيف عقد عالي الأداء مع حماية الميزات الحساسة

معمارية النموذج

يتضمن إطار عمل MFP ثلاثة مكونات أساسية:

1. أخذ العينات العشوائي النادر (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  إذا كان Xᵢc ∈ k
    ϵᵢc,  إذا كان Xᵢc ∉ k
}

حيث ϵᵢc ~ N(μ, σ²) هي ضوضاء غاوسية، و k هي مجموعة الميزات المحتفظ بها.

2. نشر الميزات متعددة الآراء (Multi-view Feature Propagation)

لكل رأي t ∈ {1,...,η}:

أخذ عينات عشوائية من مجموعة فرعية kₜ من الميزات المحتفظ بها (معدل أخذ العينات p)
بناء مصفوفة ميزات مع ضوضاء X̃^(t)، تحتوي فقط على ميزات في kₜ
تطبيق نشر الميزات: H^(ι) = ÂH^(ι-1)، حيث H^(0) = X̃^(t)
إعادة تعيين الميزات المعروفة بعد كل تكرار: H^(ι)_k = X̃^(t)_k

3. تجميع الآراء

يتم الحصول على التمثيل النهائي من خلال ربط المتجهات العمودية:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

نقاط الابتكار التقني

استراتيجية متعددة الآراء: بخلاف FP التقليدي ذي النشر الواحد، يلتقط MFP معلومات تكميلية من خلال عدة آراء مستقلة
آلية حماية الخصوصية: تحد من تعرض المعلومات الحساسة من خلال أخذ العينات العشوائية وحقن الضوضاء
تعزيز المتانة: يقلل التجميع متعدد الآراء من الإفراط في التدريب على مجموعة ميزات واحدة
موازنة قابلة للتحكم بين الخصوصية والفائدة: موازنة الأداء والخصوصية من خلال تعديل معاملات مثل عدد الآراء ومعدل أخذ العينات

إعداد التجربة

مجموعات البيانات

مجموعات بيانات معيار Planetoid:
- Cora: 2,708 عقدة، 1,433 ميزة، 7 فئات، تجانس 81.0%
- Citeseer: 3,327 عقدة، 3,703 ميزات، 6 فئات، تجانس 73.6%
- Pubmed: 19,717 عقدة، 500 ميزة، 3 فئات، تجانس 80.2%
مجموعات بيانات MixHop الاصطناعية: 5,000 عقدة، 10 فئات، تجانس قابل للتحكم في النطاق 0.0-0.9

مقاييس التقييم

أداء التصنيف: الدقة (Accuracy) ودرجة F1
تعرض الميزات:
- RMSE: تحديد كمي للاختلافات في المسافة من الميزات الأصلية
- معامل الارتباط بيرسون (PCC): قياس التشابه الاتجاهي
التعميم عبر التمثيلات: أداء نقل النموذج بين التمثيلات المختلفة

طرق المقارنة

الطرق التقليدية: نشر التسميات (LP)، الترميز الموضعي (PE)
طرق الميزات النادرة: GCNMF، PaGNN، نشر الميزات (FP)، نشر الميزات العشوائي (RFP)
الطرق المرجعية: GCN بميزات كاملة (بدون حماية خصوصية)

تفاصيل التنفيذ

ندرة الميزات: 99% (الاحتفاظ بـ 1% فقط من الميزات الأصلية)
معاملات MFP: η=10 آراء، γ=40 تكرار نشر، p=0.8 معدل أخذ العينات
معمارية الشبكة: GCN بطبقتين
إعدادات التدريب: 20 عقدة تدريب لكل فئة، 1500 عقدة تحقق

نتائج التجربة

النتائج الرئيسية

مقارنة دقة تصنيف العقد في ظروف ندرة الميزات بنسبة 99%:

مجموعة البيانات	PaGNN	GCNMF	PE	LP	FP	RFP	MFP	GCN(كامل)
Cora	58.0±0.5	34.5±2.0	76.3±0.2	74.6±0.3	78.2±0.3	79.3±0.4	80.1±0.3	80.39
Citeseer	46.0±0.5	30.6±1.1	65.8±0.3	64.6±0.4	65.4±0.5	65.8±0.2	66.2±0.2	67.48
Pubmed	54.2±0.7	39.8±0.2	73.7±0.3	73.8±0.5	74.2±0.5	74.8±0.3	76.2±0.5	77.36

النتائج الرئيسية:

حقق MFP أفضل أداء على جميع مجموعات البيانات
مقارنة بـ GCN بميزات كاملة، يوجد انخفاض طفيف في الأداء فقط (1-2%)
يتفوق بشكل ملحوظ على طرق الميزات النادرة الأخرى

تحليل حماية الخصوصية

تحليل مسافة الميزات: توزيع RMSE لـ MFP و FP متشابه جداً مع الضوضاء العشوائية، مما يشير إلى عدم إعادة بناء الميزات الأصلية
تحليل الارتباط: تتركز قيم PCC لـ MFP بشكل أساسي في الفترة -0.1, 0.1، أقل بكثير من FP، مما يشير إلى حماية خصوصية أفضل
التعميم عبر التمثيلات: انخفاض حاد في أداء النموذج بين التمثيلات المختلفة (مثل مجموعة بيانات Cora من 0.87 إلى 0.56)، مما يثبت أن مخرجات النشر هي تمثيل بديل وليس إعادة بناء

تحليل الحساسية

تأثير التجانس:
- يتفوق MFP على FP في جميع مستويات التجانس
- الميزة أكثر وضوحاً في سيناريوهات التجانس المنخفض
- عند التجانس العالي (>0.7)، تتقارب أداء الطريقتين
تأثير عدد الآراء:
- الآراء القليلة (η≤5) تحقق تحسناً ملحوظاً في الأداء
- الأداء تستقر عند η=10
- قد تؤدي الآراء الكثيرة جداً إلى تكرار
تأثير عمق النشر:
- تتحسن الأداء مع زيادة عدد مرات النشر، لكن تصل بسرعة إلى مرحلة الاستقرار
- γ=40 هو إعداد افتراضي معقول
- يختلف العمق الأمثل قليلاً بين مجموعات البيانات المختلفة

الأعمال ذات الصلة

شبكات الأعصاب الرسومية

GCN/GAT: استخدام مبدأ التجانس لتعلم تمثيل العقد
معالجة نقص الميزات: طرق مثل PaGNN و GCNMF للتعامل مع الميزات غير المكتملة

التعلم الرسومي مع حماية الخصوصية

الخصوصية التفاضلية: حماية الخصوصية من خلال حقن الضوضاء، لكن خسارة أداء كبيرة
إخفاء الهوية الرسومي: تعديل بنية الرسم البياني لحماية الخصوصية
تقليل الميزات: تقليل تعرض الميزات لتقليل مخاطر الخصوصية

نشر الميزات

نشر الميزات الكلاسيكي: انتشار الميزات بناءً على تقليل طاقة Dirichlet
نشر الميزات العشوائي: تعزيز التمثيل من خلال نشر متعدد المسارات

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

حقق MFP بنجاح الهدف المزدوج لحماية الخصوصية والحفاظ على الأداء
تعزز استراتيجية متعددة الآراء بشكل فعال قدرة التعلم التمثيلي في ظروف ندرة الميزات
مخرجات النشر هي استيفاء بديل للميزات الأصلية وليس إعادة بناء، مما يحمي سلامة الخصوصية
يتمتع الإطار بمتانة جيدة تجاه المعاملات الفائقة الرئيسية

القيود

افتراض حساسية الميزات: يفترض الحالي أن جميع الميزات لها نفس درجة الحساسية، وقد تتطلب المعالجة الفعلية معالجة تفاضلية
تحديد الخصوصية: نقص الضمانات الرسمية للخصوصية (مثل الخصوصية التفاضلية ε)
التحقق من قابلية التوسع: التحقق الأساسي على الرسوم البيانية متوسطة الحجم، وتحتاج أداء الرسوم البيانية الكبيرة إلى مزيد من البحث
التكيف مع الرسوم البيانية غير المتجانسة: تحتاج الأداء على الرسوم البيانية ذات التجانس القوي إلى التحقق الإضافي

الاتجاهات المستقبلية

دمج آليات ضمان الخصوصية الرسمية
التوسع إلى سيناريوهات الرسوم البيانية الديناميكية والكبيرة الحجم
البحث عن تحسينات التكيف على الرسوم البيانية غير المتجانسة
استكشاف التطبيقات في بيئة التعلم الموحد

التقييم المتعمق

المميزات

أهمية المشكلة: معالجة الاحتياجات الواقعية لحل ندرة الميزات وحماية الخصوصية معاً
ابتكار الطريقة: استراتيجية النشر متعددة الآراء لها أصالة وفعالية
شمول التجارب: تجارب مقارنة شاملة وتحليل حساسية
الدعم النظري: أساس نظري قوي بناءً على طاقة Dirichlet والتعلم متعدد الآراء
القيمة العملية: توفير حل قابل للنشر لحماية الخصوصية في التعلم الرسومي

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري لمزايا أداء MFP
ضمانات خصوصية محدودة: عدم توفير حدود حماية خصوصية رسمية
التعقيد الحسابي: يزيد معالجة متعددة الآراء من التكاليف الحسابية، مع نقص تحليل التعقيد
قيود سيناريو التطبيق: ينطبق بشكل أساسي على الرسوم البيانية المتجانسة، والأداء على الرسوم البيانية غير المتجانسة غير معروفة

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لحماية الخصوصية في التعلم الرسومي
القيمة العملية: لديها إمكانية تطبيق في مجالات حساسة مثل تحليل الشبكات الاجتماعية والأنظمة الطبية والتمويل
قابلية التكرار: يوفر المؤلفون تنفيذاً مفتوح المصدر، مما يسهل التكرار والتوسع

السيناريوهات المناسبة

تحليل الشبكات الاجتماعية: حماية الخصوصية في تحليل ملفات المستخدمين
التنقيب في الرسوم البيانية الطبية: التنبؤ بالأمراض في شبكات المرضى
إدارة المخاطر المالية: الكشف عن الاحتيال في شبكات المعاملات
أنظمة التوصيات: التوصيات الشخصية في رسوم بيانية المستخدم-المنتج

المراجع

تستشهد الورقة بأعمال مهمة في مجالات شبكات الأعصاب الرسومية وحماية الخصوصية ونشر الميزات، بما في ذلك:

Kipf & Welling (2016): Graph Convolutional Networks
Rossi et al. (2022): فعالية نشر الميزات
Yang et al. (2016): مجموعات بيانات معيار Planetoid
Zhu et al. (2020): التجانس في شبكات الأعصاب الرسومية

التقييم الشامل: تقترح هذه الورقة إطار عمل نشر ميزات متعدد الآراء مبتكر لمعالجة التحديات المزدوجة لندرة الميزات وحماية الخصوصية في شبكات الأعصاب الرسومية. تم تصميم الطريقة بشكل معقول، والتحقق التجريبي شامل، وتعزز البحث الحدودي لحماية الخصوصية في التعلم الرسومي مع الحفاظ على الجدوى العملية. على الرغم من وجود مجال للتحسين في التحليل النظري وضمانات الخصوصية، إلا أنها بشكل عام عمل بحثي عالي الجودة.