2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic

बहु-दृश्य ग्राफ विशेषता प्रसार गोपनीयता संरक्षण और विशेषता विरलता के लिए

मूल जानकारी

  • पेपर ID: 2510.11347
  • शीर्षक: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
  • लेखक: Etzion Harari, Moshe Unger (Tel Aviv University)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.11347v1

सारांश

ग्राफ न्यूरल नेटवर्क (GNNs) संबंधपरक डेटा में नोड वर्गीकरण कार्यों में उल्लेखनीय सफलता प्राप्त कर चुके हैं, लेकिन इनकी प्रभावशीलता अक्सर पूर्ण नोड विशेषताओं की उपलब्धता पर निर्भर करती है। हालांकि, कई वास्तविक परिदृश्यों में, विशेषता मैट्रिक्स अत्यधिक विरल होता है या संवेदनशील जानकारी रखता है, जिससे प्रदर्शन में गिरावट और गोपनीयता जोखिम बढ़ता है। इन चुनौतियों को हल करने के लिए, यह पेपर एक नोवल बहु-दृश्य विशेषता प्रसार (MFP) ढांचा प्रस्तावित करता है जो विशेषता विरलता की स्थितियों में नोड वर्गीकरण प्रदर्शन को बढ़ाता है और साथ ही गोपनीयता संरक्षण को बढ़ावा देता है। MFP पारंपरिक विशेषता प्रसार (FP) को उपलब्ध विशेषताओं को कई गाऊसी शोर दृश्यों में विभाजित करके विस्तारित करता है, जहां प्रत्येक दृश्य ग्राफ टोपोलॉजी के माध्यम से स्वतंत्र रूप से जानकारी का प्रसार करता है। एकत्रित प्रतिनिधित्व समृद्ध और मजबूत नोड एम्बेडिंग का उत्पादन करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान ग्राफ न्यूरल नेटवर्क में दो मुख्य समस्याओं को संबोधित करता है:

  1. विशेषता विरलता समस्या: व्यावहारिक अनुप्रयोगों में, ग्राफ डेटा की नोड विशेषता मैट्रिक्स अक्सर अत्यधिक विरल या अधूरी होती है, जिससे GNN प्रदर्शन में गंभीर गिरावट आती है
  2. गोपनीयता संरक्षण समस्या: नोड विशेषताएं अक्सर संवेदनशील व्यक्तिगत जानकारी (जैसे जनसांख्यिकीय डेटा, व्यवहार पैटर्न आदि) रखती हैं, जिनका सीधा उपयोग गोपनीयता रिसाव का कारण बन सकता है

समस्या की महत्ता

  • व्यावहारिक आवश्यकता: सोशल नेटवर्क, ई-कॉमर्स, चिकित्सा प्रणाली आदि क्षेत्रों में विशेषता की कमी और गोपनीयता संवेदनशीलता की समस्या व्यापक है
  • नियामक आवश्यकता: GDPR जैसे गोपनीयता कानून डेटा विश्लेषण में संवेदनशील जानकारी के जोखिम को कम करने की आवश्यकता रखते हैं
  • तकनीकी चुनौती: मौजूदा तरीके गोपनीयता संरक्षण और मॉडल प्रदर्शन के बीच गंभीर व्यापार-बंद का सामना करते हैं

मौजूदा तरीकों की सीमाएं

  1. पारंपरिक विशेषता प्रसार (FP): हालांकि विशेषता विरलता को कम कर सकता है, लेकिन प्रदर्शन पूर्ण विशेषताओं के साथ प्रशिक्षित मॉडल से काफी कम है, और संवेदनशील जानकारी को पुनर्निर्माण कर सकता है
  2. विभेदक गोपनीयता विधि: शोर जोड़कर गोपनीयता की रक्षा करते हैं, लेकिन अक्सर मॉडल प्रदर्शन का त्याग करते हैं
  3. ग्राफ गुमनामीकरण: ग्राफ संरचना को अत्यधिक नुकसान पहुंचा सकता है, जिससे सीखने की प्रभावशीलता प्रभावित होती है

मुख्य योगदान

  1. MFP ढांचा प्रस्तावित करना: विशेषता विरलता और गोपनीयता संरक्षण दोनों को संबोधित करने वाला पहला ग्राफ लर्निंग ढांचा
  2. बहु-दृश्य प्रसार तंत्र: कई आंशिक शोर दृश्यों के स्वतंत्र प्रसार और एकत्रीकरण के माध्यम से प्रतिनिधित्व सीखने की क्षमता में वृद्धि
  3. गोपनीयता संरक्षण सत्यापन: यह साबित करना कि प्रसार आउटपुट मूल विशेषताओं का प्रतिस्थापन प्रक्षेप है, पुनर्निर्माण नहीं, जिससे गोपनीयता रिसाव से बचाव होता है
  4. व्यापक प्रायोगिक मूल्यांकन: कई बेंचमार्क डेटासेट पर MFP की प्रभावशीलता और मजबूती का सत्यापन
  5. संवेदनशीलता विश्लेषण: ग्राफ समरूपता, प्रसार गहराई, दृश्य संख्या आदि मुख्य कारकों के प्रभाव का व्यवस्थित विश्लेषण

विधि विवरण

कार्य परिभाषा

इनपुट: विशेषता ग्राफ G = {X, E}, जहां E किनारों का समुच्चय है, X ∈ R^{|V|×d} संभवतः संवेदनशील विशेषताओं वाली नोड विशेषता मैट्रिक्स है आउटपुट: नोड वर्गीकरण भविष्यवाणी Ŷ ∈ R^{|V|} उद्देश्य: संवेदनशील विशेषताओं की गोपनीयता की रक्षा करते हुए उच्च-प्रदर्शन नोड वर्गीकरण प्राप्त करना

मॉडल आर्किटेक्चर

MFP ढांचे में तीन मुख्य घटक हैं:

1. यादृच्छिक विरल नमूनाकरण (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  यदि Xᵢc ∈ k
    ϵᵢc,  यदि Xᵢc ∉ k
}

जहां ϵᵢc ~ N(μ, σ²) गाऊसी शोर है, k संरक्षित विशेषता उपसमुच्चय है।

2. बहु-दृश्य विशेषता प्रसार (Multi-view Feature Propagation)

प्रत्येक दृश्य t ∈ {1,...,η} के लिए:

  • संरक्षित विशेषताओं k से यादृच्छिक रूप से उपसमुच्चय kₜ का नमूना लें (नमूनाकरण दर p)
  • शोर विशेषता मैट्रिक्स X̃^(t) का निर्माण करें, केवल kₜ में विशेषताएं शामिल करें
  • विशेषता प्रसार लागू करें: H^(ι) = ÂH^(ι-1), जहां H^(0) = X̃^(t)
  • प्रत्येक पुनरावृत्ति के बाद ज्ञात विशेषताओं को रीसेट करें: H^(ι)_k = X̃^(t)_k

3. दृश्य एकत्रीकरण

अंतिम प्रतिनिधित्व स्तंभ वेक्टर संयोजन के माध्यम से प्राप्त किया जाता है:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

तकनीकी नवाचार बिंदु

  1. बहु-दृश्य रणनीति: पारंपरिक FP के एकल प्रसार के विपरीत, MFP कई स्वतंत्र दृश्यों के माध्यम से पूरक जानकारी को कैप्चर करता है
  2. गोपनीयता संरक्षण तंत्र: यादृच्छिक नमूनाकरण और शोर इंजेक्शन के माध्यम से संवेदनशील जानकारी के जोखिम को सीमित करता है
  3. मजबूती वृद्धि: बहु-दृश्य एकत्रीकरण एकल विशेषता उपसमुच्चय पर अति-फिटिंग को कम करता है
  4. नियंत्रणीय गोपनीयता-उपयोगिता व्यापार-बंद: दृश्य संख्या, नमूनाकरण दर आदि पैरामीटर को समायोजित करके प्रदर्शन और गोपनीयता को संतुलित करता है

प्रायोगिक सेटअप

डेटासेट

  1. Planetoid बेंचमार्क डेटासेट:
    • Cora: 2,708 नोड्स, 1,433 विशेषताएं, 7 वर्ग, समरूपता 81.0%
    • Citeseer: 3,327 नोड्स, 3,703 विशेषताएं, 6 वर्ग, समरूपता 73.6%
    • Pubmed: 19,717 नोड्स, 500 विशेषताएं, 3 वर्ग, समरूपता 80.2%
  2. MixHop सिंथेटिक डेटासेट: 5,000 नोड्स, 10 वर्ग, समरूपता 0.0-0.9 रेंज में नियंत्रणीय

मूल्यांकन मेट्रिक्स

  1. वर्गीकरण प्रदर्शन: सटीकता (Accuracy) और F1 स्कोर
  2. विशेषता जोखिम:
    • RMSE: मूल विशेषताओं के साथ दूरी अंतर को मापना
    • पियर्सन सहसंबंध गुणांक (PCC): दिशात्मक समानता को मापना
  3. क्रॉस-प्रतिनिधित्व सामान्यीकरण: विभिन्न प्रतिनिधित्वों के बीच मॉडल स्थानांतरण प्रदर्शन

तुलना विधियां

  • पारंपरिक विधियां: लेबल प्रसार (LP), स्थिति एन्कोडिंग (PE)
  • विरल विशेषता विधियां: GCNMF, PaGNN, विशेषता प्रसार (FP), यादृच्छिक विशेषता प्रसार (RFP)
  • बेंचमार्क विधि: पूर्ण विशेषता GCN (कोई गोपनीयता संरक्षण नहीं)

कार्यान्वयन विवरण

  • विशेषता विरलता: 99% (केवल 1% मूल विशेषताएं संरक्षित)
  • MFP पैरामीटर: η=10 दृश्य, γ=40 प्रसार पुनरावृत्तियां, p=0.8 नमूनाकरण दर
  • नेटवर्क आर्किटेक्चर: दो-स्तरीय GCN
  • प्रशिक्षण सेटअप: प्रति वर्ग 20 प्रशिक्षण नोड्स, 1500 सत्यापन नोड्स

प्रायोगिक परिणाम

मुख्य परिणाम

99% विशेषता विरलता की स्थिति में नोड वर्गीकरण सटीकता तुलना:

डेटासेटPaGNNGCNMFPELPFPRFPMFPGCN(पूर्ण)
Cora58.0±0.534.5±2.076.3±0.274.6±0.378.2±0.379.3±0.480.1±0.380.39
Citeseer46.0±0.530.6±1.165.8±0.364.6±0.465.4±0.565.8±0.266.2±0.267.48
Pubmed54.2±0.739.8±0.273.7±0.373.8±0.574.2±0.574.8±0.376.2±0.577.36

मुख्य निष्कर्ष:

  • MFP सभी डेटासेट पर सर्वोत्तम प्रदर्शन प्राप्त करता है
  • पूर्ण विशेषता GCN की तुलना में, MFP में केवल मामूली प्रदर्शन गिरावट है (1-2%)
  • अन्य विरल विशेषता विधियों से काफी बेहतर है

गोपनीयता संरक्षण विश्लेषण

  1. विशेषता दूरी विश्लेषण: MFP और FP का RMSE वितरण यादृच्छिक शोर के समान है, जो दर्शाता है कि मूल विशेषताओं का पुनर्निर्माण नहीं हुआ है
  2. सहसंबंध विश्लेषण: MFP का PCC मान मुख्य रूप से -0.1, 0.1 अंतराल में केंद्रित है, FP से काफी कम है, जो बेहतर गोपनीयता संरक्षण दर्शाता है
  3. क्रॉस-प्रतिनिधित्व सामान्यीकरण: विभिन्न प्रतिनिधित्वों के बीच मॉडल प्रदर्शन में भारी गिरावट (जैसे Cora डेटासेट में 0.87 से 0.56 तक), जो साबित करता है कि प्रसार आउटपुट प्रतिस्थापन प्रतिनिधित्व है, पुनर्निर्माण नहीं

संवेदनशीलता विश्लेषण

  1. समरूपता प्रभाव:
    • MFP सभी समरूपता स्तरों पर FP से बेहतर है
    • कम समरूपता परिदृश्य में लाभ अधिक स्पष्ट है
    • उच्च समरूपता (>0.7) समय दोनों विधियों का प्रदर्शन समान होता है
  2. दृश्य संख्या प्रभाव:
    • कम दृश्य (η≤5) महत्वपूर्ण प्रदर्शन सुधार लाते हैं
    • η=10 पर प्रदर्शन स्थिर होता है
    • अत्यधिक दृश्य अनावश्यकता ला सकते हैं
  3. प्रसार गहराई प्रभाव:
    • प्रदर्शन प्रसार पुनरावृत्तियों के साथ बढ़ता है, लेकिन जल्दी पठार तक पहुंचता है
    • γ=40 एक उचित डिफ़ॉल्ट सेटिंग है
    • विभिन्न डेटासेट के लिए इष्टतम गहराई में मामूली अंतर है

संबंधित कार्य

ग्राफ न्यूरल नेटवर्क

  • GCN/GAT: समरूपता सिद्धांत का उपयोग करके नोड प्रतिनिधित्व सीखना
  • विशेषता कमी हैंडलिंग: PaGNN, GCNMF आदि विधियां अधूरी विशेषताओं को संभालती हैं

गोपनीयता संरक्षण ग्राफ लर्निंग

  • विभेदक गोपनीयता: शोर इंजेक्शन के माध्यम से गोपनीयता की रक्षा, लेकिन बड़ी प्रदर्शन हानि
  • ग्राफ गुमनामीकरण: गोपनीयता की रक्षा के लिए ग्राफ संरचना को संशोधित करना
  • विशेषता विरलीकरण: विशेषता जोखिम को कम करके गोपनीयता जोखिम को कम करना

विशेषता प्रसार

  • शास्त्रीय FP: Dirichlet ऊर्जा न्यूनीकरण पर आधारित विशेषता प्रसार
  • यादृच्छिक विशेषता प्रसार: कई ट्रैजेक्टरी प्रसार के माध्यम से प्रतिनिधित्व में वृद्धि

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. MFP गोपनीयता संरक्षण और प्रदर्शन रखरखाव के दोहरे उद्देश्य को सफलतापूर्वक प्राप्त करता है
  2. बहु-दृश्य रणनीति विशेषता विरलता की स्थितियों में प्रतिनिधित्व सीखने की क्षमता को प्रभावी ढंग से बढ़ाती है
  3. प्रसार आउटपुट मूल विशेषताओं का प्रतिस्थापन प्रक्षेप है, पुनर्निर्माण नहीं, जो गोपनीयता सुरक्षा की रक्षा करता है
  4. ढांचा मुख्य हाइपरपैरामीटर के प्रति अच्छी मजबूती प्रदर्शित करता है

सीमाएं

  1. विशेषता संवेदनशीलता धारणा: वर्तमान में सभी विशेषताओं को समान संवेदनशीलता मानता है, व्यावहारिक रूप से भेदभावपूर्ण उपचार की आवश्यकता हो सकती है
  2. गोपनीयता परिमाणीकरण: औपचारिक गोपनीयता गारंटी की कमी (जैसे ε-विभेदक गोपनीयता)
  3. स्केलेबिलिटी सत्यापन: मुख्य रूप से मध्यम आकार के ग्राफ पर सत्यापित, बड़े ग्राफ पर प्रदर्शन आगे के अनुसंधान की आवश्यकता है
  4. विषम ग्राफ अनुकूलन: विषम ग्राफ पर प्रदर्शन को आगे सत्यापित करने की आवश्यकता है

भविष्य की दिशाएं

  1. औपचारिक गोपनीयता गारंटी तंत्र को एकीकृत करना
  2. गतिशील ग्राफ और बड़े पैमाने पर ग्राफ परिदृश्यों तक विस्तार
  3. विषम ग्राफ पर अनुकूलन सुधार का अनुसंधान
  4. संघीय लर्निंग वातावरण में अनुप्रयोग की खोज

गहन मूल्यांकन

शक्तियां

  1. समस्या महत्ता: विशेषता विरलता और गोपनीयता संरक्षण की व्यावहारिक आवश्यकता को एक साथ संबोधित करता है
  2. विधि नवाचार: बहु-दृश्य प्रसार रणनीति मौलिक और प्रभावी है
  3. प्रायोगिक पूर्णता: व्यापक तुलनात्मक प्रयोग और संवेदनशीलता विश्लेषण
  4. सैद्धांतिक समर्थन: Dirichlet ऊर्जा और बहु-दृश्य लर्निंग के ठोस सैद्धांतिक आधार पर
  5. व्यावहारिक मूल्य: तैनाती योग्य गोपनीयता-संरक्षण ग्राफ लर्निंग समाधान प्रदान करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: MFP प्रदर्शन लाभ की सैद्धांतिक व्याख्या की कमी
  2. सीमित गोपनीयता गारंटी: औपचारिक गोपनीयता संरक्षण सीमा प्रदान नहीं करता है
  3. कम्प्यूटेशनल जटिलता: बहु-दृश्य प्रसंस्करण कम्प्यूटेशनल ओवरहेड बढ़ाता है, जटिलता विश्लेषण की कमी
  4. अनुप्रयोग परिदृश्य सीमा: मुख्य रूप से समरूप ग्राफ के लिए उपयुक्त, विषम ग्राफ प्रदर्शन अज्ञात है

प्रभाव

  1. शैक्षणिक योगदान: गोपनीयता-संरक्षण ग्राफ लर्निंग के लिए नई अनुसंधान दिशा प्रदान करता है
  2. व्यावहारिक मूल्य: सोशल नेटवर्क, सिफारिश प्रणाली, चिकित्सा आदि संवेदनशील क्षेत्रों में अनुप्रयोग संभावना है
  3. पुनरुत्पादनीयता: लेखकों ने खुला स्रोत कार्यान्वयन प्रदान किया है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

  1. सोशल नेटवर्क विश्लेषण: उपयोगकर्ता प्रोफाइलिंग विश्लेषण में गोपनीयता संरक्षण
  2. चिकित्सा ग्राफ खनन: रोगी नेटवर्क में रोग भविष्यवाणी
  3. वित्तीय जोखिम नियंत्रण: लेनदेन नेटवर्क में धोखाधड़ी का पता लगाना
  4. सिफारिश प्रणाली: उपयोगकर्ता-वस्तु ग्राफ में व्यक्तिगत सिफारिशें

संदर्भ

पेपर ग्राफ न्यूरल नेटवर्क, गोपनीयता संरक्षण, विशेषता प्रसार आदि क्षेत्रों के महत्वपूर्ण कार्यों का संदर्भ देता है, जिनमें शामिल हैं:

  • Kipf & Welling (2016): Graph Convolutional Networks
  • Rossi et al. (2022): Feature Propagation effectiveness
  • Yang et al. (2016): Planetoid benchmark datasets
  • Zhu et al. (2020): Homophily in graph neural networks

समग्र मूल्यांकन: यह पेपर ग्राफ न्यूरल नेटवर्क में विशेषता विरलता और गोपनीयता संरक्षण की दोहरी चुनौतियों के लिए एक नवाचारी बहु-दृश्य विशेषता प्रसार ढांचा प्रस्तावित करता है। विधि डिजाइन उचित है, प्रायोगिक सत्यापन व्यापक है, व्यावहारिकता बनाए रखते हुए गोपनीयता-संरक्षण ग्राफ लर्निंग अनुसंधान के अग्रभाग को आगे बढ़ाता है। हालांकि सैद्धांतिक विश्लेषण और गोपनीयता गारंटी के पहलुओं में सुधार की गुंजाइश है, लेकिन समग्र रूप से यह उच्च-गुणवत्ता का अनुसंधान कार्य है।