2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic

Multi-View Graph Feature Propagation für Datenschutz und Feature-Sparsität

Grundinformationen

  • Paper-ID: 2510.11347
  • Titel: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
  • Autoren: Etzion Harari, Moshe Unger (Tel Aviv University)
  • Klassifizierung: cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11347v1

Zusammenfassung

Graphische neuronale Netze (GNNs) haben bemerkenswerte Erfolge bei der Knotenklassifizierung in relationalen Daten erzielt, ihre Effektivität hängt jedoch oft von der Verfügbarkeit vollständiger Knotenmerkmale ab. In vielen realen Szenarien ist die Merkmalsmatrix jedoch hochgradig dünn besetzt oder enthält sensible Informationen, was zu Leistungsabfall und erhöhten Datenschutzrisiken führt. Um diese Herausforderungen zu bewältigen, wird in diesem Papier ein neuartiges Multi-View Feature Propagation (MFP)-Framework vorgestellt, das die Leistung der Knotenklassifizierung unter spärlichen Merkmalsbedingungen verbessert und gleichzeitig den Datenschutz fördert. MFP erweitert die traditionelle Feature Propagation (FP), indem verfügbare Merkmale in mehrere Gaußsche Rausch-Views aufgeteilt werden, wobei jede View Informationen unabhängig durch die Graphtopologie propagiert. Die aggregierte Darstellung erzeugt ausdrucksstarke und robuste Knoteneinbettungen.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich hauptsächlich mit zwei Kernproblemen in graphischen neuronalen Netzen:

  1. Feature-Sparsitätsproblem: In praktischen Anwendungen ist die Knotenmerkmalsmatrix von Graphdaten oft hochgradig dünn besetzt oder unvollständig, was zu erheblichen GNN-Leistungseinbußen führt
  2. Datenschutzproblem: Knotenmerkmale enthalten häufig sensible persönliche Informationen (wie demografische Daten, Verhaltensmuster usw.), deren direkte Verwendung zu Datenschutzverletzungen führen kann

Bedeutung des Problems

  • Praktische Anforderungen: Fehlende Merkmale und Datenschutzbedenken sind in sozialen Netzwerken, E-Commerce, Gesundheitssystemen und anderen Bereichen weit verbreitet
  • Regulatorische Anforderungen: Datenschutzbestimmungen wie die DSGVO erfordern die Minimierung der Exposition sensibler Informationen bei der Datenanalyse
  • Technische Herausforderungen: Bestehende Methoden weisen erhebliche Kompromisse zwischen Datenschutz und Modellleistung auf

Einschränkungen bestehender Methoden

  1. Traditionelle Feature Propagation (FP): Kann zwar Feature-Sparsität lindern, aber die Leistung bleibt deutlich unter der von Modellen mit vollständigen Merkmalen, und sensible Informationen könnten rekonstruiert werden
  2. Differenzielle Datenschutzmethoden: Schützen die Privatsphäre durch Rauschzusatz, führen aber oft zu Leistungseinbußen
  3. Graphanonymisierung: Kann die Graphstruktur übermäßig beschädigen und die Lerneffektivität beeinträchtigen

Kernbeiträge

  1. MFP-Framework: Erstes Graph-Learning-Framework, das gleichzeitig Feature-Sparsität und Datenschutz adressiert
  2. Multi-View-Propagationsmechanismus: Verbesserte Darstellungslernfähigkeit durch unabhängige Propagation und Aggregation mehrerer teilweise verrauschter Views
  3. Datenschutzverifikation: Nachweis, dass Propagationsausgaben Ersatzinterpolationen der ursprünglichen Merkmale sind und nicht rekonstruiert werden, wodurch die Privatsphäre geschützt wird
  4. Umfassende experimentelle Bewertung: Validierung der Effektivität und Robustheit von MFP auf mehreren Benchmark-Datensätzen
  5. Sensitivitätsanalyse: Systematische Analyse der Auswirkungen von Graphhomophilie, Propagationstiefe, Anzahl der Views und anderen Schlüsselfaktoren

Methodische Details

Aufgabendefinition

Eingabe: Attributgraph G = {X, E}, wobei E die Kantenmenge ist und X ∈ R^{|V|×d} die Knotenmerkmalsmatrix mit möglicherweise sensiblen Attributen ist Ausgabe: Knotenklassifizierungsvorhersagen Ŷ ∈ R^{|V|} Ziel: Hochleistungs-Knotenklassifizierung erreichen, während sensible Merkmale geschützt werden

Modellarchitektur

Das MFP-Framework besteht aus drei Kernkomponenten:

1. Stochastische spärliche Stichprobenentnahme (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  wenn Xᵢc ∈ k
    ϵᵢc,  wenn Xᵢc ∉ k
}

wobei ϵᵢc ~ N(μ, σ²) Gaußsches Rauschen ist und k die Teilmenge der beibehaltenen Merkmale ist.

2. Multi-View Feature Propagation

Für jede View t ∈ {1,...,η}:

  • Zufällige Stichprobenentnahme einer Teilmenge kₜ aus den beibehaltenen Merkmalen k (Stichprobenquote p)
  • Konstruktion der Rausch-Merkmalsmatrix X̃^(t), die nur Merkmale in kₜ enthält
  • Anwendung der Feature Propagation: H^(ι) = ÂH^(ι-1), wobei H^(0) = X̃^(t)
  • Zurücksetzen bekannter Merkmale nach jeder Iteration: H^(ι)_k = X̃^(t)_k

3. View-Aggregation

Die endgültige Darstellung wird durch Verkettung von Spaltenvektoren erhalten:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Technische Innovationen

  1. Multi-View-Strategie: Im Gegensatz zur traditionellen FP mit einzelner Propagation erfasst MFP durch mehrere unabhängige Views komplementäre Informationen
  2. Datenschutzmechanismus: Zufällige Stichprobenentnahme und Rauscheinspritzung begrenzen die Exposition sensibler Informationen
  3. Robustheitsverbesserung: Multi-View-Aggregation reduziert Überanpassung an einzelne Merkmalsteilmengen
  4. Kontrollierbarer Datenschutz-Nutzen-Kompromiss: Ausgleich von Leistung und Datenschutz durch Anpassung von Parametern wie Anzahl der Views und Stichprobenquote

Experimentelle Einrichtung

Datensätze

  1. Planetoid-Benchmark-Datensätze:
    • Cora: 2.708 Knoten, 1.433 Merkmale, 7 Klassen, Homophilie 81,0%
    • Citeseer: 3.327 Knoten, 3.703 Merkmale, 6 Klassen, Homophilie 73,6%
    • Pubmed: 19.717 Knoten, 500 Merkmale, 3 Klassen, Homophilie 80,2%
  2. MixHop-Synthesedatensätze: 5.000 Knoten, 10 Klassen, kontrollierbare Homophilie im Bereich 0,0-0,9

Bewertungsmetriken

  1. Klassifizierungsleistung: Genauigkeit (Accuracy) und F1-Score
  2. Merkmalexposition:
    • RMSE: Quantifizierung der Distanzunterschiede zu ursprünglichen Merkmalen
    • Pearson-Korrelationskoeffizient (PCC): Messung der Richtungsähnlichkeit
  3. Generalisierung über Darstellungen hinweg: Modellübertragungsleistung zwischen verschiedenen Darstellungen

Vergleichsmethoden

  • Traditionelle Methoden: Label Propagation (LP), Positionskodierung (PE)
  • Spärliche-Merkmals-Methoden: GCNMF, PaGNN, Feature Propagation (FP), Random Feature Propagation (RFP)
  • Baseline-Methoden: Vollständige Feature GCN (ohne Datenschutz)

Implementierungsdetails

  • Feature-Sparsität: 99% (nur 1% der ursprünglichen Merkmale beibehalten)
  • MFP-Parameter: η=10 Views, γ=40 Propagationsiterationen, p=0,8 Stichprobenquote
  • Netzwerkarchitektur: Zwei-Schicht-GCN
  • Trainingseinstellung: 20 Trainingsknoten pro Klasse, 1.500 Validierungsknoten

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Knotenklassifizierungsgenauigkeit unter 99% Feature-Sparsität:

DatensatzPaGNNGCNMFPELPFPRFPMFPGCN(vollständig)
Cora58,0±0,534,5±2,076,3±0,274,6±0,378,2±0,379,3±0,480,1±0,380,39
Citeseer46,0±0,530,6±1,165,8±0,364,6±0,465,4±0,565,8±0,266,2±0,267,48
Pubmed54,2±0,739,8±0,273,7±0,373,8±0,574,2±0,574,8±0,376,2±0,577,36

Wichtigste Erkenntnisse:

  • MFP erreicht auf allen Datensätzen die beste Leistung
  • Im Vergleich zu vollständigen Feature-GCN nur geringfügige Leistungseinbußen (1-2%)
  • Deutlich überlegen gegenüber anderen Methoden für spärliche Merkmale

Datenschutzschutzanalyse

  1. Merkmalsdistanzanalyse: RMSE-Verteilung von MFP und FP ähnelt stark zufälligem Rauschen, was darauf hindeutet, dass ursprüngliche Merkmale nicht rekonstruiert wurden
  2. Korrelationsanalyse: PCC-Werte von MFP konzentrieren sich hauptsächlich im Intervall -0,1, 0,1, deutlich niedriger als FP, was besseren Datenschutz anzeigt
  3. Generalisierung über Darstellungen hinweg: Modellleistung fällt zwischen verschiedenen Darstellungen stark ab (z.B. Cora-Datensatz von 0,87 auf 0,56), was beweist, dass Propagationsausgaben Ersatzdarstellungen und keine Rekonstruktionen sind

Sensitivitätsanalyse

  1. Homophilie-Auswirkungen:
    • MFP übertrifft FP auf allen Homophilie-Ebenen
    • Vorteil ist in Szenarien mit niedriger Homophilie ausgeprägter
    • Bei hoher Homophilie (>0,7) konvergieren die Leistungen beider Methoden
  2. Auswirkungen der Anzahl der Views:
    • Kleine Anzahl von Views (η≤5) führt zu signifikanten Leistungsverbesserungen
    • Bei η=10 stabilisiert sich die Leistung
    • Zu viele Views können Redundanz einführen
  3. Auswirkungen der Propagationstiefe:
    • Leistung verbessert sich mit zunehmender Anzahl von Propagationen, erreicht aber schnell ein Plateau
    • γ=40 ist eine angemessene Standardeinstellung
    • Optimale Tiefe variiert leicht zwischen Datensätzen

Verwandte Arbeiten

Graphische neuronale Netze

  • GCN/GAT: Nutzung des Homophilie-Prinzips für Knotendarstellungslernen
  • Behandlung fehlender Merkmale: PaGNN, GCNMF und andere Methoden zur Behandlung unvollständiger Merkmale

Datenschutzschutz beim Graph-Learning

  • Differenzielle Privatsphäre: Schutz der Privatsphäre durch Rauscheinspritzung, aber mit erheblichen Leistungseinbußen
  • Graphanonymisierung: Änderung der Graphstruktur zum Schutz der Privatsphäre
  • Feature-Sparsifizierung: Verringerung des Datenschutzrisikos durch Reduzierung der Merkmalexposition

Feature Propagation

  • Klassische FP: Merkmalsdiffusion basierend auf Dirichlet-Energieminimierung
  • Zufällige Feature Propagation: Verbesserung der Darstellung durch Multi-Trajektorie-Propagation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. MFP erreicht erfolgreich das doppelte Ziel von Datenschutz und Leistungserhaltung
  2. Die Multi-View-Strategie verbessert effektiv die Darstellungslernfähigkeit unter spärlichen Merkmalsbedingungen
  3. Propagationsausgaben sind Ersatzinterpolationen ursprünglicher Merkmale und keine Rekonstruktionen, was die Privatsphäre schützt
  4. Das Framework zeigt gute Robustheit gegenüber Schlüsselhyperparametern

Einschränkungen

  1. Annahme der Merkmalssensitivität: Aktuelle Annahme, dass alle Merkmale die gleiche Sensitivität haben, könnte in der Praxis differenzierte Behandlung erfordern
  2. Quantifizierung der Privatsphäre: Mangel an formalen Datenschutzgarantien (z.B. ε-differenzielle Privatsphäre)
  3. Validierung der Skalierbarkeit: Hauptsächlich auf mittelgroßen Graphen validiert, Leistung auf großen Graphen erfordert weitere Forschung
  4. Anpassung an heterogene Graphen: Leistung auf Graphen mit stärkerer Heterogenität erfordert weitere Validierung

Zukünftige Richtungen

  1. Integration formaler Datenschutzgarantiemechanismen
  2. Erweiterung auf dynamische und großskalige Graphen
  3. Untersuchung von Anpassungsverbesserungen auf heterogenen Graphen
  4. Erkundung von Anwendungen in föderiertem Lernen

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Adressiert praktische Anforderungen zur gleichzeitigen Lösung von Feature-Sparsität und Datenschutz
  2. Methodische Innovativität: Multi-View-Propagationsstrategie ist originell und effektiv
  3. Experimentelle Vollständigkeit: Umfassende Vergleichsexperimente und Sensitivitätsanalyse
  4. Theoretische Grundlagen: Solide theoretische Grundlagen basierend auf Dirichlet-Energie und Multi-View-Learning
  5. Praktischer Wert: Bietet eine einsatzfähige Lösung für Datenschutz-Graph-Learning

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für Leistungsvorteile von MFP
  2. Begrenzte Datenschutzgarantien: Keine formalen Datenschutzschutzgrenzen
  3. Rechenkomplexität: Multi-View-Verarbeitung erhöht Rechenaufwand, Komplexitätsanalyse fehlt
  4. Einschränkung der Anwendungsszenarien: Hauptsächlich für homophile Graphen geeignet, Leistung auf heterogenen Graphen unbekannt

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für Datenschutz-Graph-Learning
  2. Praktischer Wert: Hat Anwendungspotenzial in sensiblen Bereichen wie sozialen Netzwerken, Empfehlungssystemen und Gesundheitswesen
  3. Reproduzierbarkeit: Autoren stellen Open-Source-Implementierung bereit, erleichtert Reproduktion und Erweiterung

Anwendungsszenarien

  1. Analyse sozialer Netzwerke: Datenschutz bei der Benutzerprofilanalyse
  2. Medizinisches Graph-Mining: Krankheitsvorhersage in Patientennetzwerken
  3. Finanzielle Risikokontrolle: Betrugserkennung in Transaktionsnetzwerken
  4. Empfehlungssysteme: Personalisierte Empfehlungen in Benutzer-Artikel-Graphen

Referenzen

Das Papier zitiert wichtige Arbeiten in den Bereichen graphische neuronale Netze, Datenschutz und Feature Propagation, einschließlich:

  • Kipf & Welling (2016): Graph Convolutional Networks
  • Rossi et al. (2022): Effektivität der Feature Propagation
  • Yang et al. (2016): Planetoid-Benchmark-Datensätze
  • Zhu et al. (2020): Homophilie in graphischen neuronalen Netzen

Gesamtbewertung: Dieses Papier adressiert die doppelte Herausforderung von Feature-Sparsität und Datenschutz in graphischen neuronalen Netzen mit einem innovativen Multi-View-Feature-Propagation-Framework. Das Methodendesign ist solide, die experimentelle Validierung ist umfassend, und es fördert die Forschung an der Grenze des Datenschutz-Graph-Learning, während die Praktikabilität gewahrt bleibt. Obwohl es Raum für Verbesserungen in der theoretischen Analyse und Datenschutzgarantien gibt, ist dies insgesamt eine hochwertige Forschungsarbeit.