2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger

Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.

academic

Multi-View Graph Feature Propagation für Datenschutz und Feature-Sparsität

Grundinformationen

Paper-ID: 2510.11347
Titel: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
Autoren: Etzion Harari, Moshe Unger (Tel Aviv University)
Klassifizierung: cs.LG (Machine Learning)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.11347v1

Zusammenfassung

Graphische neuronale Netze (GNNs) haben bemerkenswerte Erfolge bei der Knotenklassifizierung in relationalen Daten erzielt, ihre Effektivität hängt jedoch oft von der Verfügbarkeit vollständiger Knotenmerkmale ab. In vielen realen Szenarien ist die Merkmalsmatrix jedoch hochgradig dünn besetzt oder enthält sensible Informationen, was zu Leistungsabfall und erhöhten Datenschutzrisiken führt. Um diese Herausforderungen zu bewältigen, wird in diesem Papier ein neuartiges Multi-View Feature Propagation (MFP)-Framework vorgestellt, das die Leistung der Knotenklassifizierung unter spärlichen Merkmalsbedingungen verbessert und gleichzeitig den Datenschutz fördert. MFP erweitert die traditionelle Feature Propagation (FP), indem verfügbare Merkmale in mehrere Gaußsche Rausch-Views aufgeteilt werden, wobei jede View Informationen unabhängig durch die Graphtopologie propagiert. Die aggregierte Darstellung erzeugt ausdrucksstarke und robuste Knoteneinbettungen.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich hauptsächlich mit zwei Kernproblemen in graphischen neuronalen Netzen:

Feature-Sparsitätsproblem: In praktischen Anwendungen ist die Knotenmerkmalsmatrix von Graphdaten oft hochgradig dünn besetzt oder unvollständig, was zu erheblichen GNN-Leistungseinbußen führt
Datenschutzproblem: Knotenmerkmale enthalten häufig sensible persönliche Informationen (wie demografische Daten, Verhaltensmuster usw.), deren direkte Verwendung zu Datenschutzverletzungen führen kann

Bedeutung des Problems

Praktische Anforderungen: Fehlende Merkmale und Datenschutzbedenken sind in sozialen Netzwerken, E-Commerce, Gesundheitssystemen und anderen Bereichen weit verbreitet
Regulatorische Anforderungen: Datenschutzbestimmungen wie die DSGVO erfordern die Minimierung der Exposition sensibler Informationen bei der Datenanalyse
Technische Herausforderungen: Bestehende Methoden weisen erhebliche Kompromisse zwischen Datenschutz und Modellleistung auf

Einschränkungen bestehender Methoden

Traditionelle Feature Propagation (FP): Kann zwar Feature-Sparsität lindern, aber die Leistung bleibt deutlich unter der von Modellen mit vollständigen Merkmalen, und sensible Informationen könnten rekonstruiert werden
Differenzielle Datenschutzmethoden: Schützen die Privatsphäre durch Rauschzusatz, führen aber oft zu Leistungseinbußen
Graphanonymisierung: Kann die Graphstruktur übermäßig beschädigen und die Lerneffektivität beeinträchtigen

Kernbeiträge

MFP-Framework: Erstes Graph-Learning-Framework, das gleichzeitig Feature-Sparsität und Datenschutz adressiert
Multi-View-Propagationsmechanismus: Verbesserte Darstellungslernfähigkeit durch unabhängige Propagation und Aggregation mehrerer teilweise verrauschter Views
Datenschutzverifikation: Nachweis, dass Propagationsausgaben Ersatzinterpolationen der ursprünglichen Merkmale sind und nicht rekonstruiert werden, wodurch die Privatsphäre geschützt wird
Umfassende experimentelle Bewertung: Validierung der Effektivität und Robustheit von MFP auf mehreren Benchmark-Datensätzen
Sensitivitätsanalyse: Systematische Analyse der Auswirkungen von Graphhomophilie, Propagationstiefe, Anzahl der Views und anderen Schlüsselfaktoren

Methodische Details

Aufgabendefinition

Eingabe: Attributgraph G = {X, E}, wobei E die Kantenmenge ist und X ∈ R^{|V|×d} die Knotenmerkmalsmatrix mit möglicherweise sensiblen Attributen ist Ausgabe: Knotenklassifizierungsvorhersagen Ŷ ∈ R^{|V|} Ziel: Hochleistungs-Knotenklassifizierung erreichen, während sensible Merkmale geschützt werden

Modellarchitektur

Das MFP-Framework besteht aus drei Kernkomponenten:

1. Stochastische spärliche Stichprobenentnahme (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  wenn Xᵢc ∈ k
    ϵᵢc,  wenn Xᵢc ∉ k
}

wobei ϵᵢc ~ N(μ, σ²) Gaußsches Rauschen ist und k die Teilmenge der beibehaltenen Merkmale ist.

2. Multi-View Feature Propagation

Für jede View t ∈ {1,...,η}:

Zufällige Stichprobenentnahme einer Teilmenge kₜ aus den beibehaltenen Merkmalen k (Stichprobenquote p)
Konstruktion der Rausch-Merkmalsmatrix X̃^(t), die nur Merkmale in kₜ enthält
Anwendung der Feature Propagation: H^(ι) = ÂH^(ι-1), wobei H^(0) = X̃^(t)
Zurücksetzen bekannter Merkmale nach jeder Iteration: H^(ι)_k = X̃^(t)_k

3. View-Aggregation

Die endgültige Darstellung wird durch Verkettung von Spaltenvektoren erhalten:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Technische Innovationen

Multi-View-Strategie: Im Gegensatz zur traditionellen FP mit einzelner Propagation erfasst MFP durch mehrere unabhängige Views komplementäre Informationen
Datenschutzmechanismus: Zufällige Stichprobenentnahme und Rauscheinspritzung begrenzen die Exposition sensibler Informationen
Robustheitsverbesserung: Multi-View-Aggregation reduziert Überanpassung an einzelne Merkmalsteilmengen
Kontrollierbarer Datenschutz-Nutzen-Kompromiss: Ausgleich von Leistung und Datenschutz durch Anpassung von Parametern wie Anzahl der Views und Stichprobenquote

Experimentelle Einrichtung

Datensätze

Planetoid-Benchmark-Datensätze:
- Cora: 2.708 Knoten, 1.433 Merkmale, 7 Klassen, Homophilie 81,0%
- Citeseer: 3.327 Knoten, 3.703 Merkmale, 6 Klassen, Homophilie 73,6%
- Pubmed: 19.717 Knoten, 500 Merkmale, 3 Klassen, Homophilie 80,2%
MixHop-Synthesedatensätze: 5.000 Knoten, 10 Klassen, kontrollierbare Homophilie im Bereich 0,0-0,9

Bewertungsmetriken

Klassifizierungsleistung: Genauigkeit (Accuracy) und F1-Score
Merkmalexposition:
- RMSE: Quantifizierung der Distanzunterschiede zu ursprünglichen Merkmalen
- Pearson-Korrelationskoeffizient (PCC): Messung der Richtungsähnlichkeit
Generalisierung über Darstellungen hinweg: Modellübertragungsleistung zwischen verschiedenen Darstellungen

Vergleichsmethoden

Traditionelle Methoden: Label Propagation (LP), Positionskodierung (PE)
Spärliche-Merkmals-Methoden: GCNMF, PaGNN, Feature Propagation (FP), Random Feature Propagation (RFP)
Baseline-Methoden: Vollständige Feature GCN (ohne Datenschutz)

Implementierungsdetails

Feature-Sparsität: 99% (nur 1% der ursprünglichen Merkmale beibehalten)
MFP-Parameter: η=10 Views, γ=40 Propagationsiterationen, p=0,8 Stichprobenquote
Netzwerkarchitektur: Zwei-Schicht-GCN
Trainingseinstellung: 20 Trainingsknoten pro Klasse, 1.500 Validierungsknoten

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Knotenklassifizierungsgenauigkeit unter 99% Feature-Sparsität:

Datensatz	PaGNN	GCNMF	PE	LP	FP	RFP	MFP	GCN(vollständig)
Cora	58,0±0,5	34,5±2,0	76,3±0,2	74,6±0,3	78,2±0,3	79,3±0,4	80,1±0,3	80,39
Citeseer	46,0±0,5	30,6±1,1	65,8±0,3	64,6±0,4	65,4±0,5	65,8±0,2	66,2±0,2	67,48
Pubmed	54,2±0,7	39,8±0,2	73,7±0,3	73,8±0,5	74,2±0,5	74,8±0,3	76,2±0,5	77,36

Wichtigste Erkenntnisse:

MFP erreicht auf allen Datensätzen die beste Leistung
Im Vergleich zu vollständigen Feature-GCN nur geringfügige Leistungseinbußen (1-2%)
Deutlich überlegen gegenüber anderen Methoden für spärliche Merkmale

Datenschutzschutzanalyse

Merkmalsdistanzanalyse: RMSE-Verteilung von MFP und FP ähnelt stark zufälligem Rauschen, was darauf hindeutet, dass ursprüngliche Merkmale nicht rekonstruiert wurden
Korrelationsanalyse: PCC-Werte von MFP konzentrieren sich hauptsächlich im Intervall -0,1, 0,1, deutlich niedriger als FP, was besseren Datenschutz anzeigt
Generalisierung über Darstellungen hinweg: Modellleistung fällt zwischen verschiedenen Darstellungen stark ab (z.B. Cora-Datensatz von 0,87 auf 0,56), was beweist, dass Propagationsausgaben Ersatzdarstellungen und keine Rekonstruktionen sind

Sensitivitätsanalyse

Homophilie-Auswirkungen:
- MFP übertrifft FP auf allen Homophilie-Ebenen
- Vorteil ist in Szenarien mit niedriger Homophilie ausgeprägter
- Bei hoher Homophilie (>0,7) konvergieren die Leistungen beider Methoden
Auswirkungen der Anzahl der Views:
- Kleine Anzahl von Views (η≤5) führt zu signifikanten Leistungsverbesserungen
- Bei η=10 stabilisiert sich die Leistung
- Zu viele Views können Redundanz einführen
Auswirkungen der Propagationstiefe:
- Leistung verbessert sich mit zunehmender Anzahl von Propagationen, erreicht aber schnell ein Plateau
- γ=40 ist eine angemessene Standardeinstellung
- Optimale Tiefe variiert leicht zwischen Datensätzen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

MFP erreicht erfolgreich das doppelte Ziel von Datenschutz und Leistungserhaltung
Die Multi-View-Strategie verbessert effektiv die Darstellungslernfähigkeit unter spärlichen Merkmalsbedingungen
Propagationsausgaben sind Ersatzinterpolationen ursprünglicher Merkmale und keine Rekonstruktionen, was die Privatsphäre schützt
Das Framework zeigt gute Robustheit gegenüber Schlüsselhyperparametern

Einschränkungen

Annahme der Merkmalssensitivität: Aktuelle Annahme, dass alle Merkmale die gleiche Sensitivität haben, könnte in der Praxis differenzierte Behandlung erfordern
Quantifizierung der Privatsphäre: Mangel an formalen Datenschutzgarantien (z.B. ε-differenzielle Privatsphäre)
Validierung der Skalierbarkeit: Hauptsächlich auf mittelgroßen Graphen validiert, Leistung auf großen Graphen erfordert weitere Forschung
Anpassung an heterogene Graphen: Leistung auf Graphen mit stärkerer Heterogenität erfordert weitere Validierung

Zukünftige Richtungen

Integration formaler Datenschutzgarantiemechanismen
Erweiterung auf dynamische und großskalige Graphen
Untersuchung von Anpassungsverbesserungen auf heterogenen Graphen
Erkundung von Anwendungen in föderiertem Lernen

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Adressiert praktische Anforderungen zur gleichzeitigen Lösung von Feature-Sparsität und Datenschutz
Methodische Innovativität: Multi-View-Propagationsstrategie ist originell und effektiv
Experimentelle Vollständigkeit: Umfassende Vergleichsexperimente und Sensitivitätsanalyse
Theoretische Grundlagen: Solide theoretische Grundlagen basierend auf Dirichlet-Energie und Multi-View-Learning
Praktischer Wert: Bietet eine einsatzfähige Lösung für Datenschutz-Graph-Learning

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für Leistungsvorteile von MFP
Begrenzte Datenschutzgarantien: Keine formalen Datenschutzschutzgrenzen
Rechenkomplexität: Multi-View-Verarbeitung erhöht Rechenaufwand, Komplexitätsanalyse fehlt
Einschränkung der Anwendungsszenarien: Hauptsächlich für homophile Graphen geeignet, Leistung auf heterogenen Graphen unbekannt

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für Datenschutz-Graph-Learning
Praktischer Wert: Hat Anwendungspotenzial in sensiblen Bereichen wie sozialen Netzwerken, Empfehlungssystemen und Gesundheitswesen
Reproduzierbarkeit: Autoren stellen Open-Source-Implementierung bereit, erleichtert Reproduktion und Erweiterung

Anwendungsszenarien

Analyse sozialer Netzwerke: Datenschutz bei der Benutzerprofilanalyse
Medizinisches Graph-Mining: Krankheitsvorhersage in Patientennetzwerken
Finanzielle Risikokontrolle: Betrugserkennung in Transaktionsnetzwerken
Empfehlungssysteme: Personalisierte Empfehlungen in Benutzer-Artikel-Graphen

Referenzen

Das Papier zitiert wichtige Arbeiten in den Bereichen graphische neuronale Netze, Datenschutz und Feature Propagation, einschließlich:

Kipf & Welling (2016): Graph Convolutional Networks
Rossi et al. (2022): Effektivität der Feature Propagation
Yang et al. (2016): Planetoid-Benchmark-Datensätze
Zhu et al. (2020): Homophilie in graphischen neuronalen Netzen

Gesamtbewertung: Dieses Papier adressiert die doppelte Herausforderung von Feature-Sparsität und Datenschutz in graphischen neuronalen Netzen mit einem innovativen Multi-View-Feature-Propagation-Framework. Das Methodendesign ist solide, die experimentelle Validierung ist umfassend, und es fördert die Forschung an der Grenze des Datenschutz-Graph-Learning, während die Praktikabilität gewahrt bleibt. Obwohl es Raum für Verbesserungen in der theoretischen Analyse und Datenschutzgarantien gibt, ist dies insgesamt eine hochwertige Forschungsarbeit.