2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger

Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.

academic

Propagazione delle Caratteristiche su Grafi Multi-Vista per la Preservazione della Privacy e la Scarsità delle Caratteristiche

Informazioni Fondamentali

ID Articolo: 2510.11347
Titolo: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
Autori: Etzion Harari, Moshe Unger (Università di Tel Aviv)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11347v1

Riassunto

Le reti neurali su grafi (GNN) hanno ottenuto notevoli successi nella classificazione dei nodi su dati relazionali, tuttavia la loro efficacia dipende spesso dalla disponibilità di caratteristiche complete dei nodi. In molti scenari reali, la matrice delle caratteristiche è altamente sparsa o contiene informazioni sensibili, causando degradazione delle prestazioni e aumento dei rischi per la privacy. Per affrontare queste sfide, questo articolo propone un innovativo framework di propagazione delle caratteristiche multi-vista (MFP) che migliora le prestazioni della classificazione dei nodi in condizioni di scarsità delle caratteristiche promuovendo al contempo la protezione della privacy. MFP estende la tradizionale propagazione delle caratteristiche (FP) dividendo le caratteristiche disponibili in molteplici viste con rumore gaussiano, dove ogni vista propaga le informazioni indipendentemente attraverso la topologia del grafo. La rappresentazione aggregata produce embedding dei nodi espressivi e robusti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta due problemi fondamentali nelle reti neurali su grafi:

Problema della Scarsità delle Caratteristiche: Nelle applicazioni pratiche, la matrice delle caratteristiche dei nodi nei dati grafici è spesso altamente sparsa o incompleta, causando un grave degrado delle prestazioni delle GNN
Problema della Protezione della Privacy: Le caratteristiche dei nodi contengono frequentemente informazioni personali sensibili (come dati demografici, modelli comportamentali, ecc.), il cui utilizzo diretto può causare violazioni della privacy

Importanza del Problema

Esigenze Pratiche: Reti sociali, e-commerce, sistemi sanitari e altri settori affrontano comunemente problemi di caratteristiche mancanti e sensibilità della privacy
Requisiti Normativi: Normative sulla privacy come il GDPR richiedono di minimizzare l'esposizione di informazioni sensibili nell'analisi dei dati
Sfide Tecniche: I metodi esistenti presentano compromessi significativi tra protezione della privacy e prestazioni del modello

Limitazioni dei Metodi Esistenti

Propagazione Tradizionale delle Caratteristiche (FP): Sebbene possa mitigare la scarsità delle caratteristiche, le prestazioni rimangono significativamente inferiori ai modelli addestrati con caratteristiche complete e potrebbero ricostruire informazioni sensibili
Metodi di Privacy Differenziale: Proteggono la privacy aggiungendo rumore, ma spesso a scapito delle prestazioni del modello
Anonimizzazione dei Grafi: Potrebbe danneggiare eccessivamente la struttura del grafo, influenzando l'efficacia dell'apprendimento

Contributi Fondamentali

Propone il Framework MFP: Primo framework di apprendimento su grafi che affronta simultaneamente la scarsità delle caratteristiche e la protezione della privacy
Meccanismo di Propagazione Multi-Vista: Migliora la capacità di apprendimento della rappresentazione attraverso la propagazione indipendente e l'aggregazione di molteplici viste parzialmente rumorose
Verifica della Protezione della Privacy: Dimostra che l'output della propagazione è un'interpolazione sostitutiva delle caratteristiche originali e non una ricostruzione, proteggendo dalla divulgazione della privacy
Valutazione Sperimentale Completa: Verifica l'efficacia e la robustezza di MFP su molteplici dataset di benchmark
Analisi di Sensibilità: Analizza sistematicamente l'impatto di fattori critici come l'omofilia del grafo, la profondità della propagazione e il numero di viste

Dettagli del Metodo

Definizione del Compito

Input: Grafo con attributi G = {X, E}, dove E è l'insieme degli archi e X ∈ R^{|V|×d} è la matrice delle caratteristiche dei nodi potenzialmente contenente attributi sensibili Output: Predizioni di classificazione dei nodi Ŷ ∈ R^{|V|} Obiettivo: Realizzare una classificazione dei nodi ad alte prestazioni proteggendo al contempo le caratteristiche sensibili

Architettura del Modello

Il framework MFP contiene tre componenti fondamentali:

1. Campionamento Stocastico Sparso (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  se Xᵢc ∈ k
    ϵᵢc,  se Xᵢc ∉ k
}

dove ϵᵢc ~ N(μ, σ²) è rumore gaussiano e k è il sottoinsieme di caratteristiche conservate.

2. Propagazione delle Caratteristiche Multi-Vista (Multi-view Feature Propagation)

Per ogni vista t ∈ {1,...,η}:

Campionare casualmente un sottoinsieme kₜ dalle caratteristiche conservate (con tasso di campionamento p)
Costruire la matrice delle caratteristiche rumorose X̃^(t), contenente solo le caratteristiche in kₜ
Applicare la propagazione delle caratteristiche: H^(ι) = ÂH^(ι-1), dove H^(0) = X̃^(t)
Ripristinare le caratteristiche note dopo ogni iterazione: H^(ι)_k = X̃^(t)_k

3. Aggregazione delle Viste

La rappresentazione finale si ottiene mediante concatenazione di vettori colonna:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Punti di Innovazione Tecnica

Strategia Multi-Vista: A differenza della tradizionale FP a propagazione singola, MFP cattura informazioni complementari attraverso molteplici viste indipendenti
Meccanismo di Protezione della Privacy: Limita l'esposizione di informazioni sensibili attraverso campionamento casuale e iniezione di rumore
Miglioramento della Robustezza: L'aggregazione multi-vista riduce l'overfitting su un singolo sottoinsieme di caratteristiche
Compromesso Privacy-Utilità Controllabile: Bilancia le prestazioni e la privacy regolando parametri come il numero di viste e il tasso di campionamento

Configurazione Sperimentale

Dataset

Dataset di Benchmark Planetoid:
- Cora: 2.708 nodi, 1.433 caratteristiche, 7 classi, omofilia 81,0%
- Citeseer: 3.327 nodi, 3.703 caratteristiche, 6 classi, omofilia 73,6%
- Pubmed: 19.717 nodi, 500 caratteristiche, 3 classi, omofilia 80,2%
Dataset Sintetici MixHop: 5.000 nodi, 10 classi, omofilia controllabile nell'intervallo 0,0-0,9

Metriche di Valutazione

Prestazioni di Classificazione: Accuratezza e punteggio F1
Esposizione delle Caratteristiche:
- RMSE: Quantifica le differenze di distanza dalle caratteristiche originali
- Coefficiente di Correlazione di Pearson (PCC): Misura la similarità direzionale
Generalizzazione Tra Rappresentazioni: Prestazioni di trasferimento del modello tra diverse rappresentazioni

Metodi di Confronto

Metodi Tradizionali: Propagazione di Etichette (LP), Codifica Posizionale (PE)
Metodi per Caratteristiche Sparse: GCNMF, PaGNN, Propagazione delle Caratteristiche (FP), Propagazione Casuale delle Caratteristiche (RFP)
Metodo di Riferimento: GCN con caratteristiche complete (senza protezione della privacy)

Dettagli di Implementazione

Scarsità delle caratteristiche: 99% (conservazione dell'1% delle caratteristiche originali)
Parametri MFP: η=10 viste, γ=40 iterazioni di propagazione, p=0,8 tasso di campionamento
Architettura di rete: GCN a due strati
Configurazione di addestramento: 20 nodi di addestramento per classe, 1.500 nodi di validazione

Risultati Sperimentali

Risultati Principali

Confronto dell'accuratezza della classificazione dei nodi in condizioni di scarsità delle caratteristiche al 99%:

Dataset	PaGNN	GCNMF	PE	LP	FP	RFP	MFP	GCN(Completo)
Cora	58,0±0,5	34,5±2,0	76,3±0,2	74,6±0,3	78,2±0,3	79,3±0,4	80,1±0,3	80,39
Citeseer	46,0±0,5	30,6±1,1	65,8±0,3	64,6±0,4	65,4±0,5	65,8±0,2	66,2±0,2	67,48
Pubmed	54,2±0,7	39,8±0,2	73,7±0,3	73,8±0,5	74,2±0,5	74,8±0,3	76,2±0,5	77,36

Scoperte Chiave:

MFP raggiunge le migliori prestazioni su tutti i dataset
Rispetto al GCN con caratteristiche complete, MFP presenta solo un leggero degrado delle prestazioni (1-2%)
Significativamente superiore ad altri metodi per caratteristiche sparse

Analisi della Protezione della Privacy

Analisi della Distanza delle Caratteristiche: La distribuzione RMSE di MFP e FP è altamente simile al rumore casuale, indicando che le caratteristiche originali non sono state ricostruite
Analisi della Correlazione: I valori PCC di MFP sono principalmente concentrati nell'intervallo -0,1, 0,1, significativamente inferiori a FP, indicando una migliore protezione della privacy
Generalizzazione Tra Rappresentazioni: Le prestazioni del modello diminuiscono drasticamente tra diverse rappresentazioni (ad esempio, nel dataset Cora da 0,87 a 0,56), provando che l'output della propagazione è una rappresentazione sostitutiva e non una ricostruzione

Analisi di Sensibilità

Impatto dell'Omofilia:
- MFP supera FP a tutti i livelli di omofilia
- Il vantaggio è più pronunciato in scenari di bassa omofilia
- Con omofilia elevata (>0,7) le prestazioni dei due metodi tendono a convergere
Impatto del Numero di Viste:
- Un numero ridotto di viste (η≤5) produce miglioramenti significativi delle prestazioni
- Le prestazioni si stabilizzano con η=10
- Un numero eccessivo di viste potrebbe introdurre ridondanza
Impatto della Profondità di Propagazione:
- Le prestazioni migliorano con l'aumento del numero di iterazioni, ma raggiungono rapidamente un plateau
- γ=40 è un'impostazione predefinita ragionevole
- La profondità ottimale varia leggermente tra i diversi dataset

Lavori Correlati

Reti Neurali su Grafi

GCN/GAT: Utilizzano il principio di omofilia per l'apprendimento della rappresentazione dei nodi
Gestione delle Caratteristiche Mancanti: Metodi come PaGNN e GCNMF affrontano le caratteristiche incomplete

Apprendimento su Grafi con Protezione della Privacy

Privacy Differenziale: Protegge la privacy attraverso l'iniezione di rumore, ma con significative perdite di prestazioni
Anonimizzazione dei Grafi: Modifica la struttura del grafo per proteggere la privacy
Sparsificazione delle Caratteristiche: Riduce il rischio per la privacy riducendo l'esposizione delle caratteristiche

Propagazione delle Caratteristiche

FP Classica: Diffusione delle caratteristiche basata sulla minimizzazione dell'energia di Dirichlet
Propagazione Casuale delle Caratteristiche: Migliora la rappresentazione attraverso la propagazione multi-traccia

Conclusioni e Discussione

Conclusioni Principali

MFP raggiunge con successo il duplice obiettivo di protezione della privacy e mantenimento delle prestazioni
La strategia multi-vista migliora efficacemente la capacità di apprendimento della rappresentazione in condizioni di scarsità delle caratteristiche
L'output della propagazione è un'interpolazione sostitutiva delle caratteristiche originali e non una ricostruzione, proteggendo la sicurezza della privacy
Il framework dimostra buona robustezza rispetto ai principali iperparametri

Limitazioni

Ipotesi di Sensibilità delle Caratteristiche: L'approccio attuale assume che tutte le caratteristiche abbiano la stessa sensibilità, mentre in pratica potrebbe essere necessario un trattamento differenziato
Quantificazione della Privacy: Mancanza di garanzie formali di privacy (come la privacy differenziale ε)
Verifica della Scalabilità: La validazione è stata principalmente effettuata su grafi di piccole e medie dimensioni; le prestazioni su grafi su larga scala richiedono ulteriori ricerche
Adattabilità ai Grafi Eterogenei: Le prestazioni su grafi con elevata eterogeneità richiedono ulteriore verifica

Direzioni Future

Integrazione di meccanismi di garanzia formale della privacy
Estensione a scenari di grafi dinamici e su larga scala
Ricerca di miglioramenti adattativi su grafi eterogenei
Esplorazione di applicazioni in ambienti di apprendimento federato

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta le esigenze pratiche di risolvere simultaneamente la scarsità delle caratteristiche e la protezione della privacy
Innovazione del Metodo: La strategia di propagazione multi-vista possiede originalità ed efficacia
Completezza Sperimentale: Esperimenti di confronto completi e analisi di sensibilità
Supporto Teorico: Fondamento teorico solido basato sull'energia di Dirichlet e l'apprendimento multi-vista
Valore Pratico: Fornisce una soluzione di apprendimento su grafi con protezione della privacy implementabile

Insufficienze

Analisi Teorica Limitata: Mancanza di spiegazioni teoriche dei vantaggi di prestazione di MFP
Garanzie di Privacy Limitate: Nessuna formalizzazione dei limiti di protezione della privacy
Complessità Computazionale: L'elaborazione multi-vista aumenta il carico computazionale, mancanza di analisi della complessità
Limitazioni dello Scenario di Applicazione: Principalmente applicabile a grafi omofili, le prestazioni su grafi eterogenei rimangono sconosciute

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento su grafi con protezione della privacy
Valore Pratico: Ha potenziale di applicazione in settori sensibili come reti sociali, sistemi di raccomandazione e sanità
Riproducibilità: Gli autori forniscono implementazioni open-source, facilitando la riproduzione e l'estensione

Scenari di Applicazione

Analisi di Reti Sociali: Protezione della privacy nell'analisi dei profili utente
Data Mining Medico su Grafi: Previsione di malattie in reti di pazienti
Gestione del Rischio Finanziario: Rilevamento di frodi in reti di transazioni
Sistemi di Raccomandazione: Raccomandazioni personalizzate in grafi utente-articolo

Bibliografia

L'articolo cita importanti lavori nei campi delle reti neurali su grafi, protezione della privacy e propagazione delle caratteristiche, inclusi:

Kipf & Welling (2016): Graph Convolutional Networks
Rossi et al. (2022): Efficacia della Propagazione delle Caratteristiche
Yang et al. (2016): Dataset di benchmark Planetoid
Zhu et al. (2020): Omofilia nelle reti neurali su grafi

Valutazione Complessiva: Questo articolo affronta la duplice sfida della scarsità delle caratteristiche e della protezione della privacy nelle reti neurali su grafi, proponendo un innovativo framework di propagazione delle caratteristiche multi-vista. Il design del metodo è razionale, la verifica sperimentale è completa e, mantenendo la praticità, promuove la ricerca sulla protezione della privacy nell'apprendimento su grafi. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nelle garanzie di privacy, nel complesso si tratta di un lavoro di ricerca di alta qualità.