2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic

Propagazione delle Caratteristiche su Grafi Multi-Vista per la Preservazione della Privacy e la Scarsità delle Caratteristiche

Informazioni Fondamentali

  • ID Articolo: 2510.11347
  • Titolo: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
  • Autori: Etzion Harari, Moshe Unger (Università di Tel Aviv)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.11347v1

Riassunto

Le reti neurali su grafi (GNN) hanno ottenuto notevoli successi nella classificazione dei nodi su dati relazionali, tuttavia la loro efficacia dipende spesso dalla disponibilità di caratteristiche complete dei nodi. In molti scenari reali, la matrice delle caratteristiche è altamente sparsa o contiene informazioni sensibili, causando degradazione delle prestazioni e aumento dei rischi per la privacy. Per affrontare queste sfide, questo articolo propone un innovativo framework di propagazione delle caratteristiche multi-vista (MFP) che migliora le prestazioni della classificazione dei nodi in condizioni di scarsità delle caratteristiche promuovendo al contempo la protezione della privacy. MFP estende la tradizionale propagazione delle caratteristiche (FP) dividendo le caratteristiche disponibili in molteplici viste con rumore gaussiano, dove ogni vista propaga le informazioni indipendentemente attraverso la topologia del grafo. La rappresentazione aggregata produce embedding dei nodi espressivi e robusti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta due problemi fondamentali nelle reti neurali su grafi:

  1. Problema della Scarsità delle Caratteristiche: Nelle applicazioni pratiche, la matrice delle caratteristiche dei nodi nei dati grafici è spesso altamente sparsa o incompleta, causando un grave degrado delle prestazioni delle GNN
  2. Problema della Protezione della Privacy: Le caratteristiche dei nodi contengono frequentemente informazioni personali sensibili (come dati demografici, modelli comportamentali, ecc.), il cui utilizzo diretto può causare violazioni della privacy

Importanza del Problema

  • Esigenze Pratiche: Reti sociali, e-commerce, sistemi sanitari e altri settori affrontano comunemente problemi di caratteristiche mancanti e sensibilità della privacy
  • Requisiti Normativi: Normative sulla privacy come il GDPR richiedono di minimizzare l'esposizione di informazioni sensibili nell'analisi dei dati
  • Sfide Tecniche: I metodi esistenti presentano compromessi significativi tra protezione della privacy e prestazioni del modello

Limitazioni dei Metodi Esistenti

  1. Propagazione Tradizionale delle Caratteristiche (FP): Sebbene possa mitigare la scarsità delle caratteristiche, le prestazioni rimangono significativamente inferiori ai modelli addestrati con caratteristiche complete e potrebbero ricostruire informazioni sensibili
  2. Metodi di Privacy Differenziale: Proteggono la privacy aggiungendo rumore, ma spesso a scapito delle prestazioni del modello
  3. Anonimizzazione dei Grafi: Potrebbe danneggiare eccessivamente la struttura del grafo, influenzando l'efficacia dell'apprendimento

Contributi Fondamentali

  1. Propone il Framework MFP: Primo framework di apprendimento su grafi che affronta simultaneamente la scarsità delle caratteristiche e la protezione della privacy
  2. Meccanismo di Propagazione Multi-Vista: Migliora la capacità di apprendimento della rappresentazione attraverso la propagazione indipendente e l'aggregazione di molteplici viste parzialmente rumorose
  3. Verifica della Protezione della Privacy: Dimostra che l'output della propagazione è un'interpolazione sostitutiva delle caratteristiche originali e non una ricostruzione, proteggendo dalla divulgazione della privacy
  4. Valutazione Sperimentale Completa: Verifica l'efficacia e la robustezza di MFP su molteplici dataset di benchmark
  5. Analisi di Sensibilità: Analizza sistematicamente l'impatto di fattori critici come l'omofilia del grafo, la profondità della propagazione e il numero di viste

Dettagli del Metodo

Definizione del Compito

Input: Grafo con attributi G = {X, E}, dove E è l'insieme degli archi e X ∈ R^{|V|×d} è la matrice delle caratteristiche dei nodi potenzialmente contenente attributi sensibili Output: Predizioni di classificazione dei nodi Ŷ ∈ R^{|V|} Obiettivo: Realizzare una classificazione dei nodi ad alte prestazioni proteggendo al contempo le caratteristiche sensibili

Architettura del Modello

Il framework MFP contiene tre componenti fondamentali:

1. Campionamento Stocastico Sparso (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  se Xᵢc ∈ k
    ϵᵢc,  se Xᵢc ∉ k
}

dove ϵᵢc ~ N(μ, σ²) è rumore gaussiano e k è il sottoinsieme di caratteristiche conservate.

2. Propagazione delle Caratteristiche Multi-Vista (Multi-view Feature Propagation)

Per ogni vista t ∈ {1,...,η}:

  • Campionare casualmente un sottoinsieme kₜ dalle caratteristiche conservate (con tasso di campionamento p)
  • Costruire la matrice delle caratteristiche rumorose X̃^(t), contenente solo le caratteristiche in kₜ
  • Applicare la propagazione delle caratteristiche: H^(ι) = ÂH^(ι-1), dove H^(0) = X̃^(t)
  • Ripristinare le caratteristiche note dopo ogni iterazione: H^(ι)_k = X̃^(t)_k

3. Aggregazione delle Viste

La rappresentazione finale si ottiene mediante concatenazione di vettori colonna:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Punti di Innovazione Tecnica

  1. Strategia Multi-Vista: A differenza della tradizionale FP a propagazione singola, MFP cattura informazioni complementari attraverso molteplici viste indipendenti
  2. Meccanismo di Protezione della Privacy: Limita l'esposizione di informazioni sensibili attraverso campionamento casuale e iniezione di rumore
  3. Miglioramento della Robustezza: L'aggregazione multi-vista riduce l'overfitting su un singolo sottoinsieme di caratteristiche
  4. Compromesso Privacy-Utilità Controllabile: Bilancia le prestazioni e la privacy regolando parametri come il numero di viste e il tasso di campionamento

Configurazione Sperimentale

Dataset

  1. Dataset di Benchmark Planetoid:
    • Cora: 2.708 nodi, 1.433 caratteristiche, 7 classi, omofilia 81,0%
    • Citeseer: 3.327 nodi, 3.703 caratteristiche, 6 classi, omofilia 73,6%
    • Pubmed: 19.717 nodi, 500 caratteristiche, 3 classi, omofilia 80,2%
  2. Dataset Sintetici MixHop: 5.000 nodi, 10 classi, omofilia controllabile nell'intervallo 0,0-0,9

Metriche di Valutazione

  1. Prestazioni di Classificazione: Accuratezza e punteggio F1
  2. Esposizione delle Caratteristiche:
    • RMSE: Quantifica le differenze di distanza dalle caratteristiche originali
    • Coefficiente di Correlazione di Pearson (PCC): Misura la similarità direzionale
  3. Generalizzazione Tra Rappresentazioni: Prestazioni di trasferimento del modello tra diverse rappresentazioni

Metodi di Confronto

  • Metodi Tradizionali: Propagazione di Etichette (LP), Codifica Posizionale (PE)
  • Metodi per Caratteristiche Sparse: GCNMF, PaGNN, Propagazione delle Caratteristiche (FP), Propagazione Casuale delle Caratteristiche (RFP)
  • Metodo di Riferimento: GCN con caratteristiche complete (senza protezione della privacy)

Dettagli di Implementazione

  • Scarsità delle caratteristiche: 99% (conservazione dell'1% delle caratteristiche originali)
  • Parametri MFP: η=10 viste, γ=40 iterazioni di propagazione, p=0,8 tasso di campionamento
  • Architettura di rete: GCN a due strati
  • Configurazione di addestramento: 20 nodi di addestramento per classe, 1.500 nodi di validazione

Risultati Sperimentali

Risultati Principali

Confronto dell'accuratezza della classificazione dei nodi in condizioni di scarsità delle caratteristiche al 99%:

DatasetPaGNNGCNMFPELPFPRFPMFPGCN(Completo)
Cora58,0±0,534,5±2,076,3±0,274,6±0,378,2±0,379,3±0,480,1±0,380,39
Citeseer46,0±0,530,6±1,165,8±0,364,6±0,465,4±0,565,8±0,266,2±0,267,48
Pubmed54,2±0,739,8±0,273,7±0,373,8±0,574,2±0,574,8±0,376,2±0,577,36

Scoperte Chiave:

  • MFP raggiunge le migliori prestazioni su tutti i dataset
  • Rispetto al GCN con caratteristiche complete, MFP presenta solo un leggero degrado delle prestazioni (1-2%)
  • Significativamente superiore ad altri metodi per caratteristiche sparse

Analisi della Protezione della Privacy

  1. Analisi della Distanza delle Caratteristiche: La distribuzione RMSE di MFP e FP è altamente simile al rumore casuale, indicando che le caratteristiche originali non sono state ricostruite
  2. Analisi della Correlazione: I valori PCC di MFP sono principalmente concentrati nell'intervallo -0,1, 0,1, significativamente inferiori a FP, indicando una migliore protezione della privacy
  3. Generalizzazione Tra Rappresentazioni: Le prestazioni del modello diminuiscono drasticamente tra diverse rappresentazioni (ad esempio, nel dataset Cora da 0,87 a 0,56), provando che l'output della propagazione è una rappresentazione sostitutiva e non una ricostruzione

Analisi di Sensibilità

  1. Impatto dell'Omofilia:
    • MFP supera FP a tutti i livelli di omofilia
    • Il vantaggio è più pronunciato in scenari di bassa omofilia
    • Con omofilia elevata (>0,7) le prestazioni dei due metodi tendono a convergere
  2. Impatto del Numero di Viste:
    • Un numero ridotto di viste (η≤5) produce miglioramenti significativi delle prestazioni
    • Le prestazioni si stabilizzano con η=10
    • Un numero eccessivo di viste potrebbe introdurre ridondanza
  3. Impatto della Profondità di Propagazione:
    • Le prestazioni migliorano con l'aumento del numero di iterazioni, ma raggiungono rapidamente un plateau
    • γ=40 è un'impostazione predefinita ragionevole
    • La profondità ottimale varia leggermente tra i diversi dataset

Lavori Correlati

Reti Neurali su Grafi

  • GCN/GAT: Utilizzano il principio di omofilia per l'apprendimento della rappresentazione dei nodi
  • Gestione delle Caratteristiche Mancanti: Metodi come PaGNN e GCNMF affrontano le caratteristiche incomplete

Apprendimento su Grafi con Protezione della Privacy

  • Privacy Differenziale: Protegge la privacy attraverso l'iniezione di rumore, ma con significative perdite di prestazioni
  • Anonimizzazione dei Grafi: Modifica la struttura del grafo per proteggere la privacy
  • Sparsificazione delle Caratteristiche: Riduce il rischio per la privacy riducendo l'esposizione delle caratteristiche

Propagazione delle Caratteristiche

  • FP Classica: Diffusione delle caratteristiche basata sulla minimizzazione dell'energia di Dirichlet
  • Propagazione Casuale delle Caratteristiche: Migliora la rappresentazione attraverso la propagazione multi-traccia

Conclusioni e Discussione

Conclusioni Principali

  1. MFP raggiunge con successo il duplice obiettivo di protezione della privacy e mantenimento delle prestazioni
  2. La strategia multi-vista migliora efficacemente la capacità di apprendimento della rappresentazione in condizioni di scarsità delle caratteristiche
  3. L'output della propagazione è un'interpolazione sostitutiva delle caratteristiche originali e non una ricostruzione, proteggendo la sicurezza della privacy
  4. Il framework dimostra buona robustezza rispetto ai principali iperparametri

Limitazioni

  1. Ipotesi di Sensibilità delle Caratteristiche: L'approccio attuale assume che tutte le caratteristiche abbiano la stessa sensibilità, mentre in pratica potrebbe essere necessario un trattamento differenziato
  2. Quantificazione della Privacy: Mancanza di garanzie formali di privacy (come la privacy differenziale ε)
  3. Verifica della Scalabilità: La validazione è stata principalmente effettuata su grafi di piccole e medie dimensioni; le prestazioni su grafi su larga scala richiedono ulteriori ricerche
  4. Adattabilità ai Grafi Eterogenei: Le prestazioni su grafi con elevata eterogeneità richiedono ulteriore verifica

Direzioni Future

  1. Integrazione di meccanismi di garanzia formale della privacy
  2. Estensione a scenari di grafi dinamici e su larga scala
  3. Ricerca di miglioramenti adattativi su grafi eterogenei
  4. Esplorazione di applicazioni in ambienti di apprendimento federato

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta le esigenze pratiche di risolvere simultaneamente la scarsità delle caratteristiche e la protezione della privacy
  2. Innovazione del Metodo: La strategia di propagazione multi-vista possiede originalità ed efficacia
  3. Completezza Sperimentale: Esperimenti di confronto completi e analisi di sensibilità
  4. Supporto Teorico: Fondamento teorico solido basato sull'energia di Dirichlet e l'apprendimento multi-vista
  5. Valore Pratico: Fornisce una soluzione di apprendimento su grafi con protezione della privacy implementabile

Insufficienze

  1. Analisi Teorica Limitata: Mancanza di spiegazioni teoriche dei vantaggi di prestazione di MFP
  2. Garanzie di Privacy Limitate: Nessuna formalizzazione dei limiti di protezione della privacy
  3. Complessità Computazionale: L'elaborazione multi-vista aumenta il carico computazionale, mancanza di analisi della complessità
  4. Limitazioni dello Scenario di Applicazione: Principalmente applicabile a grafi omofili, le prestazioni su grafi eterogenei rimangono sconosciute

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca per l'apprendimento su grafi con protezione della privacy
  2. Valore Pratico: Ha potenziale di applicazione in settori sensibili come reti sociali, sistemi di raccomandazione e sanità
  3. Riproducibilità: Gli autori forniscono implementazioni open-source, facilitando la riproduzione e l'estensione

Scenari di Applicazione

  1. Analisi di Reti Sociali: Protezione della privacy nell'analisi dei profili utente
  2. Data Mining Medico su Grafi: Previsione di malattie in reti di pazienti
  3. Gestione del Rischio Finanziario: Rilevamento di frodi in reti di transazioni
  4. Sistemi di Raccomandazione: Raccomandazioni personalizzate in grafi utente-articolo

Bibliografia

L'articolo cita importanti lavori nei campi delle reti neurali su grafi, protezione della privacy e propagazione delle caratteristiche, inclusi:

  • Kipf & Welling (2016): Graph Convolutional Networks
  • Rossi et al. (2022): Efficacia della Propagazione delle Caratteristiche
  • Yang et al. (2016): Dataset di benchmark Planetoid
  • Zhu et al. (2020): Omofilia nelle reti neurali su grafi

Valutazione Complessiva: Questo articolo affronta la duplice sfida della scarsità delle caratteristiche e della protezione della privacy nelle reti neurali su grafi, proponendo un innovativo framework di propagazione delle caratteristiche multi-vista. Il design del metodo è razionale, la verifica sperimentale è completa e, mantenendo la praticità, promuove la ricerca sulla protezione della privacy nell'apprendimento su grafi. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nelle garanzie di privacy, nel complesso si tratta di un lavoro di ricerca di alta qualità.