Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic
Propagación de Características en Grafos Multi-Vista para Preservación de Privacidad y Escasez de Características
Las redes neuronales de grafos (GNNs) han logrado un éxito significativo en tareas de clasificación de nodos en datos relacionales, pero su efectividad a menudo depende de la disponibilidad de características de nodos completas. Sin embargo, en muchos escenarios del mundo real, la matriz de características es altamente dispersa o contiene información sensible, lo que genera degradación del rendimiento e incremento de riesgos de privacidad. Para abordar estos desafíos, este artículo propone un marco novedoso de propagación de características multi-vista (MFP) que mejora el rendimiento de la clasificación de nodos bajo condiciones de escasez de características mientras promueve la preservación de privacidad. MFP extiende la propagación de características tradicional (FP) dividiendo las características disponibles en múltiples vistas con ruido gaussiano, donde cada vista propaga información de forma independiente a través de la topología del grafo. La agregación de representaciones produce incrustaciones de nodos expresivas y robustas.
Esta investigación aborda dos problemas fundamentales en redes neuronales de grafos:
Problema de Escasez de Características: En aplicaciones prácticas, la matriz de características de nodos en datos de grafos es frecuentemente altamente dispersa o incompleta, causando una degradación severa del rendimiento de GNN
Problema de Preservación de Privacidad: Las características de nodos frecuentemente contienen información personal sensible (como datos demográficos, patrones de comportamiento, etc.), cuyo uso directo puede resultar en fugas de privacidad
Necesidades Prácticas: Redes sociales, comercio electrónico, sistemas médicos y otros dominios enfrentan comúnmente problemas de características faltantes y sensibilidad de privacidad
Requisitos Regulatorios: Regulaciones de privacidad como GDPR requieren minimizar la exposición de información sensible en análisis de datos
Desafíos Técnicos: Los métodos existentes presentan compromisos severos entre preservación de privacidad y rendimiento del modelo
Propagación de Características Tradicional (FP): Aunque puede aliviar la escasez de características, el rendimiento sigue siendo significativamente inferior al de modelos entrenados con características completas, y puede reconstruir información sensible
Métodos de Privacidad Diferencial: Protegen la privacidad mediante adición de ruido, pero frecuentemente sacrifican el rendimiento del modelo
Anonimización de Grafos: Puede dañar excesivamente la estructura del grafo, afectando la efectividad del aprendizaje
Propuesta del Marco MFP: Primer marco de aprendizaje en grafos que aborda simultáneamente la escasez de características y la preservación de privacidad
Mecanismo de Propagación Multi-Vista: Mediante propagación independiente y agregación de múltiples vistas parcialmente ruidosas, mejora la capacidad de aprendizaje de representaciones
Verificación de Preservación de Privacidad: Demuestra que la salida de propagación es una interpolación sustituta de características originales en lugar de una reconstrucción, protegiendo contra fugas de privacidad
Evaluación Experimental Integral: Verifica la efectividad y robustez de MFP en múltiples conjuntos de datos de referencia
Análisis de Sensibilidad: Analiza sistemáticamente el impacto de factores clave como homofilia del grafo, profundidad de propagación y número de vistas
Entrada: Grafo atribuido G = {X, E}, donde E es el conjunto de aristas y X ∈ R^{|V|×d} es la matriz de características de nodos que puede contener atributos sensibles
Salida: Predicción de clasificación de nodos Ŷ ∈ R^{|V|}
Objetivo: Lograr clasificación de nodos de alto rendimiento mientras se protege la privacidad de características sensibles
Estrategia Multi-Vista: A diferencia de FP tradicional con propagación única, MFP captura información complementaria mediante múltiples vistas independientes
Mecanismo de Preservación de Privacidad: Mediante muestreo aleatorio e inyección de ruido, limita la exposición de información sensible
Mejora de Robustez: La agregación multi-vista reduce el sobreajuste a subconjuntos de características únicos
Equilibrio Controlable Privacidad-Utilidad: Mediante ajuste de número de vistas, tasa de muestreo y otros parámetros, equilibra rendimiento y privacidad
Análisis de Distancia de Características: La distribución RMSE de MFP y FP es altamente similar a ruido aleatorio, indicando que no se reconstruyen características originales
Análisis de Correlación: Los valores PCC de MFP se concentran principalmente en el intervalo -0.1, 0.1, significativamente inferior a FP, indicando mejor preservación de privacidad
Generalización Entre Representaciones: El rendimiento del modelo disminuye significativamente entre diferentes representaciones (por ejemplo, en conjunto de datos Cora de 0.87 a 0.56), probando que la salida de propagación es una representación sustituta en lugar de una reconstrucción
MFP logra exitosamente el doble objetivo de preservación de privacidad y mantenimiento de rendimiento
La estrategia multi-vista mejora efectivamente la capacidad de aprendizaje de representaciones bajo condiciones de escasez de características
La salida de propagación es una interpolación sustituta de características originales en lugar de una reconstrucción, protegiendo la seguridad de privacidad
El marco demuestra buena robustez ante hiperparámetros clave
Supuesto de Sensibilidad de Características: Actualmente asume que todas las características tienen igual sensibilidad, lo que en la práctica puede requerir tratamiento diferenciado
Cuantificación de Privacidad: Carece de garantías de privacidad formalizadas (como privacidad diferencial ε)
Verificación de Escalabilidad: Principalmente verificado en grafos de escala pequeña a mediana, el rendimiento en grafos a gran escala requiere investigación adicional
Adaptabilidad a Grafos Heterogéneos: El rendimiento en grafos con mayor heterogeneidad requiere verificación adicional
El artículo cita trabajos importantes en los campos de redes neuronales de grafos, preservación de privacidad y propagación de características, incluyendo:
Rossi et al. (2022): Efectividad de Propagación de Características
Yang et al. (2016): Conjuntos de Datos de Referencia Planetoid
Zhu et al. (2020): Homofilia en Redes Neuronales de Grafos
Evaluación General: Este artículo aborda el doble desafío de escasez de características y preservación de privacidad en redes neuronales de grafos, proponiendo un marco innovador de propagación de características multi-vista. El diseño del método es razonable, la verificación experimental es exhaustiva, y mientras mantiene practicidad, avanza la frontera de investigación en aprendizaje de grafos con preservación de privacidad. Aunque hay espacio para mejora en análisis teórico y garantías de privacidad, en general es un trabajo de investigación de alta calidad.