2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger

Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.

academic

Propagación de Características en Grafos Multi-Vista para Preservación de Privacidad y Escasez de Características

Información Básica

ID del Artículo: 2510.11347
Título: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
Autores: Etzion Harari, Moshe Unger (Universidad de Tel Aviv)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11347v1

Resumen

Las redes neuronales de grafos (GNNs) han logrado un éxito significativo en tareas de clasificación de nodos en datos relacionales, pero su efectividad a menudo depende de la disponibilidad de características de nodos completas. Sin embargo, en muchos escenarios del mundo real, la matriz de características es altamente dispersa o contiene información sensible, lo que genera degradación del rendimiento e incremento de riesgos de privacidad. Para abordar estos desafíos, este artículo propone un marco novedoso de propagación de características multi-vista (MFP) que mejora el rendimiento de la clasificación de nodos bajo condiciones de escasez de características mientras promueve la preservación de privacidad. MFP extiende la propagación de características tradicional (FP) dividiendo las características disponibles en múltiples vistas con ruido gaussiano, donde cada vista propaga información de forma independiente a través de la topología del grafo. La agregación de representaciones produce incrustaciones de nodos expresivas y robustas.

Contexto de Investigación y Motivación

Definición del Problema

Esta investigación aborda dos problemas fundamentales en redes neuronales de grafos:

Problema de Escasez de Características: En aplicaciones prácticas, la matriz de características de nodos en datos de grafos es frecuentemente altamente dispersa o incompleta, causando una degradación severa del rendimiento de GNN
Problema de Preservación de Privacidad: Las características de nodos frecuentemente contienen información personal sensible (como datos demográficos, patrones de comportamiento, etc.), cuyo uso directo puede resultar en fugas de privacidad

Importancia del Problema

Necesidades Prácticas: Redes sociales, comercio electrónico, sistemas médicos y otros dominios enfrentan comúnmente problemas de características faltantes y sensibilidad de privacidad
Requisitos Regulatorios: Regulaciones de privacidad como GDPR requieren minimizar la exposición de información sensible en análisis de datos
Desafíos Técnicos: Los métodos existentes presentan compromisos severos entre preservación de privacidad y rendimiento del modelo

Limitaciones de Métodos Existentes

Propagación de Características Tradicional (FP): Aunque puede aliviar la escasez de características, el rendimiento sigue siendo significativamente inferior al de modelos entrenados con características completas, y puede reconstruir información sensible
Métodos de Privacidad Diferencial: Protegen la privacidad mediante adición de ruido, pero frecuentemente sacrifican el rendimiento del modelo
Anonimización de Grafos: Puede dañar excesivamente la estructura del grafo, afectando la efectividad del aprendizaje

Contribuciones Principales

Propuesta del Marco MFP: Primer marco de aprendizaje en grafos que aborda simultáneamente la escasez de características y la preservación de privacidad
Mecanismo de Propagación Multi-Vista: Mediante propagación independiente y agregación de múltiples vistas parcialmente ruidosas, mejora la capacidad de aprendizaje de representaciones
Verificación de Preservación de Privacidad: Demuestra que la salida de propagación es una interpolación sustituta de características originales en lugar de una reconstrucción, protegiendo contra fugas de privacidad
Evaluación Experimental Integral: Verifica la efectividad y robustez de MFP en múltiples conjuntos de datos de referencia
Análisis de Sensibilidad: Analiza sistemáticamente el impacto de factores clave como homofilia del grafo, profundidad de propagación y número de vistas

Explicación Detallada del Método

Definición de la Tarea

Entrada: Grafo atribuido G = {X, E}, donde E es el conjunto de aristas y X ∈ R^{|V|×d} es la matriz de características de nodos que puede contener atributos sensibles Salida: Predicción de clasificación de nodos Ŷ ∈ R^{|V|} Objetivo: Lograr clasificación de nodos de alto rendimiento mientras se protege la privacidad de características sensibles

Arquitectura del Modelo

El marco MFP contiene tres componentes principales:

1. Muestreo Estocástico Disperso (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  si Xᵢc ∈ k
    ϵᵢc,  si Xᵢc ∉ k
}

donde ϵᵢc ~ N(μ, σ²) es ruido gaussiano y k es el subconjunto de características retenidas.

2. Propagación de Características Multi-Vista (Multi-view Feature Propagation)

Para cada vista t ∈ {1,...,η}:

Muestrear aleatoriamente un subconjunto kₜ de características retenidas (tasa de muestreo p)
Construir matriz de características ruidosas X̃^(t), conteniendo solo características en kₜ
Aplicar propagación de características: H^(ι) = ÂH^(ι-1), donde H^(0) = X̃^(t)
Reiniciar características conocidas después de cada iteración: H^(ι)_k = X̃^(t)_k

3. Agregación de Vistas

La representación final se obtiene mediante concatenación de vectores columna:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Puntos de Innovación Técnica

Estrategia Multi-Vista: A diferencia de FP tradicional con propagación única, MFP captura información complementaria mediante múltiples vistas independientes
Mecanismo de Preservación de Privacidad: Mediante muestreo aleatorio e inyección de ruido, limita la exposición de información sensible
Mejora de Robustez: La agregación multi-vista reduce el sobreajuste a subconjuntos de características únicos
Equilibrio Controlable Privacidad-Utilidad: Mediante ajuste de número de vistas, tasa de muestreo y otros parámetros, equilibra rendimiento y privacidad

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos de Referencia Planetoid:
- Cora: 2,708 nodos, 1,433 características, 7 clases, homofilia 81.0%
- Citeseer: 3,327 nodos, 3,703 características, 6 clases, homofilia 73.6%
- Pubmed: 19,717 nodos, 500 características, 3 clases, homofilia 80.2%
Conjuntos de Datos Sintéticos MixHop: 5,000 nodos, 10 clases, homofilia controlable en rango 0.0-0.9

Métricas de Evaluación

Rendimiento de Clasificación: Precisión (Accuracy) y puntuación F1
Exposición de Características:
- RMSE: Cuantifica diferencias de distancia con características originales
- Coeficiente de Correlación de Pearson (PCC): Mide similitud direccional
Generalización Entre Representaciones: Rendimiento de transferencia de modelo entre diferentes representaciones

Métodos de Comparación

Métodos Tradicionales: Propagación de Etiquetas (LP), Codificación Posicional (PE)
Métodos de Características Dispersas: GCNMF, PaGNN, Propagación de Características (FP), Propagación de Características Aleatoria (RFP)
Método de Referencia: GCN con características completas (sin preservación de privacidad)

Detalles de Implementación

Dispersidad de características: 99% (retención de solo 1% de características originales)
Parámetros MFP: η=10 vistas, γ=40 iteraciones de propagación, p=0.8 tasa de muestreo
Arquitectura de red: GCN de dos capas
Configuración de entrenamiento: 20 nodos de entrenamiento por clase, 1500 nodos de validación

Resultados Experimentales

Resultados Principales

Comparación de precisión de clasificación de nodos bajo condición de 99% dispersidad de características:

Conjunto de Datos	PaGNN	GCNMF	PE	LP	FP	RFP	MFP	GCN(Completo)
Cora	58.0±0.5	34.5±2.0	76.3±0.2	74.6±0.3	78.2±0.3	79.3±0.4	80.1±0.3	80.39
Citeseer	46.0±0.5	30.6±1.1	65.8±0.3	64.6±0.4	65.4±0.5	65.8±0.2	66.2±0.2	67.48
Pubmed	54.2±0.7	39.8±0.2	73.7±0.3	73.8±0.5	74.2±0.5	74.8±0.3	76.2±0.5	77.36

Hallazgos Clave:

MFP logra el mejor rendimiento en todos los conjuntos de datos
Comparado con GCN de características completas, MFP muestra solo una ligera degradación de rendimiento (1-2%)
Significativamente superior a otros métodos de características dispersas

Análisis de Preservación de Privacidad

Análisis de Distancia de Características: La distribución RMSE de MFP y FP es altamente similar a ruido aleatorio, indicando que no se reconstruyen características originales
Análisis de Correlación: Los valores PCC de MFP se concentran principalmente en el intervalo -0.1, 0.1, significativamente inferior a FP, indicando mejor preservación de privacidad
Generalización Entre Representaciones: El rendimiento del modelo disminuye significativamente entre diferentes representaciones (por ejemplo, en conjunto de datos Cora de 0.87 a 0.56), probando que la salida de propagación es una representación sustituta en lugar de una reconstrucción

Análisis de Sensibilidad

Impacto de Homofilia:
- MFP supera a FP en todos los niveles de homofilia
- La ventaja es más pronunciada en escenarios de baja homofilia
- Con alta homofilia (>0.7), el rendimiento de ambos métodos tiende a converger
Impacto del Número de Vistas:
- Pocas vistas (η≤5) proporcionan mejora significativa de rendimiento
- El rendimiento se estabiliza en η=10
- Demasiadas vistas pueden introducir redundancia
Impacto de Profundidad de Propagación:
- El rendimiento mejora con el aumento de iteraciones de propagación, pero rápidamente alcanza una meseta
- γ=40 es una configuración predeterminada razonable
- La profundidad óptima varía ligeramente entre conjuntos de datos

Trabajo Relacionado

Redes Neuronales de Grafos

GCN/GAT: Utilizan el principio de homofilia para aprendizaje de representación de nodos
Manejo de Características Faltantes: Métodos como PaGNN y GCNMF abordan características incompletas

Aprendizaje de Grafos con Preservación de Privacidad

Privacidad Diferencial: Protege privacidad mediante inyección de ruido, pero con pérdida de rendimiento significativa
Anonimización de Grafos: Modifica la estructura del grafo para proteger privacidad
Dispersión de Características: Reduce riesgo de privacidad mediante disminución de exposición de características

Propagación de Características

FP Clásica: Difusión de características basada en minimización de energía de Dirichlet
Propagación de Características Aleatoria: Mejora representaciones mediante propagación multi-trayectoria

Conclusiones y Discusión

Conclusiones Principales

MFP logra exitosamente el doble objetivo de preservación de privacidad y mantenimiento de rendimiento
La estrategia multi-vista mejora efectivamente la capacidad de aprendizaje de representaciones bajo condiciones de escasez de características
La salida de propagación es una interpolación sustituta de características originales en lugar de una reconstrucción, protegiendo la seguridad de privacidad
El marco demuestra buena robustez ante hiperparámetros clave

Limitaciones

Supuesto de Sensibilidad de Características: Actualmente asume que todas las características tienen igual sensibilidad, lo que en la práctica puede requerir tratamiento diferenciado
Cuantificación de Privacidad: Carece de garantías de privacidad formalizadas (como privacidad diferencial ε)
Verificación de Escalabilidad: Principalmente verificado en grafos de escala pequeña a mediana, el rendimiento en grafos a gran escala requiere investigación adicional
Adaptabilidad a Grafos Heterogéneos: El rendimiento en grafos con mayor heterogeneidad requiere verificación adicional

Direcciones Futuras

Integración de mecanismos de garantía de privacidad formalizada
Extensión a escenarios de grafos dinámicos y a gran escala
Investigación de mejoras de adaptabilidad en grafos heterogéneos
Exploración de aplicaciones en entornos de aprendizaje federado

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda necesidades prácticas reales de escasez de características y preservación de privacidad simultáneamente
Innovación del Método: La estrategia de propagación multi-vista posee originalidad y efectividad
Suficiencia Experimental: Experimentos comparativos exhaustivos y análisis de sensibilidad
Apoyo Teórico: Fundamento teórico sólido basado en energía de Dirichlet y aprendizaje multi-vista
Valor Práctico: Proporciona solución de aprendizaje de grafos con preservación de privacidad desplegable

Deficiencias

Análisis Teórico Insuficiente: Carece de explicación teórica de las ventajas de rendimiento de MFP
Garantías de Privacidad Limitadas: No proporciona límites formalizados de protección de privacidad
Complejidad Computacional: El procesamiento multi-vista incrementa la carga computacional, falta análisis de complejidad
Restricción de Escenarios de Aplicación: Principalmente aplicable a grafos homofílicos, rendimiento en grafos heterogéneos desconocido

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para aprendizaje de grafos con preservación de privacidad
Valor Práctico: Posee potencial de aplicación en dominios sensibles como redes sociales, sistemas de recomendación y medicina
Reproducibilidad: Los autores proporcionan implementación de código abierto, facilitando reproducción y extensión

Escenarios Aplicables

Análisis de Redes Sociales: Preservación de privacidad en análisis de perfiles de usuarios
Minería de Grafos Médicos: Predicción de enfermedades en redes de pacientes
Control de Riesgos Financieros: Detección de fraude en redes de transacciones
Sistemas de Recomendación: Recomendación personalizada en grafos usuario-artículo

Referencias

El artículo cita trabajos importantes en los campos de redes neuronales de grafos, preservación de privacidad y propagación de características, incluyendo:

Kipf & Welling (2016): Graph Convolutional Networks
Rossi et al. (2022): Efectividad de Propagación de Características
Yang et al. (2016): Conjuntos de Datos de Referencia Planetoid
Zhu et al. (2020): Homofilia en Redes Neuronales de Grafos

Evaluación General: Este artículo aborda el doble desafío de escasez de características y preservación de privacidad en redes neuronales de grafos, proponiendo un marco innovador de propagación de características multi-vista. El diseño del método es razonable, la verificación experimental es exhaustiva, y mientras mantiene practicidad, avanza la frontera de investigación en aprendizaje de grafos con preservación de privacidad. Aunque hay espacio para mejora en análisis teórico y garantías de privacidad, en general es un trabajo de investigación de alta calidad.