2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic

Propagación de Características en Grafos Multi-Vista para Preservación de Privacidad y Escasez de Características

Información Básica

  • ID del Artículo: 2510.11347
  • Título: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
  • Autores: Etzion Harari, Moshe Unger (Universidad de Tel Aviv)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11347v1

Resumen

Las redes neuronales de grafos (GNNs) han logrado un éxito significativo en tareas de clasificación de nodos en datos relacionales, pero su efectividad a menudo depende de la disponibilidad de características de nodos completas. Sin embargo, en muchos escenarios del mundo real, la matriz de características es altamente dispersa o contiene información sensible, lo que genera degradación del rendimiento e incremento de riesgos de privacidad. Para abordar estos desafíos, este artículo propone un marco novedoso de propagación de características multi-vista (MFP) que mejora el rendimiento de la clasificación de nodos bajo condiciones de escasez de características mientras promueve la preservación de privacidad. MFP extiende la propagación de características tradicional (FP) dividiendo las características disponibles en múltiples vistas con ruido gaussiano, donde cada vista propaga información de forma independiente a través de la topología del grafo. La agregación de representaciones produce incrustaciones de nodos expresivas y robustas.

Contexto de Investigación y Motivación

Definición del Problema

Esta investigación aborda dos problemas fundamentales en redes neuronales de grafos:

  1. Problema de Escasez de Características: En aplicaciones prácticas, la matriz de características de nodos en datos de grafos es frecuentemente altamente dispersa o incompleta, causando una degradación severa del rendimiento de GNN
  2. Problema de Preservación de Privacidad: Las características de nodos frecuentemente contienen información personal sensible (como datos demográficos, patrones de comportamiento, etc.), cuyo uso directo puede resultar en fugas de privacidad

Importancia del Problema

  • Necesidades Prácticas: Redes sociales, comercio electrónico, sistemas médicos y otros dominios enfrentan comúnmente problemas de características faltantes y sensibilidad de privacidad
  • Requisitos Regulatorios: Regulaciones de privacidad como GDPR requieren minimizar la exposición de información sensible en análisis de datos
  • Desafíos Técnicos: Los métodos existentes presentan compromisos severos entre preservación de privacidad y rendimiento del modelo

Limitaciones de Métodos Existentes

  1. Propagación de Características Tradicional (FP): Aunque puede aliviar la escasez de características, el rendimiento sigue siendo significativamente inferior al de modelos entrenados con características completas, y puede reconstruir información sensible
  2. Métodos de Privacidad Diferencial: Protegen la privacidad mediante adición de ruido, pero frecuentemente sacrifican el rendimiento del modelo
  3. Anonimización de Grafos: Puede dañar excesivamente la estructura del grafo, afectando la efectividad del aprendizaje

Contribuciones Principales

  1. Propuesta del Marco MFP: Primer marco de aprendizaje en grafos que aborda simultáneamente la escasez de características y la preservación de privacidad
  2. Mecanismo de Propagación Multi-Vista: Mediante propagación independiente y agregación de múltiples vistas parcialmente ruidosas, mejora la capacidad de aprendizaje de representaciones
  3. Verificación de Preservación de Privacidad: Demuestra que la salida de propagación es una interpolación sustituta de características originales en lugar de una reconstrucción, protegiendo contra fugas de privacidad
  4. Evaluación Experimental Integral: Verifica la efectividad y robustez de MFP en múltiples conjuntos de datos de referencia
  5. Análisis de Sensibilidad: Analiza sistemáticamente el impacto de factores clave como homofilia del grafo, profundidad de propagación y número de vistas

Explicación Detallada del Método

Definición de la Tarea

Entrada: Grafo atribuido G = {X, E}, donde E es el conjunto de aristas y X ∈ R^{|V|×d} es la matriz de características de nodos que puede contener atributos sensibles Salida: Predicción de clasificación de nodos Ŷ ∈ R^{|V|} Objetivo: Lograr clasificación de nodos de alto rendimiento mientras se protege la privacidad de características sensibles

Arquitectura del Modelo

El marco MFP contiene tres componentes principales:

1. Muestreo Estocástico Disperso (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  si Xᵢc ∈ k
    ϵᵢc,  si Xᵢc ∉ k
}

donde ϵᵢc ~ N(μ, σ²) es ruido gaussiano y k es el subconjunto de características retenidas.

2. Propagación de Características Multi-Vista (Multi-view Feature Propagation)

Para cada vista t ∈ {1,...,η}:

  • Muestrear aleatoriamente un subconjunto kₜ de características retenidas (tasa de muestreo p)
  • Construir matriz de características ruidosas X̃^(t), conteniendo solo características en kₜ
  • Aplicar propagación de características: H^(ι) = ÂH^(ι-1), donde H^(0) = X̃^(t)
  • Reiniciar características conocidas después de cada iteración: H^(ι)_k = X̃^(t)_k

3. Agregación de Vistas

La representación final se obtiene mediante concatenación de vectores columna:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Puntos de Innovación Técnica

  1. Estrategia Multi-Vista: A diferencia de FP tradicional con propagación única, MFP captura información complementaria mediante múltiples vistas independientes
  2. Mecanismo de Preservación de Privacidad: Mediante muestreo aleatorio e inyección de ruido, limita la exposición de información sensible
  3. Mejora de Robustez: La agregación multi-vista reduce el sobreajuste a subconjuntos de características únicos
  4. Equilibrio Controlable Privacidad-Utilidad: Mediante ajuste de número de vistas, tasa de muestreo y otros parámetros, equilibra rendimiento y privacidad

Configuración Experimental

Conjuntos de Datos

  1. Conjuntos de Datos de Referencia Planetoid:
    • Cora: 2,708 nodos, 1,433 características, 7 clases, homofilia 81.0%
    • Citeseer: 3,327 nodos, 3,703 características, 6 clases, homofilia 73.6%
    • Pubmed: 19,717 nodos, 500 características, 3 clases, homofilia 80.2%
  2. Conjuntos de Datos Sintéticos MixHop: 5,000 nodos, 10 clases, homofilia controlable en rango 0.0-0.9

Métricas de Evaluación

  1. Rendimiento de Clasificación: Precisión (Accuracy) y puntuación F1
  2. Exposición de Características:
    • RMSE: Cuantifica diferencias de distancia con características originales
    • Coeficiente de Correlación de Pearson (PCC): Mide similitud direccional
  3. Generalización Entre Representaciones: Rendimiento de transferencia de modelo entre diferentes representaciones

Métodos de Comparación

  • Métodos Tradicionales: Propagación de Etiquetas (LP), Codificación Posicional (PE)
  • Métodos de Características Dispersas: GCNMF, PaGNN, Propagación de Características (FP), Propagación de Características Aleatoria (RFP)
  • Método de Referencia: GCN con características completas (sin preservación de privacidad)

Detalles de Implementación

  • Dispersidad de características: 99% (retención de solo 1% de características originales)
  • Parámetros MFP: η=10 vistas, γ=40 iteraciones de propagación, p=0.8 tasa de muestreo
  • Arquitectura de red: GCN de dos capas
  • Configuración de entrenamiento: 20 nodos de entrenamiento por clase, 1500 nodos de validación

Resultados Experimentales

Resultados Principales

Comparación de precisión de clasificación de nodos bajo condición de 99% dispersidad de características:

Conjunto de DatosPaGNNGCNMFPELPFPRFPMFPGCN(Completo)
Cora58.0±0.534.5±2.076.3±0.274.6±0.378.2±0.379.3±0.480.1±0.380.39
Citeseer46.0±0.530.6±1.165.8±0.364.6±0.465.4±0.565.8±0.266.2±0.267.48
Pubmed54.2±0.739.8±0.273.7±0.373.8±0.574.2±0.574.8±0.376.2±0.577.36

Hallazgos Clave:

  • MFP logra el mejor rendimiento en todos los conjuntos de datos
  • Comparado con GCN de características completas, MFP muestra solo una ligera degradación de rendimiento (1-2%)
  • Significativamente superior a otros métodos de características dispersas

Análisis de Preservación de Privacidad

  1. Análisis de Distancia de Características: La distribución RMSE de MFP y FP es altamente similar a ruido aleatorio, indicando que no se reconstruyen características originales
  2. Análisis de Correlación: Los valores PCC de MFP se concentran principalmente en el intervalo -0.1, 0.1, significativamente inferior a FP, indicando mejor preservación de privacidad
  3. Generalización Entre Representaciones: El rendimiento del modelo disminuye significativamente entre diferentes representaciones (por ejemplo, en conjunto de datos Cora de 0.87 a 0.56), probando que la salida de propagación es una representación sustituta en lugar de una reconstrucción

Análisis de Sensibilidad

  1. Impacto de Homofilia:
    • MFP supera a FP en todos los niveles de homofilia
    • La ventaja es más pronunciada en escenarios de baja homofilia
    • Con alta homofilia (>0.7), el rendimiento de ambos métodos tiende a converger
  2. Impacto del Número de Vistas:
    • Pocas vistas (η≤5) proporcionan mejora significativa de rendimiento
    • El rendimiento se estabiliza en η=10
    • Demasiadas vistas pueden introducir redundancia
  3. Impacto de Profundidad de Propagación:
    • El rendimiento mejora con el aumento de iteraciones de propagación, pero rápidamente alcanza una meseta
    • γ=40 es una configuración predeterminada razonable
    • La profundidad óptima varía ligeramente entre conjuntos de datos

Trabajo Relacionado

Redes Neuronales de Grafos

  • GCN/GAT: Utilizan el principio de homofilia para aprendizaje de representación de nodos
  • Manejo de Características Faltantes: Métodos como PaGNN y GCNMF abordan características incompletas

Aprendizaje de Grafos con Preservación de Privacidad

  • Privacidad Diferencial: Protege privacidad mediante inyección de ruido, pero con pérdida de rendimiento significativa
  • Anonimización de Grafos: Modifica la estructura del grafo para proteger privacidad
  • Dispersión de Características: Reduce riesgo de privacidad mediante disminución de exposición de características

Propagación de Características

  • FP Clásica: Difusión de características basada en minimización de energía de Dirichlet
  • Propagación de Características Aleatoria: Mejora representaciones mediante propagación multi-trayectoria

Conclusiones y Discusión

Conclusiones Principales

  1. MFP logra exitosamente el doble objetivo de preservación de privacidad y mantenimiento de rendimiento
  2. La estrategia multi-vista mejora efectivamente la capacidad de aprendizaje de representaciones bajo condiciones de escasez de características
  3. La salida de propagación es una interpolación sustituta de características originales en lugar de una reconstrucción, protegiendo la seguridad de privacidad
  4. El marco demuestra buena robustez ante hiperparámetros clave

Limitaciones

  1. Supuesto de Sensibilidad de Características: Actualmente asume que todas las características tienen igual sensibilidad, lo que en la práctica puede requerir tratamiento diferenciado
  2. Cuantificación de Privacidad: Carece de garantías de privacidad formalizadas (como privacidad diferencial ε)
  3. Verificación de Escalabilidad: Principalmente verificado en grafos de escala pequeña a mediana, el rendimiento en grafos a gran escala requiere investigación adicional
  4. Adaptabilidad a Grafos Heterogéneos: El rendimiento en grafos con mayor heterogeneidad requiere verificación adicional

Direcciones Futuras

  1. Integración de mecanismos de garantía de privacidad formalizada
  2. Extensión a escenarios de grafos dinámicos y a gran escala
  3. Investigación de mejoras de adaptabilidad en grafos heterogéneos
  4. Exploración de aplicaciones en entornos de aprendizaje federado

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda necesidades prácticas reales de escasez de características y preservación de privacidad simultáneamente
  2. Innovación del Método: La estrategia de propagación multi-vista posee originalidad y efectividad
  3. Suficiencia Experimental: Experimentos comparativos exhaustivos y análisis de sensibilidad
  4. Apoyo Teórico: Fundamento teórico sólido basado en energía de Dirichlet y aprendizaje multi-vista
  5. Valor Práctico: Proporciona solución de aprendizaje de grafos con preservación de privacidad desplegable

Deficiencias

  1. Análisis Teórico Insuficiente: Carece de explicación teórica de las ventajas de rendimiento de MFP
  2. Garantías de Privacidad Limitadas: No proporciona límites formalizados de protección de privacidad
  3. Complejidad Computacional: El procesamiento multi-vista incrementa la carga computacional, falta análisis de complejidad
  4. Restricción de Escenarios de Aplicación: Principalmente aplicable a grafos homofílicos, rendimiento en grafos heterogéneos desconocido

Impacto

  1. Contribución Académica: Proporciona nueva dirección de investigación para aprendizaje de grafos con preservación de privacidad
  2. Valor Práctico: Posee potencial de aplicación en dominios sensibles como redes sociales, sistemas de recomendación y medicina
  3. Reproducibilidad: Los autores proporcionan implementación de código abierto, facilitando reproducción y extensión

Escenarios Aplicables

  1. Análisis de Redes Sociales: Preservación de privacidad en análisis de perfiles de usuarios
  2. Minería de Grafos Médicos: Predicción de enfermedades en redes de pacientes
  3. Control de Riesgos Financieros: Detección de fraude en redes de transacciones
  4. Sistemas de Recomendación: Recomendación personalizada en grafos usuario-artículo

Referencias

El artículo cita trabajos importantes en los campos de redes neuronales de grafos, preservación de privacidad y propagación de características, incluyendo:

  • Kipf & Welling (2016): Graph Convolutional Networks
  • Rossi et al. (2022): Efectividad de Propagación de Características
  • Yang et al. (2016): Conjuntos de Datos de Referencia Planetoid
  • Zhu et al. (2020): Homofilia en Redes Neuronales de Grafos

Evaluación General: Este artículo aborda el doble desafío de escasez de características y preservación de privacidad en redes neuronales de grafos, proponiendo un marco innovador de propagación de características multi-vista. El diseño del método es razonable, la verificación experimental es exhaustiva, y mientras mantiene practicidad, avanza la frontera de investigación en aprendizaje de grafos con preservación de privacidad. Aunque hay espacio para mejora en análisis teórico y garantías de privacidad, en general es un trabajo de investigación de alta calidad.