2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic

Propagation de Caractéristiques de Graphe Multi-Vue pour la Préservation de la Confidentialité et l'Éparse des Caractéristiques

Informations Fondamentales

  • ID de l'article : 2510.11347
  • Titre : Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
  • Auteurs : Etzion Harari, Moshe Unger (Université de Tel Aviv)
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.11347v1

Résumé

Les réseaux de neurones graphiques (GNN) ont obtenu un succès remarquable dans les tâches de classification de nœuds sur données relationnelles, mais leur efficacité dépend souvent de la disponibilité de caractéristiques de nœuds complètes. Cependant, dans de nombreux scénarios réels, la matrice de caractéristiques est hautement creuse ou contient des informations sensibles, entraînant une dégradation des performances et une augmentation des risques de confidentialité. Pour relever ces défis, cet article propose un cadre novateur de propagation de caractéristiques multi-vue (MFP) qui améliore les performances de classification de nœuds dans des conditions de caractéristiques creuses tout en promouvant la préservation de la confidentialité. Le MFP étend la propagation de caractéristiques traditionnelle (FP) en partitionnant les caractéristiques disponibles en plusieurs vues bruitées gaussiennes, chaque vue propageant les informations indépendamment via la topologie du graphe. L'agrégation des représentations produit des plongements de nœuds expressifs et robustes.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde deux problèmes fondamentaux dans les réseaux de neurones graphiques :

  1. Problème d'éparse des caractéristiques : Dans les applications pratiques, la matrice de caractéristiques des nœuds de données graphiques est souvent hautement creuse ou incomplète, entraînant une dégradation sévère des performances des GNN
  2. Problème de préservation de la confidentialité : Les caractéristiques des nœuds contiennent souvent des informations personnelles sensibles (telles que les données démographiques, les modèles de comportement, etc.), dont l'utilisation directe peut entraîner des fuites de confidentialité

Importance du Problème

  • Besoins pratiques : Les réseaux sociaux, le commerce électronique, les systèmes médicaux et autres domaines présentent couramment des problèmes de caractéristiques manquantes et de sensibilité à la confidentialité
  • Exigences réglementaires : Les réglementations sur la confidentialité telles que le RGPD exigent de minimiser l'exposition des informations sensibles dans l'analyse des données
  • Défis techniques : Les méthodes existantes présentent un compromis sévère entre la préservation de la confidentialité et les performances du modèle

Limitations des Méthodes Existantes

  1. Propagation de caractéristiques traditionnelle (FP) : Bien qu'elle puisse atténuer l'éparse des caractéristiques, les performances restent significativement inférieures aux modèles entraînés avec des caractéristiques complètes, et peuvent reconstruire des informations sensibles
  2. Méthodes de confidentialité différentielle : Protègent la confidentialité en ajoutant du bruit, mais sacrifient souvent les performances du modèle
  3. Anonymisation de graphes : Peut endommager excessivement la structure du graphe, affectant l'efficacité de l'apprentissage

Contributions Principales

  1. Proposition du cadre MFP : Premier cadre d'apprentissage graphique résolvant simultanément l'éparse des caractéristiques et la préservation de la confidentialité
  2. Mécanisme de propagation multi-vue : Améliore la capacité d'apprentissage des représentations grâce à la propagation indépendante et l'agrégation de plusieurs vues partiellement bruitées
  3. Vérification de la préservation de la confidentialité : Démontre que la sortie de propagation est une interpolation de substitution des caractéristiques originales plutôt qu'une reconstruction, protégeant contre les fuites de confidentialité
  4. Évaluation expérimentale complète : Valide l'efficacité et la robustesse du MFP sur plusieurs ensembles de données de référence
  5. Analyse de sensibilité : Analyse systématiquement l'impact des facteurs clés tels que l'homophilie du graphe, la profondeur de propagation et le nombre de vues

Détails de la Méthode

Définition de la Tâche

Entrée : Graphe d'attributs G = {X, E}, où E est l'ensemble des arêtes, X ∈ R^{|V|×d} est la matrice de caractéristiques des nœuds pouvant contenir des attributs sensibles Sortie : Prédictions de classification de nœuds Ŷ ∈ R^{|V|} Objectif : Réaliser une classification de nœuds hautement performante tout en protégeant la confidentialité des caractéristiques sensibles

Architecture du Modèle

Le cadre MFP comprend trois composants principaux :

1. Échantillonnage Aléatoire Creux (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  si Xᵢc ∈ k
    ϵᵢc,  si Xᵢc ∉ k
}

où ϵᵢc ~ N(μ, σ²) est un bruit gaussien, et k est le sous-ensemble de caractéristiques conservées.

2. Propagation de Caractéristiques Multi-Vue (Multi-view Feature Propagation)

Pour chaque vue t ∈ {1,...,η} :

  • Échantillonner aléatoirement un sous-ensemble kₜ des caractéristiques conservées (taux d'échantillonnage p)
  • Construire la matrice de caractéristiques bruitées X̃^(t), contenant uniquement les caractéristiques de kₜ
  • Appliquer la propagation de caractéristiques : H^(ι) = ÂH^(ι-1), où H^(0) = X̃^(t)
  • Réinitialiser les caractéristiques connues après chaque itération : H^(ι)_k = X̃^(t)_k

3. Agrégation de Vues

La représentation finale est obtenue par concaténation de vecteurs colonnes :

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Points d'Innovation Technique

  1. Stratégie multi-vue : Contrairement à la FP traditionnelle avec propagation unique, le MFP capture des informations complémentaires grâce à plusieurs vues indépendantes
  2. Mécanisme de préservation de la confidentialité : Limite l'exposition des informations sensibles par échantillonnage aléatoire et injection de bruit
  3. Amélioration de la robustesse : L'agrégation multi-vue réduit le surapprentissage sur un seul sous-ensemble de caractéristiques
  4. Compromis confidentialité-utilité contrôlable : Équilibre les performances et la confidentialité en ajustant le nombre de vues, le taux d'échantillonnage et autres paramètres

Configuration Expérimentale

Ensembles de Données

  1. Ensembles de données de référence Planetoid :
    • Cora : 2 708 nœuds, 1 433 caractéristiques, 7 classes, homophilie 81,0%
    • Citeseer : 3 327 nœuds, 3 703 caractéristiques, 6 classes, homophilie 73,6%
    • Pubmed : 19 717 nœuds, 500 caractéristiques, 3 classes, homophilie 80,2%
  2. Ensembles de données synthétiques MixHop : 5 000 nœuds, 10 classes, homophilie contrôlable dans la plage 0,0-0,9

Métriques d'Évaluation

  1. Performance de classification : Précision (Accuracy) et score F1
  2. Exposition des caractéristiques :
    • RMSE : Quantifie les différences de distance par rapport aux caractéristiques originales
    • Coefficient de corrélation de Pearson (PCC) : Mesure la similarité directionnelle
  3. Généralisation entre représentations : Performance de transfert de modèle entre différentes représentations

Méthodes de Comparaison

  • Méthodes traditionnelles : Propagation d'étiquettes (LP), codage positionnel (PE)
  • Méthodes de caractéristiques creuses : GCNMF, PaGNN, propagation de caractéristiques (FP), propagation de caractéristiques aléatoires (RFP)
  • Méthodes de référence : GCN avec caractéristiques complètes (sans préservation de confidentialité)

Détails d'Implémentation

  • Éparse des caractéristiques : 99% (conservation de seulement 1% des caractéristiques originales)
  • Paramètres MFP : η=10 vues, γ=40 itérations de propagation, p=0,8 taux d'échantillonnage
  • Architecture réseau : GCN à deux couches
  • Configuration d'entraînement : 20 nœuds d'entraînement par classe, 1 500 nœuds de validation

Résultats Expérimentaux

Résultats Principaux

Comparaison de la précision de classification de nœuds dans des conditions d'éparse de 99% :

Ensemble de DonnéesPaGNNGCNMFPELPFPRFPMFPGCN(Complet)
Cora58,0±0,534,5±2,076,3±0,274,6±0,378,2±0,379,3±0,480,1±0,380,39
Citeseer46,0±0,530,6±1,165,8±0,364,6±0,465,4±0,565,8±0,266,2±0,267,48
Pubmed54,2±0,739,8±0,273,7±0,373,8±0,574,2±0,574,8±0,376,2±0,577,36

Découvertes Clés :

  • Le MFP obtient les meilleures performances sur tous les ensembles de données
  • Comparé au GCN avec caractéristiques complètes, le MFP ne présente qu'une légère dégradation de performances (1-2%)
  • Surpasse significativement les autres méthodes de caractéristiques creuses

Analyse de la Préservation de la Confidentialité

  1. Analyse de la distance des caractéristiques : La distribution RMSE du MFP et de la FP est hautement similaire au bruit aléatoire, indiquant qu'aucune reconstruction de caractéristiques originales n'a eu lieu
  2. Analyse de corrélation : Les valeurs PCC du MFP sont principalement concentrées dans l'intervalle -0,1, 0,1, significativement inférieures à la FP, indiquant une meilleure préservation de la confidentialité
  3. Généralisation entre représentations : Les performances du modèle diminuent considérablement entre différentes représentations (par exemple, sur l'ensemble de données Cora, de 0,87 à 0,56), prouvant que la sortie de propagation est une représentation de substitution plutôt qu'une reconstruction

Analyse de Sensibilité

  1. Impact de l'homophilie :
    • Le MFP surpasse la FP à tous les niveaux d'homophilie
    • L'avantage est plus prononcé dans les scénarios de faible homophilie
    • Avec une homophilie élevée (>0,7), les performances des deux méthodes convergent
  2. Impact du nombre de vues :
    • Un petit nombre de vues (η≤5) apporte des améliorations significatives de performances
    • Les performances se stabilisent à η=10
    • Un trop grand nombre de vues peut introduire de la redondance
  3. Impact de la profondeur de propagation :
    • Les performances s'améliorent avec l'augmentation du nombre de propagations, mais atteignent rapidement un plateau
    • γ=40 est un paramètre par défaut raisonnable
    • La profondeur optimale varie légèrement selon les ensembles de données

Travaux Connexes

Réseaux de Neurones Graphiques

  • GCN/GAT : Utilisent le principe d'homophilie pour l'apprentissage de représentations de nœuds
  • Traitement des caractéristiques manquantes : Méthodes telles que PaGNN et GCNMF traitant les caractéristiques incomplètes

Apprentissage Graphique Préservant la Confidentialité

  • Confidentialité différentielle : Protège la confidentialité par injection de bruit, mais avec une perte de performances importante
  • Anonymisation de graphes : Modifie la structure du graphe pour protéger la confidentialité
  • Éparse des caractéristiques : Réduit l'exposition des caractéristiques pour diminuer les risques de confidentialité

Propagation de Caractéristiques

  • FP classique : Diffusion de caractéristiques basée sur la minimisation de l'énergie de Dirichlet
  • Propagation de caractéristiques aléatoires : Améliore les représentations grâce à la propagation multi-trajectoires

Conclusions et Discussion

Conclusions Principales

  1. Le MFP réalise avec succès l'objectif double de préservation de la confidentialité et de maintien des performances
  2. La stratégie multi-vue améliore efficacement la capacité d'apprentissage des représentations dans des conditions de caractéristiques creuses
  3. La sortie de propagation est une interpolation de substitution des caractéristiques originales plutôt qu'une reconstruction, protégeant la sécurité de la confidentialité
  4. Le cadre présente une bonne robustesse aux hyperparamètres clés

Limitations

  1. Hypothèse de sensibilité des caractéristiques : L'approche actuelle suppose que toutes les caractéristiques ont la même sensibilité, tandis que dans la pratique, un traitement différencié peut être nécessaire
  2. Quantification de la confidentialité : Absence de garanties formelles de confidentialité (telles que la confidentialité différentielle ε)
  3. Vérification de l'extensibilité : Validation principalement sur des graphes de petite et moyenne taille ; les performances sur les graphes à grande échelle nécessitent une recherche supplémentaire
  4. Adaptabilité aux graphes hétérogènes : Les performances sur les graphes avec une hétérogénéité plus forte nécessitent une vérification supplémentaire

Directions Futures

  1. Intégrer des mécanismes de garanties formelles de confidentialité
  2. Étendre aux scénarios de graphes dynamiques et à grande échelle
  3. Étudier les améliorations d'adaptabilité sur les graphes hétérogènes
  4. Explorer les applications dans les environnements d'apprentissage fédéré

Évaluation Approfondie

Points Forts

  1. Importance du problème : Répond aux besoins pratiques de résoudre simultanément l'éparse des caractéristiques et la préservation de la confidentialité
  2. Originalité de la méthode : La stratégie de propagation multi-vue possède une originalité et une efficacité certaines
  3. Suffisance expérimentale : Expériences de comparaison complètes et analyse de sensibilité
  4. Fondement théorique solide : Basé sur l'énergie de Dirichlet et les fondements théoriques solides de l'apprentissage multi-vue
  5. Valeur pratique : Fournit une solution déployable pour l'apprentissage graphique préservant la confidentialité

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explications théoriques des avantages de performance du MFP
  2. Garanties de confidentialité limitées : N'a pas fourni de limites formelles de protection de la confidentialité
  3. Complexité de calcul : Le traitement multi-vue augmente la surcharge de calcul, manque d'analyse de complexité
  4. Limitation des scénarios d'application : Principalement applicable aux graphes homophiles, les performances sur les graphes hétérogènes sont inconnues

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche pour l'apprentissage graphique préservant la confidentialité
  2. Valeur pratique : Possède un potentiel d'application dans les domaines sensibles tels que les réseaux sociaux, les systèmes de recommandation et la santé
  3. Reproductibilité : Les auteurs fournissent une implémentation open-source, facilitant la reproduction et l'extension

Scénarios d'Application

  1. Analyse de réseaux sociaux : Préservation de la confidentialité dans l'analyse des profils utilisateurs
  2. Exploration de graphes médicaux : Prédiction de maladies dans les réseaux de patients
  3. Gestion des risques financiers : Détection de fraude dans les réseaux de transactions
  4. Systèmes de recommandation : Recommandations personnalisées dans les graphes utilisateur-article

Références

L'article cite des travaux importants dans les domaines des réseaux de neurones graphiques, de la préservation de la confidentialité et de la propagation de caractéristiques, notamment :

  • Kipf & Welling (2016) : Graph Convolutional Networks
  • Rossi et al. (2022) : Efficacité de la propagation de caractéristiques
  • Yang et al. (2016) : Ensembles de données de référence Planetoid
  • Zhu et al. (2020) : Homophilie dans les réseaux de neurones graphiques

Évaluation Globale : Cet article aborde le double défi de l'éparse des caractéristiques et de la préservation de la confidentialité dans les réseaux de neurones graphiques, proposant un cadre innovant de propagation de caractéristiques multi-vue. La conception de la méthode est raisonnable, la vérification expérimentale est suffisante, et elle fait progresser la recherche de pointe en apprentissage graphique préservant la confidentialité tout en maintenant la praticité. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et les garanties de confidentialité, il s'agit globalement d'un travail de recherche de haute qualité.