2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger

Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.

academic

Propagation de Caractéristiques de Graphe Multi-Vue pour la Préservation de la Confidentialité et l'Éparse des Caractéristiques

Informations Fondamentales

ID de l'article : 2510.11347
Titre : Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
Auteurs : Etzion Harari, Moshe Unger (Université de Tel Aviv)
Classification : cs.LG (Apprentissage Automatique)
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11347v1

Résumé

Les réseaux de neurones graphiques (GNN) ont obtenu un succès remarquable dans les tâches de classification de nœuds sur données relationnelles, mais leur efficacité dépend souvent de la disponibilité de caractéristiques de nœuds complètes. Cependant, dans de nombreux scénarios réels, la matrice de caractéristiques est hautement creuse ou contient des informations sensibles, entraînant une dégradation des performances et une augmentation des risques de confidentialité. Pour relever ces défis, cet article propose un cadre novateur de propagation de caractéristiques multi-vue (MFP) qui améliore les performances de classification de nœuds dans des conditions de caractéristiques creuses tout en promouvant la préservation de la confidentialité. Le MFP étend la propagation de caractéristiques traditionnelle (FP) en partitionnant les caractéristiques disponibles en plusieurs vues bruitées gaussiennes, chaque vue propageant les informations indépendamment via la topologie du graphe. L'agrégation des représentations produit des plongements de nœuds expressifs et robustes.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde deux problèmes fondamentaux dans les réseaux de neurones graphiques :

Problème d'éparse des caractéristiques : Dans les applications pratiques, la matrice de caractéristiques des nœuds de données graphiques est souvent hautement creuse ou incomplète, entraînant une dégradation sévère des performances des GNN
Problème de préservation de la confidentialité : Les caractéristiques des nœuds contiennent souvent des informations personnelles sensibles (telles que les données démographiques, les modèles de comportement, etc.), dont l'utilisation directe peut entraîner des fuites de confidentialité

Importance du Problème

Besoins pratiques : Les réseaux sociaux, le commerce électronique, les systèmes médicaux et autres domaines présentent couramment des problèmes de caractéristiques manquantes et de sensibilité à la confidentialité
Exigences réglementaires : Les réglementations sur la confidentialité telles que le RGPD exigent de minimiser l'exposition des informations sensibles dans l'analyse des données
Défis techniques : Les méthodes existantes présentent un compromis sévère entre la préservation de la confidentialité et les performances du modèle

Limitations des Méthodes Existantes

Propagation de caractéristiques traditionnelle (FP) : Bien qu'elle puisse atténuer l'éparse des caractéristiques, les performances restent significativement inférieures aux modèles entraînés avec des caractéristiques complètes, et peuvent reconstruire des informations sensibles
Méthodes de confidentialité différentielle : Protègent la confidentialité en ajoutant du bruit, mais sacrifient souvent les performances du modèle
Anonymisation de graphes : Peut endommager excessivement la structure du graphe, affectant l'efficacité de l'apprentissage

Contributions Principales

Proposition du cadre MFP : Premier cadre d'apprentissage graphique résolvant simultanément l'éparse des caractéristiques et la préservation de la confidentialité
Mécanisme de propagation multi-vue : Améliore la capacité d'apprentissage des représentations grâce à la propagation indépendante et l'agrégation de plusieurs vues partiellement bruitées
Vérification de la préservation de la confidentialité : Démontre que la sortie de propagation est une interpolation de substitution des caractéristiques originales plutôt qu'une reconstruction, protégeant contre les fuites de confidentialité
Évaluation expérimentale complète : Valide l'efficacité et la robustesse du MFP sur plusieurs ensembles de données de référence
Analyse de sensibilité : Analyse systématiquement l'impact des facteurs clés tels que l'homophilie du graphe, la profondeur de propagation et le nombre de vues

Détails de la Méthode

Définition de la Tâche

Entrée : Graphe d'attributs G = {X, E}, où E est l'ensemble des arêtes, X ∈ R^{|V|×d} est la matrice de caractéristiques des nœuds pouvant contenir des attributs sensibles Sortie : Prédictions de classification de nœuds Ŷ ∈ R^{|V|} Objectif : Réaliser une classification de nœuds hautement performante tout en protégeant la confidentialité des caractéristiques sensibles

Architecture du Modèle

Le cadre MFP comprend trois composants principaux :

1. Échantillonnage Aléatoire Creux (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  si Xᵢc ∈ k
    ϵᵢc,  si Xᵢc ∉ k
}

où ϵᵢc ~ N(μ, σ²) est un bruit gaussien, et k est le sous-ensemble de caractéristiques conservées.

2. Propagation de Caractéristiques Multi-Vue (Multi-view Feature Propagation)

Pour chaque vue t ∈ {1,...,η} :

Échantillonner aléatoirement un sous-ensemble kₜ des caractéristiques conservées (taux d'échantillonnage p)
Construire la matrice de caractéristiques bruitées X̃^(t), contenant uniquement les caractéristiques de kₜ
Appliquer la propagation de caractéristiques : H^(ι) = ÂH^(ι-1), où H^(0) = X̃^(t)
Réinitialiser les caractéristiques connues après chaque itération : H^(ι)_k = X̃^(t)_k

3. Agrégation de Vues

La représentation finale est obtenue par concaténation de vecteurs colonnes :

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Points d'Innovation Technique

Stratégie multi-vue : Contrairement à la FP traditionnelle avec propagation unique, le MFP capture des informations complémentaires grâce à plusieurs vues indépendantes
Mécanisme de préservation de la confidentialité : Limite l'exposition des informations sensibles par échantillonnage aléatoire et injection de bruit
Amélioration de la robustesse : L'agrégation multi-vue réduit le surapprentissage sur un seul sous-ensemble de caractéristiques
Compromis confidentialité-utilité contrôlable : Équilibre les performances et la confidentialité en ajustant le nombre de vues, le taux d'échantillonnage et autres paramètres

Configuration Expérimentale

Ensembles de Données

Ensembles de données de référence Planetoid :
- Cora : 2 708 nœuds, 1 433 caractéristiques, 7 classes, homophilie 81,0%
- Citeseer : 3 327 nœuds, 3 703 caractéristiques, 6 classes, homophilie 73,6%
- Pubmed : 19 717 nœuds, 500 caractéristiques, 3 classes, homophilie 80,2%
Ensembles de données synthétiques MixHop : 5 000 nœuds, 10 classes, homophilie contrôlable dans la plage 0,0-0,9

Métriques d'Évaluation

Performance de classification : Précision (Accuracy) et score F1
Exposition des caractéristiques :
- RMSE : Quantifie les différences de distance par rapport aux caractéristiques originales
- Coefficient de corrélation de Pearson (PCC) : Mesure la similarité directionnelle
Généralisation entre représentations : Performance de transfert de modèle entre différentes représentations

Méthodes de Comparaison

Méthodes traditionnelles : Propagation d'étiquettes (LP), codage positionnel (PE)
Méthodes de caractéristiques creuses : GCNMF, PaGNN, propagation de caractéristiques (FP), propagation de caractéristiques aléatoires (RFP)
Méthodes de référence : GCN avec caractéristiques complètes (sans préservation de confidentialité)

Détails d'Implémentation

Éparse des caractéristiques : 99% (conservation de seulement 1% des caractéristiques originales)
Paramètres MFP : η=10 vues, γ=40 itérations de propagation, p=0,8 taux d'échantillonnage
Architecture réseau : GCN à deux couches
Configuration d'entraînement : 20 nœuds d'entraînement par classe, 1 500 nœuds de validation

Résultats Expérimentaux

Résultats Principaux

Comparaison de la précision de classification de nœuds dans des conditions d'éparse de 99% :

Ensemble de Données	PaGNN	GCNMF	PE	LP	FP	RFP	MFP	GCN(Complet)
Cora	58,0±0,5	34,5±2,0	76,3±0,2	74,6±0,3	78,2±0,3	79,3±0,4	80,1±0,3	80,39
Citeseer	46,0±0,5	30,6±1,1	65,8±0,3	64,6±0,4	65,4±0,5	65,8±0,2	66,2±0,2	67,48
Pubmed	54,2±0,7	39,8±0,2	73,7±0,3	73,8±0,5	74,2±0,5	74,8±0,3	76,2±0,5	77,36

Découvertes Clés :

Le MFP obtient les meilleures performances sur tous les ensembles de données
Comparé au GCN avec caractéristiques complètes, le MFP ne présente qu'une légère dégradation de performances (1-2%)
Surpasse significativement les autres méthodes de caractéristiques creuses

Analyse de la Préservation de la Confidentialité

Analyse de la distance des caractéristiques : La distribution RMSE du MFP et de la FP est hautement similaire au bruit aléatoire, indiquant qu'aucune reconstruction de caractéristiques originales n'a eu lieu
Analyse de corrélation : Les valeurs PCC du MFP sont principalement concentrées dans l'intervalle -0,1, 0,1, significativement inférieures à la FP, indiquant une meilleure préservation de la confidentialité
Généralisation entre représentations : Les performances du modèle diminuent considérablement entre différentes représentations (par exemple, sur l'ensemble de données Cora, de 0,87 à 0,56), prouvant que la sortie de propagation est une représentation de substitution plutôt qu'une reconstruction

Analyse de Sensibilité

Impact de l'homophilie :
- Le MFP surpasse la FP à tous les niveaux d'homophilie
- L'avantage est plus prononcé dans les scénarios de faible homophilie
- Avec une homophilie élevée (>0,7), les performances des deux méthodes convergent
Impact du nombre de vues :
- Un petit nombre de vues (η≤5) apporte des améliorations significatives de performances
- Les performances se stabilisent à η=10
- Un trop grand nombre de vues peut introduire de la redondance
Impact de la profondeur de propagation :
- Les performances s'améliorent avec l'augmentation du nombre de propagations, mais atteignent rapidement un plateau
- γ=40 est un paramètre par défaut raisonnable
- La profondeur optimale varie légèrement selon les ensembles de données

Travaux Connexes

Réseaux de Neurones Graphiques

GCN/GAT : Utilisent le principe d'homophilie pour l'apprentissage de représentations de nœuds
Traitement des caractéristiques manquantes : Méthodes telles que PaGNN et GCNMF traitant les caractéristiques incomplètes

Apprentissage Graphique Préservant la Confidentialité

Confidentialité différentielle : Protège la confidentialité par injection de bruit, mais avec une perte de performances importante
Anonymisation de graphes : Modifie la structure du graphe pour protéger la confidentialité
Éparse des caractéristiques : Réduit l'exposition des caractéristiques pour diminuer les risques de confidentialité

Propagation de Caractéristiques

FP classique : Diffusion de caractéristiques basée sur la minimisation de l'énergie de Dirichlet
Propagation de caractéristiques aléatoires : Améliore les représentations grâce à la propagation multi-trajectoires

Conclusions et Discussion

Conclusions Principales

Le MFP réalise avec succès l'objectif double de préservation de la confidentialité et de maintien des performances
La stratégie multi-vue améliore efficacement la capacité d'apprentissage des représentations dans des conditions de caractéristiques creuses
La sortie de propagation est une interpolation de substitution des caractéristiques originales plutôt qu'une reconstruction, protégeant la sécurité de la confidentialité
Le cadre présente une bonne robustesse aux hyperparamètres clés

Limitations

Hypothèse de sensibilité des caractéristiques : L'approche actuelle suppose que toutes les caractéristiques ont la même sensibilité, tandis que dans la pratique, un traitement différencié peut être nécessaire
Quantification de la confidentialité : Absence de garanties formelles de confidentialité (telles que la confidentialité différentielle ε)
Vérification de l'extensibilité : Validation principalement sur des graphes de petite et moyenne taille ; les performances sur les graphes à grande échelle nécessitent une recherche supplémentaire
Adaptabilité aux graphes hétérogènes : Les performances sur les graphes avec une hétérogénéité plus forte nécessitent une vérification supplémentaire

Directions Futures

Intégrer des mécanismes de garanties formelles de confidentialité
Étendre aux scénarios de graphes dynamiques et à grande échelle
Étudier les améliorations d'adaptabilité sur les graphes hétérogènes
Explorer les applications dans les environnements d'apprentissage fédéré

Évaluation Approfondie

Points Forts

Importance du problème : Répond aux besoins pratiques de résoudre simultanément l'éparse des caractéristiques et la préservation de la confidentialité
Originalité de la méthode : La stratégie de propagation multi-vue possède une originalité et une efficacité certaines
Suffisance expérimentale : Expériences de comparaison complètes et analyse de sensibilité
Fondement théorique solide : Basé sur l'énergie de Dirichlet et les fondements théoriques solides de l'apprentissage multi-vue
Valeur pratique : Fournit une solution déployable pour l'apprentissage graphique préservant la confidentialité

Insuffisances

Analyse théorique insuffisante : Manque d'explications théoriques des avantages de performance du MFP
Garanties de confidentialité limitées : N'a pas fourni de limites formelles de protection de la confidentialité
Complexité de calcul : Le traitement multi-vue augmente la surcharge de calcul, manque d'analyse de complexité
Limitation des scénarios d'application : Principalement applicable aux graphes homophiles, les performances sur les graphes hétérogènes sont inconnues

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour l'apprentissage graphique préservant la confidentialité
Valeur pratique : Possède un potentiel d'application dans les domaines sensibles tels que les réseaux sociaux, les systèmes de recommandation et la santé
Reproductibilité : Les auteurs fournissent une implémentation open-source, facilitant la reproduction et l'extension

Scénarios d'Application

Analyse de réseaux sociaux : Préservation de la confidentialité dans l'analyse des profils utilisateurs
Exploration de graphes médicaux : Prédiction de maladies dans les réseaux de patients
Gestion des risques financiers : Détection de fraude dans les réseaux de transactions
Systèmes de recommandation : Recommandations personnalisées dans les graphes utilisateur-article

Références

L'article cite des travaux importants dans les domaines des réseaux de neurones graphiques, de la préservation de la confidentialité et de la propagation de caractéristiques, notamment :

Kipf & Welling (2016) : Graph Convolutional Networks
Rossi et al. (2022) : Efficacité de la propagation de caractéristiques
Yang et al. (2016) : Ensembles de données de référence Planetoid
Zhu et al. (2020) : Homophilie dans les réseaux de neurones graphiques

Évaluation Globale : Cet article aborde le double défi de l'éparse des caractéristiques et de la préservation de la confidentialité dans les réseaux de neurones graphiques, proposant un cadre innovant de propagation de caractéristiques multi-vue. La conception de la méthode est raisonnable, la vérification expérimentale est suffisante, et elle fait progresser la recherche de pointe en apprentissage graphique préservant la confidentialité tout en maintenant la praticité. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et les garanties de confidentialité, il s'agit globalement d'un travail de recherche de haute qualité.