Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic
Многовидовое распространение признаков графа для сохранения конфиденциальности и разреженности признаков
Графовые нейронные сети (GNN) достигли значительных успехов в задачах классификации узлов на реляционных данных, однако их эффективность часто зависит от доступности полных признаков узлов. Однако во многих практических сценариях матрица признаков высоко разреженна или содержит конфиденциальную информацию, что приводит к снижению производительности и увеличению рисков конфиденциальности. Для решения этих проблем в работе предложена новая структура многовидового распространения признаков (MFP), которая повышает производительность классификации узлов в условиях разреженности признаков и одновременно способствует защите конфиденциальности. MFP расширяет традиционное распространение признаков (FP) путём разделения доступных признаков на несколько видов с гауссовым шумом, каждый из которых независимо распространяет информацию через топологию графа. Агрегированное представление создаёт выразительные и устойчивые вложения узлов.
Данное исследование решает две основные проблемы в графовых нейронных сетях:
Проблема разреженности признаков: В практических приложениях матрица признаков узлов графовых данных часто высоко разреженна или неполна, что приводит к серьёзному снижению производительности GNN
Проблема защиты конфиденциальности: Признаки узлов часто содержат конфиденциальную личную информацию (например, демографические данные, поведенческие модели и т.д.), прямое использование которых может привести к утечке конфиденциальности
Практические потребности: Проблемы отсутствия признаков и конфиденциальности широко распространены в социальных сетях, электронной коммерции, медицинских системах и других областях
Нормативные требования: Нормативные акты по конфиденциальности, такие как GDPR, требуют минимизации раскрытия конфиденциальной информации при анализе данных
Технические вызовы: Существующие методы демонстрируют серьёзный компромисс между защитой конфиденциальности и производительностью модели
Традиционное распространение признаков (FP): Хотя может смягчить разреженность признаков, производительность остаётся значительно ниже моделей, обученных на полных признаках, и может привести к реконструкции конфиденциальной информации
Методы дифференциальной приватности: Защищают конфиденциальность путём добавления шума, но часто за счёт производительности модели
Анонимизация графа: Может чрезмерно нарушить структуру графа, влияя на эффективность обучения
Предложена структура MFP: Первая структура графового обучения, одновременно решающая проблемы разреженности признаков и защиты конфиденциальности
Механизм многовидового распространения: Повышает способность представления путём независимого распространения и агрегирования нескольких частично зашумленных видов
Проверка защиты конфиденциальности: Доказано, что выходные данные распространения являются альтернативной интерполяцией исходных признаков, а не реконструкцией, защищая конфиденциальность от утечки
Комплексная экспериментальная оценка: Проверена эффективность и устойчивость MFP на нескольких эталонных наборах данных
Анализ чувствительности: Систематический анализ влияния ключевых факторов, таких как гомофилия графа, глубина распространения и количество видов
Вход: Атрибутивный граф G = {X, E}, где E — множество рёбер, X ∈ R^{|V|×d} — матрица признаков узлов, потенциально содержащая конфиденциальные атрибуты
Выход: Предсказание классификации узлов Ŷ ∈ R^{|V|}
Цель: Достичь высокопроизводительной классификации узлов при защите конфиденциальности конфиденциальных признаков
Стратегия многовидов: В отличие от традиционного FP с единственным распространением, MFP захватывает дополнительную информацию через несколько независимых видов
Механизм защиты конфиденциальности: Случайная выборка и внедрение шума ограничивают раскрытие конфиденциальной информации
Повышение устойчивости: Агрегирование многовидов снижает переобучение на одном подмножестве признаков
Управляемый компромисс конфиденциальность-полезность: Балансирование производительности и конфиденциальности путём настройки количества видов, коэффициента выборки и других параметров
Анализ расстояния признаков: Распределение RMSE для MFP и FP высоко похоже на распределение случайного шума, указывая на отсутствие реконструкции исходных признаков
Анализ корреляции: Значения PCC для MFP в основном сосредоточены в интервале -0,1, 0,1, значительно ниже, чем для FP, указывая на лучшую защиту конфиденциальности
Кросс-представленческая обобщаемость: Значительное снижение производительности модели между различными представлениями (например, на наборе данных Cora с 0,87 до 0,56) доказывает, что выходные данные распространения являются альтернативным представлением, а не реконструкцией
Предположение об одинаковой конфиденциальности признаков: Текущий подход предполагает, что все признаки имеют одинаковую степень конфиденциальности, в то время как на практике может потребоваться дифференцированная обработка
Количественная оценка конфиденциальности: Отсутствие формальных гарантий конфиденциальности (например, ε-дифференциальная приватность)
Проверка масштабируемости: Основная проверка проведена на графах среднего и малого размера, производительность на крупномасштабных графах требует дальнейшего исследования
Адаптивность к гетерогенным графам: Производительность на графах с высокой гетерогенностью требует дальнейшей проверки
Rossi et al. (2022): Эффективность распространения признаков
Yang et al. (2016): Эталонные наборы данных Planetoid
Zhu et al. (2020): Гомофилия в графовых нейронных сетях
Общая оценка: Данная работа предлагает инновационную структуру многовидового распространения признаков для решения двойного вызова разреженности признаков и защиты конфиденциальности в графовых нейронных сетях. Метод хорошо разработан, эксперименты полны, и при сохранении практичности работа продвигает исследовательский фронтир защиты конфиденциальности при обучении на графах. Хотя есть место для улучшения в теоретическом анализе и гарантиях конфиденциальности, в целом это высокачественная исследовательская работа.