2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger
Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.
academic

Многовидовое распространение признаков графа для сохранения конфиденциальности и разреженности признаков

Основная информация

  • ID статьи: 2510.11347
  • Название: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
  • Авторы: Etzion Harari, Moshe Unger (Тель-Авивский университет)
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.11347v1

Аннотация

Графовые нейронные сети (GNN) достигли значительных успехов в задачах классификации узлов на реляционных данных, однако их эффективность часто зависит от доступности полных признаков узлов. Однако во многих практических сценариях матрица признаков высоко разреженна или содержит конфиденциальную информацию, что приводит к снижению производительности и увеличению рисков конфиденциальности. Для решения этих проблем в работе предложена новая структура многовидового распространения признаков (MFP), которая повышает производительность классификации узлов в условиях разреженности признаков и одновременно способствует защите конфиденциальности. MFP расширяет традиционное распространение признаков (FP) путём разделения доступных признаков на несколько видов с гауссовым шумом, каждый из которых независимо распространяет информацию через топологию графа. Агрегированное представление создаёт выразительные и устойчивые вложения узлов.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает две основные проблемы в графовых нейронных сетях:

  1. Проблема разреженности признаков: В практических приложениях матрица признаков узлов графовых данных часто высоко разреженна или неполна, что приводит к серьёзному снижению производительности GNN
  2. Проблема защиты конфиденциальности: Признаки узлов часто содержат конфиденциальную личную информацию (например, демографические данные, поведенческие модели и т.д.), прямое использование которых может привести к утечке конфиденциальности

Важность проблемы

  • Практические потребности: Проблемы отсутствия признаков и конфиденциальности широко распространены в социальных сетях, электронной коммерции, медицинских системах и других областях
  • Нормативные требования: Нормативные акты по конфиденциальности, такие как GDPR, требуют минимизации раскрытия конфиденциальной информации при анализе данных
  • Технические вызовы: Существующие методы демонстрируют серьёзный компромисс между защитой конфиденциальности и производительностью модели

Ограничения существующих методов

  1. Традиционное распространение признаков (FP): Хотя может смягчить разреженность признаков, производительность остаётся значительно ниже моделей, обученных на полных признаках, и может привести к реконструкции конфиденциальной информации
  2. Методы дифференциальной приватности: Защищают конфиденциальность путём добавления шума, но часто за счёт производительности модели
  3. Анонимизация графа: Может чрезмерно нарушить структуру графа, влияя на эффективность обучения

Основные вклады

  1. Предложена структура MFP: Первая структура графового обучения, одновременно решающая проблемы разреженности признаков и защиты конфиденциальности
  2. Механизм многовидового распространения: Повышает способность представления путём независимого распространения и агрегирования нескольких частично зашумленных видов
  3. Проверка защиты конфиденциальности: Доказано, что выходные данные распространения являются альтернативной интерполяцией исходных признаков, а не реконструкцией, защищая конфиденциальность от утечки
  4. Комплексная экспериментальная оценка: Проверена эффективность и устойчивость MFP на нескольких эталонных наборах данных
  5. Анализ чувствительности: Систематический анализ влияния ключевых факторов, таких как гомофилия графа, глубина распространения и количество видов

Подробное описание метода

Определение задачи

Вход: Атрибутивный граф G = {X, E}, где E — множество рёбер, X ∈ R^{|V|×d} — матрица признаков узлов, потенциально содержащая конфиденциальные атрибуты Выход: Предсказание классификации узлов Ŷ ∈ R^{|V|} Цель: Достичь высокопроизводительной классификации узлов при защите конфиденциальности конфиденциальных признаков

Архитектура модели

Структура MFP содержит три основных компонента:

1. Стохастическая разреженная выборка (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  если Xᵢc ∈ k
    ϵᵢc,  если Xᵢc ∉ k
}

где ϵᵢc ~ N(μ, σ²) — гауссов шум, k — подмножество сохраняемых признаков.

2. Многовидовое распространение признаков (Multi-view Feature Propagation)

Для каждого вида t ∈ {1,...,η}:

  • Случайная выборка подмножества kₜ из сохраняемых признаков k (коэффициент выборки p)
  • Построение матрицы зашумленных признаков X̃^(t), содержащей только признаки из kₜ
  • Применение распространения признаков: H^(ι) = ÂH^(ι-1), где H^(0) = X̃^(t)
  • Сброс известных признаков после каждой итерации: H^(ι)_k = X̃^(t)_k

3. Агрегирование видов

Финальное представление получается путём конкатенации векторов столбцов:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

Технические инновации

  1. Стратегия многовидов: В отличие от традиционного FP с единственным распространением, MFP захватывает дополнительную информацию через несколько независимых видов
  2. Механизм защиты конфиденциальности: Случайная выборка и внедрение шума ограничивают раскрытие конфиденциальной информации
  3. Повышение устойчивости: Агрегирование многовидов снижает переобучение на одном подмножестве признаков
  4. Управляемый компромисс конфиденциальность-полезность: Балансирование производительности и конфиденциальности путём настройки количества видов, коэффициента выборки и других параметров

Экспериментальная установка

Наборы данных

  1. Эталонные наборы данных Planetoid:
    • Cora: 2 708 узлов, 1 433 признака, 7 классов, гомофилия 81,0%
    • Citeseer: 3 327 узлов, 3 703 признака, 6 классов, гомофилия 73,6%
    • Pubmed: 19 717 узлов, 500 признаков, 3 класса, гомофилия 80,2%
  2. Синтетические наборы данных MixHop: 5 000 узлов, 10 классов, гомофилия контролируется в диапазоне 0,0–0,9

Метрики оценки

  1. Производительность классификации: Точность (Accuracy) и F1-оценка
  2. Раскрытие признаков:
    • RMSE: Количественная оценка различия расстояния от исходных признаков
    • Коэффициент корреляции Пирсона (PCC): Измерение сходства направления
  3. Кросс-представленческая обобщаемость: Производительность переноса модели между различными представлениями

Методы сравнения

  • Традиционные методы: Распространение меток (LP), позиционное кодирование (PE)
  • Методы разреженных признаков: GCNMF, PaGNN, распространение признаков (FP), случайное распространение признаков (RFP)
  • Базовые методы: GCN с полными признаками (без защиты конфиденциальности)

Детали реализации

  • Разреженность признаков: 99% (сохранено только 1% исходных признаков)
  • Параметры MFP: η=10 видов, γ=40 итераций распространения, p=0,8 коэффициент выборки
  • Архитектура сети: двухслойная GCN
  • Параметры обучения: 20 обучающих узлов на класс, 1 500 узлов валидации

Результаты экспериментов

Основные результаты

Сравнение точности классификации узлов при 99% разреженности признаков:

Набор данныхPaGNNGCNMFPELPFPRFPMFPGCN(полный)
Cora58,0±0,534,5±2,076,3±0,274,6±0,378,2±0,379,3±0,480,1±0,380,39
Citeseer46,0±0,530,6±1,165,8±0,364,6±0,465,4±0,565,8±0,266,2±0,267,48
Pubmed54,2±0,739,8±0,273,7±0,373,8±0,574,2±0,574,8±0,376,2±0,577,36

Ключевые выводы:

  • MFP достигает лучшей производительности на всех наборах данных
  • Лишь незначительное снижение производительности по сравнению с GCN на полных признаках (1–2%)
  • Значительное превосходство над другими методами разреженных признаков

Анализ защиты конфиденциальности

  1. Анализ расстояния признаков: Распределение RMSE для MFP и FP высоко похоже на распределение случайного шума, указывая на отсутствие реконструкции исходных признаков
  2. Анализ корреляции: Значения PCC для MFP в основном сосредоточены в интервале -0,1, 0,1, значительно ниже, чем для FP, указывая на лучшую защиту конфиденциальности
  3. Кросс-представленческая обобщаемость: Значительное снижение производительности модели между различными представлениями (например, на наборе данных Cora с 0,87 до 0,56) доказывает, что выходные данные распространения являются альтернативным представлением, а не реконструкцией

Анализ чувствительности

  1. Влияние гомофилии:
    • MFP превосходит FP на всех уровнях гомофилии
    • Преимущество более выраженно в сценариях низкой гомофилии
    • При высокой гомофилии (>0,7) производительность обоих методов сходится
  2. Влияние количества видов:
    • Небольшое количество видов (η≤5) приносит значительное улучшение производительности
    • При η=10 производительность стабилизируется
    • Чрезмерное количество видов может привести к избыточности
  3. Влияние глубины распространения:
    • Производительность улучшается с увеличением количества итераций распространения, но быстро достигает плато
    • γ=40 — разумная настройка по умолчанию
    • Оптимальная глубина немного различается для разных наборов данных

Связанные работы

Графовые нейронные сети

  • GCN/GAT: Использование принципа гомофилии для обучения представлениям узлов
  • Обработка отсутствующих признаков: Методы PaGNN, GCNMF и др. для работы с неполными признаками

Защита конфиденциальности при обучении на графах

  • Дифференциальная приватность: Защита конфиденциальности путём внедрения шума, но с большими потерями производительности
  • Анонимизация графа: Модификация структуры графа для защиты конфиденциальности
  • Разреженность признаков: Снижение рисков конфиденциальности путём уменьшения раскрытия признаков

Распространение признаков

  • Классическое FP: Распространение признаков на основе минимизации энергии Дирихле
  • Случайное распространение признаков: Повышение представления путём распространения по нескольким траекториям

Заключение и обсуждение

Основные выводы

  1. MFP успешно достигает двойной цели защиты конфиденциальности и поддержания производительности
  2. Стратегия многовидов эффективно повышает способность представления при разреженности признаков
  3. Выходные данные распространения являются альтернативной интерполяцией исходных признаков, а не реконструкцией, защищая безопасность конфиденциальности
  4. Структура демонстрирует хорошую устойчивость к ключевым гиперпараметрам

Ограничения

  1. Предположение об одинаковой конфиденциальности признаков: Текущий подход предполагает, что все признаки имеют одинаковую степень конфиденциальности, в то время как на практике может потребоваться дифференцированная обработка
  2. Количественная оценка конфиденциальности: Отсутствие формальных гарантий конфиденциальности (например, ε-дифференциальная приватность)
  3. Проверка масштабируемости: Основная проверка проведена на графах среднего и малого размера, производительность на крупномасштабных графах требует дальнейшего исследования
  4. Адаптивность к гетерогенным графам: Производительность на графах с высокой гетерогенностью требует дальнейшей проверки

Будущие направления

  1. Интеграция механизмов формальных гарантий конфиденциальности
  2. Расширение на динамические графы и крупномасштабные графы
  3. Исследование адаптивных улучшений на гетерогенных графах
  4. Изучение приложений в среде федеративного обучения

Глубокая оценка

Преимущества

  1. Важность проблемы: Решение практических потребностей в одновременной обработке разреженности признаков и защиты конфиденциальности
  2. Инновационность метода: Стратегия многовидового распространения обладает оригинальностью и эффективностью
  3. Полнота экспериментов: Комплексные сравнительные эксперименты и анализ чувствительности
  4. Теоретическая поддержка: Прочная теоретическая основа, основанная на энергии Дирихле и многовидовом обучении
  5. Практическая ценность: Предоставляет развёртываемое решение для защиты конфиденциальности при обучении на графах

Недостатки

  1. Недостаточный теоретический анализ: Отсутствие теоретического объяснения преимуществ производительности MFP
  2. Ограниченные гарантии конфиденциальности: Отсутствие формальных границ защиты конфиденциальности
  3. Сложность вычислений: Многовидовая обработка увеличивает вычислительные затраты, анализ сложности отсутствует
  4. Ограничения сценариев применения: Основное применение на гомофильных графах, производительность на гетерогенных графах неизвестна

Влияние

  1. Академический вклад: Предоставляет новое направление исследований для защиты конфиденциальности при обучении на графах
  2. Практическая ценность: Имеет потенциал применения в конфиденциальных областях, таких как социальные сети, системы рекомендаций, здравоохранение
  3. Воспроизводимость: Авторы предоставили открытую реализацию, облегчающую воспроизведение и расширение

Применимые сценарии

  1. Анализ социальных сетей: Защита конфиденциальности при анализе профилей пользователей
  2. Добыча медицинских графов: Прогнозирование заболеваний в сетях пациентов
  3. Финансовый контроль рисков: Обнаружение мошенничества в сетях транзакций
  4. Системы рекомендаций: Персонализированные рекомендации в графах пользователь-товар

Библиография

Статья ссылается на важные работы в области графовых нейронных сетей, защиты конфиденциальности и распространения признаков, включая:

  • Kipf & Welling (2016): Graph Convolutional Networks
  • Rossi et al. (2022): Эффективность распространения признаков
  • Yang et al. (2016): Эталонные наборы данных Planetoid
  • Zhu et al. (2020): Гомофилия в графовых нейронных сетях

Общая оценка: Данная работа предлагает инновационную структуру многовидового распространения признаков для решения двойного вызова разреженности признаков и защиты конфиденциальности в графовых нейронных сетях. Метод хорошо разработан, эксперименты полны, и при сохранении практичности работа продвигает исследовательский фронтир защиты конфиденциальности при обучении на графах. Хотя есть место для улучшения в теоретическом анализе и гарантиях конфиденциальности, в целом это высокачественная исследовательская работа.