2025-11-16T00:43:11.888666

Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity

Harari, Unger

Graph Neural Networks (GNNs) have demonstrated remarkable success in node classification tasks over relational data, yet their effectiveness often depends on the availability of complete node features. In many real-world scenarios, however, feature matrices are highly sparse or contain sensitive information, leading to degraded performance and increased privacy risks. Furthermore, direct exposure of information can result in unintended data leakage, enabling adversaries to infer sensitive information. To address these challenges, we propose a novel Multi-view Feature Propagation (MFP) framework that enhances node classification under feature sparsity while promoting privacy preservation. MFP extends traditional Feature Propagation (FP) by dividing the available features into multiple Gaussian-noised views, each propagating information independently through the graph topology. The aggregated representations yield expressive and robust node embeddings. This framework is novel in two respects: it introduces a mechanism that improves robustness under extreme sparsity, and it provides a principled way to balance utility with privacy. Extensive experiments conducted on graph datasets demonstrate that MFP outperforms state-of-the-art baselines in node classification while substantially reducing privacy leakage. Moreover, our analysis demonstrates that propagated outputs serve as alternative imputations rather than reconstructions of the original features, preserving utility without compromising privacy. A comprehensive sensitivity analysis further confirms the stability and practical applicability of MFP across diverse scenarios. Overall, MFP provides an effective and privacy-aware framework for graph learning in domains characterized by missing or sensitive features.

academic

다중 뷰 그래프 특징 전파를 통한 개인정보 보호 및 특징 희소성 해결

기본 정보

논문 ID: 2510.11347
제목: Multi-View Graph Feature Propagation for Privacy Preservation and Feature Sparsity
저자: Etzion Harari, Moshe Unger (Tel Aviv University)
분류: cs.LG (기계학습)
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11347v1

초록

그래프 신경망(GNNs)은 관계형 데이터의 노드 분류 작업에서 뛰어난 성과를 거두었으나, 그 효과는 종종 완전한 노드 특징의 가용성에 의존한다. 그러나 많은 실제 시나리오에서 특징 행렬은 매우 희소하거나 민감한 정보를 포함하고 있어 성능 저하와 개인정보 보호 위험이 증가한다. 이러한 과제를 해결하기 위해 본 논문은 특징 희소 조건에서 노드 분류 성능을 향상시키면서 동시에 개인정보 보호를 촉진하는 새로운 다중 뷰 특징 전파(MFP) 프레임워크를 제안한다. MFP는 사용 가능한 특징을 여러 개의 가우시안 노이즈 뷰로 분할하여 전통적인 특징 전파(FP)를 확장하며, 각 뷰는 그래프 위상을 통해 독립적으로 정보를 전파한다. 집계된 표현은 표현력 있고 견고한 노드 임베딩을 생성한다.

연구 배경 및 동기

문제 정의

본 연구는 그래프 신경망의 두 가지 핵심 문제를 해결한다:

특징 희소성 문제: 실제 응용에서 그래프 데이터의 노드 특징 행렬은 종종 매우 희소하거나 불완전하여 GNN 성능을 심각하게 저하시킨다
개인정보 보호 문제: 노드 특징은 민감한 개인 정보(인구통계학적 데이터, 행동 패턴 등)를 포함하는 경우가 많아 직접 사용 시 개인정보 유출 위험이 있다

문제의 중요성

실용적 필요성: 소셜 네트워크, 전자상거래, 의료 시스템 등 분야에서 특징 결측과 개인정보 민감성 문제가 광범위하게 존재한다
규제 요구사항: GDPR 등 개인정보 보호 규정은 데이터 분석에서 민감한 정보 노출 최소화를 요구한다
기술적 과제: 기존 방법들은 개인정보 보호와 모델 성능 사이에 심각한 트레이드오프가 존재한다

기존 방법의 한계

전통적 특징 전파(FP): 특징 희소성을 완화할 수 있지만 성능은 여전히 완전한 특징으로 훈련한 모델보다 현저히 낮으며, 민감한 정보를 재구성할 수 있다
차분 개인정보 보호 방법: 노이즈 추가를 통해 개인정보를 보호하지만 종종 모델 성능 저하를 초래한다
그래프 익명화: 그래프 구조를 과도하게 손상시켜 학습 효과에 영향을 미칠 수 있다

핵심 기여

MFP 프레임워크 제안: 특징 희소성과 개인정보 보호를 동시에 해결하는 첫 번째 그래프 학습 프레임워크
다중 뷰 전파 메커니즘: 여러 부분 노이즈 뷰의 독립적 전파 및 집계를 통해 표현 학습 능력 향상
개인정보 보호 검증: 전파 출력이 원본 특징의 대체 보간이지 재구성이 아님을 증명하여 개인정보 유출 방지
포괄적 실험 평가: 여러 벤치마크 데이터셋에서 MFP의 효과성과 견고성 검증
민감도 분석: 그래프 동질성, 전파 깊이, 뷰 수량 등 핵심 요소의 영향을 체계적으로 분석

방법론 상세 설명

작업 정의

입력: 속성 그래프 G = {X, E}, 여기서 E는 간선 집합, X ∈ R^{|V|×d}는 민감한 속성을 포함할 수 있는 노드 특징 행렬 출력: 노드 분류 예측 Ŷ ∈ R^{|V|} 목표: 민감한 특징의 개인정보를 보호하면서 높은 성능의 노드 분류 달성

모델 아키텍처

MFP 프레임워크는 세 가지 핵심 구성 요소를 포함한다:

1. 확률적 희소 샘플링 (Stochastic Sparse Sampling)

X̃ᵢc = {
    Xᵢc,  if Xᵢc ∈ k
    ϵᵢc,  if Xᵢc ∉ k
}

여기서 ϵᵢc ~ N(μ, σ²)는 가우시안 노이즈이고, k는 보존된 특징 부분집합이다.

2. 다중 뷰 특징 전파 (Multi-view Feature Propagation)

각 뷰 t ∈ {1,...,η}에 대해:

보존된 특징 k에서 부분집합 kₜ를 무작위로 샘플링(샘플링 비율 p)
노이즈 특징 행렬 X̃^(t) 구성, kₜ의 특징만 포함
특징 전파 적용: H^(ι) = ÂH^(ι-1), 여기서 H^(0) = X̃^(t)
각 반복 후 알려진 특징 재설정: H^(ι)_k = X̃^(t)_k

3. 뷰 집계

최종 표현은 열 벡터 연결을 통해 획득된다:

X* = ⊕ᵗ₌₁^η X̂^(t) ∈ R^{|V|×(d·η)}

기술적 혁신점

다중 뷰 전략: 전통적 FP의 단일 전파와 달리 MFP는 여러 독립적 뷰를 통해 상호보완적 정보 포착
개인정보 보호 메커니즘: 무작위 샘플링과 노이즈 주입을 통해 민감한 정보 노출 제한
견고성 강화: 다중 뷰 집계는 단일 특징 부분집합에 대한 과적합 감소
제어 가능한 개인정보-효용 트레이드오프: 뷰 수량, 샘플링 비율 등 매개변수 조정을 통해 성능과 개인정보 보호 균형

실험 설정

데이터셋

Planetoid 벤치마크 데이터셋:
- Cora: 2,708개 노드, 1,433개 특징, 7개 클래스, 동질성 81.0%
- Citeseer: 3,327개 노드, 3,703개 특징, 6개 클래스, 동질성 73.6%
- Pubmed: 19,717개 노드, 500개 특징, 3개 클래스, 동질성 80.2%
MixHop 합성 데이터셋: 5,000개 노드, 10개 클래스, 동질성 0.0-0.9 범위에서 제어 가능

평가 지표

분류 성능: 정확도(Accuracy)와 F1 점수
특징 노출:
- RMSE: 원본 특징과의 거리 차이 정량화
- 피어슨 상관계수(PCC): 방향 유사성 측정
표현 간 일반화: 서로 다른 표현 간 모델 전이 성능

비교 방법

전통적 방법: 레이블 전파(LP), 위치 인코딩(PE)
희소 특징 방법: GCNMF, PaGNN, 특징 전파(FP), 무작위 특징 전파(RFP)
기준 방법: 완전한 특징 GCN(개인정보 보호 없음)

구현 세부사항

특징 희소도: 99%(원본 특징의 1%만 보존)
MFP 매개변수: η=10개 뷰, γ=40회 전파 반복, p=0.8 샘플링 비율
네트워크 아키텍처: 2층 GCN
훈련 설정: 클래스당 20개 훈련 노드, 1,500개 검증 노드

실험 결과

주요 결과

99% 특징 희소 조건에서의 노드 분류 정확도 비교:

데이터셋	PaGNN	GCNMF	PE	LP	FP	RFP	MFP	GCN(완전)
Cora	58.0±0.5	34.5±2.0	76.3±0.2	74.6±0.3	78.2±0.3	79.3±0.4	80.1±0.3	80.39
Citeseer	46.0±0.5	30.6±1.1	65.8±0.3	64.6±0.4	65.4±0.5	65.8±0.2	66.2±0.2	67.48
Pubmed	54.2±0.7	39.8±0.2	73.7±0.3	73.8±0.5	74.2±0.5	74.8±0.3	76.2±0.5	77.36

주요 발견:

MFP는 모든 데이터셋에서 최고 성능 달성
완전한 특징 GCN과 비교하여 MFP는 경미한 성능 저하만 발생(1-2%)
다른 희소 특징 방법보다 현저히 우수

개인정보 보호 분석

특징 거리 분석: MFP와 FP의 RMSE 분포는 무작위 노이즈와 매우 유사하여 원본 특징이 재구성되지 않음을 나타낸다
상관성 분석: MFP의 PCC 값은 주로 -0.1, 0.1 구간에 집중되어 있으며 FP보다 현저히 낮아 더 나은 개인정보 보호를 나타낸다
표현 간 일반화: 모델의 서로 다른 표현 간 성능 급락(예: Cora 데이터셋에서 0.87에서 0.56으로)은 전파 출력이 재구성이 아닌 대체 표현임을 증명한다

민감도 분석

동질성 영향:
- MFP는 모든 동질성 수준에서 FP보다 우수
- 낮은 동질성 시나리오에서 우위가 더욱 명확
- 높은 동질성(>0.7)에서는 두 방법의 성능이 수렴
뷰 수량 영향:
- 적은 수의 뷰(η≤5)는 현저한 성능 향상을 가져온다
- η=10일 때 성능이 안정화된다
- 과도한 뷰는 중복성을 초래할 수 있다
전파 깊이 영향:
- 성능은 전파 횟수 증가에 따라 향상되지만 빠르게 평탄화된다
- γ=40은 합리적인 기본 설정
- 데이터셋마다 최적 깊이가 약간 다르다

결론 및 논의

주요 결론

MFP는 개인정보 보호와 성능 유지의 이중 목표를 성공적으로 달성
다중 뷰 전략은 특징 희소 조건에서 표현 학습 능력을 효과적으로 향상
전파 출력은 원본 특징의 대체 보간이지 재구성이 아니어서 개인정보 안전 보호
프레임워크는 주요 하이퍼매개변수에 대해 우수한 견고성을 보유

한계

특징 민감성 가정: 현재는 모든 특징이 동일한 민감도를 가진다고 가정하나, 실제로는 차등 처리가 필요할 수 있다
개인정보 정량화: ε-차분 개인정보 보호와 같은 형식적 개인정보 보장 부재
확장성 검증: 주로 중소 규모 그래프에서 검증되었으며, 대규모 그래프의 성능은 추가 연구 필요
이질 그래프 적응성: 이질성이 강한 그래프에서의 성능은 추가 검증 필요

향후 방향

형식적 개인정보 보장 메커니즘 통합
동적 그래프 및 대규모 그래프 시나리오로 확장
이질 그래프에서의 적응성 개선 연구
연합 학습 환경에서의 응용 탐색

심층 평가

장점

문제의 중요성: 특징 희소성과 개인정보 보호의 현실적 필요성을 동시에 해결
방법의 창의성: 다중 뷰 전파 전략은 독창성과 효과성을 갖춤
실험의 충분성: 포괄적인 비교 실험 및 민감도 분석
이론적 지원: Dirichlet 에너지 및 다중 뷰 학습의 견고한 이론적 기초
실용적 가치: 배포 가능한 개인정보 보호 그래프 학습 솔루션 제공

부족한 점

이론적 분석 부족: MFP 성능 우위에 대한 이론적 설명 부재
개인정보 보장 제한: 형식적 개인정보 보호 경계 미제공
계산 복잡도: 다중 뷰 처리로 인한 계산 오버헤드 증가, 복잡도 분석 부재
응용 시나리오 제한: 주로 동질 그래프에 적용 가능, 이질 그래프 성능 미지수

영향력

학술적 기여: 개인정보 보호 그래프 학습에 새로운 연구 방향 제시
실용적 가치: 소셜 네트워크, 추천 시스템, 의료 등 민감한 분야에서 응용 가능성
재현성: 저자가 오픈소스 구현을 제공하여 재현 및 확장 용이

적용 시나리오

소셜 네트워크 분석: 사용자 프로필 분석에서의 개인정보 보호
의료 그래프 마이닝: 환자 네트워크에서의 질병 예측
금융 위험 관리: 거래 네트워크에서의 사기 탐지
추천 시스템: 사용자-상품 그래프에서의 개인화 추천

참고문헌

논문은 그래프 신경망, 개인정보 보호, 특징 전파 등 분야의 중요한 연구를 인용하고 있으며, 다음을 포함한다:

Kipf & Welling (2016): Graph Convolutional Networks
Rossi et al. (2022): Feature Propagation effectiveness
Yang et al. (2016): Planetoid benchmark datasets
Zhu et al. (2020): Homophily in graph neural networks

종합 평가: 본 논문은 그래프 신경망의 특징 희소성과 개인정보 보호의 이중 과제에 대해 창의적인 다중 뷰 특징 전파 프레임워크를 제안한다. 방법 설계가 합리적이고 실험 검증이 충분하며, 실용성을 유지하면서 개인정보 보호 그래프 학습 연구의 최전선을 진전시킨다. 이론적 분석과 개인정보 보장 측면에서 개선 여지가 있지만, 전반적으로 높은 품질의 연구 성과이다.