The development of self-supervised graph pre-training methods is a crucial ingredient in recent efforts to design robust graph foundation models (GFMs). Structure-based pre-training methods are under-explored yet crucial for downstream applications which rely on underlying graph structure. In addition, pre-training traditional message passing GNNs to capture global and regional structure is often challenging due to the risk of oversmoothing as network depth increases. We address these gaps by proposing the Laplacian Eigenvector Learning Module (LELM), a novel pre-training module for graph neural networks (GNNs) based on predicting the low-frequency eigenvectors of the graph Laplacian. Moreover, LELM introduces a novel architecture that overcomes oversmoothing, allowing the GNN model to learn long-range interdependencies. Empirically, we show that models pre-trained via our framework outperform baseline models on downstream molecular property prediction tasks.
- 논문 ID: 2509.02803
- 제목: A Graph Laplacian Eigenvector-based Pre-training Method for Graph Neural Networks
- 저자: Howard Dai, Nyambura Njenga, Hiren Madhu, Siddharth Viswanath, Ryan Pellico, Ian Adelstein, Smita Krishnaswamy
- 분류: cs.LG (기계학습)
- 발표 시간: 2025년 10월 11일 (arXiv 사전인쇄)
- 논문 링크: https://arxiv.org/abs/2509.02803v2
본 논문은 그래프 라플라시안 고유벡터를 기반으로 한 그래프 신경망 사전학습 방법을 제안한다. 그래프 기초 모델(GFMs)에서 구조화된 사전학습 방법의 부족함을 해결하기 위해, 저자들은 라플라시안 고유벡터 학습 모듈(LELM)을 개발하였으며, 이는 그래프 라플라시안의 저주파 고유벡터를 예측함으로써 사전학습을 수행한다. 본 방법은 과도한 평활화 문제를 극복하는 새로운 아키텍처 설계를 도입하여 GNN 모델이 장거리 의존성을 학습할 수 있도록 한다. 실험 결과는 본 프레임워크로 사전학습된 모델이 분자 성질 예측 작업에서 기준 모델을 능가함을 보여준다.
- 구조화된 사전학습 방법의 부족: 기존 그래프 신경망 사전학습 방법은 주로 특성 재구성 및 대조 학습에 기반하고 있으며, 그래프 구조 성질에 기반한 사전학습 방법은 상대적으로 덜 탐구되었다.
- 과도한 평활화 문제: 전통적인 메시지 전달 GNN은 전역 및 지역 구조를 포착할 때 어려움을 겪으며, 네트워크 깊이가 증가함에 따라 과도한 평활화 현상이 발생하기 쉽다.
- 장거리 의존성 학습의 어려움: 기존 GNN 아키텍처는 그래프 내 장거리 상호 의존성을 학습하는 데 표현 능력의 제한이 있다.
- 그래프 기초 모델의 발전은 효과적인 자기지도 사전학습 작업을 필요로 한다
- 구조 인식 다운스트림 응용은 기저 그래프 구조를 포착할 수 있는 사전학습 방법을 필요로 한다
- 분자 성질 예측 등의 응용은 그래프 전역 구조에 대한 이해에 의존한다
- 대조 방법: 주로 Jensen-Shannon 추정기 또는 InfoNCE 목적 함수를 사용하며, 구조 정보의 직접적인 모델링이 부족하다
- 예측 방법: 대부분 그래프 재구성 작업에 집중하며, 그래프 성질 예측에 기반한 방법은 적다
- 구조 표현 능력: 기존 방법은 그래프의 전역 구조 정보를 효과적으로 포착하기 어렵다
- LELM 프레임워크 제안: 그래프 라플라시안 고유벡터를 사전학습 목표로 사용하는 첫 번째 방법
- 혁신적 아키텍처 설계: 그래프 수준 MLP 헤드를 도입하여 GNN이 깊은 네트워크 없이 대규모 구조를 포착할 수 있도록 함
- 노드 특성 강화: 그래프 확산 연산자에 기반한 강화 노드 특성을 제안하여 GNN의 표현 능력 제한을 극복
- 실험 검증: 분자 데이터셋에서 방법의 효과성을 입증하며, 독립적인 사전학습 방법 또는 기존 파이프라인의 플러그인으로 사용 가능
그래프 G=(V,E)가 주어졌을 때, 목표는 GNN 모델을 사전학습하여 그래프 라플라시안 행렬 L=D−A의 k개 최저 주파 고유벡터 ψ1,ψ2,…,ψk를 예측할 수 있도록 하는 것이다. 여기서 Lψi=λiψi이다.
LELM 프레임워크는 세 가지 핵심 구성 요소를 포함한다:
웨이블릿 위치 인코딩: 노드 간 상대 위치 정보를 인코딩
- 두 노드 i,j를 무작위로 선택하여 디랙 신호 δi,δj를 구성
- 웨이블릿 연산자 Ψk=P2j−1−P2j를 적용. 여기서 P=D−1A는 확산 연산자
- 노드 m의 웨이블릿 위치 인코딩: wm=[wm,1…wm,J]
확산 디랙 인코딩: 국소 연결 구조를 인코딩
- 각 노드 m에 대해 dm,k=Ψk(m,⋅)P(m,⋅)T를 계산
- 확산 디랙 인코딩: dm=[dm,1…dm,J]
- 기본 GNN: 강화된 특성의 그래프를 처리하여 노드 표현 생성
- 그래프 수준 집계: 모든 노드 표현을 그래프 수준 벡터 Z=[z1,…,zn]∈Rnd로 연결
- MLP 예측 헤드: U~=MLP(Z)로 예측된 고유벡터 출력
QR 분해를 통해 직교성 제약을 적용: U^=QR(U~)
손실 함수:
- 에너지 손실: Lenergy=k1∑i=1ku^iTLu^i
- 고유벡터 손실: Leigvec=k1∑i=1k∥Lu^i−λiu^i∥
- 전체 손실: L=α⋅Lenergy+β⋅Leigvec
- 그래프 수준 MLP 설계: 노드 수준 MLP가 장거리 상호작용을 학습할 수 없는 문제를 회피
- 고유벡터 목표: 저주파 라플라시안 고유벡터는 자연스럽게 전역, 지역 및 국소 그래프 구조를 인코딩
- 확산 연산자 강화: 구조적 문맥 정보를 제공하여 GNN 표현 능력 강화
- 이중 손실 메커니즘: 에너지 손실은 부분공간 정확성을 보장하고, 고유벡터 손실은 엄격한 순서를 보장
- ZINC-12k: 12,000개 분자 그래프
- ZINC-250k: 250,000개 분자 그래프
- QM9: 134,000개 분자 그래프, 여러 양자화학 성질 포함
- MAE (평균 절대 오차): 주요 평가 지표
- ROC-AUC: 이진 분류 작업에 사용
- 기준 모델: 사전학습되지 않은 GIN 및 GPS 모델
- 대체 사전학습 목표: 노드 차수, 국소 클러스터링 계수, 환 계수, 라플라시안 고유값
- 기존 사전학습 방법: ContextPred, Masking 등
- 사전학습 에포크: 100-200 라운드
- 미세조정 에포크: 150-500 라운드
- 고유벡터 수: k=6
- 손실 가중치: α=2,β=1 (주요 실험)
- 최적화기: Adam
- 학습률: 0.001
ZINC 및 QM9 데이터셋 성능 비교:
| 모델 | ZINC full | ZINC subset | QM9 μ | QM9 α | QM9 εHOMO |
|---|
| GIN + LELM | 0.130 | 0.353 | 0.484 | 0.489 | 0.00353 |
| GIN (기준) | 0.228 | 0.438 | 0.472 | 1.132 | 0.00386 |
| GPS + LELM | 0.104 | 0.210 | 0.502 | 0.592 | 0.00372 |
| GPS (기준) | 0.150 | 0.358 | 0.413 | 0.718 | 0.00434 |
LELM은 대부분의 작업에서 성능을 크게 향상시켰으며, 특히 ZINC 데이터셋에서 개선이 두드러진다.
그래프 수준 MLP vs 노드 수준 MLP:
| 모델 | ZINC full | ZINC subset |
|---|
| GIN + LELM (그래프 수준) | 0.130 | 0.353 |
| GIN + LELM (노드 수준) | 0.152 | 0.435 |
| GPS + LELM (그래프 수준) | 0.104 | 0.210 |
| GPS + LELM (노드 수준) | 0.126 | 0.261 |
그래프 수준 MLP는 두 아키텍처 모두에서 노드 수준 MLP를 크게 능가한다.
대체 구조 사전학습 목표 비교:
| 사전학습 목표 | ZINC full | ZINC subset |
|---|
| LELM | 0.130 | 0.353 |
| 노드 차수 | 0.238 | 0.471 |
| 국소 클러스터링 계수 | 1.493 | 1.551 |
| 환 계수 | 0.285 | 0.420 |
| 라플라시안 고유값 | 0.250 | 0.520 |
LELM은 다른 구조화된 사전학습 목표보다 명확히 우수하다.
분자 예측 작업에서 LELM을 기존 사전학습 파이프라인에 플러그인으로 추가:
- Masking + LELM: 5개 데이터셋 모두에서 개선
- ContextPred + LELM: 대부분의 작업에서 개선
- 그래프 수준 아키텍처의 중요성: 그래프 수준 MLP는 장거리 의존성을 효과적으로 학습
- 고유벡터의 우월성: 라플라시안 고유벡터는 다른 구조 목표보다 사전학습에 더 적합
- 범용성: LELM은 기존 사전학습 방법과 결합 가능
- 확장성: 방법은 다양한 GNN 아키텍처(GIN, GPS)에 적용 가능
- 대조 방법:
- 그래프-노드 대조 (Deep Graph Infomax 등)
- 부분그래프-노드 대조 (InfoGraph 등)
- 부분그래프-부분그래프 대조 (GraphCL 등)
- 예측 방법:
- 그래프 재구성 (노드/간선 마스킹, 자동인코더)
- 성질 예측 (k-홉 연결성, 메타경로)
- 위치 인코딩: 그래프 Transformer의 표준 위치 인코딩
- 스펙트럼 그래프 신경망: 신호 영역에서 필터 학습
- 스펙트럼 클러스터링: 클러스터링을 위한 저차원 임베딩 생성
- 그래프 분할: Fiedler 벡터로 최적 그래프 분할 생성
LELM은 그래프 라플라시안 고유벡터를 사전학습 목표로 사용하는 첫 번째 성질 예측 방법이며, 구조화된 사전학습 방법의 공백을 채운다.
- 효과성 검증: LELM은 분자 성질 예측 작업에서 GNN 성능을 크게 향상
- 아키텍처 혁신: 그래프 수준 MLP는 과도한 평활화 문제를 효과적으로 해결
- 범용 프레임워크: 독립적인 방법 또는 기존 파이프라인의 강화 구성 요소로 사용 가능
- 이론적 보장: 손실 함수는 필요한 부호 및 기저 불변성을 가짐
- 전이 학습 능력 미탐구: 현재 동일하거나 관련 영역 데이터셋에서만 검증
- 계산 복잡도: 라플라시안 고유 분해 계산이 필요하며, 대규모 그래프에서 도전적일 수 있음
- 교차 영역 일반화: 합성 그래프 또는 교차 영역 데이터셋에서의 효과 미지
- 통계적 유의성: 계산 비용 제한으로 인해 오차 범위 미보고
- 교차 영역 사전학습: 합성 그래프 또는 교차 영역 데이터셋에서의 사전학습 효과 탐구
- 대규모 응용: 더 큰 규모 그래프에서의 확장성 연구
- 이론적 분석: 라플라시안 고유벡터가 좋은 사전학습 목표인 이유에 대한 심층 분석
- 아키텍처 최적화: 그래프 수준 MLP 설계의 추가 최적화
- 높은 혁신성: 라플라시안 고유벡터를 GNN 사전학습에 처음 적용하며, 사고가 새로움
- 견고한 이론 기초: 라플라시안 고유벡터는 그래프 이론에서 깊은 이론적 기초를 가짐
- 정교한 아키텍처 설계: 그래프 수준 MLP는 장거리 의존성 학습 문제를 효과적으로 해결
- 충분한 실험: 다양한 비교 실험, 소거 실험 및 강화 실험 포함
- 우수한 범용성: 다양한 GNN 아키텍처 및 기존 사전학습 방법과 결합 가능
- 제한된 응용 영역: 주로 분자 데이터에서 검증되었으며, 다른 그래프 유형의 효과 미지
- 계산 오버헤드: 고유 분해의 계산 비용이 대규모 응용을 제한할 수 있음
- 초매개변수 민감성: 손실 함수 가중치 등 초매개변수 선택에 대한 체계적 분석 부족
- 이론적 설명 부족: 방법이 효과적인 이유에 대한 심층 이론적 분석 부족
- 학술적 가치: 그래프 사전학습에 새로운 연구 방향 제공
- 실용적 가치: 분자 성질 예측 등 실제 응용에서 잠재적 가치
- 재현성: 완전한 코드 및 실험 설정 제공
- 영감: 더 많은 그래프 스펙트럼 성질 기반 사전학습 방법에 영감 제공 가능
- 분자 성질 예측: 이미 검증된 효과적인 응용 시나리오
- 사회 네트워크 분석: 전역 구조 이해가 필요한 작업
- 지식 그래프: 구조 정보가 중요한 그래프 추론 작업
- 생물 네트워크: 단백질 상호작용 네트워크 등 생물학적 응용
논문은 다음을 포함한 여러 중요한 관련 연구를 인용한다:
- Hu et al. (2019): "Strategies for pre-training graph neural networks" - 그래프 사전학습의 고전적 연구
- Shaham et al. (2018): "SpectralNet" - 스펙트럼 클러스터링의 신경망 방법
- Dwivedi et al. (2021): "Graph neural networks with learnable structural and positional representations" - 구조 위치 표현 학습
- Rampášek et al. (2022): "Recipe for a general, powerful, scalable graph transformer" - GPS 아키텍처
전체 평가: 이는 고품질의 연구 논문으로, 혁신적인 그래프 신경망 사전학습 방법을 제안한다. 일부 측면에서 개선의 여지가 있지만, 핵심 아이디어는 새로우며, 실험 검증이 충분하고, 그래프 사전학습 영역에 중요한 기여를 한다. 본 방법의 범용성과 확장성은 우수한 응용 전망을 제시한다.