2025-11-21T08:58:16.449112

The Interpretable and Effective Graph Neural Additive Networks

Bechler-Speicher, Globerson, Gilad-Bachrach

Graph Neural Networks (GNNs) have emerged as the predominant approach for learning over graph-structured data. However, most GNNs operate as black-box models and require post-hoc explanations, which may not suffice in high-stakes scenarios where transparency is crucial. In this paper, we present a GNN that is interpretable by design. Our model, Graph Neural Additive Network (GNAN), is a novel extension of the interpretable class of Generalized Additive Models, and can be visualized and fully understood by humans. GNAN is designed to be fully interpretable, offering both global and local explanations at the feature and graph levels through direct visualization of the model. These visualizations describe exactly how the model uses the relationships between the target variable, the features, and the graph. We demonstrate the intelligibility of GNANs in a series of examples on different tasks and datasets. In addition, we show that the accuracy of GNAN is on par with black-box GNNs, making it suitable for critical applications where transparency is essential, alongside high accuracy.

academic

해석 가능하고 효과적인 그래프 신경망 가법 네트워크

기본 정보

논문 ID: 2406.01317
제목: The Interpretable and Effective Graph Neural Additive Networks
저자: Maya Bechler-Speicher, Amir Globerson, Ran Gilad-Bachrach
분류: cs.LG cs.AI
발표 학회: NeurIPS 2024 (제38회 신경정보처리시스템 학회)
논문 링크: https://arxiv.org/abs/2406.01317

초록

그래프 신경망(GNNs)은 그래프 구조 데이터 학습의 주류 방법이 되었으나, 대부분의 GNNs은 블랙박스 모델로 작동하여 사후 해석이 필요하며, 투명성이 요구되는 고위험 시나리오에서는 충분하지 않을 수 있습니다. 본 논문은 설계상 해석 가능한 GNN 모델인 그래프 신경망 가법 네트워크(GNAN)를 제안하며, 이는 해석 가능한 일반화 가법 모델 클래스의 새로운 확장으로서 인간이 시각화하고 완전히 이해할 수 있습니다. GNAN은 특성 수준 및 그래프 수준의 전역 및 국소 해석을 제공하며, 모델의 직접 시각화를 통해 모델이 목표 변수, 특성 및 그래프 간의 관계를 어떻게 사용하는지 설명합니다. 실험 결과는 GNAN의 정확도가 블랙박스 GNNs과 동등하며 투명성과 높은 정확도가 필요한 중요 응용에 적합함을 보여줍니다.

연구 배경 및 동기

문제 정의

핵심 문제: 기존 GNNs의 해석 불가능성으로 인한 의료, 금융, 형사사법 등 고위험 분야 적용의 제한
투명성 요구사항: 유럽연합 GDPR 및 AI 법안 등의 규제에서 고위험 AI 시스템의 투명성 요구
기존 해석 방법의 한계:
- 사후 해석 방법(예: SHAP, LIME)의 정확성 보장 부재
- 국소 해석과 전역 해석의 불일치 가능성
- 모델의 완전한 설명 제공 불가능

연구 동기

해석 가능성 vs 정확도: 해석 가능한 모델이 일반적으로 낮은 정확도를 가진다는 전통적 관점에 도전
설계 시 해석 가능성: 사후 해석에 비해 설계 시 해석 가능한 모델의 신뢰성 향상
규제 준수: 점점 더 엄격해지는 AI 투명성 규제 요구사항 충족

핵심 기여

이론적 기여: 일반화 가법 모델(GAMs)을 그래프 데이터로 확장하여 GNAN 아키텍처 제안
방법론적 기여: 완전히 해석 가능한 그래프 예측 모델 설계 및 전역·국소 해석 능력 제공
실증적 기여: 다양한 실제 데이터셋에서 GNAN의 성능이 블랙박스 GNNs과 동등함을 증명
실용적 기여: 직접 시각화 가능한 모델 디버깅 및 검증 능력 제공

방법론 상세 설명

작업 정의

입력: N개의 노드를 포함하는 그래프 G, 각 노드 i는 d차원 특성 벡터 xi ∈ ℝd와 연관
출력: 노드 수준 예측 또는 그래프 수준 예측
거리 정의: dist(j,i)는 노드 j에서 노드 i까지의 최단 경로 간선 수

모델 아키텍처

핵심 설계 개념

GNAN은 거리 함수 ρ(x;θ): ℝ → ℝ 및 특성 형태 함수 {fk}^d_, fk(x;θk): ℝ → ℝ를 학습하여 노드 표현을 생성합니다.

노드 표현 계산

노드 i의 k번째 특성 표현:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) · fk([xj]k)

여기서:

#disti(j,i): 노드 i로부터 거리 dist(j,i)에 있는 노드의 개수
ρ(1/(1+dist(j,i))): 거리 가중치 함수
fk([xj]k): k번째 특성의 형태 함수

예측 계산

노드 예측: σ(Σ(k=1 to d)[hi]k)
그래프 예측: 먼저 합 풀링을 통해 그래프 표현 h = Σ(i=1 to N)hi을 얻은 후 σ(Σ(k=1 to d)[h]k) 계산

다중 클래스 분류 확장

C개 클래스 분류의 경우, 특성 함수와 거리 함수는 C차원 벡터를 출력하며 원소별 곱셈으로 결합:

[hi]k = Σ(j=1 to N) [1/#disti(j,i)] · ρ(1/(1+dist(j,i))) ⊙ fk([xj]k)

기술 혁신점

가법 구조: 특성과 그래프 위상의 교차곱을 회피하여 해석 가능성 유지
거리 모델링: 노드 간 거리가 예측에 미치는 영향을 명시적으로 모델링
전역 정보 흐름: 각 노드가 전체 그래프 정보를 수집하여 메시지 전달 병목 회피
완전 시각화: 모델을 소수의 함수 그래프로 완전히 설명 가능

실험 설정

데이터셋

노드 분류 작업

인용 네트워크: Cora, Citeseer, PubMed, ogb-arxiv
이질적 데이터: Cornell, Tolokers

그래프 분류 작업

화학 분자: NCI1, Proteins, Mutagen, PTC
장거리 분자 특성: μ, α, αHOMO (QM9 데이터셋)

평가 지표

분류 작업: 정확도(Accuracy)
회귀 작업: 평균 절대 오차(MAE)
이진 분류: ROC-AUC

비교 방법

GraphConv, GraphSAGE, GIN
GATv2, Graph Transformer
FSGNN (특성-그래프 분리 모델)

구현 세부사항

최적화기: Adam
훈련 에포크: 1000 에포크
조기 중단: 검증 손실 100 스텝 무개선 시
네트워크 구조: 3-5층 MLP, ReLU 활성화
은닉 차원: 32-64

실험 결과

주요 결과

13개 작업 중 GNAN은 9개 작업에서 최고 또는 차고 성능 달성:

작업 유형	데이터셋	GNAN 성능	최고 기준선
노드 분류	Cornell	85.7±4.8%	FSGNN: 86.0±4.1%
노드 분류	Tolokers	84.5±0.9%	GATv2: 83.8±1.1%
그래프 분류	Mutagen	72.2±1.0%	GTransformer: 73.1±0.9%
장거리 회귀	μ	2.55±0.1	GIN: 2.60±0.1
장거리 회귀	α	4.28±0.9	GTransformer: 4.30±0.5

주요 발견

장거리 작업 우위: GNAN은 장거리 분자 특성 예측 작업에서 뛰어난 성능을 보이며 전역 정보 흐름의 우위를 검증
성능 유지: 용량 제약에도 불구하고 GNAN의 성능은 더 복잡한 GNNs과 동등
계산 효율성: 반복적 메시지 전달 회피로 계산 병목 감소

해석 가능성 시연

전역 해석

거리 함수 ρ 및 특성 함수 {fk}의 시각화를 통해 모델을 완전히 설명:

Mutagenicity 데이터셋:
- 거리 함수는 원거리 원자의 영향이 감소함을 표시
- 특성 함수는 Ca, Na, Li 원자가 돌연변이 유발성 증가를 드러냄
- N, P 원자는 경미한 보호 작용 보유
PubMed 데이터셋:
- 세 가지 당뇨병 유형의 거리 함수 차이 명확
- 특성 함수는 복잡한 비단조 관계 전시
- "insulin" 단어 빈도가 다양한 당뇨병 유형에 다르게 영향

국소 해석

노드 중요도 시각화를 통한 구체적 분자 해석:

탄소 환 구조가 돌연변이 유발 분자에서 높은 중요도
NO2 기능기가 돌연변이 유발 인자로 올바르게 식별

디버깅 능력

모델 학습이 사전 지식과 일치하는지 검증
잠재적 편향 및 안전 위험 식별
모델 선택 및 최적화 지원

결론 및 논의

주요 결론

해석 가능성이 정확도를 희생할 필요가 없음
설계 시 해석 가능성이 사후 해석보다 더 신뢰할 수 있음
많은 실제 그래프 문제는 예상보다 단순하여 복잡한 모델이 불필요

한계

용량 제약: 가법 구조가 모델 표현 능력 제한
특성 상호작용: 특성 간 복잡한 상호작용 모델링 불가능
그래프 구조: 고도로 복잡한 그래프 패턴에 대해 충분하지 않을 수 있음
시각화 복잡도: 고차원 특성 시 시각화 어려움

향후 방향

기술 개선:
- Kolmogorov-Arnold Networks 통합으로 평활 함수 구현
- 각 특성에 대한 독립적 거리 함수 학습
- 특성 사용 감소를 위한 정규화 탐색
응용 확장:
- 생물 네트워크 데이터셋 응용
- 단백질 상호작용 네트워크
- 과학 발견 지원 도구

심층 평가

장점

높은 혁신성: GAMs을 그래프 데이터로 확장한 첫 시도로 중요한 공백 메우기
견고한 이론 기초: 성숙한 GAMs 이론에 기반한 합리적 설계
높은 실용 가치: 고위험 응용의 해석 가능성 요구사항 직접 충족
충분한 실험: 다양한 작업 및 데이터셋 포함, 포괄적 비교
우수한 시각화: 직관적이고 완전한 모델 해석 제공

부족한 점

방법론 한계: 가법 가정이 과도하여 중요한 특성 상호작용 놓칠 수 있음
적용 범위: 복잡한 특성 상호작용이 필요한 작업에서 성능 저하 가능성
이론 분석 부재: 표현 능력에 대한 이론적 분석 부족
확장성: 고차원 특성 시 해석 가능성 및 계산 효율성 문제

영향력

학술적 기여: 해석 가능한 GNN의 새로운 방향 개척
실용적 가치: 고위험 AI 응용에 실용적 해결책 제공
정책적 의의: AI 규제 추세와 부합하여 중요한 현실적 의미 보유
재현성: 오픈소스 코드로 후속 연구 용이

적용 시나리오

고위험 응용: 의료 진단, 금융 위험 관리, 사법 결정
과학 연구: 분자 특성 예측, 신약 개발
규제 준수: 해석 가능성 요구사항 충족이 필요한 상업 응용
교육 훈련: GNN 원리 교육 및 이해

참고문헌

주요 관련 연구:

Hastie & Tibshirani (1986): 일반화 가법 모델 기초 이론
Agarwal et al. (2021): Neural Additive Models
Ying et al. (2019): GNNExplainer - GNN 사후 해석 방법
Rudin (2019): 해석 가능한 모델 vs 블랙박스 해석 논쟁

요약: 본 논문에서 제안한 GNAN은 해석 가능한 AI 분야의 중요한 기여로, 그래프 학습 작업에서 해석 가능성과 정확도의 양립 가능성을 성공적으로 입증했습니다. 표현 능력의 이론적 제약이 존재하지만, 특히 투명성이 요구되는 고위험 시나리오에서의 실제 응용 가치로 인해 본 분야의 중요한 진전이 됩니다.