2025-11-16T10:43:13.528960

PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning

GarcÃa-SigÃ¼enza, Nanni, Llorens-Largo et al.

This work addresses the challenge of using a deep learning model to prune graphs and the ability of this method to integrate explainability into spatio-temporal problems through a new approach. Instead of applying explainability to the model's behavior, we seek to gain a better understanding of the problem itself. To this end, we propose a novel model that integrates an optimized pruning mechanism capable of removing nodes from the graph during the training process, rather than doing so as a separate procedure. This integration allows the architecture to learn how to minimize prediction error while selecting the most relevant nodes. Thus, during training, the model searches for the most relevant subset of nodes, obtaining the most important elements of the problem, facilitating its analysis. To evaluate the proposed approach, we used several widely used traffic datasets, comparing the accuracy obtained by pruning with the model and with other methods. The experiments demonstrate that our method is capable of retaining a greater amount of information as the graph reduces in size compared to the other methods used. These results highlight the potential of pruning as a tool for developing models capable of simplifying spatio-temporal problems, thereby obtaining their most important elements.

academic

PruneGCRN: 노드 가지치기를 통한 시공간 문제의 최소화 및 설명

기본 정보

논문 ID: 2510.10803
제목: PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning
저자: Javier García-Sigüenza, Mirco Nanni, Faraón Llorens-Largo, José F. Vicent
분류: cs.LG cs.AI
발표 시간: 2025년 10월 14일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2510.10803

초록

본 연구는 심층학습 모델에 대한 그래프 가지치기의 과제와 시공간 문제에 가해석성을 통합하는 능력을 해결하는 새로운 방법을 제시합니다. 모델 행동에 가해석성을 적용하는 것과 달리, 본 논문은 문제 자체를 더 잘 이해하기를 추구합니다. 이를 위해 최적화된 가지치기 메커니즘을 통합한 새로운 모델을 제안하며, 이는 별도의 프로세스가 아닌 훈련 과정 중에 그래프에서 노드를 제거할 수 있습니다. 이러한 통합을 통해 아키텍처는 가장 관련성 높은 노드를 선택하면서 동시에 예측 오류를 최소화하는 방법을 학습할 수 있습니다. 따라서 훈련 과정 중에 모델은 가장 관련성 높은 노드 부분집합을 검색하여 문제의 가장 중요한 요소를 획득하고 분석을 용이하게 합니다.

연구 배경 및 동기

문제 정의

본 연구는 주로 시공간 예측 문제에서의 가해석성 과제, 특히 교통 예측 등의 응용 분야에서의 과제를 다룹니다. 전통적인 가해석성 방법은 주로 모델 행동의 이해에 초점을 맞추는 반면, 본 논문은 새로운 패러다임을 제시합니다: 문제의 가장 중요한 요소를 식별함으로써 문제 자체를 이해하는 것입니다.

문제의 중요성

AI 투명성 요구: AI의 광범위한 응용, 특히 고위험 분야(의료, 금융, 자율주행)에서 가해석성이 매우 중요해졌습니다
시공간 문제의 복잡성: 그래프 신경망(GNN)과 순환 신경망(RNN)을 결합한 시공간 모델의 복잡도가 높아 전통적인 가해석성 방법을 적용하기 어렵습니다
실제 응용 가치: 교통 예측에서 가장 중요한 센서 위치를 식별하는 것은 도시 계획 및 교통 관리에 중요한 의미가 있습니다

기존 방법의 한계

주의 메커니즘: "조합 지름길" 문제가 존재하여 관련 없는 토큰에 주의를 기울일 수 있습니다
프로토타입 네트워크: 주로 분류 작업에 적용되며 시간 차원을 포함하지 않습니다
퍼지 시스템: 정확도가 낮으며 심층학습과 결합 후 복잡도가 증가합니다
사후 가해석성 방법: 일반적으로 성능을 손상시키며 주로 공간 차원에 초점을 맞춥니다

핵심 기여

PruneGCRN 모델 제시: 노드 가지치기 메커니즘을 통합한 새로운 그래프 합성곱 순환 신경망
혁신적인 가해석성 패러다임: 모델 행동의 이해에서 문제 자체의 이해로 전환
훈련 시 통합 가지치기: 노드 선택을 독립적인 후처리 단계가 아닌 훈련 과정에 통합
Binary Clamp 기술: Hard Concrete보다 더 간단하고 효과적인 마스크 생성 방법 제시
실험 검증: 여러 교통 데이터셋에서 방법의 효과성 검증

방법 상세 설명

작업 정의

시공간 그래프 수열이 주어졌을 때, 각 노드는 공간 위치(예: 교통 센서)를 나타내며, 작업은 다음과 같습니다:

미래 시간 단계의 노드 값 예측
동시에 예측에 가장 중요한 노드 부분집합을 식별하는 마스크 학습
예측 정확도를 유지하면서 사용되는 노드 수량 최소화

모델 아키텍처

PruneGCRN 모델은 두 개의 핵심 모듈을 포함합니다:

1. 노드 적응형 매개변수 학습 모듈 (NAPL)

NAPL 모듈은 노드 임베딩을 통해 특정 패턴의 필터를 학습합니다:

Θ = EN · WN
b = EN · bN

여기서:

EN ∈ R^(n×d): 노드 임베딩 행렬
WN ∈ R^(d×c×f): 공유 가중치
bN: 공유 편향

수정된 그래프 합성곱 연산:

Z = (IN + D^(-1/2)AD^(-1/2))XENWN + ENbN

2. 가지치기 그래프 학습 모듈 (PGL)

PGL 모듈은 노드 선택을 위한 마스크 M̃을 생성합니다:

마스크 생성 프로세스:

Raw Mask: 1의 부동소수점 값으로 초기화된 마스크
Binary Clamp: <0인 값을 0으로, >0인 값을 1로 설정
Inverse Mask: 역방향 마스크 계산
Graph Bias: 마스크된 노드를 위한 대체 값 학습

Binary Clamp의 장점:

Hard Concrete보다 더 간단함
훈련 및 검증 시 일관된 행동
단일 단계 노드 선택 최적화

3. 완전한 PruneGCRN 아키텍처

NAPL과 PGL 모듈을 GRU에 통합:

zt = σ(L̃[X̃:,t, ht-1]ENWzr + Ebzr)
rt = σ(In[X̃:,t, ht-1]ENWzr + Ebzr)  
ĥt = tanh([In + L̃][X̃:,t, r ⊙ ht-1]ENWĥ + ENbĥ)
ht = zt ⊙ ĥt-1 + (1-zt) ⊙ ĥt-1

기술 혁신 포인트

훈련 시 노드 가지치기: 전통적인 후처리 가지치기와 달리, PruneGCRN은 훈련 과정 중에 예측 정확도와 노드 선택을 동시에 최적화합니다
Binary Clamp 메커니즘: SEGCRN에서 사용하는 Hard Concrete와 비교하여 더 안정적이고 간단한 마스크 생성을 제공합니다
문제 지향적 가해석성: 모델 행동이 아닌 문제의 핵심 요소 식별에 초점을 맞춥니다
결합 최적화: 손실 함수를 통해 예측 오류와 노드 사용량을 동시에 고려합니다

실험 설정

데이터셋

5개의 광범위하게 채택된 교통 데이터셋을 사용합니다:

데이터셋	센서 수량	시간 범위	특징
PeMSD3	358	2018.9.9-11.30	5분 간격 교통량
PeMSD4	307	2018.1.1-2.28	5분 간격 교통량
PeMSD7	883	2017.5.1-2018.8.31	5분 간격 교통량
PeMSD8	170	2018.7.1-8.31	5분 간격 교통량
PeMS-Bay	325	2017.1.1-5.31	지리적 위치 정보 포함