2025-11-16T10:43:13.528960

PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning

García-Sigüenza, Nanni, Llorens-Largo et al.
This work addresses the challenge of using a deep learning model to prune graphs and the ability of this method to integrate explainability into spatio-temporal problems through a new approach. Instead of applying explainability to the model's behavior, we seek to gain a better understanding of the problem itself. To this end, we propose a novel model that integrates an optimized pruning mechanism capable of removing nodes from the graph during the training process, rather than doing so as a separate procedure. This integration allows the architecture to learn how to minimize prediction error while selecting the most relevant nodes. Thus, during training, the model searches for the most relevant subset of nodes, obtaining the most important elements of the problem, facilitating its analysis. To evaluate the proposed approach, we used several widely used traffic datasets, comparing the accuracy obtained by pruning with the model and with other methods. The experiments demonstrate that our method is capable of retaining a greater amount of information as the graph reduces in size compared to the other methods used. These results highlight the potential of pruning as a tool for developing models capable of simplifying spatio-temporal problems, thereby obtaining their most important elements.
academic

PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning

基本信息

  • 论文ID: 2510.10803
  • 标题: PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning
  • 作者: Javier García-Sigüenza, Mirco Nanni, Faraón Llorens-Largo, José F. Vicent
  • 分类: cs.LG cs.AI
  • 发表时间: October 14, 2025 (arXiv preprint)
  • 论文链接: https://arxiv.org/abs/2510.10803

摘要

本研究通过一种新的方法解决了使用深度学习模型进行图剪枝的挑战,以及将可解释性集成到时空问题中的能力。与对模型行为应用可解释性不同,本文寻求更好地理解问题本身。为此,提出了一种新颖的模型,集成了优化的剪枝机制,能够在训练过程中从图中移除节点,而不是作为单独的程序。这种集成允许架构学习如何在选择最相关节点的同时最小化预测误差。因此,在训练过程中,模型搜索最相关的节点子集,获得问题的最重要元素,便于分析。

研究背景与动机

问题定义

本研究主要解决时空预测问题中的可解释性挑战,特别是在交通预测等应用中。传统的可解释性方法主要关注理解模型的行为,而本文提出了一个新的范式:通过识别问题的最重要元素来理解问题本身。

问题重要性

  1. AI透明度需求:随着AI的广泛应用,特别是在高风险领域(医疗、金融、自动驾驶),可解释性变得至关重要
  2. 时空问题复杂性:结合图神经网络(GNN)和循环神经网络(RNN)的时空模型复杂度高,传统可解释性方法难以适用
  3. 实际应用价值:在交通预测中,识别最重要的传感器位置对城市规划和交通管理具有重要意义

现有方法局限性

  1. 注意力机制:存在"组合捷径"问题,可能关注不相关的标记
  2. 原型网络:主要适用于分类任务,不包含时间维度
  3. 模糊系统:准确性较低,与深度学习结合后复杂度增加
  4. 后验可解释性方法:通常会损害性能,且主要关注空间维度

核心贡献

  1. 提出PruneGCRN模型:一种新颖的图卷积循环网络,集成了节点剪枝机制
  2. 创新的可解释性范式:从理解模型行为转向理解问题本身
  3. 训练时集成剪枝:将节点选择集成到训练过程中,而非作为独立的后处理步骤
  4. Binary Clamp技术:提出比Hard Concrete更简单有效的掩码生成方法
  5. 实验验证:在多个交通数据集上验证了方法的有效性

方法详解

任务定义

给定一个时空图序列,其中每个节点代表一个空间位置(如交通传感器),任务是:

  1. 预测未来时间步的节点值
  2. 同时学习一个掩码,识别对预测最重要的节点子集
  3. 在保持预测准确性的同时最小化使用的节点数量

模型架构

PruneGCRN模型包含两个核心模块:

1. 节点自适应参数学习模块 (NAPL)

NAPL模块通过节点嵌入学习特定模式的滤波器:

Θ = EN · WN
b = EN · bN

其中:

  • EN ∈ R^(n×d):节点嵌入矩阵
  • WN ∈ R^(d×c×f):共享权重
  • bN:共享偏置

修改后的图卷积操作为:

Z = (IN + D^(-1/2)AD^(-1/2))XENWN + ENbN

2. 剪枝图学习模块 (PGL)

PGL模块生成用于节点选择的掩码M̃:

掩码生成流程

  1. Raw Mask:初始化为1的浮点值掩码
  2. Binary Clamp:将<0的值设为0,>0的值设为1
  3. Inverse Mask:计算反向掩码
  4. Graph Bias:为被掩码的节点学习替代值

Binary Clamp优势

  • 比Hard Concrete更简单
  • 训练和验证时行为一致
  • 单步优化节点选择

3. 完整的PruneGCRN架构

将NAPL和PGL模块集成到GRU中:

zt = σ(L̃[X̃:,t, ht-1]ENWzr + Ebzr)
rt = σ(In[X̃:,t, ht-1]ENWzr + Ebzr)  
ĥt = tanh([In + L̃][X̃:,t, r ⊙ ht-1]ENWĥ + ENbĥ)
ht = zt ⊙ ĥt-1 + (1-zt) ⊙ ĥt-1

技术创新点

  1. 训练时节点剪枝:与传统的后处理剪枝不同,PruneGCRN在训练过程中同时优化预测准确性和节点选择
  2. Binary Clamp机制:相比SEGCRN使用的Hard Concrete,提供更稳定和简单的掩码生成
  3. 问题导向的可解释性:关注识别问题的关键元素而非模型行为
  4. 联合优化:通过损失函数同时考虑预测误差和节点使用数量

实验设置

数据集

使用5个广泛采用的交通数据集:

数据集传感器数量时间范围特点
PeMSD33582018.9.9-11.305分钟间隔交通量
PeMSD43072018.1.1-2.285分钟间隔交通量
PeMSD78832017.5.1-2018.8.315分钟间隔交通量
PeMSD81702018.7.1-8.315分钟间隔交通量
PeMS-Bay3252017.1.1-5.31包含地理位置信息

评价指标

  1. 预测准确性:MAE、RMSE、MAPE
  2. 稀疏性Sparsity = 1 - m/M(m为子图边数,M为原图边数)
  3. 计算效率:预测时间和内存使用

对比方法

  • Random:随机选择节点作为基线
  • Correlation:基于相关性选择最独立的节点
  • PruneGCRN:本文提出的方法

实现细节

  • 优化器:RAdam
  • 数据划分:6:2:2(训练:验证:测试)
  • 批大小:32
  • 学习率:0.001
  • 早停:25轮

实验结果

主要结果

在不同剪枝比例下的性能对比显示:

关键发现

  1. 低剪枝率(25%):相关性方法在部分数据集上表现最佳
  2. 中等剪枝率(50%):PruneGCRN开始显示优势
  3. 高剪枝率(75%-95%):PruneGCRN始终表现最佳

性能提升示例(PeMSD4数据集,75%剪枝):

  • PruneGCRN MAE: 21.88
  • Correlation MAE: 23.49
  • Random MAE: 22.93

计算效率分析

剪枝比例时间减少内存减少
50%~40%~50%
75%~55%~70%
95%~70%>90%

空间分析结果

通过PeMS-Bay数据集的地理可视化分析:

  1. 节点选择模式:模型倾向于选择高速公路交汇处的节点
  2. 空间相关性:Moran指数分析显示误差与空间距离无显著相关性(p值>0.05)
  3. 一致性:在10次不同训练中,某些节点被一致选择(1个节点100%选中,5个节点90%以上选中)

消融实验

通过对比不同掩码生成方法验证了:

  1. Binary Clamp相比Hard Concrete的优势
  2. 训练时集成剪枝相比后处理剪枝的优势
  3. 节点自适应参数学习的重要性

相关工作

时空预测模型

  • DCRNN:扩散卷积循环神经网络
  • Graph WaveNet:堆叠扩张1D卷积与GCN
  • STGCN:时空图卷积网络
  • AGCRN:自适应图卷积循环网络(本文基础)

可解释性技术

  1. 注意力机制:存在解释性局限
  2. 原型网络:适用于分类,缺乏时间维度
  3. 模糊系统:准确性较低
  4. SEGCRN:关注边剪枝的自解释模型

图剪枝方法

  • FastGCN:概率采样
  • GraphSAGE:节点级采样
  • DyGNN:基于相似性的剪枝

结论与讨论

主要结论

  1. PruneGCRN成功实现了训练时节点剪枝,在高剪枝率下显著优于基线方法
  2. 提出的Binary Clamp机制比Hard Concrete更简单有效
  3. 模型能够识别问题的关键元素,提供问题导向的可解释性
  4. 在保持预测准确性的同时大幅减少计算资源需求

局限性

  1. 数据集局限:主要在交通数据上验证,其他领域的泛化性待验证
  2. 超参数敏感性:γ参数的设置对性能影响较大
  3. 可解释性评估:缺乏标准化的可解释性评估指标
  4. 时间复杂度:虽然减少了预测时间,但训练时间可能增加

未来方向

  1. 多领域应用:扩展到社交网络、电力消耗等其他时空问题
  2. 理论分析:提供剪枝有效性的理论保证
  3. 动态剪枝:根据时间变化动态调整节点选择
  4. 多粒度剪枝:结合边剪枝和节点剪枝

深度评价

优点

  1. 创新性强:首次提出问题导向的可解释性范式
  2. 技术扎实:Binary Clamp机制设计巧妙,解决了Hard Concrete的问题
  3. 实验充分:多数据集验证,包含空间分析和一致性检验
  4. 实用价值高:在交通管理等领域具有直接应用价值

不足

  1. 理论基础:缺乏为什么节点剪枝能提供问题可解释性的理论分析
  2. 评估标准:可解释性评估主要依赖可视化和统计分析,缺乏定量指标
  3. 对比不足:与其他可解释性方法的对比有限
  4. 参数敏感性:对超参数γ的敏感性分析不够深入

影响力

  1. 学术贡献:为时空问题的可解释性研究开辟了新方向
  2. 实用价值:在智慧城市、交通管理等领域有重要应用前景
  3. 方法论意义:从模型解释转向问题解释的思路具有启发性

适用场景

  1. 交通预测:识别关键监测点位
  2. 传感器网络优化:确定最重要的传感器位置
  3. 资源分配:在计算资源受限时的模型部署
  4. 城市规划:基于数据驱动的基础设施规划

参考文献

论文引用了61篇相关文献,涵盖了可解释AI、图神经网络、时空预测等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇在时空预测和可解释性AI交叉领域的高质量研究工作。虽然在理论分析和评估标准方面还有提升空间,但其创新的问题导向可解释性范式和实用的技术方案使其具有重要的学术和应用价值。