2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.
Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
academic

Applying Graph Explanation to Operator Fusion

基本信息

  • 论文ID: 2501.00636
  • 标题: Applying Graph Explanation to Operator Fusion
  • 作者: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
  • 分类: cs.LG cs.CV
  • 发表时间: 2024年12月31日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.00636

摘要

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

研究背景与动机

问题定义

本研究要解决的核心问题是深度神经网络的层融合(Layer Fusion)优化问题。层融合是一种推理加速技术,通过将多个DNN操作层(如卷积和ReLU)融合到单个执行单元中,减少神经加速器片上缓存与DRAM之间的数据传输次数,从而降低推理延迟和功耗。

问题重要性

  1. 性能瓶颈:随着DNN模型变得更大更深,DRAM访问成为主要的性能和功耗瓶颈
  2. 部署需求:在边缘设备和移动平台上部署DNN时,内存带宽和功耗限制尤为严重
  3. 硬件约束:片上缓存容量有限,需要智能地分组操作以最大化融合效果

现有方法局限性

  1. 搜索效率低:传统搜索算法(如进化算法、局部搜索)在面对无效融合组时效率低下
  2. 随机分割:现有方法通常随机分割无效融合组,无法保证DRAM访问成本最优
  3. 缺乏可解释性:无法识别导致融合组无效的具体操作,难以进行针对性优化

研究动机

作者提出将可解释AI技术引入层融合优化,通过图解释技术(Graph Explanation Techniques, GET)识别导致融合组无效的关键操作,然后使用贪心树算法进行智能分割,以最小化DRAM访问成本。

核心贡献

  1. 首次将图解释技术应用于层融合优化:创新性地结合了可解释AI和硬件优化领域
  2. 提出递归树分割算法:设计了基于贪心策略的递归分割方案,能够智能处理无效融合组
  3. 跨融合方法验证:在LBDF和BRR两种不同的层融合方法上验证了方案的有效性
  4. 显著性能提升:在EfficientNet-B3上实现了超过20%的DRAM访问减少

方法详解

任务定义

给定一个深度神经网络的计算图G和片上缓存容量β,层融合优化的目标是找到最优的分割方案Φ,使得:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

其中F_D计算DRAM访问成本,F_β计算缓存需求,每个融合组φn的内存需求不能超过缓存容量β。

模型架构

1. 图神经网络分类器

  • 使用4层k-GNN,隐藏维度128
  • ReLU激活函数和求和聚合
  • 将融合组有效性转化为二分类问题:Validity = σ(p(y|φ, β, θ))

2. 图解释技术集成

支持三种主流图解释方法:

  • GNNExplainer (GNNE):基于互信息最大化
  • PGExplainer (PG):预训练参数化解释器
  • RG-Explainer (RG):基于强化学习的连通子图生成

3. 递归贪心分割算法

算法将分割解决方案分为三类:

  • 类别1:两个新融合组都有效(优选解)
  • 类别2:一个有效,一个无效(中间解)
  • 类别3:两个都无效(最差情况)

技术创新点

1. 跳跃连接处理

现代DNN中的残差连接使得简单的边删除无法分离融合组。算法通过拓扑排序和递归检查,确保正确处理嵌套的跳跃连接。

2. 记忆化优化

使用缓存机制存储分割结果和成本计算,避免重复计算,提高搜索效率。

3. 多层次贪心策略

  • 优先选择产生两个有效融合组的解决方案
  • 在中间解中选择包含最多节点的有效融合组
  • 递归处理无效融合组直到全部有效

实验设置

数据集

使用多个经典和现代CNN架构的ONNX模型:

  • 经典网络:VGG16, SqueezeNet, ResNet-18/50/101/152
  • 现代网络:MobileNetV2/V3, EfficientNet-B0/B3
  • 分割网络:DeepLabV3+MobileNetV3

总计生成超过54k个融合组样本,涵盖5种不同缓存大小(128KB-2048KB)。

评价指标

  • DRAM访问成本:以MB为单位的数据传输量
  • 最大缓存使用率(MBU):分割方案中最大融合组的缓存需求
  • 修复率:GET成功修复无效融合组的百分比

对比方法

  • 搜索算法:Random Search (RS), Local Search (LS), NSGA-II
  • 基线方法:不使用GET的原始搜索算法
  • GET变体:GNNE, PG, RG三种图解释技术

实现细节

  • GNN训练50轮,达到95%以上准确率和F1分数
  • 搜索预算:1k-5k个分割方案
  • 使用OpenBox实现NSGA-II,种群大小K=10

实验结果

主要结果

大型网络性能提升

在256KB缓存、5k搜索预算下的结果:

网络方法DRAM访问(MB)提升幅度
EfficientNet-B3LS基线90.500-
LS+GNNE78.00713.8%
NSGA-II+PG61.79231.7%
ResNet-152NSGA-II基线77.205-
NSGA-II+RG66.62113.7%

跨融合方法验证

在128KB缓存下的BRR和LBDF结果显示,GET增强的方法在几乎所有网络上都优于基线,特别是在复杂网络如MobileNetV2上实现了10%以上的改进。

消融实验

GET方法比较

  • 修复率:RG-Explainer最高(91.4%-94.0%),PG最低(50.7%-59.1%)
  • 计算效率:PG最快,GNNE最慢,RG居中
  • 整体性能:RG在修复率和效率间取得最佳平衡

搜索预算分析

实验显示使用GET的1k预算搜索可以超越基线4k预算的性能,证明了方法的高效性。

案例分析

Figure 4展示了不同GET方法对EfficientNet无效融合组的解释:

  • 所有方法都识别出主要跳跃连接(Conv到Matmul)
  • 都选择了对LBDF不友好的填充操作
  • 不同GET选择的边集合略有差异但都捕获了关键瓶颈

实验发现

  1. 规模效应:在更大更复杂的网络上,GET的优势更明显
  2. 通用性:方法对不同搜索算法和融合类型都有效
  3. 效率提升:显著减少了搜索过程中的无效方案生成

相关工作

层融合技术发展

  • 早期工作:主要关注简单的操作组合和内存优化
  • 现代方法:考虑不规则网络结构、跳跃连接的影响
  • 硬件特定优化:针对CNN、注意力机制等特定操作的融合

图解释技术

  • GNNExplainer:开创性工作,基于互信息的子图解释
  • 参数化方法:PGExplainer等预训练方法提高效率
  • 强化学习方法:RG-Explainer等保证连通性的解释

本文贡献定位

首次将图解释技术应用于硬件优化领域,为层融合这一经典问题提供了新的解决思路。

结论与讨论

主要结论

  1. 图解释技术能够有效识别导致融合组无效的关键操作
  2. 递归贪心分割算法能够智能地处理复杂的网络结构
  3. 方法在多种网络架构和硬件配置下都表现出显著的性能提升

局限性

  1. 硬件模型简化:当前只考虑缓存容量约束,未涉及更复杂的硬件特性
  2. 融合类型限制:BRR对现代网络结构(如SE模块)支持有限
  3. 计算开销:GNN训练和GET执行增加了预处理成本

未来方向

  1. 扩展到更多硬件约束:考虑带宽、延迟等更多因素
  2. 支持新型网络结构:适配Transformer、图神经网络等
  3. 端到端优化:将层融合与其他编译优化技术结合

深度评价

优点

  1. 创新性强:首次将可解释AI技术应用于硬件优化,开辟了新的研究方向
  2. 方法完整:从问题建模到算法设计到实验验证形成完整闭环
  3. 实验充分:涵盖多种网络、融合方法和搜索算法的全面验证
  4. 实用价值高:在实际部署场景中具有直接应用价值

不足

  1. 理论分析缺失:缺乏对方法收敛性和最优性的理论保证
  2. 硬件验证不足:实验主要基于仿真,缺乏真实硬件平台验证
  3. 可扩展性未知:对于更大规模网络的处理能力有待验证

影响力

  1. 学术贡献:为可解释AI在系统优化中的应用提供了范例
  2. 实用价值:可直接应用于深度学习编译器和部署工具
  3. 启发意义:可能启发更多AI4Systems的研究工作

适用场景

  • 边缘设备DNN部署优化
  • 移动平台推理加速
  • 数据中心能效优化
  • 深度学习编译器开发

参考文献

论文引用了层融合、图神经网络、可解释AI等多个领域的重要工作,包括:

  • Sze et al. (2017): 深度学习高效处理综述
  • Ying et al. (2019): GNNExplainer原始论文
  • Luo et al. (2020): PGExplainer方法
  • Shan et al. (2021): RG-Explainer技术

总体评价:这是一篇高质量的跨学科研究论文,成功地将可解释AI技术应用于硬件优化问题,方法新颖且实验充分。虽然在理论分析和硬件验证方面还有提升空间,但其创新性和实用性使其在深度学习系统优化领域具有重要价值。