2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.
General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

基本信息

  • 论文ID: 2402.19376
  • 标题: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
  • 作者: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
  • 机构: Carnegie Mellon University, MediaTek USA Inc.
  • 分类: cs.AR (Computer Architecture)
  • 发表时间: 2024年2月
  • 论文链接: https://arxiv.org/abs/2402.19376

摘要

本文提出了OzMAC(Omit-zero-MAC),这是对Bit-Pragmatic(PRA)MAC设计的改进实现,专门用于利用深度学习推理中的位稀疏性。与以往工作不同,本文使用商业级TSMC N5工艺节点,对多种位宽和时钟频率下的设计进行了严格的综合后评估。研究表明,在8个预训练INT8深度学习工作负载中存在高位稀疏性,8位OzMAC在面积、功耗和能耗三个指标上分别实现了21%、70%和28%的显著改进。

研究背景与动机

问题定义

  1. 计算瓶颈:通用矩阵乘法(GEMM)单元中的乘累加(MAC)阵列是深度学习加速器的核心计算结构,其效率直接影响整体性能
  2. 精度趋势:工业标准正从32位浮点(FP32)向16位浮点(FP16)、8位整数(INT8)甚至更低精度发展
  3. 能效需求:边缘推理应用对面积、功耗和能耗有严格约束

研究动机

  • 深度学习模型中存在大量的位稀疏性(bit sparsity),即二进制表示中包含大量'0'位
  • 现有的Bit-Pragmatic(PRA)设计虽然提出了利用位稀疏性的概念,但缺乏商业级工艺的严格评估
  • 需要评估零跳跃MAC设计在实际商业实现中的可行性和效益

核心贡献

  1. OzMAC设计:基于PRA提出改进的零跳跃MAC架构,通过跳过二进制值中的零位来动态利用位稀疏性
  2. 商业级评估:使用TSMC N5(5nm)工艺和商业设计工具进行严格的功耗-性能-面积(PPA)评估
  3. 多维度分析:跨越多种数据精度(4位、8位、16位)和时钟频率(0.5 GHz、1 GHz、1.5 GHz)的全面评估
  4. 稀疏性验证:在8个深度学习模型中验证了高位稀疏性的存在,并展示了如何利用功耗降低来提高吞吐量

方法详解

OzMAC微架构设计

OzMAC由三个核心功能模块组成:

  1. Oz-encoder(零编码器)
    • 有限状态机,跟踪输入位模式中'1'的当前和下一个位置
    • 输出独热编码值,每个时钟周期捕获'1'的位置
    • 例如:输入'0101₂'编码为两个独热值,跨越两个时钟周期:第一周期'0100₂',下一周期'0001₂'
  2. 移位器(Shifter)
    • 根据Oz编码器的输出确定第二个输入的移位量
    • 相比PRA的二进制移位值,OzMAC采用独热表示简化移位器硬件
  3. 累加器(Accumulator)
    • 将适当移位的第二个输入添加到累加器值中

技术创新点

  1. 零跳跃机制:只对'1'位进行计算,跳过'0'位,减少计算周期
  2. 移位器优化:采用独热编码输入简化移位器门复杂度
  3. 串行计算:用延迟换取更低的面积和功耗

实验设置

评估框架

  • 工艺节点:TSMC N5(5nm)商业工艺
  • 设计工具:Synopsys VCS、SpyGlass、Design Compiler、PrimeTime PX
  • 验证方法:SystemVerilog RTL设计,门级网表仿真,SAIF转储进行精确功耗计算

数据集和模型

使用8个PyTorch Torchvision库中的预训练量化INT8模型:

  • MobileNetV2, MobileNetV3
  • InceptionV3, ShuffleNetV2
  • GoogleNet, ResNet18, ResNet50, ResNeXt101

评价指标

  • 面积:芯片面积(μm²)
  • 功耗:动态功耗(mW)
  • 延迟:计算延迟(ns)
  • 能耗:每次操作能耗(pJ)

测试配置

  1. 精度配置:4×4, 4×8, 8×8, 8×16, 16×16位
  2. 频率范围:500 MHz, 1 GHz, 1.5 GHz
  3. 对比基线:传统位并行bMAC设计

实验结果

位稀疏性分析

模型平均'1'位数位稀疏性百分比
MobileNetV22.33470.83%
MobileNetV31.71178.61%
InceptionV32.43069.62%
ShuffleNetV22.58367.71%
GoogleNet2.46169.24%
ResNet182.39870.02%
ResNet502.49568.81%
ResNeXt1012.28971.39%

所有模型都表现出接近70%的位稀疏性,MobileNetV3达到最高的78.61%。

主要PPA结果(8位,500 MHz)

MAC硬件面积(μm²)功耗(mW)延迟(ns)能耗(pJ)
bMAC25.3610.08420.167
OzMAC19.9960.0254.760.120
改进百分比21.2%69.7%-28.0%

精度缩放分析

跨不同精度配置的结果显示:

  • 最佳面积改进:8×16配置达到31.7%
  • 最佳能耗改进:混合精度4×8和8×16配置达到45%
  • 临界点:16×16配置下能耗改进消失(-1.2%)

频率缩放分析

  1. 等频率评估:在500 MHz到1.5 GHz范围内,OzMAC始终保持约70%的功耗改进和29%的能耗改进
  2. 等延迟评估:通过频率缩放匹配吞吐量后,OzMAC仍能实现:
    • INT4设计:29%的功耗/能耗改进
    • INT8设计:30%的功耗/能耗改进
    • 混合精度设计:高达46%的改进

关键发现

  1. 能效阈值:OzMAC需要至少58%的位稀疏性才能保持优于bMAC的能效
  2. 实际稀疏性:所有测试的DL模型都超过了这个阈值
  3. 缩放特性:功耗随频率线性缩放,能耗基本保持恒定

相关工作

本文建立在以下相关研究基础上:

  1. Bit-Pragmatic(PRA):原始的位务实深度神经网络计算方法
  2. Bit-Tactical:利用值和位稀疏性的软硬件方法
  3. STRIPES:位串行深度神经网络计算
  4. Bit Fusion:位级动态可组合架构

本文的主要区别在于使用最新的商业工艺进行严格评估,并扩展到多种精度和频率配置。

结论与讨论

主要结论

  1. 显著改进:OzMAC在面积、功耗和能耗方面相对于传统bMAC实现了显著改进
  2. 商业可行性:使用TSMC N5工艺的评估证明了商业实现的可行性
  3. 缩放优势:在多种精度和频率配置下保持优势
  4. 吞吐量匹配:通过频率缩放可以在保持能效优势的同时匹配或超越bMAC的吞吐量

局限性

  1. 延迟开销:OzMAC的多周期延迟可能不适合对延迟敏感的应用
  2. 精度限制:在16位以上精度时优势消失
  3. 稀疏性依赖:性能严重依赖于输入数据的位稀疏性
  4. 系统级评估缺失:尚未在实际DLA系统级别进行评估

未来方向

  1. 系统级集成:评估大型OzMAC阵列在实际DLA中的表现
  2. 自适应设计:根据运行时稀疏性动态调整配置
  3. 混合架构:结合OzMAC和传统MAC的混合设计

深度评价

优点

  1. 严格评估:使用商业级工艺和工具进行全面评估,结果可信度高
  2. 多维分析:跨越精度、频率多个维度的系统性分析
  3. 实用价值:针对实际DL模型验证了位稀疏性的存在
  4. 清晰表述:技术细节描述清晰,实验设置完整

不足

  1. 创新有限:主要是对现有PRA设计的工程实现和评估,技术创新相对有限
  2. 应用范围:仅适用于具有高位稀疏性的工作负载
  3. 系统考虑不足:缺乏内存带宽、数据流等系统级因素的考虑
  4. 对比有限:主要与基础bMAC对比,缺乏与其他先进MAC设计的比较

影响力

  1. 工程价值:为商业DLA设计提供了有价值的参考数据
  2. 方法论贡献:建立了严格的MAC设计评估框架
  3. 实用指导:为低精度推理应用提供了可行的硬件优化方案

适用场景

  1. 边缘推理:功耗和面积受限的边缘AI应用
  2. 低精度计算:8位及以下精度的深度学习推理
  3. 稀疏模型:具有高位稀疏性特征的神经网络模型
  4. 批量生产:需要商业级工艺验证的大规模部署场景

参考文献

  1. Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
  2. Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
  3. Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
  4. Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
  5. Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

本论文为零跳跃MAC设计的商业化应用提供了重要的工程验证,虽然技术创新有限,但其严格的评估方法论和实用的结果对于推动低功耗AI加速器的发展具有重要价值。