2025-11-14T21:31:11.905402

Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA

Ando, Eto, Takeuchi et al.
The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.
academic

Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA

基本信息

  • 论文ID: 2511.02269
  • 标题: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
  • 作者: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
  • 分类: cs.AR (Computer Architecture)
  • 发表时间: 2025年11月4日 (arXiv提交)
  • 论文链接: https://arxiv.org/abs/2511.02269

摘要

生成式AI在自动语音识别(ASR)等任务中的兴起带来了严峻的能耗挑战。虽然ASIC提供高效率,但缺乏适应算法演进的可编程性。为解决这一权衡,本文在IMAX(一种通用粗粒度线性阵列CGLA加速器)上实现并评估了Whisper的核心计算内核。据作者所知,这是首次在CGRA上执行Whisper内核并与CPU和GPU进行性能对比的工作。通过硬件/软件协同设计,作者通过FPGA原型评估系统并预测28nm ASIC的性能。结果显示卓越的能效:对于Q8_0模型,预测的ASIC比NVIDIA Jetson AGX Orin能效高1.90倍,比NVIDIA RTX 4090高9.83倍。本工作将CGLA定位为功率受限边缘设备上可持续ASR的有前景平台。

研究背景与动机

1. 要解决的问题

本研究针对AI驱动的自动语音识别系统面临的能耗危机。随着Whisper等先进ASR模型的广泛应用(智能助手、实时转录、医疗应用),其计算需求导致数据中心能耗急剧增长。国际能源署预测到2030年数据中心电力消耗可能翻倍至945 TWh,略超日本年度总用电量。

2. 问题的重要性

  • 能源可持续性危机: AI基础设施严重依赖高功耗GPGPU,单一通用架构的能效低下且不可持续
  • 边缘设备需求: 功率受限的边缘设备(如智能手机、IoT设备)需要高能效的ASR解决方案
  • 算法快速演进: AI算法持续更新,需要兼具效率和灵活性的硬件平台

3. 现有方法的局限性

  • ASIC专用加速器: 虽然能效极高,但缺乏可编程性,难以适应快速演进的算法,加速硬件过时
  • FPGA方案: 针对特定模型优化(如CNN、Transformer),但专用性强,迁移性差
  • GPU方案: 提供高性能和灵活性,但功耗过高,不适合边缘设备

4. 研究动机

作者提出使用CGLA(粗粒度线性阵列)架构的IMAX加速器,试图在ASIC的能效和GPGPU的可编程性之间找到最佳平衡点。IMAX通过线性排列的处理单元(PE)和本地内存模块(LMM),能够吸收不规则内存访问模式,同时保持高吞吐量和能效。

核心贡献

  1. 首次实现: 首次在CGRA架构上实现并评估Whisper ASR内核,建立了处理动态可变长度工作负载的硬件/软件协同设计原则
  2. 卓越能效: 基于FPGA原型的估算,优化的28nm ASIC配置在Q8_0量化模型上实现了优异的能效,比Jetson AGX Orin高1.90倍,比RTX 4090高9.83倍
  3. 架构优化分析: 系统分析了LMM大小与整体能效的权衡,证明32KB LMM配置在最大化内核覆盖率和最小化静态功耗开销之间达到最优平衡
  4. 可扩展性验证: 展示了该方法对更大Whisper模型(base、small)的适用性,证明了架构的可扩展潜力

方法详解

任务定义

目标: 在IMAX CGLA加速器上高效执行Whisper ASR模型的核心计算内核(主要是点积运算)

输入: 约10秒的音频文件(jfk.wav)

输出: 文本转录结果

约束:

  • 功率受限的边缘设备场景
  • 需要处理可变长度向量
  • 需要在能效和性能间平衡

模型架构

1. IMAX3系统架构

如图2所示,IMAX3实现为8通道配置,部署在AMD Versal VPK180 FPGA上:

  • 处理系统(PS): ARM Cortex-A72双核CPU
  • 可编程逻辑(PL): 托管CGLA核心
  • 互连: 通过片上网络(NoC)连接PS和PL
  • 内存: 8GB DDR4用于OS缓冲,4GB DDR4用于DMA缓冲

2. IMAX通道内部结构(图3)

每个IMAX通道包含:

  • 处理单元(PE): 流水线化的ALU和本地内存模块(LMM)
  • 线性阵列结构: PE和LMM战略性交错排列
  • 数据路径: 执行数据路径和内存数据路径分离
  • DMA接口: AXI DMA读写接口

3. Whisper处理流程(图1)

  • 特征提取: Mel频谱图生成
  • 编码器: 多头注意力和前馈网络(主要计算负载)
  • 解码器: 自回归生成文本
  • 加速重点: 点积内核(编码器和解码器的计算核心)

技术创新点

1. 内核级协同设计

FP16点积内核优化:

  • 内联类型转换: 利用IMAX的可编程性,通过PE的位操作能力执行FP16到FP32的转换,避免专用硬件
  • SIMD操作: 在FMA单元上应用SIMD,在单个64位数据路径上并发执行两个32位操作
  • 列式多线程: 采用列式多线程将4个逻辑FMA操作时分复用到单个物理FPU上,隐藏FPU延迟

混合执行策略(处理可变长度向量):

  • 将每个向量分为两段:主段(突发长度的倍数)在IMAX上处理;残余段在主机CPU上并发处理
  • 突发长度选择16个元素(基于Whisper向量长度分布分析)
  • CPU残余处理仅占总计算量的约5%

Q8_0内核: 复用先前工作的量化内核实现

2. 数据处理和LMM配置优化

填充消除技术:

  • whisper.cpp中的FP16张量包含大量填充以满足32字节对齐要求
  • 主机CPU在DMA传输前剥离所有填充并紧密打包数据
  • 效果显著:如表I所示,对于FP16模型,基线配置下32KB LMM仅能容纳1.39%的内核,优化后覆盖率提升至93.80%

LMM大小选择(表II):

  • 基于逻辑综合的功耗估算(Synopsys Design Compiler,TSMC 28nm工艺)
  • FP16内核:16KB LMM功耗0.665W,32KB为0.675W(增加可忽略)
  • 内核覆盖率:16KB覆盖66.35%,32KB覆盖93.80%
  • 最优选择: 32KB LMM在性能提升和功耗增加间达到最佳平衡

3. 硬件/软件协同设计目标

  • 最大化计算吞吐量: 充分利用IMAX并行处理能力
  • 最大化数据传输效率: 提高有效内存带宽,高效利用LMM

实验设置

数据集

  • 音频文件: whisper.cpp标准测试文件jfk.wav(约10秒)
  • 模型: Whisper-tiny.en模型(78MB)
    • FP16版本
    • Q8_0量化版本

评价指标

  1. 端到端延迟: 使用gettimeofday函数测量墙钟时间(微秒精度)
  2. 功耗:
    • IMAX: 逻辑综合估算值
    • CPU: 估算值
    • GPU: 标称热设计功耗(TDP)
  3. 功率延迟乘积(PDP): PDP = 执行时间 × 功耗
    • 综合评估能效的关键指标
    • 值越低表示能效越高

对比方法

如表III所示,对比平台包括:

  1. ARM Cortex-A72 (嵌入式CPU)
    • 2核,1400 MHz
    • 功耗: 0.6485W
  2. NVIDIA Jetson AGX Orin 32GB (边缘GPU)
    • 1792 CUDA核心,930 MHz
    • 功耗: 15W(最低功耗模式)
  3. NVIDIA GeForce RTX 4090 (高端GPU)
    • 16384 CUDA核心,2520 MHz
    • 功耗: 450W (TDP)
  4. IMAX3 (FPGA原型)
    • 64 PE,145 MHz
    • 功耗: 180W(整个FPGA系统)
  5. IMAX3 (28nm ASIC预测)
    • 64 PE,840 MHz(6倍频率提升)
    • 功耗: 0.647W (FP16) / 1.32W (Q8_0),单通道32KB LMM配置

实现细节

  • FPGA工具: Vivado 2024.1
  • 综合工具: Synopsys Design Compiler
  • 工艺库: TSMC 28nm
  • FPGA频率: 140 MHz
  • ASIC预测频率: 840 MHz(通过静态时序分析验证)
  • 评估配置: 1通道和2通道配置
  • 主机线程数: 1-2个线程变化

实验结果

主要结果

1. 端到端延迟对比(图4)

FP16模型(2线程执行):

  • ARM Cortex-A72: 24.4秒
  • IMAX (FPGA 2-lane): ~21秒
  • IMAX (28nm ASIC 2-lane): 13.5秒
  • Jetson AGX Orin: 1.6秒
  • RTX 4090: 0.49秒

Q8_0模型(2线程执行):

  • ARM Cortex-A72: 19.6秒
  • IMAX (FPGA 2-lane): ~17秒
  • IMAX (28nm ASIC 2-lane): 11.1秒
  • Jetson AGX Orin: 1.6秒
  • RTX 4090: 0.50秒

分析: IMAX ASIC相比嵌入式CPU实现明显加速,但绝对速度不及GPU(GPU拥有大规模并行计算资源)

2. 能效对比(PDP,图5)

FP16模型(2线程执行):

  • ARM Cortex-A72: 15.8 J
  • IMAX (28nm ASIC 2-lane): 13.6 J
  • Jetson AGX Orin: 24.0 J
  • RTX 4090: 120.1 J

Q8_0模型(2线程执行):

  • ARM Cortex-A72: 12.7 J
  • IMAX (28nm ASIC 2-lane): 12.6 J ✓ 最佳
  • Jetson AGX Orin: 24.0 J
  • RTX 4090: 123.8 J

关键发现:

  • IMAX (28nm ASIC) Q8_0模型能效比Jetson AGX Orin高1.90倍
  • 比RTX 4090高9.83倍
  • 比FP16模型,Q8_0量化进一步提升能效

消融实验

1. LMM大小优化(图6)

FP16模型PDP(2线程):

  • 16KB LMM: ~15 J
  • 32KB LMM: 13.6 J ✓ 最优
  • 64KB LMM: ~14 J
  • 128KB LMM: ~15 J

Q8_0模型PDP(2线程):

  • 16KB LMM: ~14 J
  • 32KB LMM: 12.6 J ✓ 最优
  • 64KB LMM: ~13.5 J
  • 128KB LMM: ~15 J

分析:

  • 16KB: 延迟和PDP较差(CPU需处理不适合的内核)
  • 32KB: 达到PDP最小值(最优平衡点)
  • 64KB/128KB: 延迟略有改善但静态功耗增加,PDP反而恶化

结论: 32KB LMM是能效最优配置,验证了设计选择的正确性

2. 计算效率验证(图7)

执行时间分解:

  • EXEC(PE纯计算): FP16为60.89%,Q8_0为74.70%
  • LOAD/DRAIN(DRAM与LMM数据传输): 相对较小
  • CONF/REGV/RANGE/REFILL(IMAX配置): 相对较小

关键洞察:

  • 高EXEC比例表明IMAX处于计算受限状态(而非内存受限)
  • 成功缓解了数据移动开销
  • 有效释放了IMAX的高吞吐量潜力

可扩展性分析(表IV)

更大模型的内核覆盖率(优化后):

模型大小操作数32KB覆盖率64KB覆盖率
tiny78MB477,15393.80%93.80%
base148MB644,69066.54%94.17%
small488MB1,920,95566.52%94.36%

发现:

  • 虽然计算负载显著增加,但单个操作的内存占用并未成比例增长
  • 64KB LMM可覆盖base和small模型94%以上的内核
  • 证明架构对更大模型具有良好可扩展性
  • 需要在静态功耗增加与性能提升间权衡

相关工作

1. AI硬件加速器

专用化方法(ASIC/FPGA):

  • Park等: FPGA上的CNN与智能手机语言模型混合系统
  • Hu等: GCNN模型专用FPGA加速器
  • Yamini等: 使用脉动阵列加速端到端Transformer ASR
  • 局限: 针对特定模型优化,灵活性差,难以适应算法演进

本文优势: IMAX是通用架构,不绑定特定AI任务,能快速适应算法变化

2. CGRA架构演进

传统CGRA挑战:

  • 可扩展性问题
  • 编译时间长

IMAX创新:

  • 基于CGLA(粗粒度线性阵列)演进
  • PE和LMM线性交错排列
  • 有效隐藏不规则内存访问延迟

先前IMAX应用:

  • 计算密集型内核: SpGEMM、FFT
  • 现代AI工作负载: CNN、LLM、近似k-NN搜索(RAG)
  • 本文扩展: 首次应用于ASR任务的点积操作

3. Whisper硬件实现

据作者所知,本文是首个Whisper在CGRA上的硬件实现和评估工作,填补了该领域的空白。

结论与讨论

主要结论

  1. 首次实现: 成功在CGLA架构上实现Whisper ASR内核,建立了硬件/软件协同设计方法论
  2. 能效优势: 28nm ASIC预测显示在Q8_0模型上PDP为12.6J,比边缘GPU(Jetson AGX Orin)能效高1.90倍,比高端GPU(RTX 4090)高9.83倍
  3. 设计权衡: 虽然绝对延迟不及GPU,但在功率受限的边缘应用中,能效比低延迟更关键
  4. 架构洞察: 32KB LMM配置在内核覆盖率和静态功耗间达到最优平衡
  5. 可扩展性: 证明了对更大Whisper模型(base、small)的适用性

局限性

  1. 功耗评估方法:
    • GPU使用标称TDP而非实测平均功耗
    • TDP代表峰值功耗而非工作负载平均功耗
    • 结果应视为架构潜力指标而非确定性优势度量
    • 需要实测平均功耗进行精确对比
  2. 性能绝对值:
    • IMAX延迟显著高于GPU(ASIC预测13.5s vs GPU 0.49s)
    • 不适合对延迟极度敏感的实时应用
  3. 模型范围:
    • 仅评估了Whisper-tiny.en模型
    • 更大模型(base、small)仅进行理论分析,未实际实现
  4. ASIC实现:
    • 28nm ASIC性能基于综合估算和频率推测
    • 未进行实际流片验证
  5. 工作负载单一:
    • 仅测试10秒音频文件
    • 未评估不同长度、不同语言、不同噪声环境的鲁棒性

未来方向

  1. 扩展到更大模型: 实现并评估Whisper base和small模型,优化功耗-性能平衡
  2. 进一步内核优化: 调整计算单元数量等架构参数
  3. 实际ASIC流片: 验证28nm ASIC预测的准确性
  4. 功耗精确测量: 使用实测平均功耗而非TDP进行公平对比
  5. 多样化工作负载: 评估不同长度音频、多语言、噪声环境的性能

深度评价

优点

  1. 创新性强:
    • 首次将Whisper ASR映射到CGRA架构
    • 填补了ASR硬件加速领域的重要空白
    • 提出了处理可变长度向量的混合执行策略
  2. 系统化方法论:
    • 完整的硬件/软件协同设计流程
    • 从内核优化到数据处理到架构参数调优的全面考虑
    • 填充消除技术显著提升LMM利用率(1.39%→93.80%)
  3. 实验充分:
    • 多平台对比(CPU、边缘GPU、高端GPU、FPGA、ASIC预测)
    • 详细的消融实验(LMM大小、执行时间分解)
    • 可扩展性分析(更大模型的理论验证)
  4. 实用价值高:
    • 针对边缘设备的能效优化具有重要现实意义
    • 在电池续航和热管理关键的场景中优势明显
    • CGLA的通用性保证了对算法演进的适应能力
  5. 技术细节清晰:
    • 详细描述了FP16内核的SIMD和多线程优化
    • 混合执行策略的突发长度选择有数据支撑
    • 架构图和数据流图清晰易懂

不足

  1. 功耗对比不公平:
    • 使用GPU的TDP而非实测功耗是重大方法论缺陷
    • 削弱了能效优势声明的可信度
    • 应补充实测功耗数据
  2. 性能差距显著:
    • ASIC预测延迟仍是GPU的27倍(13.5s vs 0.49s)
    • 限制了实际应用场景(不适合实时交互)
    • 未充分讨论如何在延迟敏感场景中应用
  3. ASIC验证不足:
    • 840MHz频率基于综合估算,未经物理设计验证
    • 6倍频率提升的合理性需要更多支撑
    • 缺乏布局布线后的实际功耗和时序数据
  4. 评估范围有限:
    • 仅测试单一10秒音频文件
    • 缺乏不同场景(噪声、口音、长音频)的鲁棒性评估
    • 未评估模型准确率(仅关注性能和能效)
  5. 可复现性挑战:
    • IMAX3是专有架构,外部研究者难以复现
    • FPGA实现的具体配置细节不够详尽
    • 代码和模型未公开
  6. 理论分析不足:
    • 缺乏能效优势的理论上界分析
    • 未深入分析为何CGLA在ASR任务上特别适合
    • 混合执行策略的5%残余处理开销缺乏理论推导

影响力

  1. 学术贡献:
    • 开创了Whisper在CGRA上的研究方向
    • 为ASR硬件加速提供了新的架构选择
    • 硬件/软件协同设计方法论具有参考价值
  2. 实用价值:
    • 对边缘AI设备制造商有重要参考意义
    • 在IoT、可穿戴设备等功率受限场景中潜力大
    • 为可持续AI提供了技术路径
  3. 局限性:
    • IMAX专有架构限制了广泛应用
    • 性能差距使其难以替代GPU成为主流方案
    • 需要实际流片才能验证商业可行性

适用场景

最适合:

  • 功率受限的边缘设备(智能手表、助听器、IoT设备)
  • 对延迟容忍度高但能效要求极高的应用
  • 需要离线ASR且电池续航关键的场景
  • 热管理严格的嵌入式系统

不适合:

  • 实时交互应用(如语音助手)
  • 对延迟敏感的场景(需要毫秒级响应)
  • 有充足电源供应的数据中心场景
  • 需要处理超长音频的批处理任务

参考文献

本文引用了27篇重要文献,关键参考包括:

  1. Whisper原始论文: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
  2. whisper.cpp实现: Gerganov, GitHub开源项目 (2023)
  3. IMAX架构: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
  4. CGRA综述: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
  5. 能源预测: IEA, "Energy and AI" (2025)

总结

本文是ASR硬件加速领域的一项创新性工作,首次探索了CGLA架构在Whisper模型上的应用。通过系统化的硬件/软件协同设计,作者证明了IMAX在能效方面相比GPU具有显著优势(Q8_0模型比RTX 4090高9.83倍)。虽然存在功耗评估方法不够严谨、性能绝对值不及GPU等局限,但在功率受限的边缘设备场景中,该方法具有重要的实用价值和研究意义。32KB LMM的最优配置选择、填充消除技术带来的93.80%内核覆盖率提升、以及对更大模型的可扩展性分析,都展示了作者深入的工程洞察。未来若能进行实际ASIC流片验证并补充精确的功耗测量,将进一步增强本工作的说服力和影响力。