2025-11-14T21:31:11.905402

Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA

Ando, Eto, Takeuchi et al.

The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.

academic

Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA

基本信息

论文ID: 2511.02269
标题: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
作者: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
分类: cs.AR (Computer Architecture)
发表时间: 2025年11月4日 (arXiv提交)
论文链接: https://arxiv.org/abs/2511.02269

摘要

生成式AI在自动语音识别(ASR)等任务中的兴起带来了严峻的能耗挑战。虽然ASIC提供高效率，但缺乏适应算法演进的可编程性。为解决这一权衡，本文在IMAX（一种通用粗粒度线性阵列CGLA加速器）上实现并评估了Whisper的核心计算内核。据作者所知，这是首次在CGRA上执行Whisper内核并与CPU和GPU进行性能对比的工作。通过硬件/软件协同设计，作者通过FPGA原型评估系统并预测28nm ASIC的性能。结果显示卓越的能效：对于Q8_0模型，预测的ASIC比NVIDIA Jetson AGX Orin能效高1.90倍，比NVIDIA RTX 4090高9.83倍。本工作将CGLA定位为功率受限边缘设备上可持续ASR的有前景平台。

研究背景与动机

1. 要解决的问题

本研究针对AI驱动的自动语音识别系统面临的能耗危机。随着Whisper等先进ASR模型的广泛应用（智能助手、实时转录、医疗应用），其计算需求导致数据中心能耗急剧增长。国际能源署预测到2030年数据中心电力消耗可能翻倍至945 TWh，略超日本年度总用电量。

2. 问题的重要性

能源可持续性危机: AI基础设施严重依赖高功耗GPGPU，单一通用架构的能效低下且不可持续
边缘设备需求: 功率受限的边缘设备（如智能手机、IoT设备）需要高能效的ASR解决方案
算法快速演进: AI算法持续更新，需要兼具效率和灵活性的硬件平台

3. 现有方法的局限性

ASIC专用加速器: 虽然能效极高，但缺乏可编程性，难以适应快速演进的算法，加速硬件过时
FPGA方案: 针对特定模型优化（如CNN、Transformer），但专用性强，迁移性差
GPU方案: 提供高性能和灵活性，但功耗过高，不适合边缘设备

4. 研究动机

作者提出使用CGLA（粗粒度线性阵列）架构的IMAX加速器，试图在ASIC的能效和GPGPU的可编程性之间找到最佳平衡点。IMAX通过线性排列的处理单元(PE)和本地内存模块(LMM)，能够吸收不规则内存访问模式，同时保持高吞吐量和能效。

核心贡献

首次实现: 首次在CGRA架构上实现并评估Whisper ASR内核，建立了处理动态可变长度工作负载的硬件/软件协同设计原则
卓越能效: 基于FPGA原型的估算，优化的28nm ASIC配置在Q8_0量化模型上实现了优异的能效，比Jetson AGX Orin高1.90倍，比RTX 4090高9.83倍
架构优化分析: 系统分析了LMM大小与整体能效的权衡，证明32KB LMM配置在最大化内核覆盖率和最小化静态功耗开销之间达到最优平衡
可扩展性验证: 展示了该方法对更大Whisper模型（base、small）的适用性，证明了架构的可扩展潜力

方法详解

任务定义

目标: 在IMAX CGLA加速器上高效执行Whisper ASR模型的核心计算内核（主要是点积运算）

输入: 约10秒的音频文件（jfk.wav）

输出: 文本转录结果

约束:

功率受限的边缘设备场景
需要处理可变长度向量
需要在能效和性能间平衡

模型架构

1. IMAX3系统架构

如图2所示，IMAX3实现为8通道配置，部署在AMD Versal VPK180 FPGA上：

处理系统(PS): ARM Cortex-A72双核CPU
可编程逻辑(PL): 托管CGLA核心
互连: 通过片上网络(NoC)连接PS和PL
内存: 8GB DDR4用于OS缓冲，4GB DDR4用于DMA缓冲

2. IMAX通道内部结构（图3）

每个IMAX通道包含：

处理单元(PE): 流水线化的ALU和本地内存模块(LMM)
线性阵列结构: PE和LMM战略性交错排列
数据路径: 执行数据路径和内存数据路径分离
DMA接口: AXI DMA读写接口

3. Whisper处理流程（图1）

特征提取: Mel频谱图生成
编码器: 多头注意力和前馈网络（主要计算负载）
解码器: 自回归生成文本
加速重点: 点积内核（编码器和解码器的计算核心）

技术创新点

1. 内核级协同设计

FP16点积内核优化:

内联类型转换: 利用IMAX的可编程性，通过PE的位操作能力执行FP16到FP32的转换，避免专用硬件
SIMD操作: 在FMA单元上应用SIMD，在单个64位数据路径上并发执行两个32位操作
列式多线程: 采用列式多线程将4个逻辑FMA操作时分复用到单个物理FPU上，隐藏FPU延迟

混合执行策略（处理可变长度向量）:

将每个向量分为两段：主段（突发长度的倍数）在IMAX上处理；残余段在主机CPU上并发处理
突发长度选择16个元素（基于Whisper向量长度分布分析）
CPU残余处理仅占总计算量的约5%

Q8_0内核: 复用先前工作的量化内核实现

2. 数据处理和LMM配置优化

填充消除技术:

whisper.cpp中的FP16张量包含大量填充以满足32字节对齐要求
主机CPU在DMA传输前剥离所有填充并紧密打包数据
效果显著：如表I所示，对于FP16模型，基线配置下32KB LMM仅能容纳1.39%的内核，优化后覆盖率提升至93.80%

LMM大小选择（表II）:

基于逻辑综合的功耗估算（Synopsys Design Compiler，TSMC 28nm工艺）
FP16内核：16KB LMM功耗0.665W，32KB为0.675W（增加可忽略）
内核覆盖率：16KB覆盖66.35%，32KB覆盖93.80%
最优选择: 32KB LMM在性能提升和功耗增加间达到最佳平衡

3. 硬件/软件协同设计目标

最大化计算吞吐量: 充分利用IMAX并行处理能力
最大化数据传输效率: 提高有效内存带宽，高效利用LMM

实验设置

数据集

音频文件: whisper.cpp标准测试文件jfk.wav（约10秒）
模型: Whisper-tiny.en模型（78MB）
- FP16版本
- Q8_0量化版本

评价指标

端到端延迟: 使用gettimeofday函数测量墙钟时间（微秒精度）
功耗:
- IMAX: 逻辑综合估算值
- CPU: 估算值
- GPU: 标称热设计功耗(TDP)
功率延迟乘积(PDP): PDP = 执行时间 × 功耗
- 综合评估能效的关键指标
- 值越低表示能效越高

对比方法

如表III所示，对比平台包括：

ARM Cortex-A72 (嵌入式CPU)
- 2核，1400 MHz
- 功耗: 0.6485W
NVIDIA Jetson AGX Orin 32GB (边缘GPU)
- 1792 CUDA核心，930 MHz
- 功耗: 15W（最低功耗模式）
NVIDIA GeForce RTX 4090 (高端GPU)
- 16384 CUDA核心，2520 MHz
- 功耗: 450W (TDP)
IMAX3 (FPGA原型)
- 64 PE，145 MHz
- 功耗: 180W（整个FPGA系统）
IMAX3 (28nm ASIC预测)
- 64 PE，840 MHz（6倍频率提升）
- 功耗: 0.647W (FP16) / 1.32W (Q8_0)，单通道32KB LMM配置

实现细节

FPGA工具: Vivado 2024.1
综合工具: Synopsys Design Compiler
工艺库: TSMC 28nm
FPGA频率: 140 MHz
ASIC预测频率: 840 MHz（通过静态时序分析验证）
评估配置: 1通道和2通道配置
主机线程数: 1-2个线程变化

实验结果

主要结果

1. 端到端延迟对比（图4）

FP16模型（2线程执行）:

ARM Cortex-A72: 24.4秒
IMAX (FPGA 2-lane): ~21秒
IMAX (28nm ASIC 2-lane): 13.5秒
Jetson AGX Orin: 1.6秒
RTX 4090: 0.49秒

Q8_0模型（2线程执行）:

ARM Cortex-A72: 19.6秒
IMAX (FPGA 2-lane): ~17秒
IMAX (28nm ASIC 2-lane): 11.1秒
Jetson AGX Orin: 1.6秒
RTX 4090: 0.50秒

分析: IMAX ASIC相比嵌入式CPU实现明显加速，但绝对速度不及GPU（GPU拥有大规模并行计算资源）

2. 能效对比（PDP，图5）

FP16模型（2线程执行）:

ARM Cortex-A72: 15.8 J
IMAX (28nm ASIC 2-lane): 13.6 J
Jetson AGX Orin: 24.0 J
RTX 4090: 120.1 J

Q8_0模型（2线程执行）:

ARM Cortex-A72: 12.7 J
IMAX (28nm ASIC 2-lane): 12.6 J ✓ 最佳
Jetson AGX Orin: 24.0 J
RTX 4090: 123.8 J

关键发现:

IMAX (28nm ASIC) Q8_0模型能效比Jetson AGX Orin高1.90倍
比RTX 4090高9.83倍
比FP16模型，Q8_0量化进一步提升能效

消融实验

1. LMM大小优化（图6）

FP16模型PDP（2线程）:

16KB LMM: ~15 J
32KB LMM: 13.6 J ✓ 最优
64KB LMM: ~14 J
128KB LMM: ~15 J

Q8_0模型PDP（2线程）:

16KB LMM: ~14 J
32KB LMM: 12.6 J ✓ 最优
64KB LMM: ~13.5 J
128KB LMM: ~15 J

分析:

16KB: 延迟和PDP较差（CPU需处理不适合的内核）
32KB: 达到PDP最小值（最优平衡点）
64KB/128KB: 延迟略有改善但静态功耗增加，PDP反而恶化

结论: 32KB LMM是能效最优配置，验证了设计选择的正确性

2. 计算效率验证（图7）

执行时间分解:

EXEC（PE纯计算）: FP16为60.89%，Q8_0为74.70%
LOAD/DRAIN（DRAM与LMM数据传输）: 相对较小
CONF/REGV/RANGE/REFILL（IMAX配置）: 相对较小

关键洞察:

高EXEC比例表明IMAX处于计算受限状态（而非内存受限）
成功缓解了数据移动开销
有效释放了IMAX的高吞吐量潜力

可扩展性分析（表IV）

更大模型的内核覆盖率（优化后）:

模型	大小	操作数	32KB覆盖率	64KB覆盖率
tiny	78MB	477,153	93.80%	93.80%
base	148MB	644,690	66.54%	94.17%
small	488MB	1,920,955	66.52%	94.36%

发现:

虽然计算负载显著增加，但单个操作的内存占用并未成比例增长
64KB LMM可覆盖base和small模型94%以上的内核
证明架构对更大模型具有良好可扩展性
需要在静态功耗增加与性能提升间权衡

结论与讨论

主要结论

首次实现: 成功在CGLA架构上实现Whisper ASR内核，建立了硬件/软件协同设计方法论
能效优势: 28nm ASIC预测显示在Q8_0模型上PDP为12.6J，比边缘GPU（Jetson AGX Orin）能效高1.90倍，比高端GPU（RTX 4090）高9.83倍
设计权衡: 虽然绝对延迟不及GPU，但在功率受限的边缘应用中，能效比低延迟更关键
架构洞察: 32KB LMM配置在内核覆盖率和静态功耗间达到最优平衡
可扩展性: 证明了对更大Whisper模型（base、small）的适用性

局限性

功耗评估方法:
- GPU使用标称TDP而非实测平均功耗
- TDP代表峰值功耗而非工作负载平均功耗
- 结果应视为架构潜力指标而非确定性优势度量
- 需要实测平均功耗进行精确对比
性能绝对值:
- IMAX延迟显著高于GPU（ASIC预测13.5s vs GPU 0.49s）
- 不适合对延迟极度敏感的实时应用
模型范围:
- 仅评估了Whisper-tiny.en模型
- 更大模型（base、small）仅进行理论分析，未实际实现
ASIC实现:
- 28nm ASIC性能基于综合估算和频率推测
- 未进行实际流片验证
工作负载单一:
- 仅测试10秒音频文件
- 未评估不同长度、不同语言、不同噪声环境的鲁棒性

未来方向

扩展到更大模型: 实现并评估Whisper base和small模型，优化功耗-性能平衡
进一步内核优化: 调整计算单元数量等架构参数
实际ASIC流片: 验证28nm ASIC预测的准确性
功耗精确测量: 使用实测平均功耗而非TDP进行公平对比
多样化工作负载: 评估不同长度音频、多语言、噪声环境的性能

深度评价

优点

创新性强:
- 首次将Whisper ASR映射到CGRA架构
- 填补了ASR硬件加速领域的重要空白
- 提出了处理可变长度向量的混合执行策略
系统化方法论:
- 完整的硬件/软件协同设计流程
- 从内核优化到数据处理到架构参数调优的全面考虑
- 填充消除技术显著提升LMM利用率（1.39%→93.80%）
实验充分:
- 多平台对比（CPU、边缘GPU、高端GPU、FPGA、ASIC预测）
- 详细的消融实验（LMM大小、执行时间分解）
- 可扩展性分析（更大模型的理论验证）
实用价值高:
- 针对边缘设备的能效优化具有重要现实意义
- 在电池续航和热管理关键的场景中优势明显
- CGLA的通用性保证了对算法演进的适应能力
技术细节清晰:
- 详细描述了FP16内核的SIMD和多线程优化
- 混合执行策略的突发长度选择有数据支撑
- 架构图和数据流图清晰易懂

不足

功耗对比不公平:
- 使用GPU的TDP而非实测功耗是重大方法论缺陷
- 削弱了能效优势声明的可信度
- 应补充实测功耗数据
性能差距显著:
- ASIC预测延迟仍是GPU的27倍（13.5s vs 0.49s）
- 限制了实际应用场景（不适合实时交互）
- 未充分讨论如何在延迟敏感场景中应用
ASIC验证不足:
- 840MHz频率基于综合估算，未经物理设计验证
- 6倍频率提升的合理性需要更多支撑
- 缺乏布局布线后的实际功耗和时序数据
评估范围有限:
- 仅测试单一10秒音频文件
- 缺乏不同场景（噪声、口音、长音频）的鲁棒性评估
- 未评估模型准确率（仅关注性能和能效）
可复现性挑战:
- IMAX3是专有架构，外部研究者难以复现
- FPGA实现的具体配置细节不够详尽
- 代码和模型未公开
理论分析不足:
- 缺乏能效优势的理论上界分析
- 未深入分析为何CGLA在ASR任务上特别适合
- 混合执行策略的5%残余处理开销缺乏理论推导

影响力

学术贡献:
- 开创了Whisper在CGRA上的研究方向
- 为ASR硬件加速提供了新的架构选择
- 硬件/软件协同设计方法论具有参考价值
实用价值:
- 对边缘AI设备制造商有重要参考意义
- 在IoT、可穿戴设备等功率受限场景中潜力大
- 为可持续AI提供了技术路径
局限性:
- IMAX专有架构限制了广泛应用
- 性能差距使其难以替代GPU成为主流方案
- 需要实际流片才能验证商业可行性

适用场景

最适合:

功率受限的边缘设备（智能手表、助听器、IoT设备）
对延迟容忍度高但能效要求极高的应用
需要离线ASR且电池续航关键的场景
热管理严格的嵌入式系统

不适合:

实时交互应用（如语音助手）
对延迟敏感的场景（需要毫秒级响应）
有充足电源供应的数据中心场景
需要处理超长音频的批处理任务

参考文献

本文引用了27篇重要文献，关键参考包括：

Whisper原始论文: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
whisper.cpp实现: Gerganov, GitHub开源项目 (2023)
IMAX架构: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
CGRA综述: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
能源预测: IEA, "Energy and AI" (2025)

总结

本文是ASR硬件加速领域的一项创新性工作，首次探索了CGLA架构在Whisper模型上的应用。通过系统化的硬件/软件协同设计，作者证明了IMAX在能效方面相比GPU具有显著优势（Q8_0模型比RTX 4090高9.83倍）。虽然存在功耗评估方法不够严谨、性能绝对值不及GPU等局限，但在功率受限的边缘设备场景中，该方法具有重要的实用价值和研究意义。32KB LMM的最优配置选择、填充消除技术带来的93.80%内核覆盖率提升、以及对更大模型的可扩展性分析，都展示了作者深入的工程洞察。未来若能进行实际ASIC流片验证并补充精确的功耗测量，将进一步增强本工作的说服力和影响力。