The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.
- 论文ID: 2511.02269
- 标题: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
- 作者: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
- 分类: cs.AR (Computer Architecture)
- 发表时间: 2025年11月4日 (arXiv提交)
- 论文链接: https://arxiv.org/abs/2511.02269
生成式AI在自动语音识别(ASR)等任务中的兴起带来了严峻的能耗挑战。虽然ASIC提供高效率,但缺乏适应算法演进的可编程性。为解决这一权衡,本文在IMAX(一种通用粗粒度线性阵列CGLA加速器)上实现并评估了Whisper的核心计算内核。据作者所知,这是首次在CGRA上执行Whisper内核并与CPU和GPU进行性能对比的工作。通过硬件/软件协同设计,作者通过FPGA原型评估系统并预测28nm ASIC的性能。结果显示卓越的能效:对于Q8_0模型,预测的ASIC比NVIDIA Jetson AGX Orin能效高1.90倍,比NVIDIA RTX 4090高9.83倍。本工作将CGLA定位为功率受限边缘设备上可持续ASR的有前景平台。
本研究针对AI驱动的自动语音识别系统面临的能耗危机。随着Whisper等先进ASR模型的广泛应用(智能助手、实时转录、医疗应用),其计算需求导致数据中心能耗急剧增长。国际能源署预测到2030年数据中心电力消耗可能翻倍至945 TWh,略超日本年度总用电量。
- 能源可持续性危机: AI基础设施严重依赖高功耗GPGPU,单一通用架构的能效低下且不可持续
- 边缘设备需求: 功率受限的边缘设备(如智能手机、IoT设备)需要高能效的ASR解决方案
- 算法快速演进: AI算法持续更新,需要兼具效率和灵活性的硬件平台
- ASIC专用加速器: 虽然能效极高,但缺乏可编程性,难以适应快速演进的算法,加速硬件过时
- FPGA方案: 针对特定模型优化(如CNN、Transformer),但专用性强,迁移性差
- GPU方案: 提供高性能和灵活性,但功耗过高,不适合边缘设备
作者提出使用CGLA(粗粒度线性阵列)架构的IMAX加速器,试图在ASIC的能效和GPGPU的可编程性之间找到最佳平衡点。IMAX通过线性排列的处理单元(PE)和本地内存模块(LMM),能够吸收不规则内存访问模式,同时保持高吞吐量和能效。
- 首次实现: 首次在CGRA架构上实现并评估Whisper ASR内核,建立了处理动态可变长度工作负载的硬件/软件协同设计原则
- 卓越能效: 基于FPGA原型的估算,优化的28nm ASIC配置在Q8_0量化模型上实现了优异的能效,比Jetson AGX Orin高1.90倍,比RTX 4090高9.83倍
- 架构优化分析: 系统分析了LMM大小与整体能效的权衡,证明32KB LMM配置在最大化内核覆盖率和最小化静态功耗开销之间达到最优平衡
- 可扩展性验证: 展示了该方法对更大Whisper模型(base、small)的适用性,证明了架构的可扩展潜力
目标: 在IMAX CGLA加速器上高效执行Whisper ASR模型的核心计算内核(主要是点积运算)
输入: 约10秒的音频文件(jfk.wav)
输出: 文本转录结果
约束:
- 功率受限的边缘设备场景
- 需要处理可变长度向量
- 需要在能效和性能间平衡
如图2所示,IMAX3实现为8通道配置,部署在AMD Versal VPK180 FPGA上:
- 处理系统(PS): ARM Cortex-A72双核CPU
- 可编程逻辑(PL): 托管CGLA核心
- 互连: 通过片上网络(NoC)连接PS和PL
- 内存: 8GB DDR4用于OS缓冲,4GB DDR4用于DMA缓冲
每个IMAX通道包含:
- 处理单元(PE): 流水线化的ALU和本地内存模块(LMM)
- 线性阵列结构: PE和LMM战略性交错排列
- 数据路径: 执行数据路径和内存数据路径分离
- DMA接口: AXI DMA读写接口
- 特征提取: Mel频谱图生成
- 编码器: 多头注意力和前馈网络(主要计算负载)
- 解码器: 自回归生成文本
- 加速重点: 点积内核(编码器和解码器的计算核心)
FP16点积内核优化:
- 内联类型转换: 利用IMAX的可编程性,通过PE的位操作能力执行FP16到FP32的转换,避免专用硬件
- SIMD操作: 在FMA单元上应用SIMD,在单个64位数据路径上并发执行两个32位操作
- 列式多线程: 采用列式多线程将4个逻辑FMA操作时分复用到单个物理FPU上,隐藏FPU延迟
混合执行策略(处理可变长度向量):
- 将每个向量分为两段:主段(突发长度的倍数)在IMAX上处理;残余段在主机CPU上并发处理
- 突发长度选择16个元素(基于Whisper向量长度分布分析)
- CPU残余处理仅占总计算量的约5%
Q8_0内核: 复用先前工作的量化内核实现
填充消除技术:
- whisper.cpp中的FP16张量包含大量填充以满足32字节对齐要求
- 主机CPU在DMA传输前剥离所有填充并紧密打包数据
- 效果显著:如表I所示,对于FP16模型,基线配置下32KB LMM仅能容纳1.39%的内核,优化后覆盖率提升至93.80%
LMM大小选择(表II):
- 基于逻辑综合的功耗估算(Synopsys Design Compiler,TSMC 28nm工艺)
- FP16内核:16KB LMM功耗0.665W,32KB为0.675W(增加可忽略)
- 内核覆盖率:16KB覆盖66.35%,32KB覆盖93.80%
- 最优选择: 32KB LMM在性能提升和功耗增加间达到最佳平衡
- 最大化计算吞吐量: 充分利用IMAX并行处理能力
- 最大化数据传输效率: 提高有效内存带宽,高效利用LMM
- 音频文件: whisper.cpp标准测试文件jfk.wav(约10秒)
- 模型: Whisper-tiny.en模型(78MB)
- 端到端延迟: 使用gettimeofday函数测量墙钟时间(微秒精度)
- 功耗:
- IMAX: 逻辑综合估算值
- CPU: 估算值
- GPU: 标称热设计功耗(TDP)
- 功率延迟乘积(PDP): PDP = 执行时间 × 功耗
如表III所示,对比平台包括:
- ARM Cortex-A72 (嵌入式CPU)
- NVIDIA Jetson AGX Orin 32GB (边缘GPU)
- 1792 CUDA核心,930 MHz
- 功耗: 15W(最低功耗模式)
- NVIDIA GeForce RTX 4090 (高端GPU)
- 16384 CUDA核心,2520 MHz
- 功耗: 450W (TDP)
- IMAX3 (FPGA原型)
- 64 PE,145 MHz
- 功耗: 180W(整个FPGA系统)
- IMAX3 (28nm ASIC预测)
- 64 PE,840 MHz(6倍频率提升)
- 功耗: 0.647W (FP16) / 1.32W (Q8_0),单通道32KB LMM配置
- FPGA工具: Vivado 2024.1
- 综合工具: Synopsys Design Compiler
- 工艺库: TSMC 28nm
- FPGA频率: 140 MHz
- ASIC预测频率: 840 MHz(通过静态时序分析验证)
- 评估配置: 1通道和2通道配置
- 主机线程数: 1-2个线程变化
FP16模型(2线程执行):
- ARM Cortex-A72: 24.4秒
- IMAX (FPGA 2-lane): ~21秒
- IMAX (28nm ASIC 2-lane): 13.5秒
- Jetson AGX Orin: 1.6秒
- RTX 4090: 0.49秒
Q8_0模型(2线程执行):
- ARM Cortex-A72: 19.6秒
- IMAX (FPGA 2-lane): ~17秒
- IMAX (28nm ASIC 2-lane): 11.1秒
- Jetson AGX Orin: 1.6秒
- RTX 4090: 0.50秒
分析: IMAX ASIC相比嵌入式CPU实现明显加速,但绝对速度不及GPU(GPU拥有大规模并行计算资源)
FP16模型(2线程执行):
- ARM Cortex-A72: 15.8 J
- IMAX (28nm ASIC 2-lane): 13.6 J
- Jetson AGX Orin: 24.0 J
- RTX 4090: 120.1 J
Q8_0模型(2线程执行):
- ARM Cortex-A72: 12.7 J
- IMAX (28nm ASIC 2-lane): 12.6 J ✓ 最佳
- Jetson AGX Orin: 24.0 J
- RTX 4090: 123.8 J
关键发现:
- IMAX (28nm ASIC) Q8_0模型能效比Jetson AGX Orin高1.90倍
- 比RTX 4090高9.83倍
- 比FP16模型,Q8_0量化进一步提升能效
FP16模型PDP(2线程):
- 16KB LMM: ~15 J
- 32KB LMM: 13.6 J ✓ 最优
- 64KB LMM: ~14 J
- 128KB LMM: ~15 J
Q8_0模型PDP(2线程):
- 16KB LMM: ~14 J
- 32KB LMM: 12.6 J ✓ 最优
- 64KB LMM: ~13.5 J
- 128KB LMM: ~15 J
分析:
- 16KB: 延迟和PDP较差(CPU需处理不适合的内核)
- 32KB: 达到PDP最小值(最优平衡点)
- 64KB/128KB: 延迟略有改善但静态功耗增加,PDP反而恶化
结论: 32KB LMM是能效最优配置,验证了设计选择的正确性
执行时间分解:
- EXEC(PE纯计算): FP16为60.89%,Q8_0为74.70%
- LOAD/DRAIN(DRAM与LMM数据传输): 相对较小
- CONF/REGV/RANGE/REFILL(IMAX配置): 相对较小
关键洞察:
- 高EXEC比例表明IMAX处于计算受限状态(而非内存受限)
- 成功缓解了数据移动开销
- 有效释放了IMAX的高吞吐量潜力
更大模型的内核覆盖率(优化后):
| 模型 | 大小 | 操作数 | 32KB覆盖率 | 64KB覆盖率 |
|---|
| tiny | 78MB | 477,153 | 93.80% | 93.80% |
| base | 148MB | 644,690 | 66.54% | 94.17% |
| small | 488MB | 1,920,955 | 66.52% | 94.36% |
发现:
- 虽然计算负载显著增加,但单个操作的内存占用并未成比例增长
- 64KB LMM可覆盖base和small模型94%以上的内核
- 证明架构对更大模型具有良好可扩展性
- 需要在静态功耗增加与性能提升间权衡
专用化方法(ASIC/FPGA):
- Park等: FPGA上的CNN与智能手机语言模型混合系统
- Hu等: GCNN模型专用FPGA加速器
- Yamini等: 使用脉动阵列加速端到端Transformer ASR
- 局限: 针对特定模型优化,灵活性差,难以适应算法演进
本文优势: IMAX是通用架构,不绑定特定AI任务,能快速适应算法变化
传统CGRA挑战:
IMAX创新:
- 基于CGLA(粗粒度线性阵列)演进
- PE和LMM线性交错排列
- 有效隐藏不规则内存访问延迟
先前IMAX应用:
- 计算密集型内核: SpGEMM、FFT
- 现代AI工作负载: CNN、LLM、近似k-NN搜索(RAG)
- 本文扩展: 首次应用于ASR任务的点积操作
据作者所知,本文是首个Whisper在CGRA上的硬件实现和评估工作,填补了该领域的空白。
- 首次实现: 成功在CGLA架构上实现Whisper ASR内核,建立了硬件/软件协同设计方法论
- 能效优势: 28nm ASIC预测显示在Q8_0模型上PDP为12.6J,比边缘GPU(Jetson AGX Orin)能效高1.90倍,比高端GPU(RTX 4090)高9.83倍
- 设计权衡: 虽然绝对延迟不及GPU,但在功率受限的边缘应用中,能效比低延迟更关键
- 架构洞察: 32KB LMM配置在内核覆盖率和静态功耗间达到最优平衡
- 可扩展性: 证明了对更大Whisper模型(base、small)的适用性
- 功耗评估方法:
- GPU使用标称TDP而非实测平均功耗
- TDP代表峰值功耗而非工作负载平均功耗
- 结果应视为架构潜力指标而非确定性优势度量
- 需要实测平均功耗进行精确对比
- 性能绝对值:
- IMAX延迟显著高于GPU(ASIC预测13.5s vs GPU 0.49s)
- 不适合对延迟极度敏感的实时应用
- 模型范围:
- 仅评估了Whisper-tiny.en模型
- 更大模型(base、small)仅进行理论分析,未实际实现
- ASIC实现:
- 28nm ASIC性能基于综合估算和频率推测
- 未进行实际流片验证
- 工作负载单一:
- 仅测试10秒音频文件
- 未评估不同长度、不同语言、不同噪声环境的鲁棒性
- 扩展到更大模型: 实现并评估Whisper base和small模型,优化功耗-性能平衡
- 进一步内核优化: 调整计算单元数量等架构参数
- 实际ASIC流片: 验证28nm ASIC预测的准确性
- 功耗精确测量: 使用实测平均功耗而非TDP进行公平对比
- 多样化工作负载: 评估不同长度音频、多语言、噪声环境的性能
- 创新性强:
- 首次将Whisper ASR映射到CGRA架构
- 填补了ASR硬件加速领域的重要空白
- 提出了处理可变长度向量的混合执行策略
- 系统化方法论:
- 完整的硬件/软件协同设计流程
- 从内核优化到数据处理到架构参数调优的全面考虑
- 填充消除技术显著提升LMM利用率(1.39%→93.80%)
- 实验充分:
- 多平台对比(CPU、边缘GPU、高端GPU、FPGA、ASIC预测)
- 详细的消融实验(LMM大小、执行时间分解)
- 可扩展性分析(更大模型的理论验证)
- 实用价值高:
- 针对边缘设备的能效优化具有重要现实意义
- 在电池续航和热管理关键的场景中优势明显
- CGLA的通用性保证了对算法演进的适应能力
- 技术细节清晰:
- 详细描述了FP16内核的SIMD和多线程优化
- 混合执行策略的突发长度选择有数据支撑
- 架构图和数据流图清晰易懂
- 功耗对比不公平:
- 使用GPU的TDP而非实测功耗是重大方法论缺陷
- 削弱了能效优势声明的可信度
- 应补充实测功耗数据
- 性能差距显著:
- ASIC预测延迟仍是GPU的27倍(13.5s vs 0.49s)
- 限制了实际应用场景(不适合实时交互)
- 未充分讨论如何在延迟敏感场景中应用
- ASIC验证不足:
- 840MHz频率基于综合估算,未经物理设计验证
- 6倍频率提升的合理性需要更多支撑
- 缺乏布局布线后的实际功耗和时序数据
- 评估范围有限:
- 仅测试单一10秒音频文件
- 缺乏不同场景(噪声、口音、长音频)的鲁棒性评估
- 未评估模型准确率(仅关注性能和能效)
- 可复现性挑战:
- IMAX3是专有架构,外部研究者难以复现
- FPGA实现的具体配置细节不够详尽
- 代码和模型未公开
- 理论分析不足:
- 缺乏能效优势的理论上界分析
- 未深入分析为何CGLA在ASR任务上特别适合
- 混合执行策略的5%残余处理开销缺乏理论推导
- 学术贡献:
- 开创了Whisper在CGRA上的研究方向
- 为ASR硬件加速提供了新的架构选择
- 硬件/软件协同设计方法论具有参考价值
- 实用价值:
- 对边缘AI设备制造商有重要参考意义
- 在IoT、可穿戴设备等功率受限场景中潜力大
- 为可持续AI提供了技术路径
- 局限性:
- IMAX专有架构限制了广泛应用
- 性能差距使其难以替代GPU成为主流方案
- 需要实际流片才能验证商业可行性
最适合:
- 功率受限的边缘设备(智能手表、助听器、IoT设备)
- 对延迟容忍度高但能效要求极高的应用
- 需要离线ASR且电池续航关键的场景
- 热管理严格的嵌入式系统
不适合:
- 实时交互应用(如语音助手)
- 对延迟敏感的场景(需要毫秒级响应)
- 有充足电源供应的数据中心场景
- 需要处理超长音频的批处理任务
本文引用了27篇重要文献,关键参考包括:
- Whisper原始论文: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
- whisper.cpp实现: Gerganov, GitHub开源项目 (2023)
- IMAX架构: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
- CGRA综述: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
- 能源预测: IEA, "Energy and AI" (2025)
本文是ASR硬件加速领域的一项创新性工作,首次探索了CGLA架构在Whisper模型上的应用。通过系统化的硬件/软件协同设计,作者证明了IMAX在能效方面相比GPU具有显著优势(Q8_0模型比RTX 4090高9.83倍)。虽然存在功耗评估方法不够严谨、性能绝对值不及GPU等局限,但在功率受限的边缘设备场景中,该方法具有重要的实用价值和研究意义。32KB LMM的最优配置选择、填充消除技术带来的93.80%内核覆盖率提升、以及对更大模型的可扩展性分析,都展示了作者深入的工程洞察。未来若能进行实际ASIC流片验证并补充精确的功耗测量,将进一步增强本工作的说服力和影响力。