The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.
- ID del Artículo: 2511.02269
- Título: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
- Autores: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
- Clasificación: cs.AR (Arquitectura de Computadoras)
- Fecha de Publicación: 4 de noviembre de 2025 (Envío a arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2511.02269
El auge de la IA generativa en tareas como el reconocimiento automático de voz (ASR) presenta desafíos severos de consumo energético. Aunque los ASIC ofrecen alta eficiencia, carecen de la programabilidad necesaria para adaptarse a la evolución de algoritmos. Para resolver este compromiso, este artículo implementa y evalúa los núcleos computacionales centrales de Whisper en IMAX (un acelerador CGLA de arreglo lineal de grano grueso de propósito general). Según el conocimiento de los autores, este es el primer trabajo que ejecuta núcleos de Whisper en CGRA y realiza comparativas de rendimiento con CPU y GPU. Mediante diseño cooperativo hardware/software, los autores evalúan el sistema mediante prototipado en FPGA y predicen el rendimiento del ASIC a 28nm. Los resultados muestran eficiencia energética superior: para el modelo Q8_0, el ASIC predicho es 1.90 veces más eficiente que NVIDIA Jetson AGX Orin y 9.83 veces más que NVIDIA RTX 4090. Este trabajo posiciona a CGLA como una plataforma prometedora para ASR sostenible en dispositivos periféricos con restricciones de potencia.
Esta investigación aborda la crisis de consumo energético en sistemas de reconocimiento automático de voz impulsados por IA. Con la aplicación generalizada de modelos ASR avanzados como Whisper (asistentes inteligentes, transcripción en tiempo real, aplicaciones médicas), sus demandas computacionales generan un crecimiento acelerado del consumo energético en centros de datos. La Agencia Internacional de Energía predice que el consumo de energía de los centros de datos podría duplicarse para 2030 a 945 TWh, superando ligeramente el consumo anual total de electricidad de Japón.
- Crisis de Sostenibilidad Energética: La infraestructura de IA depende severamente de GPGPU de alto consumo, con baja eficiencia energética de arquitecturas de propósito general no sostenible
- Demanda de Dispositivos Periféricos: Los dispositivos periféricos con restricciones de potencia (como teléfonos inteligentes, dispositivos IoT) requieren soluciones ASR de alta eficiencia energética
- Evolución Rápida de Algoritmos: Los algoritmos de IA se actualizan continuamente, requiriendo plataformas de hardware que combinen eficiencia y flexibilidad
- Aceleradores ASIC Especializados: Aunque ofrecen eficiencia energética extrema, carecen de programabilidad, dificultando la adaptación a algoritmos en rápida evolución, causando obsolescencia acelerada del hardware
- Soluciones FPGA: Optimizadas para modelos específicos (como CNN, Transformer), pero con alta especificidad y pobre portabilidad
- Soluciones GPU: Proporcionan alto rendimiento y flexibilidad, pero con consumo de potencia excesivo, inadecuadas para dispositivos periféricos
Los autores proponen usar el acelerador IMAX con arquitectura CGLA (Arreglo Lineal de Grano Grueso), intentando encontrar el punto óptimo de equilibrio entre la eficiencia energética de ASIC y la programabilidad de GPGPU. IMAX, mediante unidades de procesamiento (PE) dispuestas linealmente y módulos de memoria local (LMM), puede absorber patrones de acceso a memoria irregular mientras mantiene alto rendimiento y eficiencia energética.
- Primera Implementación: Primera implementación y evaluación de núcleos ASR de Whisper en arquitectura CGRA, estableciendo principios de diseño cooperativo hardware/software para procesar cargas de trabajo de longitud variable dinámica
- Eficiencia Energética Superior: Basado en estimaciones de prototipado FPGA, la configuración ASIC optimizada a 28nm logra eficiencia energética excepcional en el modelo cuantizado Q8_0, 1.90 veces superior a Jetson AGX Orin y 9.83 veces superior a RTX 4090
- Análisis de Optimización Arquitectónica: Análisis sistemático del compromiso entre tamaño de LMM y eficiencia general, demostrando que la configuración LMM de 32KB logra equilibrio óptimo entre maximizar cobertura de núcleos y minimizar sobrecarga de potencia estática
- Verificación de Escalabilidad: Demuestra la aplicabilidad del método a modelos Whisper más grandes (base, small), probando el potencial de escalabilidad arquitectónica
Objetivo: Ejecutar eficientemente los núcleos computacionales centrales del modelo ASR Whisper (principalmente operaciones de producto punto) en el acelerador IMAX CGLA
Entrada: Archivo de audio de aproximadamente 10 segundos (jfk.wav)
Salida: Resultado de transcripción de texto
Restricciones:
- Escenario de dispositivo periférico con restricciones de potencia
- Necesidad de procesar vectores de longitud variable
- Necesidad de equilibrar entre eficiencia energética y rendimiento
Como se muestra en la Figura 2, IMAX3 se implementa como configuración de 8 canales, desplegada en FPGA AMD Versal VPK180:
- Sistema de Procesamiento (PS): CPU ARM Cortex-A72 de doble núcleo
- Lógica Programable (PL): Aloja el núcleo CGLA
- Interconexión: Conecta PS y PL mediante red en chip (NoC)
- Memoria: 8GB DDR4 para búfer del SO, 4GB DDR4 para búfer DMA
Cada canal IMAX contiene:
- Unidades de Procesamiento (PE): ALU segmentado en tubería y módulo de memoria local (LMM)
- Estructura de Arreglo Lineal: PE y LMM dispuestos estratégicamente intercalados
- Rutas de Datos: Separación entre ruta de datos de ejecución y ruta de datos de memoria
- Interfaz DMA: Interfaces DMA AXI de lectura/escritura
- Extracción de Características: Generación de espectrograma Mel
- Codificador: Atención multiencabezado y redes de retroalimentación (carga computacional principal)
- Decodificador: Generación de texto autorregresiva
- Enfoque de Aceleración: Núcleo de producto punto (núcleo computacional del codificador y decodificador)
Optimización del Núcleo de Producto Punto FP16:
- Conversión de Tipo Intercalada: Aprovechando la programabilidad de IMAX, ejecutar conversión FP16 a FP32 mediante capacidades de operaciones de bits del PE, evitando hardware especializado
- Operaciones SIMD: Aplicar SIMD en unidades FMA, ejecutando concurrentemente dos operaciones de 32 bits en una única ruta de datos de 64 bits
- Multihilo de Columna: Adoptar multihilo de columna para multiplexar en tiempo 4 operaciones FMA lógicas a una única FPU física, ocultando latencia de FPU
Estrategia de Ejecución Híbrida (procesamiento de vectores de longitud variable):
- Dividir cada vector en dos segmentos: segmento principal (múltiplo de longitud de ráfaga) procesado en IMAX; segmento residual procesado concurrentemente en CPU anfitrión
- Selección de longitud de ráfaga de 16 elementos (basada en análisis de distribución de longitud de vector de Whisper)
- Procesamiento residual de CPU representa solo aproximadamente 5% de la carga computacional total
Núcleo Q8_0: Reutiliza implementación de núcleo cuantizado de trabajo previo
Técnica de Eliminación de Relleno:
- Los tensores FP16 en whisper.cpp contienen relleno extenso para satisfacer requisitos de alineación de 32 bytes
- CPU anfitrión elimina todo relleno antes de transferencia DMA y empaqueta datos densamente
- Efecto significativo: como se muestra en Tabla I, para modelo FP16, configuración base con LMM de 32KB solo puede contener 1.39% de núcleos, cobertura optimizada mejora a 93.80%
Selección de Tamaño LMM (Tabla II):
- Basada en estimaciones de potencia de síntesis lógica (Synopsys Design Compiler, proceso TSMC 28nm)
- Núcleo FP16: potencia LMM de 16KB es 0.665W, 32KB es 0.675W (aumento negligible)
- Cobertura de núcleos: 16KB cubre 66.35%, 32KB cubre 93.80%
- Selección Óptima: LMM de 32KB logra mejor equilibrio entre mejora de rendimiento e incremento de potencia
- Maximizar Rendimiento Computacional: Utilizar plenamente capacidad de procesamiento paralelo de IMAX
- Maximizar Eficiencia de Transferencia de Datos: Mejorar ancho de banda de memoria efectivo, utilizar eficientemente LMM
- Archivo de Audio: Archivo de prueba estándar whisper.cpp jfk.wav (aproximadamente 10 segundos)
- Modelo: Modelo Whisper-tiny.en (78MB)
- Versión FP16
- Versión cuantizada Q8_0
- Latencia de Extremo a Extremo: Medida usando función gettimeofday (precisión de microsegundos)
- Potencia:
- IMAX: Valor estimado de síntesis lógica
- CPU: Valor estimado
- GPU: Potencia Térmica de Diseño nominal (TDP)
- Producto Potencia-Latencia (PDP): PDP = Tiempo de ejecución × Potencia
- Indicador clave para evaluación integral de eficiencia energética
- Valores más bajos indican mayor eficiencia energética
Como se muestra en Tabla III, plataformas de comparación incluyen:
- ARM Cortex-A72 (CPU Embebida)
- 2 núcleos, 1400 MHz
- Potencia: 0.6485W
- NVIDIA Jetson AGX Orin 32GB (GPU Periférica)
- 1792 núcleos CUDA, 930 MHz
- Potencia: 15W (modo de potencia mínima)
- NVIDIA GeForce RTX 4090 (GPU de Alto Rendimiento)
- 16384 núcleos CUDA, 2520 MHz
- Potencia: 450W (TDP)
- IMAX3 (Prototipo FPGA)
- 64 PE, 145 MHz
- Potencia: 180W (sistema FPGA completo)
- IMAX3 (Predicción ASIC 28nm)
- 64 PE, 840 MHz (aumento de frecuencia de 6 veces)
- Potencia: 0.647W (FP16) / 1.32W (Q8_0), configuración de canal único LMM de 32KB
- Herramienta FPGA: Vivado 2024.1
- Herramienta de Síntesis: Synopsys Design Compiler
- Biblioteca de Proceso: TSMC 28nm
- Frecuencia FPGA: 140 MHz
- Frecuencia ASIC Predicha: 840 MHz (verificada mediante análisis de temporización estática)
- Configuración de Evaluación: Configuraciones de 1 canal y 2 canales
- Número de Hilos Anfitrión: Variación de 1-2 hilos
Modelo FP16 (Ejecución de 2 hilos):
- ARM Cortex-A72: 24.4 segundos
- IMAX (FPGA 2-carril): ~21 segundos
- IMAX (ASIC 28nm 2-carril): 13.5 segundos
- Jetson AGX Orin: 1.6 segundos
- RTX 4090: 0.49 segundos
Modelo Q8_0 (Ejecución de 2 hilos):
- ARM Cortex-A72: 19.6 segundos
- IMAX (FPGA 2-carril): ~17 segundos
- IMAX (ASIC 28nm 2-carril): 11.1 segundos
- Jetson AGX Orin: 1.6 segundos
- RTX 4090: 0.50 segundos
Análisis: IMAX ASIC muestra aceleración significativa comparado con implementación CPU embebida, pero velocidad absoluta no supera GPU (GPU posee recursos de computación paralela a gran escala)
Modelo FP16 (Ejecución de 2 hilos):
- ARM Cortex-A72: 15.8 J
- IMAX (ASIC 28nm 2-carril): 13.6 J
- Jetson AGX Orin: 24.0 J
- RTX 4090: 120.1 J
Modelo Q8_0 (Ejecución de 2 hilos):
- ARM Cortex-A72: 12.7 J
- IMAX (ASIC 28nm 2-carril): 12.6 J ✓ Óptimo
- Jetson AGX Orin: 24.0 J
- RTX 4090: 123.8 J
Hallazgos Clave:
- IMAX (ASIC 28nm) modelo Q8_0 eficiencia energética 1.90 veces superior a Jetson AGX Orin
- 9.83 veces superior a RTX 4090
- Comparado con modelo FP16, cuantización Q8_0 mejora aún más la eficiencia energética
PDP Modelo FP16 (2 hilos):
- LMM de 16KB: ~15 J
- LMM de 32KB: 13.6 J ✓ Óptimo
- LMM de 64KB: ~14 J
- LMM de 128KB: ~15 J
PDP Modelo Q8_0 (2 hilos):
- LMM de 16KB: ~14 J
- LMM de 32KB: 12.6 J ✓ Óptimo
- LMM de 64KB: ~13.5 J
- LMM de 128KB: ~15 J
Análisis:
- 16KB: Latencia y PDP deficientes (CPU necesita procesar núcleos inadecuados)
- 32KB: Alcanza valor mínimo de PDP (punto de equilibrio óptimo)
- 64KB/128KB: Latencia mejora ligeramente pero potencia estática aumenta, PDP empeora
Conclusión: LMM de 32KB es configuración óptima de eficiencia energética, validando corrección de selección de diseño
Descomposición de Tiempo de Ejecución:
- EXEC (computación pura de PE): 60.89% para FP16, 74.70% para Q8_0
- LOAD/DRAIN (transferencia de datos DRAM a LMM): Relativamente pequeño
- CONF/REGV/RANGE/REFILL (configuración IMAX): Relativamente pequeño
Perspectivas Clave:
- Alto ratio EXEC indica IMAX en estado limitado por computación (no limitado por memoria)
- Mitigación exitosa de sobrecarga de movimiento de datos
- Liberación efectiva de potencial de alto rendimiento de IMAX
Cobertura de Núcleos para Modelos Más Grandes (Optimizado):
| Modelo | Tamaño | Operandos | Cobertura 32KB | Cobertura 64KB |
|---|
| tiny | 78MB | 477,153 | 93.80% | 93.80% |
| base | 148MB | 644,690 | 66.54% | 94.17% |
| small | 488MB | 1,920,955 | 66.52% | 94.36% |
Hallazgos:
- Aunque carga computacional aumenta significativamente, consumo de memoria por operación individual no crece proporcionalmente
- LMM de 64KB puede cubrir más del 94% de núcleos para modelos base y small
- Demuestra buena escalabilidad arquitectónica para modelos más grandes
- Requiere equilibrio entre aumento de potencia estática y mejora de rendimiento
Enfoques Especializados (ASIC/FPGA):
- Park et al.: Sistema híbrido CNN en FPGA y modelos de lenguaje para teléfonos inteligentes
- Hu et al.: Acelerador FPGA especializado para modelo GCNN
- Yamini et al.: Aceleración de ASR Transformer de extremo a extremo usando arreglos sistólicos
- Limitaciones: Optimizados para modelos específicos, baja flexibilidad, dificultad para adaptarse a evolución de algoritmos
Ventaja de Este Trabajo: IMAX es arquitectura de propósito general, no vinculada a tareas específicas de IA, puede adaptarse rápidamente a cambios de algoritmos
Desafíos CGRA Tradicionales:
- Problemas de escalabilidad
- Tiempo de compilación prolongado
Innovación IMAX:
- Evolución basada en CGLA (Arreglo Lineal de Grano Grueso)
- PE y LMM dispuestos linealmente intercalados
- Ocultamiento efectivo de latencia de acceso a memoria irregular
Aplicaciones Previas de IMAX:
- Núcleos computacionalmente intensivos: SpGEMM, FFT
- Cargas de trabajo de IA modernas: CNN, LLM, búsqueda k-NN aproximada (RAG)
- Extensión de Este Trabajo: Primera aplicación a operaciones de producto punto en tareas ASR
Según el conocimiento de los autores, este es el primer trabajo de implementación y evaluación de hardware de Whisper en CGRA, llenando vacío importante en el campo.
- Primera Implementación: Implementación exitosa de núcleos ASR de Whisper en arquitectura CGLA, estableciendo metodología de diseño cooperativo hardware/software
- Ventaja de Eficiencia Energética: Predicción ASIC 28nm muestra PDP de 12.6J en modelo Q8_0, eficiencia energética 1.90 veces superior a GPU periférica (Jetson AGX Orin), 9.83 veces superior a GPU de alto rendimiento (RTX 4090)
- Compromiso de Diseño: Aunque latencia absoluta no supera GPU, en aplicaciones periféricas con restricciones de potencia, eficiencia energética es más crítica que baja latencia
- Perspectiva Arquitectónica: Configuración LMM de 32KB logra equilibrio óptimo entre cobertura de núcleos y potencia estática
- Escalabilidad: Demuestra aplicabilidad a modelos Whisper más grandes (base, small)
- Método de Evaluación de Potencia:
- GPU usa TDP nominal en lugar de potencia promedio medida
- TDP representa potencia pico no potencia promedio de carga de trabajo
- Resultados deben considerarse como indicador de potencial arquitectónico no medida de ventaja definitiva
- Requiere potencia promedio medida para comparación precisa
- Valor Absoluto de Rendimiento:
- Latencia IMAX significativamente superior a GPU (predicción ASIC 13.5s vs GPU 0.49s)
- Inadecuado para aplicaciones extremadamente sensibles a latencia
- Rango de Modelos:
- Solo evaluado modelo Whisper-tiny.en
- Modelos más grandes (base, small) solo análisis teórico, sin implementación real
- Implementación ASIC:
- Rendimiento ASIC 28nm basado en estimaciones de síntesis y predicción de frecuencia
- Sin verificación de flujo de silicio real
- Carga de Trabajo Única:
- Solo prueba archivo de audio de 10 segundos
- Sin evaluación de robustez en diferentes longitudes, idiomas, entornos de ruido
- Extensión a Modelos Más Grandes: Implementar y evaluar modelos Whisper base y small, optimizar equilibrio potencia-rendimiento
- Optimización Adicional de Núcleos: Ajustar parámetros arquitectónicos como cantidad de unidades computacionales
- Flujo ASIC Real: Verificar precisión de predicciones ASIC 28nm
- Medición Precisa de Potencia: Usar potencia promedio medida en lugar de TDP para comparación justa
- Cargas de Trabajo Diversificadas: Evaluar rendimiento en audio de diferentes longitudes, multiidioma, entornos con ruido
- Fuerte Innovación:
- Primera asignación de Whisper ASR a arquitectura CGRA
- Llena vacío importante en campo de aceleración de hardware para ASR
- Propone estrategia de ejecución híbrida para procesar vectores de longitud variable
- Metodología Sistemática:
- Proceso completo de diseño cooperativo hardware/software
- Consideración integral desde optimización de núcleos a procesamiento de datos a ajuste de parámetros arquitectónicos
- Técnica de eliminación de relleno mejora significativamente utilización LMM (1.39%→93.80%)
- Experimentación Suficiente:
- Comparación multiplatforma (CPU, GPU periférica, GPU de alto rendimiento, FPGA, predicción ASIC)
- Experimentos de ablación detallados (tamaño LMM, descomposición de tiempo de ejecución)
- Análisis de escalabilidad (verificación teórica de modelos más grandes)
- Valor Práctico Alto:
- Optimización de eficiencia energética para dispositivos periféricos tiene importancia práctica significativa
- Ventaja clara en escenarios donde autonomía de batería y gestión térmica son críticas
- Generalidad de CGLA garantiza capacidad de adaptación a evolución de algoritmos
- Detalles Técnicos Claros:
- Descripción detallada de optimizaciones SIMD y multihilo de núcleo FP16
- Selección de longitud de ráfaga de estrategia de ejecución híbrida respaldada por datos
- Diagramas de arquitectura y flujo de datos claros y comprensibles
- Comparación de Potencia Injusta:
- Uso de TDP de GPU en lugar de potencia medida es defecto metodológico importante
- Debilita credibilidad de afirmaciones de ventaja de eficiencia energética
- Debe complementarse con datos de potencia medida
- Brecha de Rendimiento Significativa:
- Latencia predicción ASIC aún 27 veces GPU (13.5s vs 0.49s)
- Limita escenarios de aplicación práctica (inadecuado para interacción en tiempo real)
- Discusión insuficiente sobre cómo aplicar en escenarios sensibles a latencia
- Verificación ASIC Insuficiente:
- Frecuencia 840MHz basada en estimación de síntesis, sin verificación de diseño físico
- Racionalidad de aumento de frecuencia de 6 veces requiere más apoyo
- Falta datos reales de potencia y temporización post-layout
- Rango de Evaluación Limitado:
- Solo prueba archivo de audio único de 10 segundos
- Falta evaluación de robustez en diferentes escenarios (ruido, acento, audio largo)
- Sin evaluación de precisión de modelo (solo enfoque en rendimiento y eficiencia)
- Desafío de Reproducibilidad:
- IMAX3 es arquitectura propietaria, difícil reproducción para investigadores externos
- Detalles de configuración de implementación FPGA insuficientemente detallados
- Código y modelos no públicos
- Análisis Teórico Insuficiente:
- Falta análisis de cota superior teórica de ventaja de eficiencia energética
- Análisis insuficiente de por qué CGLA es particularmente adecuada para tareas ASR
- Derivación teórica faltante de sobrecarga de procesamiento residual de 5%
- Contribución Académica:
- Abre dirección de investigación de Whisper en CGRA
- Proporciona nueva opción de arquitectura para aceleración de hardware ASR
- Metodología de diseño cooperativo hardware/software tiene valor de referencia
- Valor Práctico:
- Referencia importante para fabricantes de dispositivos de IA periférica
- Potencial significativo en escenarios IoT, dispositivos portátiles con restricciones de potencia
- Proporciona ruta técnica para IA sostenible
- Limitaciones:
- Arquitectura IMAX propietaria limita aplicación generalizada
- Brecha de rendimiento hace difícil reemplazar GPU como solución principal
- Requiere flujo de silicio real para verificar viabilidad comercial
Más Adecuado:
- Dispositivos periféricos con restricciones de potencia (relojes inteligentes, audífonos, dispositivos IoT)
- Aplicaciones con alta tolerancia a latencia pero requisitos extremos de eficiencia energética
- ASR sin conexión donde autonomía de batería es crítica
- Sistemas embebidos con gestión térmica estricta
No Adecuado:
- Aplicaciones de interacción en tiempo real (como asistentes de voz)
- Escenarios sensibles a latencia (requieren respuesta en milisegundos)
- Escenarios de centro de datos con suministro de energía abundante
- Tareas de procesamiento por lotes con audio ultralargo
Este artículo cita 27 referencias importantes, incluyendo referencias clave:
- Artículo Original Whisper: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
- Implementación whisper.cpp: Gerganov, Proyecto GitHub de código abierto (2023)
- Arquitectura IMAX: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
- Revisión CGRA: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
- Predicción Energética: IEA, "Energy and AI" (2025)
Este artículo es trabajo innovador en campo de aceleración de hardware para ASR, explorando por primera vez aplicación de arquitectura CGLA en modelo Whisper. Mediante diseño cooperativo hardware/software sistematizado, los autores demuestran ventaja significativa de IMAX en eficiencia energética comparado con GPU (modelo Q8_0 9.83 veces superior a RTX 4090). Aunque existen limitaciones como método de evaluación de potencia no suficientemente riguroso y valor absoluto de rendimiento inferior a GPU, el método tiene valor práctico importante y significado de investigación en escenarios de dispositivos periféricos con restricciones de potencia. La selección óptima de configuración LMM de 32KB, mejora de cobertura de núcleos de 93.80% mediante técnica de eliminación de relleno, y análisis de escalabilidad para modelos más grandes, todos demuestran perspectiva de ingeniería profunda de autores. Si se pueden realizar verificación de flujo ASIC real y complementar con mediciones de potencia precisas en futuro, se fortalecerá significativamente persuasión e impacto de este trabajo.