2025-11-14T21:31:11.905402

Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA

Ando, Eto, Takeuchi et al.

The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.

academic

Aceleración Eficiente en Energía del ASR Whisper en una CGLA

Información Básica

ID del Artículo: 2511.02269
Título: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
Autores: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
Clasificación: cs.AR (Arquitectura de Computadoras)
Fecha de Publicación: 4 de noviembre de 2025 (Envío a arXiv)
Enlace del Artículo: https://arxiv.org/abs/2511.02269

Resumen

El auge de la IA generativa en tareas como el reconocimiento automático de voz (ASR) presenta desafíos severos de consumo energético. Aunque los ASIC ofrecen alta eficiencia, carecen de la programabilidad necesaria para adaptarse a la evolución de algoritmos. Para resolver este compromiso, este artículo implementa y evalúa los núcleos computacionales centrales de Whisper en IMAX (un acelerador CGLA de arreglo lineal de grano grueso de propósito general). Según el conocimiento de los autores, este es el primer trabajo que ejecuta núcleos de Whisper en CGRA y realiza comparativas de rendimiento con CPU y GPU. Mediante diseño cooperativo hardware/software, los autores evalúan el sistema mediante prototipado en FPGA y predicen el rendimiento del ASIC a 28nm. Los resultados muestran eficiencia energética superior: para el modelo Q8_0, el ASIC predicho es 1.90 veces más eficiente que NVIDIA Jetson AGX Orin y 9.83 veces más que NVIDIA RTX 4090. Este trabajo posiciona a CGLA como una plataforma prometedora para ASR sostenible en dispositivos periféricos con restricciones de potencia.

Contexto de Investigación y Motivación

1. Problema a Resolver

Esta investigación aborda la crisis de consumo energético en sistemas de reconocimiento automático de voz impulsados por IA. Con la aplicación generalizada de modelos ASR avanzados como Whisper (asistentes inteligentes, transcripción en tiempo real, aplicaciones médicas), sus demandas computacionales generan un crecimiento acelerado del consumo energético en centros de datos. La Agencia Internacional de Energía predice que el consumo de energía de los centros de datos podría duplicarse para 2030 a 945 TWh, superando ligeramente el consumo anual total de electricidad de Japón.

2. Importancia del Problema

Crisis de Sostenibilidad Energética: La infraestructura de IA depende severamente de GPGPU de alto consumo, con baja eficiencia energética de arquitecturas de propósito general no sostenible
Demanda de Dispositivos Periféricos: Los dispositivos periféricos con restricciones de potencia (como teléfonos inteligentes, dispositivos IoT) requieren soluciones ASR de alta eficiencia energética
Evolución Rápida de Algoritmos: Los algoritmos de IA se actualizan continuamente, requiriendo plataformas de hardware que combinen eficiencia y flexibilidad

3. Limitaciones de Métodos Existentes

Aceleradores ASIC Especializados: Aunque ofrecen eficiencia energética extrema, carecen de programabilidad, dificultando la adaptación a algoritmos en rápida evolución, causando obsolescencia acelerada del hardware
Soluciones FPGA: Optimizadas para modelos específicos (como CNN, Transformer), pero con alta especificidad y pobre portabilidad
Soluciones GPU: Proporcionan alto rendimiento y flexibilidad, pero con consumo de potencia excesivo, inadecuadas para dispositivos periféricos

4. Motivación de la Investigación

Los autores proponen usar el acelerador IMAX con arquitectura CGLA (Arreglo Lineal de Grano Grueso), intentando encontrar el punto óptimo de equilibrio entre la eficiencia energética de ASIC y la programabilidad de GPGPU. IMAX, mediante unidades de procesamiento (PE) dispuestas linealmente y módulos de memoria local (LMM), puede absorber patrones de acceso a memoria irregular mientras mantiene alto rendimiento y eficiencia energética.

Contribuciones Principales

Primera Implementación: Primera implementación y evaluación de núcleos ASR de Whisper en arquitectura CGRA, estableciendo principios de diseño cooperativo hardware/software para procesar cargas de trabajo de longitud variable dinámica
Eficiencia Energética Superior: Basado en estimaciones de prototipado FPGA, la configuración ASIC optimizada a 28nm logra eficiencia energética excepcional en el modelo cuantizado Q8_0, 1.90 veces superior a Jetson AGX Orin y 9.83 veces superior a RTX 4090
Análisis de Optimización Arquitectónica: Análisis sistemático del compromiso entre tamaño de LMM y eficiencia general, demostrando que la configuración LMM de 32KB logra equilibrio óptimo entre maximizar cobertura de núcleos y minimizar sobrecarga de potencia estática
Verificación de Escalabilidad: Demuestra la aplicabilidad del método a modelos Whisper más grandes (base, small), probando el potencial de escalabilidad arquitectónica

Explicación Detallada de Métodos

Definición de Tarea

Objetivo: Ejecutar eficientemente los núcleos computacionales centrales del modelo ASR Whisper (principalmente operaciones de producto punto) en el acelerador IMAX CGLA

Entrada: Archivo de audio de aproximadamente 10 segundos (jfk.wav)

Salida: Resultado de transcripción de texto

Restricciones:

Escenario de dispositivo periférico con restricciones de potencia
Necesidad de procesar vectores de longitud variable
Necesidad de equilibrar entre eficiencia energética y rendimiento

Arquitectura del Modelo

1. Arquitectura del Sistema IMAX3

Como se muestra en la Figura 2, IMAX3 se implementa como configuración de 8 canales, desplegada en FPGA AMD Versal VPK180:

Sistema de Procesamiento (PS): CPU ARM Cortex-A72 de doble núcleo
Lógica Programable (PL): Aloja el núcleo CGLA
Interconexión: Conecta PS y PL mediante red en chip (NoC)
Memoria: 8GB DDR4 para búfer del SO, 4GB DDR4 para búfer DMA

2. Estructura Interna del Canal IMAX (Figura 3)

Cada canal IMAX contiene:

Unidades de Procesamiento (PE): ALU segmentado en tubería y módulo de memoria local (LMM)
Estructura de Arreglo Lineal: PE y LMM dispuestos estratégicamente intercalados
Rutas de Datos: Separación entre ruta de datos de ejecución y ruta de datos de memoria
Interfaz DMA: Interfaces DMA AXI de lectura/escritura

3. Flujo de Procesamiento de Whisper (Figura 1)

Extracción de Características: Generación de espectrograma Mel
Codificador: Atención multiencabezado y redes de retroalimentación (carga computacional principal)
Decodificador: Generación de texto autorregresiva
Enfoque de Aceleración: Núcleo de producto punto (núcleo computacional del codificador y decodificador)

Puntos de Innovación Técnica

1. Diseño Cooperativo a Nivel de Núcleo

Optimización del Núcleo de Producto Punto FP16:

Conversión de Tipo Intercalada: Aprovechando la programabilidad de IMAX, ejecutar conversión FP16 a FP32 mediante capacidades de operaciones de bits del PE, evitando hardware especializado
Operaciones SIMD: Aplicar SIMD en unidades FMA, ejecutando concurrentemente dos operaciones de 32 bits en una única ruta de datos de 64 bits
Multihilo de Columna: Adoptar multihilo de columna para multiplexar en tiempo 4 operaciones FMA lógicas a una única FPU física, ocultando latencia de FPU

Estrategia de Ejecución Híbrida (procesamiento de vectores de longitud variable):

Dividir cada vector en dos segmentos: segmento principal (múltiplo de longitud de ráfaga) procesado en IMAX; segmento residual procesado concurrentemente en CPU anfitrión
Selección de longitud de ráfaga de 16 elementos (basada en análisis de distribución de longitud de vector de Whisper)
Procesamiento residual de CPU representa solo aproximadamente 5% de la carga computacional total

Núcleo Q8_0: Reutiliza implementación de núcleo cuantizado de trabajo previo

2. Procesamiento de Datos y Optimización de Configuración LMM

Técnica de Eliminación de Relleno:

Los tensores FP16 en whisper.cpp contienen relleno extenso para satisfacer requisitos de alineación de 32 bytes
CPU anfitrión elimina todo relleno antes de transferencia DMA y empaqueta datos densamente
Efecto significativo: como se muestra en Tabla I, para modelo FP16, configuración base con LMM de 32KB solo puede contener 1.39% de núcleos, cobertura optimizada mejora a 93.80%

Selección de Tamaño LMM (Tabla II):

Basada en estimaciones de potencia de síntesis lógica (Synopsys Design Compiler, proceso TSMC 28nm)
Núcleo FP16: potencia LMM de 16KB es 0.665W, 32KB es 0.675W (aumento negligible)
Cobertura de núcleos: 16KB cubre 66.35%, 32KB cubre 93.80%
Selección Óptima: LMM de 32KB logra mejor equilibrio entre mejora de rendimiento e incremento de potencia

3. Objetivos de Diseño Cooperativo Hardware/Software

Maximizar Rendimiento Computacional: Utilizar plenamente capacidad de procesamiento paralelo de IMAX
Maximizar Eficiencia de Transferencia de Datos: Mejorar ancho de banda de memoria efectivo, utilizar eficientemente LMM

Configuración Experimental

Conjunto de Datos

Archivo de Audio: Archivo de prueba estándar whisper.cpp jfk.wav (aproximadamente 10 segundos)
Modelo: Modelo Whisper-tiny.en (78MB)
- Versión FP16
- Versión cuantizada Q8_0

Indicadores de Evaluación

Latencia de Extremo a Extremo: Medida usando función gettimeofday (precisión de microsegundos)
Potencia:
- IMAX: Valor estimado de síntesis lógica
- CPU: Valor estimado
- GPU: Potencia Térmica de Diseño nominal (TDP)
Producto Potencia-Latencia (PDP): PDP = Tiempo de ejecución × Potencia
- Indicador clave para evaluación integral de eficiencia energética
- Valores más bajos indican mayor eficiencia energética

Métodos de Comparación

Como se muestra en Tabla III, plataformas de comparación incluyen:

ARM Cortex-A72 (CPU Embebida)
- 2 núcleos, 1400 MHz
- Potencia: 0.6485W
NVIDIA Jetson AGX Orin 32GB (GPU Periférica)
- 1792 núcleos CUDA, 930 MHz
- Potencia: 15W (modo de potencia mínima)
NVIDIA GeForce RTX 4090 (GPU de Alto Rendimiento)
- 16384 núcleos CUDA, 2520 MHz
- Potencia: 450W (TDP)
IMAX3 (Prototipo FPGA)
- 64 PE, 145 MHz
- Potencia: 180W (sistema FPGA completo)
IMAX3 (Predicción ASIC 28nm)
- 64 PE, 840 MHz (aumento de frecuencia de 6 veces)
- Potencia: 0.647W (FP16) / 1.32W (Q8_0), configuración de canal único LMM de 32KB

Detalles de Implementación

Herramienta FPGA: Vivado 2024.1
Herramienta de Síntesis: Synopsys Design Compiler
Biblioteca de Proceso: TSMC 28nm
Frecuencia FPGA: 140 MHz
Frecuencia ASIC Predicha: 840 MHz (verificada mediante análisis de temporización estática)
Configuración de Evaluación: Configuraciones de 1 canal y 2 canales
Número de Hilos Anfitrión: Variación de 1-2 hilos

Resultados Experimentales

Resultados Principales

1. Comparación de Latencia de Extremo a Extremo (Figura 4)

Modelo FP16 (Ejecución de 2 hilos):

ARM Cortex-A72: 24.4 segundos
IMAX (FPGA 2-carril): ~21 segundos
IMAX (ASIC 28nm 2-carril): 13.5 segundos
Jetson AGX Orin: 1.6 segundos
RTX 4090: 0.49 segundos

Modelo Q8_0 (Ejecución de 2 hilos):

ARM Cortex-A72: 19.6 segundos
IMAX (FPGA 2-carril): ~17 segundos
IMAX (ASIC 28nm 2-carril): 11.1 segundos
Jetson AGX Orin: 1.6 segundos
RTX 4090: 0.50 segundos

Análisis: IMAX ASIC muestra aceleración significativa comparado con implementación CPU embebida, pero velocidad absoluta no supera GPU (GPU posee recursos de computación paralela a gran escala)

2. Comparación de Eficiencia Energética (PDP, Figura 5)

Modelo FP16 (Ejecución de 2 hilos):

ARM Cortex-A72: 15.8 J
IMAX (ASIC 28nm 2-carril): 13.6 J
Jetson AGX Orin: 24.0 J
RTX 4090: 120.1 J

Modelo Q8_0 (Ejecución de 2 hilos):

ARM Cortex-A72: 12.7 J
IMAX (ASIC 28nm 2-carril): 12.6 J ✓ Óptimo
Jetson AGX Orin: 24.0 J
RTX 4090: 123.8 J

Hallazgos Clave:

IMAX (ASIC 28nm) modelo Q8_0 eficiencia energética 1.90 veces superior a Jetson AGX Orin
9.83 veces superior a RTX 4090
Comparado con modelo FP16, cuantización Q8_0 mejora aún más la eficiencia energética

Experimentos de Ablación

1. Optimización de Tamaño LMM (Figura 6)

PDP Modelo FP16 (2 hilos):

LMM de 16KB: ~15 J
LMM de 32KB: 13.6 J ✓ Óptimo
LMM de 64KB: ~14 J
LMM de 128KB: ~15 J

PDP Modelo Q8_0 (2 hilos):

LMM de 16KB: ~14 J
LMM de 32KB: 12.6 J ✓ Óptimo
LMM de 64KB: ~13.5 J
LMM de 128KB: ~15 J

Análisis:

16KB: Latencia y PDP deficientes (CPU necesita procesar núcleos inadecuados)
32KB: Alcanza valor mínimo de PDP (punto de equilibrio óptimo)
64KB/128KB: Latencia mejora ligeramente pero potencia estática aumenta, PDP empeora

Conclusión: LMM de 32KB es configuración óptima de eficiencia energética, validando corrección de selección de diseño

2. Verificación de Eficiencia Computacional (Figura 7)

Descomposición de Tiempo de Ejecución:

EXEC (computación pura de PE): 60.89% para FP16, 74.70% para Q8_0
LOAD/DRAIN (transferencia de datos DRAM a LMM): Relativamente pequeño
CONF/REGV/RANGE/REFILL (configuración IMAX): Relativamente pequeño

Perspectivas Clave:

Alto ratio EXEC indica IMAX en estado limitado por computación (no limitado por memoria)
Mitigación exitosa de sobrecarga de movimiento de datos
Liberación efectiva de potencial de alto rendimiento de IMAX

Análisis de Escalabilidad (Tabla IV)

Cobertura de Núcleos para Modelos Más Grandes (Optimizado):

Modelo	Tamaño	Operandos	Cobertura 32KB	Cobertura 64KB
tiny	78MB	477,153	93.80%	93.80%
base	148MB	644,690	66.54%	94.17%
small	488MB	1,920,955	66.52%	94.36%

Hallazgos:

Aunque carga computacional aumenta significativamente, consumo de memoria por operación individual no crece proporcionalmente
LMM de 64KB puede cubrir más del 94% de núcleos para modelos base y small
Demuestra buena escalabilidad arquitectónica para modelos más grandes
Requiere equilibrio entre aumento de potencia estática y mejora de rendimiento

Trabajo Relacionado

1. Aceleradores de Hardware para IA

Enfoques Especializados (ASIC/FPGA):

Park et al.: Sistema híbrido CNN en FPGA y modelos de lenguaje para teléfonos inteligentes
Hu et al.: Acelerador FPGA especializado para modelo GCNN
Yamini et al.: Aceleración de ASR Transformer de extremo a extremo usando arreglos sistólicos
Limitaciones: Optimizados para modelos específicos, baja flexibilidad, dificultad para adaptarse a evolución de algoritmos

Ventaja de Este Trabajo: IMAX es arquitectura de propósito general, no vinculada a tareas específicas de IA, puede adaptarse rápidamente a cambios de algoritmos

2. Evolución de Arquitectura CGRA

Desafíos CGRA Tradicionales:

Problemas de escalabilidad
Tiempo de compilación prolongado

Innovación IMAX:

Evolución basada en CGLA (Arreglo Lineal de Grano Grueso)
PE y LMM dispuestos linealmente intercalados
Ocultamiento efectivo de latencia de acceso a memoria irregular

Aplicaciones Previas de IMAX:

Núcleos computacionalmente intensivos: SpGEMM, FFT
Cargas de trabajo de IA modernas: CNN, LLM, búsqueda k-NN aproximada (RAG)
Extensión de Este Trabajo: Primera aplicación a operaciones de producto punto en tareas ASR

3. Implementación de Hardware de Whisper

Según el conocimiento de los autores, este es el primer trabajo de implementación y evaluación de hardware de Whisper en CGRA, llenando vacío importante en el campo.

Conclusiones y Discusión

Conclusiones Principales

Primera Implementación: Implementación exitosa de núcleos ASR de Whisper en arquitectura CGLA, estableciendo metodología de diseño cooperativo hardware/software
Ventaja de Eficiencia Energética: Predicción ASIC 28nm muestra PDP de 12.6J en modelo Q8_0, eficiencia energética 1.90 veces superior a GPU periférica (Jetson AGX Orin), 9.83 veces superior a GPU de alto rendimiento (RTX 4090)
Compromiso de Diseño: Aunque latencia absoluta no supera GPU, en aplicaciones periféricas con restricciones de potencia, eficiencia energética es más crítica que baja latencia
Perspectiva Arquitectónica: Configuración LMM de 32KB logra equilibrio óptimo entre cobertura de núcleos y potencia estática
Escalabilidad: Demuestra aplicabilidad a modelos Whisper más grandes (base, small)

Limitaciones

Método de Evaluación de Potencia:
- GPU usa TDP nominal en lugar de potencia promedio medida
- TDP representa potencia pico no potencia promedio de carga de trabajo
- Resultados deben considerarse como indicador de potencial arquitectónico no medida de ventaja definitiva
- Requiere potencia promedio medida para comparación precisa
Valor Absoluto de Rendimiento:
- Latencia IMAX significativamente superior a GPU (predicción ASIC 13.5s vs GPU 0.49s)
- Inadecuado para aplicaciones extremadamente sensibles a latencia
Rango de Modelos:
- Solo evaluado modelo Whisper-tiny.en
- Modelos más grandes (base, small) solo análisis teórico, sin implementación real
Implementación ASIC:
- Rendimiento ASIC 28nm basado en estimaciones de síntesis y predicción de frecuencia
- Sin verificación de flujo de silicio real
Carga de Trabajo Única:
- Solo prueba archivo de audio de 10 segundos
- Sin evaluación de robustez en diferentes longitudes, idiomas, entornos de ruido

Direcciones Futuras

Extensión a Modelos Más Grandes: Implementar y evaluar modelos Whisper base y small, optimizar equilibrio potencia-rendimiento
Optimización Adicional de Núcleos: Ajustar parámetros arquitectónicos como cantidad de unidades computacionales
Flujo ASIC Real: Verificar precisión de predicciones ASIC 28nm
Medición Precisa de Potencia: Usar potencia promedio medida en lugar de TDP para comparación justa
Cargas de Trabajo Diversificadas: Evaluar rendimiento en audio de diferentes longitudes, multiidioma, entornos con ruido

Evaluación Profunda

Fortalezas

Fuerte Innovación:
- Primera asignación de Whisper ASR a arquitectura CGRA
- Llena vacío importante en campo de aceleración de hardware para ASR
- Propone estrategia de ejecución híbrida para procesar vectores de longitud variable
Metodología Sistemática:
- Proceso completo de diseño cooperativo hardware/software
- Consideración integral desde optimización de núcleos a procesamiento de datos a ajuste de parámetros arquitectónicos
- Técnica de eliminación de relleno mejora significativamente utilización LMM (1.39%→93.80%)
Experimentación Suficiente:
- Comparación multiplatforma (CPU, GPU periférica, GPU de alto rendimiento, FPGA, predicción ASIC)
- Experimentos de ablación detallados (tamaño LMM, descomposición de tiempo de ejecución)
- Análisis de escalabilidad (verificación teórica de modelos más grandes)
Valor Práctico Alto:
- Optimización de eficiencia energética para dispositivos periféricos tiene importancia práctica significativa
- Ventaja clara en escenarios donde autonomía de batería y gestión térmica son críticas
- Generalidad de CGLA garantiza capacidad de adaptación a evolución de algoritmos
Detalles Técnicos Claros:
- Descripción detallada de optimizaciones SIMD y multihilo de núcleo FP16
- Selección de longitud de ráfaga de estrategia de ejecución híbrida respaldada por datos
- Diagramas de arquitectura y flujo de datos claros y comprensibles

Insuficiencias

Comparación de Potencia Injusta:
- Uso de TDP de GPU en lugar de potencia medida es defecto metodológico importante
- Debilita credibilidad de afirmaciones de ventaja de eficiencia energética
- Debe complementarse con datos de potencia medida
Brecha de Rendimiento Significativa:
- Latencia predicción ASIC aún 27 veces GPU (13.5s vs 0.49s)
- Limita escenarios de aplicación práctica (inadecuado para interacción en tiempo real)
- Discusión insuficiente sobre cómo aplicar en escenarios sensibles a latencia
Verificación ASIC Insuficiente:
- Frecuencia 840MHz basada en estimación de síntesis, sin verificación de diseño físico
- Racionalidad de aumento de frecuencia de 6 veces requiere más apoyo
- Falta datos reales de potencia y temporización post-layout
Rango de Evaluación Limitado:
- Solo prueba archivo de audio único de 10 segundos
- Falta evaluación de robustez en diferentes escenarios (ruido, acento, audio largo)
- Sin evaluación de precisión de modelo (solo enfoque en rendimiento y eficiencia)
Desafío de Reproducibilidad:
- IMAX3 es arquitectura propietaria, difícil reproducción para investigadores externos
- Detalles de configuración de implementación FPGA insuficientemente detallados
- Código y modelos no públicos
Análisis Teórico Insuficiente:
- Falta análisis de cota superior teórica de ventaja de eficiencia energética
- Análisis insuficiente de por qué CGLA es particularmente adecuada para tareas ASR
- Derivación teórica faltante de sobrecarga de procesamiento residual de 5%

Impacto

Contribución Académica:
- Abre dirección de investigación de Whisper en CGRA
- Proporciona nueva opción de arquitectura para aceleración de hardware ASR
- Metodología de diseño cooperativo hardware/software tiene valor de referencia
Valor Práctico:
- Referencia importante para fabricantes de dispositivos de IA periférica
- Potencial significativo en escenarios IoT, dispositivos portátiles con restricciones de potencia
- Proporciona ruta técnica para IA sostenible
Limitaciones:
- Arquitectura IMAX propietaria limita aplicación generalizada
- Brecha de rendimiento hace difícil reemplazar GPU como solución principal
- Requiere flujo de silicio real para verificar viabilidad comercial

Escenarios Aplicables

Más Adecuado:

Dispositivos periféricos con restricciones de potencia (relojes inteligentes, audífonos, dispositivos IoT)
Aplicaciones con alta tolerancia a latencia pero requisitos extremos de eficiencia energética
ASR sin conexión donde autonomía de batería es crítica
Sistemas embebidos con gestión térmica estricta

No Adecuado:

Aplicaciones de interacción en tiempo real (como asistentes de voz)
Escenarios sensibles a latencia (requieren respuesta en milisegundos)
Escenarios de centro de datos con suministro de energía abundante
Tareas de procesamiento por lotes con audio ultralargo

Referencias

Este artículo cita 27 referencias importantes, incluyendo referencias clave:

Artículo Original Whisper: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
Implementación whisper.cpp: Gerganov, Proyecto GitHub de código abierto (2023)
Arquitectura IMAX: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
Revisión CGRA: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
Predicción Energética: IEA, "Energy and AI" (2025)

Resumen

Este artículo es trabajo innovador en campo de aceleración de hardware para ASR, explorando por primera vez aplicación de arquitectura CGLA en modelo Whisper. Mediante diseño cooperativo hardware/software sistematizado, los autores demuestran ventaja significativa de IMAX en eficiencia energética comparado con GPU (modelo Q8_0 9.83 veces superior a RTX 4090). Aunque existen limitaciones como método de evaluación de potencia no suficientemente riguroso y valor absoluto de rendimiento inferior a GPU, el método tiene valor práctico importante y significado de investigación en escenarios de dispositivos periféricos con restricciones de potencia. La selección óptima de configuración LMM de 32KB, mejora de cobertura de núcleos de 93.80% mediante técnica de eliminación de relleno, y análisis de escalabilidad para modelos más grandes, todos demuestran perspectiva de ingeniería profunda de autores. Si se pueden realizar verificación de flujo ASIC real y complementar con mediciones de potencia precisas en futuro, se fortalecerá significativamente persuasión e impacto de este trabajo.