The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.
- ID de l'article: 2511.02269
- Titre: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
- Auteurs: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
- Classification: cs.AR (Architecture Informatique)
- Date de publication: 4 novembre 2025 (soumission arXiv)
- Lien de l'article: https://arxiv.org/abs/2511.02269
L'émergence de l'IA générative dans des tâches telles que la reconnaissance automatique de la parole (ASR) pose des défis énergétiques considérables. Bien que les ASIC offrent une efficacité élevée, ils manquent de programmabilité pour s'adapter à l'évolution des algorithmes. Pour résoudre ce compromis, cet article implémente et évalue les noyaux de calcul fondamentaux de Whisper sur IMAX (un accélérateur CGLA linéaire à grain grossier universel). À la connaissance des auteurs, il s'agit du premier travail exécutant les noyaux Whisper sur CGRA avec comparaison de performance avec CPU et GPU. Grâce à la conception conjointe matériel/logiciel, les auteurs évaluent le système via prototype FPGA et prédisent les performances d'un ASIC 28nm. Les résultats démontrent une efficacité énergétique exceptionnelle : pour le modèle Q8_0, l'ASIC prédit offre une efficacité énergétique 1,90 fois supérieure à NVIDIA Jetson AGX Orin et 9,83 fois supérieure à NVIDIA RTX 4090. Ce travail positionne CGLA comme une plateforme prometteuse pour l'ASR durable sur les appareils périphériques à puissance limitée.
Cette recherche aborde la crise énergétique des systèmes de reconnaissance automatique de la parole pilotés par l'IA. Avec l'adoption généralisée de modèles ASR avancés comme Whisper (assistants intelligents, transcription en temps réel, applications médicales), leurs exigences computationnelles entraînent une augmentation drastique de la consommation énergétique des centres de données. L'Agence internationale de l'énergie prévoit que la consommation électrique des centres de données pourrait doubler d'ici 2030, atteignant 945 TWh, dépassant légèrement la consommation électrique annuelle totale du Japon.
- Crise de durabilité énergétique: L'infrastructure IA dépend fortement des GPGPU à haute consommation énergétique, avec une efficacité énergétique faible et insoutenable pour une architecture généraliste unique
- Besoins des appareils périphériques: Les appareils périphériques à puissance limitée (smartphones, appareils IoT) nécessitent des solutions ASR hautement efficaces énergétiquement
- Évolution rapide des algorithmes: Les algorithmes IA évoluent continuellement, nécessitant une plateforme matérielle combinant efficacité et flexibilité
- Accélérateurs ASIC spécialisés: Bien qu'extrêmement efficaces énergétiquement, ils manquent de programmabilité et s'adaptent difficilement à l'évolution rapide des algorithmes, rendant le matériel d'accélération obsolète
- Solutions FPGA: Optimisées pour des modèles spécifiques (CNN, Transformer), mais fortement spécialisées avec une portabilité limitée
- Solutions GPU: Offrent haute performance et flexibilité, mais consommation énergétique excessive, inadaptées aux appareils périphériques
Les auteurs proposent l'utilisation de l'accélérateur IMAX basé sur l'architecture CGLA (réseau linéaire à grain grossier), tentant de trouver le meilleur équilibre entre l'efficacité énergétique des ASIC et la programmabilité des GPGPU. IMAX, grâce à ses unités de traitement (PE) disposées linéairement et ses modules de mémoire locale (LMM), peut absorber les modèles d'accès mémoire irréguliers tout en maintenant un débit élevé et une efficacité énergétique.
- Première implémentation: Première implémentation et évaluation des noyaux ASR Whisper sur architecture CGRA, établissant les principes de conception conjointe matériel/logiciel pour traiter les charges de travail de longueur variable dynamique
- Efficacité énergétique exceptionnelle: Basée sur l'estimation du prototype FPGA, la configuration ASIC 28nm optimisée réalise une efficacité énergétique remarquable sur le modèle quantifié Q8_0, surpassant Jetson AGX Orin de 1,90 fois et RTX 4090 de 9,83 fois
- Analyse d'optimisation architecturale: Analyse systématique des compromis entre la taille du LMM et l'efficacité globale, démontrant que la configuration LMM 32KB atteint l'équilibre optimal entre maximisation de la couverture des noyaux et minimisation des frais généraux de puissance statique
- Vérification de l'extensibilité: Démontre l'applicabilité de la méthode aux modèles Whisper plus grands (base, small), prouvant le potentiel d'extensibilité de l'architecture
Objectif: Exécuter efficacement les noyaux de calcul fondamentaux du modèle ASR Whisper (principalement des opérations de produit scalaire) sur l'accélérateur IMAX CGLA
Entrée: Fichier audio d'environ 10 secondes (jfk.wav)
Sortie: Résultat de transcription textuelle
Contraintes:
- Scénario d'appareil périphérique à puissance limitée
- Nécessité de traiter des vecteurs de longueur variable
- Besoin d'équilibre entre efficacité énergétique et performance
Comme illustré à la figure 2, IMAX3 est implémenté en configuration 8 canaux, déployé sur FPGA AMD Versal VPK180:
- Système de traitement (PS): CPU ARM Cortex-A72 double cœur
- Logique programmable (PL): Héberge le noyau CGLA
- Interconnexion: Réseau sur puce (NoC) connectant PS et PL
- Mémoire: 8GB DDR4 pour tampons OS, 4GB DDR4 pour tampons DMA
Chaque canal IMAX contient:
- Unités de traitement (PE): ALU en pipeline et modules de mémoire locale (LMM)
- Structure de réseau linéaire: Arrangement stratégiquement entrelacé de PE et LMM
- Chemins de données: Séparation des chemins de données d'exécution et de mémoire
- Interface DMA: Interfaces de lecture/écriture DMA AXI
- Extraction de caractéristiques: Génération de spectrogramme Mel
- Encodeur: Attention multi-têtes et réseaux de neurones avant (charge de calcul principale)
- Décodeur: Génération de texte autorégressive
- Point d'accélération: Noyau de produit scalaire (cœur computationnel de l'encodeur et du décodeur)
Optimisation du noyau de produit scalaire FP16:
- Conversion de type en ligne: Exploitant la programmabilité d'IMAX, exécution de la conversion FP16 vers FP32 via les capacités d'opérations binaires du PE, évitant le matériel spécialisé
- Opérations SIMD: Application de SIMD sur les unités FMA, exécution concurrente de deux opérations 32 bits sur un chemin de données 64 bits unique
- Multi-threading en colonnes: Adoption du multi-threading en colonnes multiplexant temporellement 4 opérations FMA logiques sur une seule FPU physique, masquant la latence FPU
Stratégie d'exécution hybride (traitement des vecteurs de longueur variable):
- Division de chaque vecteur en deux segments: segment principal (multiple de la longueur de burst) traité sur IMAX; segment résiduel traité concurremment sur CPU hôte
- Sélection de longueur de burst de 16 éléments (basée sur l'analyse de distribution des longueurs de vecteurs Whisper)
- Traitement résiduel CPU représente seulement environ 5% du volume de calcul total
Noyau Q8_0: Réutilisation de l'implémentation du noyau quantifié des travaux antérieurs
Technique d'élimination du remplissage:
- Les tenseurs FP16 dans whisper.cpp contiennent un remplissage considérable pour satisfaire les exigences d'alignement 32 octets
- Le CPU hôte élimine tout le remplissage avant le transfert DMA et compacte les données étroitement
- Effet significatif: Comme montré au tableau I, pour le modèle FP16, la configuration de base avec LMM 32KB ne peut contenir que 1,39% des noyaux, tandis que l'optimisation améliore la couverture à 93,80%
Sélection de la taille du LMM (Tableau II):
- Basée sur l'estimation de puissance de la synthèse logique (Synopsys Design Compiler, procédé TSMC 28nm)
- Noyau FP16: puissance LMM 16KB 0,665W, 32KB 0,675W (augmentation négligeable)
- Couverture des noyaux: 16KB couvre 66,35%, 32KB couvre 93,80%
- Choix optimal: LMM 32KB atteint le meilleur équilibre entre amélioration de performance et augmentation de puissance
- Maximiser le débit de calcul: Utilisation complète de la capacité de traitement parallèle d'IMAX
- Maximiser l'efficacité du transfert de données: Augmentation de la bande passante mémoire effective, utilisation efficace du LMM
- Fichier audio: Fichier de test standard whisper.cpp jfk.wav (environ 10 secondes)
- Modèle: Modèle Whisper-tiny.en (78MB)
- Version FP16
- Version quantifiée Q8_0
- Latence bout en bout: Mesurée à l'aide de la fonction gettimeofday (précision microseconde)
- Puissance:
- IMAX: Valeur estimée par synthèse logique
- CPU: Valeur estimée
- GPU: Puissance thermique de conception nominale (TDP)
- Produit puissance-délai (PDP): PDP = temps d'exécution × puissance
- Indicateur clé pour évaluer l'efficacité énergétique de manière synthétique
- Les valeurs plus basses indiquent une efficacité énergétique supérieure
Comme montré au tableau III, les plateformes de comparaison incluent:
- ARM Cortex-A72 (CPU embarqué)
- 2 cœurs, 1400 MHz
- Puissance: 0,6485W
- NVIDIA Jetson AGX Orin 32GB (GPU périphérique)
- 1792 cœurs CUDA, 930 MHz
- Puissance: 15W (mode puissance minimale)
- NVIDIA GeForce RTX 4090 (GPU haut de gamme)
- 16384 cœurs CUDA, 2520 MHz
- Puissance: 450W (TDP)
- IMAX3 (prototype FPGA)
- 64 PE, 145 MHz
- Puissance: 180W (système FPGA complet)
- IMAX3 (prédiction ASIC 28nm)
- 64 PE, 840 MHz (augmentation de fréquence 6 fois)
- Puissance: 0,647W (FP16) / 1,32W (Q8_0), configuration canal unique LMM 32KB
- Outil FPGA: Vivado 2024.1
- Outil de synthèse: Synopsys Design Compiler
- Bibliothèque de procédé: TSMC 28nm
- Fréquence FPGA: 140 MHz
- Fréquence ASIC prédite: 840 MHz (vérifiée par analyse de timing statique)
- Configuration d'évaluation: Configurations 1 canal et 2 canaux
- Nombre de threads hôte: Variation 1-2 threads
Modèle FP16 (exécution 2 threads):
- ARM Cortex-A72: 24,4 secondes
- IMAX (FPGA 2-lane): ~21 secondes
- IMAX (ASIC 28nm 2-lane): 13,5 secondes
- Jetson AGX Orin: 1,6 seconde
- RTX 4090: 0,49 seconde
Modèle Q8_0 (exécution 2 threads):
- ARM Cortex-A72: 19,6 secondes
- IMAX (FPGA 2-lane): ~17 secondes
- IMAX (ASIC 28nm 2-lane): 11,1 secondes
- Jetson AGX Orin: 1,6 seconde
- RTX 4090: 0,50 seconde
Analyse: IMAX ASIC offre une accélération significative par rapport à l'implémentation CPU embarqué, mais la vitesse absolue ne rivalise pas avec les GPU (les GPU possèdent des ressources de calcul parallèle massives)
Modèle FP16 (exécution 2 threads):
- ARM Cortex-A72: 15,8 J
- IMAX (ASIC 28nm 2-lane): 13,6 J
- Jetson AGX Orin: 24,0 J
- RTX 4090: 120,1 J
Modèle Q8_0 (exécution 2 threads):
- ARM Cortex-A72: 12,7 J
- IMAX (ASIC 28nm 2-lane): 12,6 J ✓ Optimal
- Jetson AGX Orin: 24,0 J
- RTX 4090: 123,8 J
Découvertes clés:
- L'efficacité énergétique d'IMAX (ASIC 28nm) modèle Q8_0 surpasse Jetson AGX Orin de 1,90 fois
- Surpasse RTX 4090 de 9,83 fois
- Comparé au modèle FP16, la quantification Q8_0 améliore davantage l'efficacité énergétique
PDP du modèle FP16 (2 threads):
- LMM 16KB: ~15 J
- LMM 32KB: 13,6 J ✓ Optimal
- LMM 64KB: ~14 J
- LMM 128KB: ~15 J
PDP du modèle Q8_0 (2 threads):
- LMM 16KB: ~14 J
- LMM 32KB: 12,6 J ✓ Optimal
- LMM 64KB: ~13,5 J
- LMM 128KB: ~15 J
Analyse:
- 16KB: Latence et PDP moins favorables (CPU doit traiter des noyaux inadaptés)
- 32KB: Atteint la valeur PDP minimale (point d'équilibre optimal)
- 64KB/128KB: Légère amélioration de latence mais augmentation de puissance statique, PDP se détériore
Conclusion: LMM 32KB est la configuration la plus efficace énergétiquement, validant la justesse des choix de conception
Décomposition du Temps d'Exécution:
- EXEC (calcul pur PE): 60,89% pour FP16, 74,70% pour Q8_0
- LOAD/DRAIN (transfert de données DRAM vers LMM): Relativement petit
- CONF/REGV/RANGE/REFILL (configuration IMAX): Relativement petit
Perspectives clés:
- Le ratio EXEC élevé indique qu'IMAX est limité par le calcul (plutôt que par la mémoire)
- Atténuation réussie des frais généraux de mouvement de données
- Libération efficace du potentiel de débit élevé d'IMAX
Couverture des noyaux pour modèles plus grands (après optimisation):
| Modèle | Taille | Opérandes | Couverture 32KB | Couverture 64KB |
|---|
| tiny | 78MB | 477 153 | 93,80% | 93,80% |
| base | 148MB | 644 690 | 66,54% | 94,17% |
| small | 488MB | 1 920 955 | 66,52% | 94,36% |
Découvertes:
- Bien que la charge de calcul augmente significativement, l'occupation mémoire par opération n'augmente pas proportionnellement
- LMM 64KB peut couvrir plus de 94% des noyaux pour les modèles base et small
- Démontre une bonne extensibilité de l'architecture aux modèles plus grands
- Nécessite un équilibre entre augmentation de puissance statique et amélioration de performance
Approches spécialisées (ASIC/FPGA):
- Park et al.: Système hybride CNN et modèles de langage smartphone sur FPGA
- Hu et al.: Accélérateur FPGA spécialisé pour modèles GCNN
- Yamini et al.: Accélération ASR Transformer bout en bout utilisant réseaux systoliques
- Limitations: Optimisés pour des modèles spécifiques, flexibilité limitée, adaptation difficile à l'évolution des algorithmes
Avantage de cet article: IMAX est une architecture généraliste, non liée à des tâches IA spécifiques, capable de s'adapter rapidement aux changements d'algorithmes
Défis CGRA traditionnels:
- Problèmes d'extensibilité
- Temps de compilation long
Innovation IMAX:
- Évolution basée sur CGLA (réseau linéaire à grain grossier)
- Arrangement linéaire entrelacé de PE et LMM
- Masquage efficace des latences d'accès mémoire irréguliers
Applications IMAX antérieures:
- Noyaux intensifs en calcul: SpGEMM, FFT
- Charges de travail IA modernes: CNN, LLM, recherche k-NN approximée (RAG)
- Extension de cet article: Première application aux opérations de produit scalaire pour tâches ASR
À la connaissance des auteurs, cet article est le premier travail d'implémentation et d'évaluation matérielle de Whisper sur CGRA, comblant une lacune importante dans le domaine.
- Première implémentation: Implémentation réussie des noyaux ASR Whisper sur architecture CGLA, établissant une méthodologie de conception conjointe matériel/logiciel
- Avantage d'efficacité énergétique: La prédiction ASIC 28nm montre un PDP de 12,6J sur le modèle Q8_0, surpassant le GPU périphérique (Jetson AGX Orin) de 1,90 fois et le GPU haut de gamme (RTX 4090) de 9,83 fois
- Compromis de conception: Bien que la latence absolue ne rivalise pas avec les GPU, dans les applications périphériques à puissance limitée, l'efficacité énergétique est plus critique que la faible latence
- Perspectives architecturales: La configuration LMM 32KB atteint l'équilibre optimal entre couverture des noyaux et puissance statique
- Extensibilité: Démontre l'applicabilité aux modèles Whisper plus grands (base, small)
- Méthodologie d'évaluation de puissance:
- Les GPU utilisent le TDP nominal plutôt que la puissance moyenne mesurée
- Le TDP représente la puissance de crête plutôt que la puissance moyenne de la charge de travail
- Les résultats doivent être considérés comme des indicateurs du potentiel architectural plutôt que des mesures d'avantage déterministe
- Nécessite des mesures de puissance réelles pour comparaison précise
- Valeurs de Performance Absolues:
- La latence IMAX est significativement supérieure à celle des GPU (prédiction ASIC 13,5s vs GPU 0,49s)
- Inadapté aux applications extrêmement sensibles à la latence
- Portée des Modèles:
- Évaluation uniquement du modèle Whisper-tiny.en
- Modèles plus grands (base, small) analysés théoriquement uniquement, pas d'implémentation réelle
- Implémentation ASIC:
- Les performances ASIC 28nm basées sur estimations de synthèse et prédictions de fréquence
- Pas de vérification par fabrication réelle
- Charge de Travail Unique:
- Test uniquement sur fichier audio 10 secondes
- Pas d'évaluation de robustesse sur différentes longueurs, langues, environnements bruyants
- Extension aux modèles plus grands: Implémentation et évaluation des modèles Whisper base et small, optimisation de l'équilibre puissance-performance
- Optimisation supplémentaire des noyaux: Ajustement des paramètres architecturaux tels que le nombre d'unités de calcul
- Fabrication ASIC réelle: Vérification de la précision des prédictions ASIC 28nm
- Mesure de puissance précise: Utilisation de puissance moyenne mesurée plutôt que TDP pour comparaison équitable
- Charges de travail diversifiées: Évaluation de performance sur audio de différentes longueurs, multilingue, environnements bruyants
- Innovation Forte:
- Première mise en correspondance de Whisper ASR sur architecture CGRA
- Comble une lacune importante dans le domaine de l'accélération matérielle ASR
- Propose une stratégie d'exécution hybride pour traiter les vecteurs de longueur variable
- Méthodologie Systématique:
- Processus complet de conception conjointe matériel/logiciel
- Considération complète de l'optimisation des noyaux au traitement des données à l'ajustement des paramètres architecturaux
- La technique d'élimination du remplissage améliore significativement l'utilisation du LMM (1,39%→93,80%)
- Expérimentation Complète:
- Comparaison multi-plateformes (CPU, GPU périphérique, GPU haut de gamme, FPGA, prédiction ASIC)
- Expériences d'ablation détaillées (taille LMM, décomposition du temps d'exécution)
- Analyse d'extensibilité (vérification théorique pour modèles plus grands)
- Valeur Pratique Élevée:
- L'optimisation d'efficacité énergétique pour appareils périphériques a une importance pratique significative
- Avantages évidents dans les scénarios critiques pour l'autonomie de batterie et la gestion thermique
- L'universalité de CGLA garantit l'adaptation à l'évolution des algorithmes
- Clarté des Détails Techniques:
- Description détaillée des optimisations SIMD et multi-threading du noyau FP16
- Sélection de longueur de burst de stratégie d'exécution hybride soutenue par données
- Diagrammes architecturaux et flux de données clairs et compréhensibles
- Comparaison de Puissance Inéquitable:
- L'utilisation du TDP GPU plutôt que la puissance mesurée est un défaut méthodologique majeur
- Affaiblit la crédibilité des affirmations d'avantage d'efficacité énergétique
- Devrait être complété par données de puissance mesurées
- Écart de Performance Significatif:
- La latence ASIC prédite est toujours 27 fois celle du GPU (13,5s vs 0,49s)
- Limite les scénarios d'application réelle (inadapté aux interactions en temps réel)
- Discussion insuffisante sur l'application dans les scénarios sensibles à la latence
- Vérification ASIC Insuffisante:
- La fréquence 840MHz basée sur estimations de synthèse, non vérifiée par conception physique
- La justification de l'augmentation de fréquence 6 fois nécessite plus de soutien
- Absence de données réelles de puissance et de timing post-placement-routage
- Portée d'Évaluation Limitée:
- Test uniquement sur fichier audio unique 10 secondes
- Manque d'évaluation de robustesse sur différents scénarios (bruit, accents, audio long)
- Pas d'évaluation de précision du modèle (focus uniquement sur performance et efficacité)
- Défis de Reproductibilité:
- IMAX3 est une architecture propriétaire, difficile à reproduire pour chercheurs externes
- Détails de configuration FPGA insuffisamment détaillés
- Code et modèles non publics
- Analyse Théorique Insuffisante:
- Manque d'analyse de limite supérieure théorique pour avantage d'efficacité énergétique
- Analyse insuffisante de pourquoi CGLA est particulièrement adapté aux tâches ASR
- Dérivation théorique manquante pour frais généraux de traitement résiduel 5%
- Contribution Académique:
- Ouvre une nouvelle direction de recherche pour Whisper sur CGRA
- Fournit une nouvelle option architecturale pour accélération matérielle ASR
- La méthodologie de conception conjointe matériel/logiciel a une valeur de référence
- Valeur Pratique:
- Référence importante pour fabricants d'appareils IA périphériques
- Potentiel significatif dans les scénarios IoT, appareils portables à puissance limitée
- Fournit un chemin technologique pour l'IA durable
- Limitations:
- L'architecture propriétaire IMAX limite l'application généralisée
- L'écart de performance rend difficile le remplacement des GPU comme solution dominante
- Nécessite fabrication réelle pour vérifier la viabilité commerciale
Mieux adapté à:
- Appareils périphériques à puissance limitée (montres intelligentes, appareils auditifs, appareils IoT)
- Applications avec tolérance élevée à la latence mais exigences extrêmes d'efficacité énergétique
- ASR hors ligne où l'autonomie de batterie est critique
- Systèmes embarqués avec gestion thermique stricte
Non adapté à:
- Applications interactives en temps réel (assistants vocaux)
- Scénarios sensibles à la latence (nécessitant réponse milliseconde)
- Environnements de centre de données avec alimentation électrique suffisante
- Tâches de traitement par lot d'audio ultra-long
Cet article cite 27 références importantes, incluant les références clés:
- Article original Whisper: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
- Implémentation whisper.cpp: Gerganov, projet GitHub open source (2023)
- Architecture IMAX: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
- Synthèse CGRA: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
- Prédictions énergétiques: IEA, "Energy and AI" (2025)
Cet article est un travail innovant dans le domaine de l'accélération matérielle ASR, explorant pour la première fois l'application de l'architecture CGLA au modèle Whisper. Grâce à une conception conjointe matériel/logiciel systématisée, les auteurs démontrent que IMAX possède des avantages significatifs d'efficacité énergétique par rapport aux GPU (surpassant RTX 4090 de 9,83 fois pour le modèle Q8_0). Bien que présentant des limitations telles que méthodologie d'évaluation de puissance insuffisamment rigoureuse et valeurs de performance absolues inférieures aux GPU, la méthode possède une valeur pratique et une importance de recherche significatives dans les scénarios d'appareils périphériques à puissance limitée. La sélection optimale de configuration LMM 32KB, l'amélioration de couverture des noyaux 93,80% apportée par la technique d'élimination du remplissage, et l'analyse d'extensibilité pour modèles plus grands démontrent tous les perspectives d'ingénierie approfondies des auteurs. À l'avenir, si une fabrication ASIC réelle peut être réalisée et des mesures de puissance précises complétées, cela renforcera davantage la persuasion et l'impact de ce travail.