2025-11-14T21:31:11.905402

Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA

Ando, Eto, Takeuchi et al.

The rise of generative AI for tasks like Automatic Speech Recognition (ASR) has created a critical energy consumption challenge. While ASICs offer high efficiency, they lack the programmability to adapt to evolving algorithms. To address this trade-off, we implement and evaluate Whisper's core computational kernel on the IMAX, a general-purpose Coarse-Grained Linear Arrays (CGLAs) accelerator. To our knowledge, this is the first work to execute a Whisper kernel on a CGRA and compare its performance against CPUs and GPUs. Using hardware/software co-design, we evaluate our system via an FPGA prototype and project performance for a 28 nm ASIC. Our results demonstrate superior energy efficiency. The projected ASIC is 1.90x more energy-efficient than the NVIDIA Jetson AGX Orin and 9.83x more than an NVIDIA RTX 4090 for the Q8_0 model. This work positions CGLA as a promising platform for sustainable ASR on power-constrained edge devices.

academic

Accélération Matérielle Économe en Énergie de Whisper ASR sur une CGLA

Informations Fondamentales

ID de l'article: 2511.02269
Titre: Energy-Efficient Hardware Acceleration of Whisper ASR on a CGLA
Auteurs: Takuto ANDO, Yu ETO, Ayumu TAKEUCHI, Yasuhiko NAKASHIMA (Nara Institute of Science and Technology)
Classification: cs.AR (Architecture Informatique)
Date de publication: 4 novembre 2025 (soumission arXiv)
Lien de l'article: https://arxiv.org/abs/2511.02269

Résumé

L'émergence de l'IA générative dans des tâches telles que la reconnaissance automatique de la parole (ASR) pose des défis énergétiques considérables. Bien que les ASIC offrent une efficacité élevée, ils manquent de programmabilité pour s'adapter à l'évolution des algorithmes. Pour résoudre ce compromis, cet article implémente et évalue les noyaux de calcul fondamentaux de Whisper sur IMAX (un accélérateur CGLA linéaire à grain grossier universel). À la connaissance des auteurs, il s'agit du premier travail exécutant les noyaux Whisper sur CGRA avec comparaison de performance avec CPU et GPU. Grâce à la conception conjointe matériel/logiciel, les auteurs évaluent le système via prototype FPGA et prédisent les performances d'un ASIC 28nm. Les résultats démontrent une efficacité énergétique exceptionnelle : pour le modèle Q8_0, l'ASIC prédit offre une efficacité énergétique 1,90 fois supérieure à NVIDIA Jetson AGX Orin et 9,83 fois supérieure à NVIDIA RTX 4090. Ce travail positionne CGLA comme une plateforme prometteuse pour l'ASR durable sur les appareils périphériques à puissance limitée.

Contexte et Motivation de la Recherche

1. Problème à Résoudre

Cette recherche aborde la crise énergétique des systèmes de reconnaissance automatique de la parole pilotés par l'IA. Avec l'adoption généralisée de modèles ASR avancés comme Whisper (assistants intelligents, transcription en temps réel, applications médicales), leurs exigences computationnelles entraînent une augmentation drastique de la consommation énergétique des centres de données. L'Agence internationale de l'énergie prévoit que la consommation électrique des centres de données pourrait doubler d'ici 2030, atteignant 945 TWh, dépassant légèrement la consommation électrique annuelle totale du Japon.

2. Importance du Problème

Crise de durabilité énergétique: L'infrastructure IA dépend fortement des GPGPU à haute consommation énergétique, avec une efficacité énergétique faible et insoutenable pour une architecture généraliste unique
Besoins des appareils périphériques: Les appareils périphériques à puissance limitée (smartphones, appareils IoT) nécessitent des solutions ASR hautement efficaces énergétiquement
Évolution rapide des algorithmes: Les algorithmes IA évoluent continuellement, nécessitant une plateforme matérielle combinant efficacité et flexibilité

3. Limitations des Approches Existantes

Accélérateurs ASIC spécialisés: Bien qu'extrêmement efficaces énergétiquement, ils manquent de programmabilité et s'adaptent difficilement à l'évolution rapide des algorithmes, rendant le matériel d'accélération obsolète
Solutions FPGA: Optimisées pour des modèles spécifiques (CNN, Transformer), mais fortement spécialisées avec une portabilité limitée
Solutions GPU: Offrent haute performance et flexibilité, mais consommation énergétique excessive, inadaptées aux appareils périphériques

4. Motivation de la Recherche

Les auteurs proposent l'utilisation de l'accélérateur IMAX basé sur l'architecture CGLA (réseau linéaire à grain grossier), tentant de trouver le meilleur équilibre entre l'efficacité énergétique des ASIC et la programmabilité des GPGPU. IMAX, grâce à ses unités de traitement (PE) disposées linéairement et ses modules de mémoire locale (LMM), peut absorber les modèles d'accès mémoire irréguliers tout en maintenant un débit élevé et une efficacité énergétique.

Contributions Principales

Première implémentation: Première implémentation et évaluation des noyaux ASR Whisper sur architecture CGRA, établissant les principes de conception conjointe matériel/logiciel pour traiter les charges de travail de longueur variable dynamique
Efficacité énergétique exceptionnelle: Basée sur l'estimation du prototype FPGA, la configuration ASIC 28nm optimisée réalise une efficacité énergétique remarquable sur le modèle quantifié Q8_0, surpassant Jetson AGX Orin de 1,90 fois et RTX 4090 de 9,83 fois
Analyse d'optimisation architecturale: Analyse systématique des compromis entre la taille du LMM et l'efficacité globale, démontrant que la configuration LMM 32KB atteint l'équilibre optimal entre maximisation de la couverture des noyaux et minimisation des frais généraux de puissance statique
Vérification de l'extensibilité: Démontre l'applicabilité de la méthode aux modèles Whisper plus grands (base, small), prouvant le potentiel d'extensibilité de l'architecture

Explication Détaillée de la Méthode

Définition de la Tâche

Objectif: Exécuter efficacement les noyaux de calcul fondamentaux du modèle ASR Whisper (principalement des opérations de produit scalaire) sur l'accélérateur IMAX CGLA

Entrée: Fichier audio d'environ 10 secondes (jfk.wav)

Sortie: Résultat de transcription textuelle

Contraintes:

Scénario d'appareil périphérique à puissance limitée
Nécessité de traiter des vecteurs de longueur variable
Besoin d'équilibre entre efficacité énergétique et performance

Architecture du Modèle

1. Architecture du Système IMAX3

Comme illustré à la figure 2, IMAX3 est implémenté en configuration 8 canaux, déployé sur FPGA AMD Versal VPK180:

Système de traitement (PS): CPU ARM Cortex-A72 double cœur
Logique programmable (PL): Héberge le noyau CGLA
Interconnexion: Réseau sur puce (NoC) connectant PS et PL
Mémoire: 8GB DDR4 pour tampons OS, 4GB DDR4 pour tampons DMA

2. Structure Interne du Canal IMAX (Figure 3)

Chaque canal IMAX contient:

Unités de traitement (PE): ALU en pipeline et modules de mémoire locale (LMM)
Structure de réseau linéaire: Arrangement stratégiquement entrelacé de PE et LMM
Chemins de données: Séparation des chemins de données d'exécution et de mémoire
Interface DMA: Interfaces de lecture/écriture DMA AXI

3. Flux de Traitement Whisper (Figure 1)

Extraction de caractéristiques: Génération de spectrogramme Mel
Encodeur: Attention multi-têtes et réseaux de neurones avant (charge de calcul principale)
Décodeur: Génération de texte autorégressive
Point d'accélération: Noyau de produit scalaire (cœur computationnel de l'encodeur et du décodeur)

Points d'Innovation Technique

1. Conception Conjointe au Niveau du Noyau

Optimisation du noyau de produit scalaire FP16:

Conversion de type en ligne: Exploitant la programmabilité d'IMAX, exécution de la conversion FP16 vers FP32 via les capacités d'opérations binaires du PE, évitant le matériel spécialisé
Opérations SIMD: Application de SIMD sur les unités FMA, exécution concurrente de deux opérations 32 bits sur un chemin de données 64 bits unique
Multi-threading en colonnes: Adoption du multi-threading en colonnes multiplexant temporellement 4 opérations FMA logiques sur une seule FPU physique, masquant la latence FPU

Stratégie d'exécution hybride (traitement des vecteurs de longueur variable):

Division de chaque vecteur en deux segments: segment principal (multiple de la longueur de burst) traité sur IMAX; segment résiduel traité concurremment sur CPU hôte
Sélection de longueur de burst de 16 éléments (basée sur l'analyse de distribution des longueurs de vecteurs Whisper)
Traitement résiduel CPU représente seulement environ 5% du volume de calcul total

Noyau Q8_0: Réutilisation de l'implémentation du noyau quantifié des travaux antérieurs

2. Traitement des Données et Optimisation de la Configuration LMM

Technique d'élimination du remplissage:

Les tenseurs FP16 dans whisper.cpp contiennent un remplissage considérable pour satisfaire les exigences d'alignement 32 octets
Le CPU hôte élimine tout le remplissage avant le transfert DMA et compacte les données étroitement
Effet significatif: Comme montré au tableau I, pour le modèle FP16, la configuration de base avec LMM 32KB ne peut contenir que 1,39% des noyaux, tandis que l'optimisation améliore la couverture à 93,80%

Sélection de la taille du LMM (Tableau II):

Basée sur l'estimation de puissance de la synthèse logique (Synopsys Design Compiler, procédé TSMC 28nm)
Noyau FP16: puissance LMM 16KB 0,665W, 32KB 0,675W (augmentation négligeable)
Couverture des noyaux: 16KB couvre 66,35%, 32KB couvre 93,80%
Choix optimal: LMM 32KB atteint le meilleur équilibre entre amélioration de performance et augmentation de puissance

3. Objectifs de Conception Conjointe Matériel/Logiciel

Maximiser le débit de calcul: Utilisation complète de la capacité de traitement parallèle d'IMAX
Maximiser l'efficacité du transfert de données: Augmentation de la bande passante mémoire effective, utilisation efficace du LMM

Configuration Expérimentale

Ensemble de Données

Fichier audio: Fichier de test standard whisper.cpp jfk.wav (environ 10 secondes)
Modèle: Modèle Whisper-tiny.en (78MB)
- Version FP16
- Version quantifiée Q8_0

Indicateurs d'Évaluation

Latence bout en bout: Mesurée à l'aide de la fonction gettimeofday (précision microseconde)
Puissance:
- IMAX: Valeur estimée par synthèse logique
- CPU: Valeur estimée
- GPU: Puissance thermique de conception nominale (TDP)
Produit puissance-délai (PDP): PDP = temps d'exécution × puissance
- Indicateur clé pour évaluer l'efficacité énergétique de manière synthétique
- Les valeurs plus basses indiquent une efficacité énergétique supérieure

Méthodes de Comparaison

Comme montré au tableau III, les plateformes de comparaison incluent:

ARM Cortex-A72 (CPU embarqué)
- 2 cœurs, 1400 MHz
- Puissance: 0,6485W
NVIDIA Jetson AGX Orin 32GB (GPU périphérique)
- 1792 cœurs CUDA, 930 MHz
- Puissance: 15W (mode puissance minimale)
NVIDIA GeForce RTX 4090 (GPU haut de gamme)
- 16384 cœurs CUDA, 2520 MHz
- Puissance: 450W (TDP)
IMAX3 (prototype FPGA)
- 64 PE, 145 MHz
- Puissance: 180W (système FPGA complet)
IMAX3 (prédiction ASIC 28nm)
- 64 PE, 840 MHz (augmentation de fréquence 6 fois)
- Puissance: 0,647W (FP16) / 1,32W (Q8_0), configuration canal unique LMM 32KB

Détails d'Implémentation

Outil FPGA: Vivado 2024.1
Outil de synthèse: Synopsys Design Compiler
Bibliothèque de procédé: TSMC 28nm
Fréquence FPGA: 140 MHz
Fréquence ASIC prédite: 840 MHz (vérifiée par analyse de timing statique)
Configuration d'évaluation: Configurations 1 canal et 2 canaux
Nombre de threads hôte: Variation 1-2 threads

Résultats Expérimentaux

Résultats Principaux

1. Comparaison de Latence Bout en Bout (Figure 4)

Modèle FP16 (exécution 2 threads):

ARM Cortex-A72: 24,4 secondes
IMAX (FPGA 2-lane): ~21 secondes
IMAX (ASIC 28nm 2-lane): 13,5 secondes
Jetson AGX Orin: 1,6 seconde
RTX 4090: 0,49 seconde

Modèle Q8_0 (exécution 2 threads):

ARM Cortex-A72: 19,6 secondes
IMAX (FPGA 2-lane): ~17 secondes
IMAX (ASIC 28nm 2-lane): 11,1 secondes
Jetson AGX Orin: 1,6 seconde
RTX 4090: 0,50 seconde

Analyse: IMAX ASIC offre une accélération significative par rapport à l'implémentation CPU embarqué, mais la vitesse absolue ne rivalise pas avec les GPU (les GPU possèdent des ressources de calcul parallèle massives)

2. Comparaison d'Efficacité Énergétique (PDP, Figure 5)

Modèle FP16 (exécution 2 threads):

ARM Cortex-A72: 15,8 J
IMAX (ASIC 28nm 2-lane): 13,6 J
Jetson AGX Orin: 24,0 J
RTX 4090: 120,1 J

Modèle Q8_0 (exécution 2 threads):

ARM Cortex-A72: 12,7 J
IMAX (ASIC 28nm 2-lane): 12,6 J ✓ Optimal
Jetson AGX Orin: 24,0 J
RTX 4090: 123,8 J

Découvertes clés:

L'efficacité énergétique d'IMAX (ASIC 28nm) modèle Q8_0 surpasse Jetson AGX Orin de 1,90 fois
Surpasse RTX 4090 de 9,83 fois
Comparé au modèle FP16, la quantification Q8_0 améliore davantage l'efficacité énergétique

Expériences d'Ablation

1. Optimisation de la Taille du LMM (Figure 6)

PDP du modèle FP16 (2 threads):

LMM 16KB: ~15 J
LMM 32KB: 13,6 J ✓ Optimal
LMM 64KB: ~14 J
LMM 128KB: ~15 J

PDP du modèle Q8_0 (2 threads):

LMM 16KB: ~14 J
LMM 32KB: 12,6 J ✓ Optimal
LMM 64KB: ~13,5 J
LMM 128KB: ~15 J

Analyse:

16KB: Latence et PDP moins favorables (CPU doit traiter des noyaux inadaptés)
32KB: Atteint la valeur PDP minimale (point d'équilibre optimal)
64KB/128KB: Légère amélioration de latence mais augmentation de puissance statique, PDP se détériore

Conclusion: LMM 32KB est la configuration la plus efficace énergétiquement, validant la justesse des choix de conception

2. Vérification de l'Efficacité Computationnelle (Figure 7)

Décomposition du Temps d'Exécution:

EXEC (calcul pur PE): 60,89% pour FP16, 74,70% pour Q8_0
LOAD/DRAIN (transfert de données DRAM vers LMM): Relativement petit
CONF/REGV/RANGE/REFILL (configuration IMAX): Relativement petit

Perspectives clés:

Le ratio EXEC élevé indique qu'IMAX est limité par le calcul (plutôt que par la mémoire)
Atténuation réussie des frais généraux de mouvement de données
Libération efficace du potentiel de débit élevé d'IMAX

Analyse d'Extensibilité (Tableau IV)

Couverture des noyaux pour modèles plus grands (après optimisation):

Modèle	Taille	Opérandes	Couverture 32KB	Couverture 64KB
tiny	78MB	477 153	93,80%	93,80%
base	148MB	644 690	66,54%	94,17%
small	488MB	1 920 955	66,52%	94,36%

Découvertes:

Bien que la charge de calcul augmente significativement, l'occupation mémoire par opération n'augmente pas proportionnellement
LMM 64KB peut couvrir plus de 94% des noyaux pour les modèles base et small
Démontre une bonne extensibilité de l'architecture aux modèles plus grands
Nécessite un équilibre entre augmentation de puissance statique et amélioration de performance

Travaux Connexes

1. Accélérateurs Matériels IA

Approches spécialisées (ASIC/FPGA):

Park et al.: Système hybride CNN et modèles de langage smartphone sur FPGA
Hu et al.: Accélérateur FPGA spécialisé pour modèles GCNN
Yamini et al.: Accélération ASR Transformer bout en bout utilisant réseaux systoliques
Limitations: Optimisés pour des modèles spécifiques, flexibilité limitée, adaptation difficile à l'évolution des algorithmes

Avantage de cet article: IMAX est une architecture généraliste, non liée à des tâches IA spécifiques, capable de s'adapter rapidement aux changements d'algorithmes

2. Évolution de l'Architecture CGRA

Défis CGRA traditionnels:

Problèmes d'extensibilité
Temps de compilation long

Innovation IMAX:

Évolution basée sur CGLA (réseau linéaire à grain grossier)
Arrangement linéaire entrelacé de PE et LMM
Masquage efficace des latences d'accès mémoire irréguliers

Applications IMAX antérieures:

Noyaux intensifs en calcul: SpGEMM, FFT
Charges de travail IA modernes: CNN, LLM, recherche k-NN approximée (RAG)
Extension de cet article: Première application aux opérations de produit scalaire pour tâches ASR

3. Implémentation Matérielle de Whisper

À la connaissance des auteurs, cet article est le premier travail d'implémentation et d'évaluation matérielle de Whisper sur CGRA, comblant une lacune importante dans le domaine.

Conclusion et Discussion

Conclusions Principales

Première implémentation: Implémentation réussie des noyaux ASR Whisper sur architecture CGLA, établissant une méthodologie de conception conjointe matériel/logiciel
Avantage d'efficacité énergétique: La prédiction ASIC 28nm montre un PDP de 12,6J sur le modèle Q8_0, surpassant le GPU périphérique (Jetson AGX Orin) de 1,90 fois et le GPU haut de gamme (RTX 4090) de 9,83 fois
Compromis de conception: Bien que la latence absolue ne rivalise pas avec les GPU, dans les applications périphériques à puissance limitée, l'efficacité énergétique est plus critique que la faible latence
Perspectives architecturales: La configuration LMM 32KB atteint l'équilibre optimal entre couverture des noyaux et puissance statique
Extensibilité: Démontre l'applicabilité aux modèles Whisper plus grands (base, small)

Limitations

Méthodologie d'évaluation de puissance:
- Les GPU utilisent le TDP nominal plutôt que la puissance moyenne mesurée
- Le TDP représente la puissance de crête plutôt que la puissance moyenne de la charge de travail
- Les résultats doivent être considérés comme des indicateurs du potentiel architectural plutôt que des mesures d'avantage déterministe
- Nécessite des mesures de puissance réelles pour comparaison précise
Valeurs de Performance Absolues:
- La latence IMAX est significativement supérieure à celle des GPU (prédiction ASIC 13,5s vs GPU 0,49s)
- Inadapté aux applications extrêmement sensibles à la latence
Portée des Modèles:
- Évaluation uniquement du modèle Whisper-tiny.en
- Modèles plus grands (base, small) analysés théoriquement uniquement, pas d'implémentation réelle
Implémentation ASIC:
- Les performances ASIC 28nm basées sur estimations de synthèse et prédictions de fréquence
- Pas de vérification par fabrication réelle
Charge de Travail Unique:
- Test uniquement sur fichier audio 10 secondes
- Pas d'évaluation de robustesse sur différentes longueurs, langues, environnements bruyants

Directions Futures

Extension aux modèles plus grands: Implémentation et évaluation des modèles Whisper base et small, optimisation de l'équilibre puissance-performance
Optimisation supplémentaire des noyaux: Ajustement des paramètres architecturaux tels que le nombre d'unités de calcul
Fabrication ASIC réelle: Vérification de la précision des prédictions ASIC 28nm
Mesure de puissance précise: Utilisation de puissance moyenne mesurée plutôt que TDP pour comparaison équitable
Charges de travail diversifiées: Évaluation de performance sur audio de différentes longueurs, multilingue, environnements bruyants

Évaluation Approfondie

Points Forts

Innovation Forte:
- Première mise en correspondance de Whisper ASR sur architecture CGRA
- Comble une lacune importante dans le domaine de l'accélération matérielle ASR
- Propose une stratégie d'exécution hybride pour traiter les vecteurs de longueur variable
Méthodologie Systématique:
- Processus complet de conception conjointe matériel/logiciel
- Considération complète de l'optimisation des noyaux au traitement des données à l'ajustement des paramètres architecturaux
- La technique d'élimination du remplissage améliore significativement l'utilisation du LMM (1,39%→93,80%)
Expérimentation Complète:
- Comparaison multi-plateformes (CPU, GPU périphérique, GPU haut de gamme, FPGA, prédiction ASIC)
- Expériences d'ablation détaillées (taille LMM, décomposition du temps d'exécution)
- Analyse d'extensibilité (vérification théorique pour modèles plus grands)
Valeur Pratique Élevée:
- L'optimisation d'efficacité énergétique pour appareils périphériques a une importance pratique significative
- Avantages évidents dans les scénarios critiques pour l'autonomie de batterie et la gestion thermique
- L'universalité de CGLA garantit l'adaptation à l'évolution des algorithmes
Clarté des Détails Techniques:
- Description détaillée des optimisations SIMD et multi-threading du noyau FP16
- Sélection de longueur de burst de stratégie d'exécution hybride soutenue par données
- Diagrammes architecturaux et flux de données clairs et compréhensibles

Insuffisances

Comparaison de Puissance Inéquitable:
- L'utilisation du TDP GPU plutôt que la puissance mesurée est un défaut méthodologique majeur
- Affaiblit la crédibilité des affirmations d'avantage d'efficacité énergétique
- Devrait être complété par données de puissance mesurées
Écart de Performance Significatif:
- La latence ASIC prédite est toujours 27 fois celle du GPU (13,5s vs 0,49s)
- Limite les scénarios d'application réelle (inadapté aux interactions en temps réel)
- Discussion insuffisante sur l'application dans les scénarios sensibles à la latence
Vérification ASIC Insuffisante:
- La fréquence 840MHz basée sur estimations de synthèse, non vérifiée par conception physique
- La justification de l'augmentation de fréquence 6 fois nécessite plus de soutien
- Absence de données réelles de puissance et de timing post-placement-routage
Portée d'Évaluation Limitée:
- Test uniquement sur fichier audio unique 10 secondes
- Manque d'évaluation de robustesse sur différents scénarios (bruit, accents, audio long)
- Pas d'évaluation de précision du modèle (focus uniquement sur performance et efficacité)
Défis de Reproductibilité:
- IMAX3 est une architecture propriétaire, difficile à reproduire pour chercheurs externes
- Détails de configuration FPGA insuffisamment détaillés
- Code et modèles non publics
Analyse Théorique Insuffisante:
- Manque d'analyse de limite supérieure théorique pour avantage d'efficacité énergétique
- Analyse insuffisante de pourquoi CGLA est particulièrement adapté aux tâches ASR
- Dérivation théorique manquante pour frais généraux de traitement résiduel 5%

Impact

Contribution Académique:
- Ouvre une nouvelle direction de recherche pour Whisper sur CGRA
- Fournit une nouvelle option architecturale pour accélération matérielle ASR
- La méthodologie de conception conjointe matériel/logiciel a une valeur de référence
Valeur Pratique:
- Référence importante pour fabricants d'appareils IA périphériques
- Potentiel significatif dans les scénarios IoT, appareils portables à puissance limitée
- Fournit un chemin technologique pour l'IA durable
Limitations:
- L'architecture propriétaire IMAX limite l'application généralisée
- L'écart de performance rend difficile le remplacement des GPU comme solution dominante
- Nécessite fabrication réelle pour vérifier la viabilité commerciale

Scénarios Applicables

Mieux adapté à:

Appareils périphériques à puissance limitée (montres intelligentes, appareils auditifs, appareils IoT)
Applications avec tolérance élevée à la latence mais exigences extrêmes d'efficacité énergétique
ASR hors ligne où l'autonomie de batterie est critique
Systèmes embarqués avec gestion thermique stricte

Non adapté à:

Applications interactives en temps réel (assistants vocaux)
Scénarios sensibles à la latence (nécessitant réponse milliseconde)
Environnements de centre de données avec alimentation électrique suffisante
Tâches de traitement par lot d'audio ultra-long

Références

Cet article cite 27 références importantes, incluant les références clés:

Article original Whisper: Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision" (2022)
Implémentation whisper.cpp: Gerganov, projet GitHub open source (2023)
Architecture IMAX: Akabe et al., "IMAX: A power-efficient multilevel pipelined cgla and applications" IEEE Access (2025)
Synthèse CGRA: Torng et al., "Ultra-Elastic CGRAs for Irregular Loop Specialization" HPCA (2021)
Prédictions énergétiques: IEA, "Energy and AI" (2025)

Résumé

Cet article est un travail innovant dans le domaine de l'accélération matérielle ASR, explorant pour la première fois l'application de l'architecture CGLA au modèle Whisper. Grâce à une conception conjointe matériel/logiciel systématisée, les auteurs démontrent que IMAX possède des avantages significatifs d'efficacité énergétique par rapport aux GPU (surpassant RTX 4090 de 9,83 fois pour le modèle Q8_0). Bien que présentant des limitations telles que méthodologie d'évaluation de puissance insuffisamment rigoureuse et valeurs de performance absolues inférieures aux GPU, la méthode possède une valeur pratique et une importance de recherche significatives dans les scénarios d'appareils périphériques à puissance limitée. La sélection optimale de configuration LMM 32KB, l'amélioration de couverture des noyaux 93,80% apportée par la technique d'élimination du remplissage, et l'analyse d'extensibilité pour modèles plus grands démontrent tous les perspectives d'ingénierie approfondies des auteurs. À l'avenir, si une fabrication ASIC réelle peut être réalisée et des mesures de puissance précises complétées, cela renforcera davantage la persuasion et l'impact de ce travail.