General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic- ID de l'article : 2402.19376
- Titre : Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
- Auteurs : Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
- Institutions : Carnegie Mellon University, MediaTek USA Inc.
- Classification : cs.AR (Architecture Informatique)
- Date de Publication : Février 2024
- Lien de l'article : https://arxiv.org/abs/2402.19376
Cet article propose OzMAC (Omit-zero-MAC), une implémentation améliorée de la conception MAC Bit-Pragmatic (PRA), spécialement conçue pour exploiter la parcimonie binaire dans l'inférence d'apprentissage profond. Contrairement aux travaux antérieurs, cet article utilise le nœud technologique commercial TSMC N5 et effectue une évaluation rigoureuse post-synthèse des conceptions sur plusieurs largeurs de bits et fréquences d'horloge. L'étude révèle une parcimonie binaire élevée dans huit charges de travail d'apprentissage profond INT8 pré-entraînées, avec OzMAC 8 bits réalisant des améliorations significatives de 21%, 70% et 28% respectivement en surface, puissance et consommation énergétique.
- Goulot d'étranglement de calcul : Le réseau de multiplication-accumulation (MAC) dans les unités de multiplication matricielle générale (GEMM) constitue la structure de calcul centrale des accélérateurs d'apprentissage profond, dont l'efficacité affecte directement les performances globales
- Tendances de précision : Les normes industrielles évoluent de la virgule flottante 32 bits (FP32) vers la virgule flottante 16 bits (FP16), l'entier 8 bits (INT8) et même des précisions inférieures
- Exigences d'efficacité énergétique : Les applications d'inférence en périphérie imposent des contraintes strictes sur la surface, la puissance et la consommation énergétique
- Les modèles d'apprentissage profond contiennent une parcimonie binaire importante, c'est-à-dire de nombreux bits '0' dans la représentation binaire
- Bien que la conception Bit-Pragmatic (PRA) existante ait proposé le concept d'exploitation de la parcimonie binaire, elle manque d'une évaluation rigoureuse avec des procédés commerciaux
- Il est nécessaire d'évaluer la faisabilité et les avantages de la conception MAC à omission de zéros dans les implémentations commerciales réelles
- Conception OzMAC : Architecture MAC améliorée basée sur PRA, exploitant dynamiquement la parcimonie binaire en omettant les bits zéro dans les valeurs binaires
- Évaluation Commerciale : Évaluation rigoureuse puissance-performance-surface (PPA) utilisant le procédé TSMC N5 (5 nm) et les outils de conception commerciaux
- Analyse Multidimensionnelle : Évaluation complète couvrant plusieurs précisions de données (4 bits, 8 bits, 16 bits) et fréquences d'horloge (0,5 GHz, 1 GHz, 1,5 GHz)
- Vérification de la Parcimonie : Vérification de l'existence d'une parcimonie binaire élevée dans huit modèles d'apprentissage profond, démontrant comment exploiter la réduction de puissance pour augmenter le débit
OzMAC comprend trois modules fonctionnels principaux :
- Oz-encoder (Encodeur de Zéros) :
- Machine à états finis qui suit les positions actuelles et suivantes des bits '1' dans le motif d'entrée
- Produit des valeurs en codage one-hot, capturant la position des bits '1' à chaque cycle d'horloge
- Exemple : l'entrée '0101₂' est codée en deux valeurs one-hot sur deux cycles d'horloge : premier cycle '0100₂', cycle suivant '0001₂'
- Décaleur (Shifter) :
- Détermine la quantité de décalage de la deuxième entrée en fonction de la sortie de l'encodeur Oz
- Contrairement aux valeurs de décalage binaires de PRA, OzMAC utilise une représentation one-hot pour simplifier le matériel du décaleur
- Accumulateur (Accumulator) :
- Ajoute la deuxième entrée appropriée décalée à la valeur de l'accumulateur
- Mécanisme d'Omission de Zéros : Effectue des calculs uniquement sur les bits '1', omettant les bits '0', réduisant ainsi les cycles de calcul
- Optimisation du Décaleur : Utilise l'entrée en codage one-hot pour simplifier la complexité des portes du décaleur
- Calcul Série : Échange la latence pour une surface et une puissance réduites
- Nœud Technologique : TSMC N5 (5 nm) procédé commercial
- Outils de Conception : Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
- Méthode de Vérification : Conception RTL SystemVerilog, simulation au niveau des portes, vidage SAIF pour calcul de puissance précis
Utilisation de huit modèles INT8 quantifiés pré-entraînés de la bibliothèque PyTorch Torchvision :
- MobileNetV2, MobileNetV3
- InceptionV3, ShuffleNetV2
- GoogleNet, ResNet18, ResNet50, ResNeXt101
- Surface : Surface de puce (μm²)
- Puissance : Puissance dynamique (mW)
- Latence : Latence de calcul (ns)
- Consommation Énergétique : Énergie par opération (pJ)
- Configurations de Précision : 4×4, 4×8, 8×8, 8×16, 16×16 bits
- Plage de Fréquences : 500 MHz, 1 GHz, 1,5 GHz
- Lignes de Base de Comparaison : Conception bMAC parallèle en bits traditionnelle
| Modèle | Nombre Moyen de Bits '1' | Pourcentage de Parcimonie Binaire |
|---|
| MobileNetV2 | 2,334 | 70,83% |
| MobileNetV3 | 1,711 | 78,61% |
| InceptionV3 | 2,430 | 69,62% |
| ShuffleNetV2 | 2,583 | 67,71% |
| GoogleNet | 2,461 | 69,24% |
| ResNet18 | 2,398 | 70,02% |
| ResNet50 | 2,495 | 68,81% |
| ResNeXt101 | 2,289 | 71,39% |
Tous les modèles présentent une parcimonie binaire proche de 70%, MobileNetV3 atteignant le plus haut taux de 78,61%.
| Matériel MAC | Surface (μm²) | Puissance (mW) | Latence (ns) | Consommation Énergétique (pJ) |
|---|
| bMAC | 25,361 | 0,084 | 2 | 0,167 |
| OzMAC | 19,996 | 0,025 | 4,76 | 0,120 |
| Pourcentage d'Amélioration | 21,2% | 69,7% | - | 28,0% |
Les résultats sur différentes configurations de précision montrent :
- Meilleure amélioration de surface : Configuration 8×16 atteignant 31,7%
- Meilleure amélioration de consommation énergétique : Configurations de précision mixte 4×8 et 8×16 atteignant 45%
- Point critique : Configuration 16×16 où l'amélioration de consommation énergétique disparaît (-1,2%)
- Évaluation à Fréquence Égale : Sur la plage 500 MHz à 1,5 GHz, OzMAC maintient constamment environ 70% d'amélioration de puissance et 29% d'amélioration de consommation énergétique
- Évaluation à Latence Égale : Après mise à l'échelle de fréquence pour correspondre au débit, OzMAC réalise toujours :
- Conceptions INT4 : 29% d'amélioration puissance/consommation énergétique
- Conceptions INT8 : 30% d'amélioration puissance/consommation énergétique
- Conceptions de précision mixte : jusqu'à 46% d'amélioration
- Seuil d'Efficacité Énergétique : OzMAC nécessite au moins 58% de parcimonie binaire pour maintenir une efficacité énergétique supérieure à bMAC
- Parcimonie Réelle : Tous les modèles DL testés dépassent ce seuil
- Caractéristiques de Mise à l'Échelle : La puissance se met à l'échelle linéairement avec la fréquence, la consommation énergétique restant essentiellement constante
Cet article s'appuie sur les recherches connexes suivantes :
- Bit-Pragmatic (PRA) : Méthode originale de calcul de réseau de neurones profonds pragmatique en bits
- Bit-Tactical : Approche logicielle/matérielle exploitant la parcimonie en valeurs et en bits
- STRIPES : Calcul de réseau de neurones profonds série en bits
- Bit Fusion : Architecture dynamiquement composable au niveau des bits
La principale distinction de cet article réside dans l'utilisation de procédés commerciaux les plus récents pour une évaluation rigoureuse et l'extension à plusieurs configurations de précision et de fréquence.
- Améliorations Significatives : OzMAC réalise des améliorations significatives en surface, puissance et consommation énergétique par rapport au bMAC traditionnel
- Faisabilité Commerciale : L'évaluation utilisant le procédé TSMC N5 démontre la faisabilité de l'implémentation commerciale
- Avantages de Mise à l'Échelle : Maintient les avantages sur plusieurs configurations de précision et de fréquence
- Correspondance de Débit : Grâce à la mise à l'échelle de fréquence, il est possible de maintenir les avantages d'efficacité énergétique tout en égalant ou surpassant le débit de bMAC
- Surcharge de Latence : La latence multi-cycles d'OzMAC peut ne pas convenir aux applications sensibles à la latence
- Limitations de Précision : Les avantages disparaissent à des précisions supérieures à 16 bits
- Dépendance à la Parcimonie : Les performances dépendent fortement de la parcimonie binaire des données d'entrée
- Évaluation au Niveau Système Manquante : Pas encore d'évaluation au niveau du système DLA réel
- Intégration au Niveau Système : Évaluation des performances de grands réseaux OzMAC dans les DLA réels
- Conception Adaptative : Ajustement dynamique des configurations en fonction de la parcimonie d'exécution
- Architecture Hybride : Conception hybride combinant OzMAC et MAC traditionnel
- Évaluation Rigoureuse : Évaluation complète utilisant des procédés et outils commerciaux, résultats hautement crédibles
- Analyse Multidimensionnelle : Analyse systématique couvrant plusieurs dimensions de précision et de fréquence
- Valeur Pratique : Vérification de l'existence de parcimonie binaire dans les modèles DL réels
- Expression Claire : Description détaillée des techniques claires, configuration expérimentale complète
- Innovation Limitée : Principalement une implémentation d'ingénierie et une évaluation de la conception PRA existante, innovation technique relativement limitée
- Portée d'Application : Applicable uniquement aux charges de travail présentant une parcimonie binaire élevée
- Considérations Système Insuffisantes : Manque de considération des facteurs au niveau du système tels que la bande passante mémoire et le flux de données
- Comparaisons Limitées : Comparaison principalement avec le bMAC de base, manque de comparaison avec d'autres conceptions MAC avancées
- Valeur d'Ingénierie : Fournit des données de référence précieuses pour la conception commerciale de DLA
- Contribution Méthodologique : Établit un cadre rigoureux d'évaluation de conception MAC
- Orientation Pratique : Fournit une solution d'optimisation matérielle réalisable pour les applications d'inférence à basse précision
- Inférence en Périphérie : Applications d'IA en périphérie avec contraintes de puissance et de surface
- Calcul Basse Précision : Inférence d'apprentissage profond à précision 8 bits et inférieure
- Modèles Parcimonieux : Modèles de réseaux de neurones présentant des caractéristiques de parcimonie binaire élevée
- Production de Masse : Scénarios de déploiement à grande échelle nécessitant une vérification de procédé commercial
- Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
- Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
- Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
- Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
- Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.
Cet article fournit une vérification d'ingénierie importante pour l'application commerciale de la conception MAC à omission de zéros. Bien que l'innovation technique soit limitée, sa méthodologie d'évaluation rigoureuse et ses résultats pratiques ont une valeur importante pour promouvoir le développement d'accélérateurs d'IA à faible consommation énergétique.