2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.

General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.

academic

Évaluation Commerciale de la Conception MAC à Omission de Zéros pour l'Exploitation de la Parcimonie Binaire dans l'Inférence DL

Informations Fondamentales

ID de l'article : 2402.19376
Titre : Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
Auteurs : Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
Institutions : Carnegie Mellon University, MediaTek USA Inc.
Classification : cs.AR (Architecture Informatique)
Date de Publication : Février 2024
Lien de l'article : https://arxiv.org/abs/2402.19376

Résumé

Cet article propose OzMAC (Omit-zero-MAC), une implémentation améliorée de la conception MAC Bit-Pragmatic (PRA), spécialement conçue pour exploiter la parcimonie binaire dans l'inférence d'apprentissage profond. Contrairement aux travaux antérieurs, cet article utilise le nœud technologique commercial TSMC N5 et effectue une évaluation rigoureuse post-synthèse des conceptions sur plusieurs largeurs de bits et fréquences d'horloge. L'étude révèle une parcimonie binaire élevée dans huit charges de travail d'apprentissage profond INT8 pré-entraînées, avec OzMAC 8 bits réalisant des améliorations significatives de 21%, 70% et 28% respectivement en surface, puissance et consommation énergétique.

Contexte et Motivation de la Recherche

Définition du Problème

Goulot d'étranglement de calcul : Le réseau de multiplication-accumulation (MAC) dans les unités de multiplication matricielle générale (GEMM) constitue la structure de calcul centrale des accélérateurs d'apprentissage profond, dont l'efficacité affecte directement les performances globales
Tendances de précision : Les normes industrielles évoluent de la virgule flottante 32 bits (FP32) vers la virgule flottante 16 bits (FP16), l'entier 8 bits (INT8) et même des précisions inférieures
Exigences d'efficacité énergétique : Les applications d'inférence en périphérie imposent des contraintes strictes sur la surface, la puissance et la consommation énergétique

Motivation de la Recherche

Les modèles d'apprentissage profond contiennent une parcimonie binaire importante, c'est-à-dire de nombreux bits '0' dans la représentation binaire
Bien que la conception Bit-Pragmatic (PRA) existante ait proposé le concept d'exploitation de la parcimonie binaire, elle manque d'une évaluation rigoureuse avec des procédés commerciaux
Il est nécessaire d'évaluer la faisabilité et les avantages de la conception MAC à omission de zéros dans les implémentations commerciales réelles

Contributions Principales

Conception OzMAC : Architecture MAC améliorée basée sur PRA, exploitant dynamiquement la parcimonie binaire en omettant les bits zéro dans les valeurs binaires
Évaluation Commerciale : Évaluation rigoureuse puissance-performance-surface (PPA) utilisant le procédé TSMC N5 (5 nm) et les outils de conception commerciaux
Analyse Multidimensionnelle : Évaluation complète couvrant plusieurs précisions de données (4 bits, 8 bits, 16 bits) et fréquences d'horloge (0,5 GHz, 1 GHz, 1,5 GHz)
Vérification de la Parcimonie : Vérification de l'existence d'une parcimonie binaire élevée dans huit modèles d'apprentissage profond, démontrant comment exploiter la réduction de puissance pour augmenter le débit

Détails de la Méthode

Conception Microarchitecturale OzMAC

OzMAC comprend trois modules fonctionnels principaux :

Oz-encoder (Encodeur de Zéros) :
- Machine à états finis qui suit les positions actuelles et suivantes des bits '1' dans le motif d'entrée
- Produit des valeurs en codage one-hot, capturant la position des bits '1' à chaque cycle d'horloge
- Exemple : l'entrée '0101₂' est codée en deux valeurs one-hot sur deux cycles d'horloge : premier cycle '0100₂', cycle suivant '0001₂'
Décaleur (Shifter) :
- Détermine la quantité de décalage de la deuxième entrée en fonction de la sortie de l'encodeur Oz
- Contrairement aux valeurs de décalage binaires de PRA, OzMAC utilise une représentation one-hot pour simplifier le matériel du décaleur
Accumulateur (Accumulator) :
- Ajoute la deuxième entrée appropriée décalée à la valeur de l'accumulateur

Points d'Innovation Technique

Mécanisme d'Omission de Zéros : Effectue des calculs uniquement sur les bits '1', omettant les bits '0', réduisant ainsi les cycles de calcul
Optimisation du Décaleur : Utilise l'entrée en codage one-hot pour simplifier la complexité des portes du décaleur
Calcul Série : Échange la latence pour une surface et une puissance réduites

Configuration Expérimentale

Cadre d'Évaluation

Nœud Technologique : TSMC N5 (5 nm) procédé commercial
Outils de Conception : Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
Méthode de Vérification : Conception RTL SystemVerilog, simulation au niveau des portes, vidage SAIF pour calcul de puissance précis

Ensembles de Données et Modèles

Utilisation de huit modèles INT8 quantifiés pré-entraînés de la bibliothèque PyTorch Torchvision :

MobileNetV2, MobileNetV3
InceptionV3, ShuffleNetV2
GoogleNet, ResNet18, ResNet50, ResNeXt101

Métriques d'Évaluation

Surface : Surface de puce (μm²)
Puissance : Puissance dynamique (mW)
Latence : Latence de calcul (ns)
Consommation Énergétique : Énergie par opération (pJ)

Configurations de Test

Configurations de Précision : 4×4, 4×8, 8×8, 8×16, 16×16 bits
Plage de Fréquences : 500 MHz, 1 GHz, 1,5 GHz
Lignes de Base de Comparaison : Conception bMAC parallèle en bits traditionnelle

Résultats Expérimentaux

Analyse de la Parcimonie Binaire

Modèle	Nombre Moyen de Bits '1'	Pourcentage de Parcimonie Binaire
MobileNetV2	2,334	70,83%
MobileNetV3	1,711	78,61%
InceptionV3	2,430	69,62%
ShuffleNetV2	2,583	67,71%
GoogleNet	2,461	69,24%
ResNet18	2,398	70,02%
ResNet50	2,495	68,81%
ResNeXt101	2,289	71,39%

Tous les modèles présentent une parcimonie binaire proche de 70%, MobileNetV3 atteignant le plus haut taux de 78,61%.

Résultats PPA Principaux (8 bits, 500 MHz)

Matériel MAC	Surface (μm²)	Puissance (mW)	Latence (ns)	Consommation Énergétique (pJ)
bMAC	25,361	0,084	2	0,167
OzMAC	19,996	0,025	4,76	0,120
Pourcentage d'Amélioration	21,2%	69,7%	-	28,0%

Analyse de Mise à l'Échelle de la Précision

Les résultats sur différentes configurations de précision montrent :

Meilleure amélioration de surface : Configuration 8×16 atteignant 31,7%
Meilleure amélioration de consommation énergétique : Configurations de précision mixte 4×8 et 8×16 atteignant 45%
Point critique : Configuration 16×16 où l'amélioration de consommation énergétique disparaît (-1,2%)

Analyse de Mise à l'Échelle de Fréquence

Évaluation à Fréquence Égale : Sur la plage 500 MHz à 1,5 GHz, OzMAC maintient constamment environ 70% d'amélioration de puissance et 29% d'amélioration de consommation énergétique
Évaluation à Latence Égale : Après mise à l'échelle de fréquence pour correspondre au débit, OzMAC réalise toujours :
- Conceptions INT4 : 29% d'amélioration puissance/consommation énergétique
- Conceptions INT8 : 30% d'amélioration puissance/consommation énergétique
- Conceptions de précision mixte : jusqu'à 46% d'amélioration

Découvertes Clés

Seuil d'Efficacité Énergétique : OzMAC nécessite au moins 58% de parcimonie binaire pour maintenir une efficacité énergétique supérieure à bMAC
Parcimonie Réelle : Tous les modèles DL testés dépassent ce seuil
Caractéristiques de Mise à l'Échelle : La puissance se met à l'échelle linéairement avec la fréquence, la consommation énergétique restant essentiellement constante

Travaux Connexes

Cet article s'appuie sur les recherches connexes suivantes :

Bit-Pragmatic (PRA) : Méthode originale de calcul de réseau de neurones profonds pragmatique en bits
Bit-Tactical : Approche logicielle/matérielle exploitant la parcimonie en valeurs et en bits
STRIPES : Calcul de réseau de neurones profonds série en bits
Bit Fusion : Architecture dynamiquement composable au niveau des bits

La principale distinction de cet article réside dans l'utilisation de procédés commerciaux les plus récents pour une évaluation rigoureuse et l'extension à plusieurs configurations de précision et de fréquence.

Conclusions et Discussion

Conclusions Principales

Améliorations Significatives : OzMAC réalise des améliorations significatives en surface, puissance et consommation énergétique par rapport au bMAC traditionnel
Faisabilité Commerciale : L'évaluation utilisant le procédé TSMC N5 démontre la faisabilité de l'implémentation commerciale
Avantages de Mise à l'Échelle : Maintient les avantages sur plusieurs configurations de précision et de fréquence
Correspondance de Débit : Grâce à la mise à l'échelle de fréquence, il est possible de maintenir les avantages d'efficacité énergétique tout en égalant ou surpassant le débit de bMAC

Limitations

Surcharge de Latence : La latence multi-cycles d'OzMAC peut ne pas convenir aux applications sensibles à la latence
Limitations de Précision : Les avantages disparaissent à des précisions supérieures à 16 bits
Dépendance à la Parcimonie : Les performances dépendent fortement de la parcimonie binaire des données d'entrée
Évaluation au Niveau Système Manquante : Pas encore d'évaluation au niveau du système DLA réel

Directions Futures

Intégration au Niveau Système : Évaluation des performances de grands réseaux OzMAC dans les DLA réels
Conception Adaptative : Ajustement dynamique des configurations en fonction de la parcimonie d'exécution
Architecture Hybride : Conception hybride combinant OzMAC et MAC traditionnel

Évaluation Approfondie

Points Forts

Évaluation Rigoureuse : Évaluation complète utilisant des procédés et outils commerciaux, résultats hautement crédibles
Analyse Multidimensionnelle : Analyse systématique couvrant plusieurs dimensions de précision et de fréquence
Valeur Pratique : Vérification de l'existence de parcimonie binaire dans les modèles DL réels
Expression Claire : Description détaillée des techniques claires, configuration expérimentale complète

Insuffisances

Innovation Limitée : Principalement une implémentation d'ingénierie et une évaluation de la conception PRA existante, innovation technique relativement limitée
Portée d'Application : Applicable uniquement aux charges de travail présentant une parcimonie binaire élevée
Considérations Système Insuffisantes : Manque de considération des facteurs au niveau du système tels que la bande passante mémoire et le flux de données
Comparaisons Limitées : Comparaison principalement avec le bMAC de base, manque de comparaison avec d'autres conceptions MAC avancées

Impact

Valeur d'Ingénierie : Fournit des données de référence précieuses pour la conception commerciale de DLA
Contribution Méthodologique : Établit un cadre rigoureux d'évaluation de conception MAC
Orientation Pratique : Fournit une solution d'optimisation matérielle réalisable pour les applications d'inférence à basse précision

Scénarios Applicables

Inférence en Périphérie : Applications d'IA en périphérie avec contraintes de puissance et de surface
Calcul Basse Précision : Inférence d'apprentissage profond à précision 8 bits et inférieure
Modèles Parcimonieux : Modèles de réseaux de neurones présentant des caractéristiques de parcimonie binaire élevée
Production de Masse : Scénarios de déploiement à grande échelle nécessitant une vérification de procédé commercial

Références

Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

Cet article fournit une vérification d'ingénierie importante pour l'application commerciale de la conception MAC à omission de zéros. Bien que l'innovation technique soit limitée, sa méthodologie d'évaluation rigoureuse et ses résultats pratiques ont une valeur importante pour promouvoir le développement d'accélérateurs d'IA à faible consommation énergétique.