2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.

General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.

academic

Kommerzielle Bewertung des Zero-Skipping-MAC-Designs zur Ausnutzung von Bit-Sparsität in der DL-Inferenz

Grundinformationen

Papier-ID: 2402.19376
Titel: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
Autoren: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
Institution: Carnegie Mellon University, MediaTek USA Inc.
Klassifizierung: cs.AR (Computerarchitektur)
Veröffentlichungsdatum: Februar 2024
Papierlink: https://arxiv.org/abs/2402.19376

Zusammenfassung

Dieses Papier stellt OzMAC (Omit-zero-MAC) vor, eine verbesserte Implementierung des Bit-Pragmatic (PRA) MAC-Designs, das speziell zur Ausnutzung von Bit-Sparsität in der Tiefenlern-Inferenz entwickelt wurde. Im Gegensatz zu früheren Arbeiten führt dieses Papier eine strenge Post-Synthese-Bewertung mit dem kommerziellen TSMC-N5-Prozessknoten über mehrere Bitbreiten und Taktfrequenzen durch. Die Forschung zeigt, dass in acht vortrainierten INT8-Tiefenlern-Workloads eine hohe Bit-Sparsität vorhanden ist, wobei das 8-Bit-OzMAC signifikante Verbesserungen von 21 % bei der Fläche, 70 % bei der Leistung und 28 % bei der Energieeffizienz erreicht.

Forschungshintergrund und Motivation

Problembeschreibung

Rechnerischer Engpass: Das Multiply-Accumulate (MAC)-Array in der General Matrix Multiplication (GEMM)-Einheit ist die Kernrechnerstruktur von Tiefenlern-Beschleunigern, und ihre Effizienz beeinflusst direkt die Gesamtleistung
Genauigkeitstrends: Industriestandards entwickeln sich von 32-Bit-Gleitkomma (FP32) zu 16-Bit-Gleitkomma (FP16), 8-Bit-Integer (INT8) und sogar noch niedrigeren Genauigkeiten
Energieeffizienzanforderungen: Edge-Inferenz-Anwendungen unterliegen strengen Einschränkungen bei Fläche, Leistung und Energieverbrauch

Forschungsmotivation

Tiefenlern-Modelle enthalten umfangreiche Bit-Sparsität (Bit Sparsity), d. h. viele „0"-Bits in der binären Darstellung
Obwohl das bestehende Bit-Pragmatic (PRA)-Design das Konzept der Ausnutzung von Bit-Sparsität vorgeschlagen hat, fehlt es an strenger Bewertung mit kommerziellen Prozessknoten
Es ist notwendig, die Machbarkeit und den Nutzen des Zero-Skipping-MAC-Designs in praktischen kommerziellen Implementierungen zu bewerten

Kernbeiträge

OzMAC-Design: Verbesserte Zero-Skipping-MAC-Architektur basierend auf PRA, die Bit-Sparsität durch Überspringen von Null-Bits in binären Werten dynamisch ausnutzt
Kommerzielle Bewertung: Strenge Power-Performance-Area (PPA)-Bewertung mit TSMC-N5 (5nm)-Prozess und kommerziellen Designwerkzeugen
Mehrdimensionale Analyse: Umfassende Bewertung über mehrere Datenpräzisionen (4-Bit, 8-Bit, 16-Bit) und Taktfrequenzen (0,5 GHz, 1 GHz, 1,5 GHz)
Sparsitätsvalidierung: Validierung der hohen Bit-Sparsität in acht Tiefenlern-Modellen und Demonstration, wie Leistungsreduktion zur Durchsatzsteigerung genutzt werden kann

Methodische Details

OzMAC-Mikroarchitektur-Design

OzMAC besteht aus drei Kernfunktionsmodulen:

Oz-Encoder (Null-Encoder):
- Endlicher Automat, der die aktuelle und nächste Position von „1"-Bits im Eingabe-Bitmuster verfolgt
- Gibt One-Hot-Codierungswerte aus, die die Position von „1"-Bits pro Taktzyklus erfassen
- Beispiel: Eingabe „0101₂" wird als zwei One-Hot-Werte über zwei Taktzyklen codiert: erster Zyklus „0100₂", nächster Zyklus „0001₂"
Shifter (Verschieber):
- Bestimmt die Verschiebungsmenge der zweiten Eingabe basierend auf der Ausgabe des Oz-Encoders
- Im Gegensatz zu PRA's binären Verschiebungswerten verwendet OzMAC One-Hot-Darstellung zur Vereinfachung der Shifter-Hardware
Accumulator (Akkumulator):
- Addiert die angemessen verschobene zweite Eingabe zum Akkumulatorwert

Technische Innovationen

Zero-Skipping-Mechanismus: Führt Berechnungen nur für „1"-Bits durch und überspringt „0"-Bits, wodurch Rechenzyklus reduziert werden
Shifter-Optimierung: Verwendet One-Hot-codierte Eingaben zur Vereinfachung der Shifter-Gate-Komplexität
Serielle Berechnung: Tauscht Latenz gegen niedrigere Fläche und Leistung

Experimentelle Einrichtung

Bewertungsrahmen

Prozessknoten: TSMC N5 (5nm) kommerzieller Prozess
Designwerkzeuge: Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
Verifikationsmethode: SystemVerilog RTL-Design, Gate-Level-Netzwerk-Simulation, SAIF-Dump für präzise Leistungsberechnung

Datensätze und Modelle

Verwendung von acht vortrainierten quantisierten INT8-Modellen aus der PyTorch Torchvision-Bibliothek:

MobileNetV2, MobileNetV3
InceptionV3, ShuffleNetV2
GoogleNet, ResNet18, ResNet50, ResNeXt101

Bewertungsmetriken

Fläche: Chipfläche (μm²)
Leistung: Dynamische Leistung (mW)
Latenz: Berechnungslatenz (ns)
Energieeffizienz: Energie pro Operation (pJ)

Testkonfigurationen

Präzisionskonfigurationen: 4×4, 4×8, 8×8, 8×16, 16×16 Bit
Frequenzbereich: 500 MHz, 1 GHz, 1,5 GHz
Vergleichsbaseline: Traditionelles bitparalleles bMAC-Design

Experimentelle Ergebnisse

Bit-Sparsitätsanalyse

Modell	Durchschnittliche „1"-Bits	Bit-Sparsitätsprozentsatz
MobileNetV2	2,334	70,83 %
MobileNetV3	1,711	78,61 %
InceptionV3	2,430	69,62 %
ShuffleNetV2	2,583	67,71 %
GoogleNet	2,461	69,24 %
ResNet18	2,398	70,02 %
ResNet50	2,495	68,81 %
ResNeXt101	2,289	71,39 %

Alle Modelle zeigen eine Bit-Sparsität nahe 70 %, wobei MobileNetV3 die höchste Sparsität von 78,61 % erreicht.

Hauptergebnisse der PPA (8-Bit, 500 MHz)

MAC-Hardware	Fläche (μm²)	Leistung (mW)	Latenz (ns)	Energieeffizienz (pJ)
bMAC	25,361	0,084	2	0,167
OzMAC	19,996	0,025	4,76	0,120
Verbesserungsprozentsatz	21,2 %	69,7 %	–	28,0 %

Präzisions-Skalierungsanalyse

Ergebnisse über verschiedene Präzisionskonfigurationen zeigen:

Beste Flächenverbesserung: 31,7 % bei 8×16-Konfiguration
Beste Energieeffizienzverbesserung: 45 % bei gemischten Präzisionskonfigurationen 4×8 und 8×16
Kritischer Punkt: Energieeffizienzverbesserung verschwindet bei 16×16-Konfiguration (-1,2 %)

Frequenz-Skalierungsanalyse

Gleichfrequenz-Bewertung: Im Bereich von 500 MHz bis 1,5 GHz behält OzMAC konsistent etwa 70 % Leistungsverbesserung und 29 % Energieeffizienzverbesserung
Gleiche-Latenz-Bewertung: Nach Frequenzskalierung zur Durchsatzanpassung erreicht OzMAC immer noch:
- INT4-Design: 29 % Leistungs-/Energieeffizienzverbesserung
- INT8-Design: 30 % Leistungs-/Energieeffizienzverbesserung
- Gemischte Präzisions-Designs: bis zu 46 % Verbesserung

Wichtigste Erkenntnisse

Energieeffizienz-Schwellenwert: OzMAC benötigt mindestens 58 % Bit-Sparsität, um eine bessere Energieeffizienz als bMAC zu bewahren
Praktische Sparsität: Alle getesteten DL-Modelle überschreiten diesen Schwellenwert
Skalierungseigenschaften: Leistung skaliert linear mit Frequenz, Energieeffizienz bleibt grundsätzlich konstant

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Signifikante Verbesserungen: OzMAC erreicht signifikante Verbesserungen bei Fläche, Leistung und Energieeffizienz im Vergleich zum traditionellen bMAC
Kommerzielle Machbarkeit: Die Bewertung mit TSMC-N5-Prozess beweist die Machbarkeit der kommerziellen Implementierung
Skalierungsvorteil: Behält Vorteile über mehrere Präzisions- und Frequenzkonfigurationen
Durchsatzanpassung: Durch Frequenzskalierung kann der Durchsatz des bMAC angepasst oder übertroffen werden, während die Energieeffizienzvorteile erhalten bleiben

Einschränkungen

Latenz-Overhead: Die Multi-Zyklus-Latenz von OzMAC ist möglicherweise nicht für latenzempfindliche Anwendungen geeignet
Präzisionsbeschränkung: Vorteile verschwinden bei Präzisionen über 16 Bit
Sparsitätsabhängigkeit: Die Leistung hängt stark von der Bit-Sparsität der Eingabedaten ab
Fehlende System-Level-Bewertung: Noch nicht auf tatsächlicher DLA-Systemebene bewertet

Zukünftige Richtungen

System-Level-Integration: Bewertung großer OzMAC-Arrays in praktischen DLAs
Adaptive Designs: Dynamische Konfigurationsanpassung basierend auf Laufzeit-Sparsität
Hybrid-Architektur: Hybrid-Design, das OzMAC und traditionelle MAC kombiniert

Tiefgreifende Bewertung

Stärken

Strenge Bewertung: Umfassende Bewertung mit kommerziellen Prozessen und Werkzeugen mit hoher Ergebniszuverlässigkeit
Mehrdimensionale Analyse: Systematische Analyse über mehrere Dimensionen wie Präzision und Frequenz
Praktischer Wert: Validierung der Existenz von Bit-Sparsität in praktischen DL-Modellen
Klare Darstellung: Klare Beschreibung technischer Details und vollständige experimentelle Einrichtung

Mängel

Begrenzte Innovation: Hauptsächlich technische Implementierung und Bewertung des bestehenden PRA-Designs mit relativ begrenzter technischer Innovation
Begrenzte Anwendungsbereiche: Nur für Workloads mit hoher Bit-Sparsität geeignet
Unzureichende Systemüberlegungen: Fehlende Berücksichtigung von Speicherbandbreite, Datenfluss und anderen Systemfaktoren
Begrenzte Vergleiche: Hauptsächlich Vergleich mit grundlegendem bMAC, fehlende Vergleiche mit anderen fortgeschrittenen MAC-Designs

Einflussfähigkeit

Technischer Wert: Wertvolle Referenzdaten für kommerzielle DLA-Designs
Methodologischer Beitrag: Etablierung eines strikten MAC-Design-Bewertungsrahmens
Praktische Anleitung: Machbare Hardware-Optimierungslösung für Anwendungen mit niedriger Präzisions-Inferenz

Anwendungsszenarien

Edge-Inferenz: Edge-AI-Anwendungen mit Leistungs- und Flächenbeschränkungen
Niedrigpräzisions-Berechnung: Tiefenlern-Inferenz mit 8-Bit und niedrigerer Präzision
Sparse-Modelle: Neuronale Netzwerk-Modelle mit hohen Bit-Sparsitätsmerkmalen
Massenproduktion: Großflächige Bereitstellungsszenarien, die kommerzielle Prozessvalidierung erfordern

Literaturverzeichnis

Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

Dieses Papier bietet wichtige technische Validierung für die Kommerzialisierung des Zero-Skipping-MAC-Designs. Obwohl die technische Innovation begrenzt ist, haben seine strenge Bewertungsmethodik und praktischen Ergebnisse großen Wert für die Förderung der Entwicklung von stromsparenden KI-Beschleunigern.