2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.
General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic

Kommerzielle Bewertung des Zero-Skipping-MAC-Designs zur Ausnutzung von Bit-Sparsität in der DL-Inferenz

Grundinformationen

  • Papier-ID: 2402.19376
  • Titel: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
  • Autoren: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
  • Institution: Carnegie Mellon University, MediaTek USA Inc.
  • Klassifizierung: cs.AR (Computerarchitektur)
  • Veröffentlichungsdatum: Februar 2024
  • Papierlink: https://arxiv.org/abs/2402.19376

Zusammenfassung

Dieses Papier stellt OzMAC (Omit-zero-MAC) vor, eine verbesserte Implementierung des Bit-Pragmatic (PRA) MAC-Designs, das speziell zur Ausnutzung von Bit-Sparsität in der Tiefenlern-Inferenz entwickelt wurde. Im Gegensatz zu früheren Arbeiten führt dieses Papier eine strenge Post-Synthese-Bewertung mit dem kommerziellen TSMC-N5-Prozessknoten über mehrere Bitbreiten und Taktfrequenzen durch. Die Forschung zeigt, dass in acht vortrainierten INT8-Tiefenlern-Workloads eine hohe Bit-Sparsität vorhanden ist, wobei das 8-Bit-OzMAC signifikante Verbesserungen von 21 % bei der Fläche, 70 % bei der Leistung und 28 % bei der Energieeffizienz erreicht.

Forschungshintergrund und Motivation

Problembeschreibung

  1. Rechnerischer Engpass: Das Multiply-Accumulate (MAC)-Array in der General Matrix Multiplication (GEMM)-Einheit ist die Kernrechnerstruktur von Tiefenlern-Beschleunigern, und ihre Effizienz beeinflusst direkt die Gesamtleistung
  2. Genauigkeitstrends: Industriestandards entwickeln sich von 32-Bit-Gleitkomma (FP32) zu 16-Bit-Gleitkomma (FP16), 8-Bit-Integer (INT8) und sogar noch niedrigeren Genauigkeiten
  3. Energieeffizienzanforderungen: Edge-Inferenz-Anwendungen unterliegen strengen Einschränkungen bei Fläche, Leistung und Energieverbrauch

Forschungsmotivation

  • Tiefenlern-Modelle enthalten umfangreiche Bit-Sparsität (Bit Sparsity), d. h. viele „0"-Bits in der binären Darstellung
  • Obwohl das bestehende Bit-Pragmatic (PRA)-Design das Konzept der Ausnutzung von Bit-Sparsität vorgeschlagen hat, fehlt es an strenger Bewertung mit kommerziellen Prozessknoten
  • Es ist notwendig, die Machbarkeit und den Nutzen des Zero-Skipping-MAC-Designs in praktischen kommerziellen Implementierungen zu bewerten

Kernbeiträge

  1. OzMAC-Design: Verbesserte Zero-Skipping-MAC-Architektur basierend auf PRA, die Bit-Sparsität durch Überspringen von Null-Bits in binären Werten dynamisch ausnutzt
  2. Kommerzielle Bewertung: Strenge Power-Performance-Area (PPA)-Bewertung mit TSMC-N5 (5nm)-Prozess und kommerziellen Designwerkzeugen
  3. Mehrdimensionale Analyse: Umfassende Bewertung über mehrere Datenpräzisionen (4-Bit, 8-Bit, 16-Bit) und Taktfrequenzen (0,5 GHz, 1 GHz, 1,5 GHz)
  4. Sparsitätsvalidierung: Validierung der hohen Bit-Sparsität in acht Tiefenlern-Modellen und Demonstration, wie Leistungsreduktion zur Durchsatzsteigerung genutzt werden kann

Methodische Details

OzMAC-Mikroarchitektur-Design

OzMAC besteht aus drei Kernfunktionsmodulen:

  1. Oz-Encoder (Null-Encoder):
    • Endlicher Automat, der die aktuelle und nächste Position von „1"-Bits im Eingabe-Bitmuster verfolgt
    • Gibt One-Hot-Codierungswerte aus, die die Position von „1"-Bits pro Taktzyklus erfassen
    • Beispiel: Eingabe „0101₂" wird als zwei One-Hot-Werte über zwei Taktzyklen codiert: erster Zyklus „0100₂", nächster Zyklus „0001₂"
  2. Shifter (Verschieber):
    • Bestimmt die Verschiebungsmenge der zweiten Eingabe basierend auf der Ausgabe des Oz-Encoders
    • Im Gegensatz zu PRA's binären Verschiebungswerten verwendet OzMAC One-Hot-Darstellung zur Vereinfachung der Shifter-Hardware
  3. Accumulator (Akkumulator):
    • Addiert die angemessen verschobene zweite Eingabe zum Akkumulatorwert

Technische Innovationen

  1. Zero-Skipping-Mechanismus: Führt Berechnungen nur für „1"-Bits durch und überspringt „0"-Bits, wodurch Rechenzyklus reduziert werden
  2. Shifter-Optimierung: Verwendet One-Hot-codierte Eingaben zur Vereinfachung der Shifter-Gate-Komplexität
  3. Serielle Berechnung: Tauscht Latenz gegen niedrigere Fläche und Leistung

Experimentelle Einrichtung

Bewertungsrahmen

  • Prozessknoten: TSMC N5 (5nm) kommerzieller Prozess
  • Designwerkzeuge: Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
  • Verifikationsmethode: SystemVerilog RTL-Design, Gate-Level-Netzwerk-Simulation, SAIF-Dump für präzise Leistungsberechnung

Datensätze und Modelle

Verwendung von acht vortrainierten quantisierten INT8-Modellen aus der PyTorch Torchvision-Bibliothek:

  • MobileNetV2, MobileNetV3
  • InceptionV3, ShuffleNetV2
  • GoogleNet, ResNet18, ResNet50, ResNeXt101

Bewertungsmetriken

  • Fläche: Chipfläche (μm²)
  • Leistung: Dynamische Leistung (mW)
  • Latenz: Berechnungslatenz (ns)
  • Energieeffizienz: Energie pro Operation (pJ)

Testkonfigurationen

  1. Präzisionskonfigurationen: 4×4, 4×8, 8×8, 8×16, 16×16 Bit
  2. Frequenzbereich: 500 MHz, 1 GHz, 1,5 GHz
  3. Vergleichsbaseline: Traditionelles bitparalleles bMAC-Design

Experimentelle Ergebnisse

Bit-Sparsitätsanalyse

ModellDurchschnittliche „1"-BitsBit-Sparsitätsprozentsatz
MobileNetV22,33470,83 %
MobileNetV31,71178,61 %
InceptionV32,43069,62 %
ShuffleNetV22,58367,71 %
GoogleNet2,46169,24 %
ResNet182,39870,02 %
ResNet502,49568,81 %
ResNeXt1012,28971,39 %

Alle Modelle zeigen eine Bit-Sparsität nahe 70 %, wobei MobileNetV3 die höchste Sparsität von 78,61 % erreicht.

Hauptergebnisse der PPA (8-Bit, 500 MHz)

MAC-HardwareFläche (μm²)Leistung (mW)Latenz (ns)Energieeffizienz (pJ)
bMAC25,3610,08420,167
OzMAC19,9960,0254,760,120
Verbesserungsprozentsatz21,2 %69,7 %28,0 %

Präzisions-Skalierungsanalyse

Ergebnisse über verschiedene Präzisionskonfigurationen zeigen:

  • Beste Flächenverbesserung: 31,7 % bei 8×16-Konfiguration
  • Beste Energieeffizienzverbesserung: 45 % bei gemischten Präzisionskonfigurationen 4×8 und 8×16
  • Kritischer Punkt: Energieeffizienzverbesserung verschwindet bei 16×16-Konfiguration (-1,2 %)

Frequenz-Skalierungsanalyse

  1. Gleichfrequenz-Bewertung: Im Bereich von 500 MHz bis 1,5 GHz behält OzMAC konsistent etwa 70 % Leistungsverbesserung und 29 % Energieeffizienzverbesserung
  2. Gleiche-Latenz-Bewertung: Nach Frequenzskalierung zur Durchsatzanpassung erreicht OzMAC immer noch:
    • INT4-Design: 29 % Leistungs-/Energieeffizienzverbesserung
    • INT8-Design: 30 % Leistungs-/Energieeffizienzverbesserung
    • Gemischte Präzisions-Designs: bis zu 46 % Verbesserung

Wichtigste Erkenntnisse

  1. Energieeffizienz-Schwellenwert: OzMAC benötigt mindestens 58 % Bit-Sparsität, um eine bessere Energieeffizienz als bMAC zu bewahren
  2. Praktische Sparsität: Alle getesteten DL-Modelle überschreiten diesen Schwellenwert
  3. Skalierungseigenschaften: Leistung skaliert linear mit Frequenz, Energieeffizienz bleibt grundsätzlich konstant

Verwandte Arbeiten

Dieses Papier basiert auf den folgenden verwandten Forschungen:

  1. Bit-Pragmatic (PRA): Ursprüngliche Bit-pragmatische Tiefennetzwerk-Berechnungsmethode
  2. Bit-Tactical: Software-/Hardware-Methode zur Ausnutzung von Wert- und Bit-Sparsität
  3. STRIPES: Bit-serielle Tiefennetzwerk-Berechnung
  4. Bit Fusion: Bit-Level dynamisch zusammensetzbare Architektur

Der Hauptunterschied dieses Papiers liegt in der strengen Bewertung mit dem neuesten kommerziellen Prozess und der Erweiterung auf mehrere Präzisions- und Frequenzkonfigurationen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Signifikante Verbesserungen: OzMAC erreicht signifikante Verbesserungen bei Fläche, Leistung und Energieeffizienz im Vergleich zum traditionellen bMAC
  2. Kommerzielle Machbarkeit: Die Bewertung mit TSMC-N5-Prozess beweist die Machbarkeit der kommerziellen Implementierung
  3. Skalierungsvorteil: Behält Vorteile über mehrere Präzisions- und Frequenzkonfigurationen
  4. Durchsatzanpassung: Durch Frequenzskalierung kann der Durchsatz des bMAC angepasst oder übertroffen werden, während die Energieeffizienzvorteile erhalten bleiben

Einschränkungen

  1. Latenz-Overhead: Die Multi-Zyklus-Latenz von OzMAC ist möglicherweise nicht für latenzempfindliche Anwendungen geeignet
  2. Präzisionsbeschränkung: Vorteile verschwinden bei Präzisionen über 16 Bit
  3. Sparsitätsabhängigkeit: Die Leistung hängt stark von der Bit-Sparsität der Eingabedaten ab
  4. Fehlende System-Level-Bewertung: Noch nicht auf tatsächlicher DLA-Systemebene bewertet

Zukünftige Richtungen

  1. System-Level-Integration: Bewertung großer OzMAC-Arrays in praktischen DLAs
  2. Adaptive Designs: Dynamische Konfigurationsanpassung basierend auf Laufzeit-Sparsität
  3. Hybrid-Architektur: Hybrid-Design, das OzMAC und traditionelle MAC kombiniert

Tiefgreifende Bewertung

Stärken

  1. Strenge Bewertung: Umfassende Bewertung mit kommerziellen Prozessen und Werkzeugen mit hoher Ergebniszuverlässigkeit
  2. Mehrdimensionale Analyse: Systematische Analyse über mehrere Dimensionen wie Präzision und Frequenz
  3. Praktischer Wert: Validierung der Existenz von Bit-Sparsität in praktischen DL-Modellen
  4. Klare Darstellung: Klare Beschreibung technischer Details und vollständige experimentelle Einrichtung

Mängel

  1. Begrenzte Innovation: Hauptsächlich technische Implementierung und Bewertung des bestehenden PRA-Designs mit relativ begrenzter technischer Innovation
  2. Begrenzte Anwendungsbereiche: Nur für Workloads mit hoher Bit-Sparsität geeignet
  3. Unzureichende Systemüberlegungen: Fehlende Berücksichtigung von Speicherbandbreite, Datenfluss und anderen Systemfaktoren
  4. Begrenzte Vergleiche: Hauptsächlich Vergleich mit grundlegendem bMAC, fehlende Vergleiche mit anderen fortgeschrittenen MAC-Designs

Einflussfähigkeit

  1. Technischer Wert: Wertvolle Referenzdaten für kommerzielle DLA-Designs
  2. Methodologischer Beitrag: Etablierung eines strikten MAC-Design-Bewertungsrahmens
  3. Praktische Anleitung: Machbare Hardware-Optimierungslösung für Anwendungen mit niedriger Präzisions-Inferenz

Anwendungsszenarien

  1. Edge-Inferenz: Edge-AI-Anwendungen mit Leistungs- und Flächenbeschränkungen
  2. Niedrigpräzisions-Berechnung: Tiefenlern-Inferenz mit 8-Bit und niedrigerer Präzision
  3. Sparse-Modelle: Neuronale Netzwerk-Modelle mit hohen Bit-Sparsitätsmerkmalen
  4. Massenproduktion: Großflächige Bereitstellungsszenarien, die kommerzielle Prozessvalidierung erfordern

Literaturverzeichnis

  1. Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
  2. Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
  3. Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
  4. Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
  5. Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

Dieses Papier bietet wichtige technische Validierung für die Kommerzialisierung des Zero-Skipping-MAC-Designs. Obwohl die technische Innovation begrenzt ist, haben seine strenge Bewertungsmethodik und praktischen Ergebnisse großen Wert für die Förderung der Entwicklung von stromsparenden KI-Beschleunigern.