2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.
General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic

Valutazione Commerciale della Progettazione MAC Zero-Skipping per lo Sfruttamento della Sparsità di Bit nell'Inferenza DL

Informazioni Fondamentali

  • ID Articolo: 2402.19376
  • Titolo: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
  • Autori: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
  • Istituzioni: Carnegie Mellon University, MediaTek USA Inc.
  • Classificazione: cs.AR (Architettura dei Calcolatori)
  • Data di Pubblicazione: Febbraio 2024
  • Link dell'Articolo: https://arxiv.org/abs/2402.19376

Riassunto

Questo articolo propone OzMAC (Omit-zero-MAC), un'implementazione migliorata della progettazione MAC Bit-Pragmatic (PRA), specificamente progettata per sfruttare la sparsità di bit nell'inferenza del deep learning. A differenza dei lavori precedenti, questo articolo utilizza il nodo di processo TSMC N5 di livello commerciale, conducendo una valutazione rigorosa post-sintesi della progettazione su molteplici larghezze di bit e frequenze di clock. La ricerca dimostra l'esistenza di un'elevata sparsità di bit in otto carichi di lavoro di deep learning INT8 preaddestrati, con OzMAC a 8 bit che realizza miglioramenti significativi del 21%, 70% e 28% rispettivamente in area, potenza e consumo energetico.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Collo di bottiglia computazionale: L'array MAC (Multiply-Accumulate) nelle unità GEMM (General Matrix Multiply) è la struttura computazionale centrale degli acceleratori di deep learning, e la sua efficienza influisce direttamente sulle prestazioni complessive
  2. Tendenze di precisione: Gli standard industriali si stanno evolvendo da 32 bit in virgola mobile (FP32) verso 16 bit in virgola mobile (FP16), 8 bit interi (INT8) e persino precisioni inferiori
  3. Requisiti di efficienza energetica: Le applicazioni di inferenza edge hanno vincoli rigorosi su area, potenza e consumo energetico

Motivazione della Ricerca

  • I modelli di deep learning contengono una quantità significativa di sparsità di bit (bit sparsity), ovvero molti bit '0' nella rappresentazione binaria
  • Sebbene la progettazione Bit-Pragmatic (PRA) esistente abbia proposto il concetto di sfruttamento della sparsità di bit, manca una valutazione rigorosa con processi di livello commerciale
  • È necessario valutare la fattibilità e i benefici della progettazione MAC zero-skipping nell'implementazione commerciale effettiva

Contributi Principali

  1. Progettazione OzMAC: Un'architettura MAC zero-skipping migliorata basata su PRA, che sfrutta dinamicamente la sparsità di bit saltando i bit di valore zero nella rappresentazione binaria
  2. Valutazione di Livello Commerciale: Valutazione rigorosa PPA (Power-Performance-Area) utilizzando il processo TSMC N5 (5nm) e strumenti di progettazione commerciali
  3. Analisi Multidimensionale: Valutazione completa su molteplici precisioni di dati (4 bit, 8 bit, 16 bit) e frequenze di clock (0,5 GHz, 1 GHz, 1,5 GHz)
  4. Verifica della Sparsità: Verifica dell'esistenza di elevata sparsità di bit in otto modelli di deep learning e dimostrazione di come sfruttare la riduzione della potenza per aumentare il throughput

Dettagli del Metodo

Progettazione Microarchitettura OzMAC

OzMAC è composto da tre moduli funzionali principali:

  1. Oz-encoder (Codificatore Zero):
    • Macchina a stati finiti che traccia le posizioni attuali e successive dei bit '1' nel modello di bit di input
    • Produce valori in codifica one-hot, catturando la posizione dei bit '1' per ogni ciclo di clock
    • Esempio: l'input '0101₂' è codificato come due valori one-hot su due cicli di clock: primo ciclo '0100₂', ciclo successivo '0001₂'
  2. Shifter (Traslatore):
    • Determina l'importo dello shift del secondo input in base all'output del codificatore Oz
    • A differenza dei valori di shift binari di PRA, OzMAC utilizza rappresentazione one-hot per semplificare l'hardware dello shifter
  3. Accumulator (Accumulatore):
    • Aggiunge il secondo input opportunamente traslato al valore dell'accumulatore

Punti di Innovazione Tecnica

  1. Meccanismo Zero-Skipping: Esegue calcoli solo sui bit '1', saltando i bit '0', riducendo i cicli di calcolo
  2. Ottimizzazione dello Shifter: Utilizza input in codifica one-hot per semplificare la complessità dei gate dello shifter
  3. Calcolo Seriale: Scambia latenza per area e potenza inferiori

Configurazione Sperimentale

Framework di Valutazione

  • Nodo di Processo: TSMC N5 (5nm) processo commerciale
  • Strumenti di Progettazione: Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
  • Metodo di Verifica: Progettazione RTL SystemVerilog, simulazione a livello di gate, dump SAIF per calcolo preciso della potenza

Dataset e Modelli

Utilizzo di otto modelli INT8 quantizzati preaddestrati dalla libreria PyTorch Torchvision:

  • MobileNetV2, MobileNetV3
  • InceptionV3, ShuffleNetV2
  • GoogleNet, ResNet18, ResNet50, ResNeXt101

Metriche di Valutazione

  • Area: Area del chip (μm²)
  • Potenza: Potenza dinamica (mW)
  • Latenza: Latenza di calcolo (ns)
  • Consumo Energetico: Consumo energetico per operazione (pJ)

Configurazioni di Test

  1. Configurazioni di Precisione: 4×4, 4×8, 8×8, 8×16, 16×16 bit
  2. Intervallo di Frequenza: 500 MHz, 1 GHz, 1,5 GHz
  3. Baseline di Confronto: Progettazione bMAC tradizionale bit-parallela

Risultati Sperimentali

Analisi della Sparsità di Bit

ModelloMedia Bit '1'Percentuale Sparsità di Bit
MobileNetV22.33470.83%
MobileNetV31.71178.61%
InceptionV32.43069.62%
ShuffleNetV22.58367.71%
GoogleNet2.46169.24%
ResNet182.39870.02%
ResNet502.49568.81%
ResNeXt1012.28971.39%

Tutti i modelli mostrano una sparsità di bit prossima al 70%, con MobileNetV3 che raggiunge il massimo del 78.61%.

Risultati PPA Principali (8 bit, 500 MHz)

Hardware MACArea (μm²)Potenza (mW)Latenza (ns)Consumo Energetico (pJ)
bMAC25.3610.08420.167
OzMAC19.9960.0254.760.120
Percentuale di Miglioramento21.2%69.7%-28.0%

Analisi di Scalabilità della Precisione

I risultati su diverse configurazioni di precisione mostrano:

  • Miglioramento di Area Ottimale: Configurazione 8×16 raggiunge il 31.7%
  • Miglioramento di Consumo Energetico Ottimale: Configurazioni a precisione mista 4×8 e 8×16 raggiungono il 45%
  • Punto Critico: Il miglioramento del consumo energetico scompare nella configurazione 16×16 (-1.2%)

Analisi di Scalabilità della Frequenza

  1. Valutazione a Frequenza Uguale: Nell'intervallo da 500 MHz a 1.5 GHz, OzMAC mantiene costantemente circa il 70% di miglioramento della potenza e il 29% di miglioramento del consumo energetico
  2. Valutazione a Latenza Uguale: Dopo il matching del throughput tramite scalabilità della frequenza, OzMAC può ancora realizzare:
    • Progettazioni INT4: 29% di miglioramento della potenza/consumo energetico
    • Progettazioni INT8: 30% di miglioramento della potenza/consumo energetico
    • Progettazioni a precisione mista: miglioramenti fino al 46%

Scoperte Chiave

  1. Soglia di Efficienza Energetica: OzMAC richiede almeno il 58% di sparsità di bit per mantenere un'efficienza energetica superiore a bMAC
  2. Sparsità Pratica: Tutti i modelli DL testati superano questa soglia
  3. Caratteristiche di Scalabilità: La potenza si ridimensiona linearmente con la frequenza, mentre il consumo energetico rimane sostanzialmente costante

Lavori Correlati

Questo articolo si basa sui seguenti studi correlati:

  1. Bit-Pragmatic (PRA): Il metodo originale di calcolo delle reti neurali profonde bit-pragmatiche
  2. Bit-Tactical: Approcci software/hardware che sfruttano la sparsità di valore e bit
  3. STRIPES: Calcolo delle reti neurali profonde bit-seriale
  4. Bit Fusion: Architettura dinamicamente componibile a livello di bit

La principale differenza di questo articolo risiede nella valutazione rigorosa utilizzando il processo commerciale più recente e nell'estensione a molteplici configurazioni di precisione e frequenza.

Conclusioni e Discussione

Conclusioni Principali

  1. Miglioramenti Significativi: OzMAC realizza miglioramenti significativi in area, potenza e consumo energetico rispetto al bMAC tradizionale
  2. Fattibilità Commerciale: La valutazione utilizzando il processo TSMC N5 dimostra la fattibilità dell'implementazione commerciale
  3. Vantaggi di Scalabilità: Mantiene vantaggi su molteplici configurazioni di precisione e frequenza
  4. Matching del Throughput: Attraverso la scalabilità della frequenza è possibile mantenere vantaggi di efficienza energetica mentre si eguaglia o supera il throughput di bMAC

Limitazioni

  1. Overhead di Latenza: La latenza multi-ciclo di OzMAC potrebbe non essere adatta per applicazioni sensibili alla latenza
  2. Limitazioni di Precisione: I vantaggi scompaiono con precisioni superiori a 16 bit
  3. Dipendenza dalla Sparsità: Le prestazioni dipendono fortemente dalla sparsità di bit dei dati di input
  4. Valutazione a Livello di Sistema Mancante: Ancora non valutato a livello di sistema DLA effettivo

Direzioni Future

  1. Integrazione a Livello di Sistema: Valutazione delle prestazioni di array OzMAC di grandi dimensioni in DLA effettivi
  2. Progettazione Adattiva: Regolazione dinamica della configurazione in base alla sparsità di runtime
  3. Architettura Ibrida: Progettazione ibrida che combina OzMAC e MAC tradizionali

Valutazione Approfondita

Punti di Forza

  1. Valutazione Rigorosa: Valutazione completa utilizzando processi e strumenti di livello commerciale, con elevata affidabilità dei risultati
  2. Analisi Multidimensionale: Analisi sistematica su molteplici dimensioni di precisione e frequenza
  3. Valore Pratico: Verifica dell'esistenza di sparsità di bit su modelli DL effettivi
  4. Esposizione Chiara: Descrizione chiara dei dettagli tecnici e configurazione sperimentale completa

Insufficienze

  1. Innovazione Limitata: Principalmente implementazione ingegneristica e valutazione della progettazione PRA esistente, con innovazione tecnica relativamente limitata
  2. Ambito di Applicazione: Applicabile solo a carichi di lavoro con elevata sparsità di bit
  3. Considerazioni di Sistema Insufficienti: Mancanza di considerazione di fattori a livello di sistema come larghezza di banda della memoria e flusso di dati
  4. Confronti Limitati: Principalmente confronto con bMAC di base, mancanza di confronto con altre progettazioni MAC avanzate

Impatto

  1. Valore Ingegneristico: Fornisce dati di riferimento preziosi per la progettazione commerciale di DLA
  2. Contributo Metodologico: Stabilisce un framework rigoroso di valutazione della progettazione MAC
  3. Guida Pratica: Fornisce una soluzione di ottimizzazione hardware fattibile per applicazioni di inferenza a bassa precisione

Scenari Applicabili

  1. Inferenza Edge: Applicazioni AI edge con vincoli di potenza e area
  2. Calcolo a Bassa Precisione: Inferenza di deep learning con precisione di 8 bit e inferiore
  3. Modelli Sparsi: Modelli di reti neurali con caratteristiche di elevata sparsità di bit
  4. Produzione di Massa: Scenari di distribuzione su larga scala che richiedono verifica di processi commerciali

Riferimenti Bibliografici

  1. Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
  2. Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
  3. Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
  4. Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
  5. Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

Questo articolo fornisce una verifica ingegneristica importante per l'applicazione commerciale della progettazione MAC zero-skipping. Sebbene l'innovazione tecnica sia limitata, la sua metodologia di valutazione rigorosa e i risultati pratici hanno un valore significativo nel promuovere lo sviluppo di acceleratori AI a bassa potenza.