Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
Platinum: Acceleratore Adattabile per Percorsi Basato su LUT Specializzato per Moltiplicazione di Matrici di Pesi a Basso Bit
L'espansione rapida dei modelli linguistici di grandi dimensioni pone requisiti più elevati sull'efficienza hardware. Le tecniche di quantizzazione offrono compromessi promettenti tra efficienza e prestazioni. La quantizzazione a bit ultra-bassi crea numerose opportunità per il riutilizzo dei risultati, realizzabili mediante accelerazione tramite tabelle di ricerca (LUT). Tuttavia, i metodi LUT esistenti presentano overhead computazionali e hardware nella costruzione delle LUT e si basano esclusivamente su calcolo seriale in bit, il che non è ottimale per reti neurali con pesi ternari. Questo articolo propone Platinum, un acceleratore ASIC leggero per moltiplicazione di matrici con precisione mista e pesi interi (mpGEMM). Platinum riduce l'overhead di costruzione delle LUT attraverso percorsi generati offline e supporta simultaneamente sia l'esecuzione seriale in bit generico che l'esecuzione ottimizzata per pesi ternari mediante commutazione adattabile dei percorsi. Su BitNet b1.58-3B, Platinum raggiunge accelerazioni di 73.6×, 4.09× e 2.15× rispetto a SpikingEyeriss, Prosperity e T-MAC a 16 thread, con riduzione dei consumi energetici di 32.4×, 3.23× e 20.9×, con area del chip di soli 0.96mm².
Con la crescita rapida delle reti neurali profonde, in particolare dei modelli linguistici di grandi dimensioni (LLM), il consumo energetico e la latenza computazionale diventano sfide principali di distribuzione. La moltiplicazione di matrici generale (GEMM) domina negli strati completamente connessi e negli strati di attenzione, con carico computazionale che cresce proporzionalmente alla scala del modello.
La quantizzazione a bit ultra-bassi (come i pesi ternari di BitNet-b1.58 {-1,0,1}) aumenta significativamente l'efficienza mantenendo la precisione
La quantizzazione a basso bit rende possibili strategie di accelerazione basate su LUT attraverso precalcolo e riutilizzo dei risultati
Problemi dei Metodi LUT Esistenti:
Metodi come Prosperity: La pianificazione dinamica dei percorsi di costruzione delle LUT causa overhead hardware elevato (24% area del chip, 32.3% consumo energetico per il modulo di pianificazione)
Inefficienza del Calcolo Seriale in Bit: L'uso di codifica a 2 bit per pesi ternari supera il massimo teorico di 1.58 bit (log₂3), e la fusione delle somme parziali genera overhead aggiuntivo
Precalcolo Non Fattibile: Il precalcolo offline di tutte le LUT richiede memoria enorme (4GB per attivazioni a 8 bit con k=2)
Per modelli come BitNet con distribuzione di pesi uniforme, la maggior parte delle voci LUT viene utilizzata (solo 1.16% inutilizzate), rendendo l'overhead della pianificazione dinamica non necessario
Le LUT ternarie rappresentano direttamente i risultati finali, con esperimenti che mostrano miglioramenti di prestazioni di 1.3× rispetto alle LUT binarie
È necessario un acceleratore specializzato leggero e ad alta efficienza energetica che supporti sia pesi interi generici che ottimizzazioni per larghezze di bit specifiche
Architettura dell'Acceleratore Platinum: Progettazione di un nuovo acceleratore mpGEMM basato su LUT con framework di costruzione LUT basato su percorsi disaccoppiati, riducendo i costi di generazione delle LUT e minimizzando l'overhead hardware
Esecuzione Adattabile ai Percorsi: Supporto sia dell'esecuzione seriale in bit per pesi interi generici che dell'esecuzione ottimizzata per precisioni specifiche (come pesi ternari) attraverso la commutazione dei percorsi di costruzione
Progettazione di Ottimizzazione del Sistema:
Architettura ottimizzata per parallelismo e flusso di dati
Progettazione modulare leggera adatta per distribuzione edge
Area del chip di soli 0.96mm²
Prestazioni Eccellenti: Su BitNet b1.58-3B si raggiungono:
Accelerazione fino a 73.6× rispetto ai migliori baseline
Riduzione dei consumi energetici di 32.4×
Dimostrazione del potenziale degli ASIC basati su LUT come soluzione scalabile ed efficiente per reti neurali a bit ultra-bassi su piattaforme edge
Formalizzazione della costruzione LUT come ipergrafo diretto
Ogni nodo rappresenta una voce LUT
Ogni iperarco rappresenta un'operazione di calcolo
Applicazione dell'Algoritmo MST:
Nodo sorgente: lut[0] = 0
Vincoli Operativi: Solo addizione/sottrazione di elementi di input
Obiettivo: Trovare il percorso di costo minimo che connette tutti i nodi
Vantaggi:
Sfruttamento della simmetria per ridurre la dimensione LUT a ⌈3^c/2⌉
Per c=5, riduzione di circa 10× nel numero di addizioni rispetto alla costruzione ingenua
Garantisce corrette relazioni di dipendenza dei dati (ordinamento topologico)
Distanza di dipendenza lettura-dopo-scrittura (RAW) più breve supera i livelli di pipeline, senza necessità di gestione aggiuntiva dei rischi
Platinum rappresenta un progresso importante nella progettazione di acceleratori di reti neurali basati su LUT. Attraverso il disaccoppiamento intelligente della generazione dei percorsi offline, combinato con modalità di esecuzione adattabili, raggiunge un eccellente equilibrio tra overhead hardware, prestazioni ed efficienza energetica. L'accelerazione di 73.6× e il design compatto di 0.96mm² lo rendono una soluzione potente per l'inferenza LLM su edge.
Tuttavia, il lavoro presenta anche limitazioni evidenti: dipendenza da modelli specifici (BitNet), universalità da migliorare e mancanza di implementazione open source. La ricerca futura potrebbe aumentare l'adattabilità mantenendo basso l'overhead, estendendo a schemi di quantizzazione più ampi e architetture di modelli.
Nel complesso, questo è un articolo di alta qualità nell'architettura dei calcolatori, con innovazione tecnica solida e valutazione sperimentale completa, che fornisce un nuovo paradigma di progettazione per l'accelerazione di reti neurali a bit ultra-bassi. Consigliato per ricercatori e ingegneri che lavorano su acceleratori di reti neurali, inferenza quantizzata e chip AI edge.