Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
Platinum: Pfadanpassbarer LUT-basierter Beschleuniger für Niedrigbit-Gewichtsmatrixmultiplikation
Die schnelle Expansion großer Sprachmodelle stellt höhere Anforderungen an die Hardwareeffizienz. Quantisierungstechniken bieten einen vielversprechenden Kompromiss zwischen Effizienz und Leistung. Ultraniederbit-Quantisierung schafft umfangreiche Möglichkeiten für Ergebniswiederverwendung, die durch Lookup-Table(LUT)-Beschleunigung realisiert werden können. Allerdings weisen bestehende LUT-Methoden erhebliche Rechen- und Hardwarekosten beim LUT-Aufbau auf und verlassen sich ausschließlich auf bitserielle Berechnung, was für ternäre Gewichtsnetzwerke nicht optimal ist. Dieses Papier präsentiert Platinum, einen leichtgewichtigen ASIC-Beschleuniger für Ganzzahl-Gewichts-Gemischpräzisions-Matrixmultiplikation (mpGEMM). Platinum reduziert LUT-Aufbaukosten durch offline generierte Konstruktionspfade und unterstützt durch adaptive Pfadumschaltung sowohl generische bitserielle als auch optimierte ternäre Gewichtsausführung. Auf BitNet b1.58-3B erreicht Platinum gegenüber SpikingEyeriss, Prosperity und 16-Thread T-MAC Beschleunigungen von 73,6×, 4,09× bzw. 2,15×, mit Energieeinsparungen von 32,4×, 3,23× bzw. 20,9×, bei einer Chipfläche von nur 0,96 mm².
Mit dem rasanten Wachstum tiefer neuronaler Netze, insbesondere großer Sprachmodelle (LLMs), werden Energieverbrauch und Berechnungsverzögerung zu Hauptherausforderungen bei der Bereitstellung. Allgemeine Matrixmultiplikation (GEMM) dominiert in vollständig verbundenen Schichten und Aufmerksamkeitsschichten, wobei die Rechenlast proportional zur Modellgröße wächst.
Ultraniederbit-Quantisierung (wie ternäre Gewichte {-1,0,1} in BitNet-b1.58) erhöht die Effizienz drastisch bei Beibehaltung der Genauigkeit
Niedrigbit-Quantisierung ermöglicht LUT-basierte Beschleunigungsstrategien durch Vorberechnung und Ergebniswiederverwendung
Probleme bestehender LUT-Methoden:
Prosperity und ähnliche Methoden: Dynamische Planung von LUT-Konstruktionspfaden führt zu hohen Hardwarekosten (24% Chipfläche, 32,3% Stromverbrauch für Planungsmodule)
Ineffizienz der bitseriellen Berechnung: Verwendet 2-Bit-Kodierung für ternäre Gewichte, weit über dem theoretischen Optimum von 1,58 Bit (log₂3), mit zusätzlichen Kosten durch Partialsum-Zusammenführung
Offline-Vorberechnung nicht praktikabel: Offline-Vorberechnung aller LUT-Einträge erfordert enormen Speicher (4 GB bei 8-Bit-Aktivierungen, k=2)
Für Modelle wie BitNet mit gleichmäßiger Gewichtsverteilung werden die meisten LUT-Einträge verwendet (nur 1,16% ungenutzt), wodurch dynamische Planungskosten unnötig sind
Ternäre LUTs stellen Endergebnisse direkt dar; Experimente zeigen 1,3× oder höhere Leistungsverbesserungen gegenüber binären LUTs
Ein leichtgewichtiger, hochenergeeffizienter spezialisierter Beschleuniger ist erforderlich, der sowohl generische Ganzzahlgewichte als auch spezifische Bitweitenoptimierungen unterstützt
Platinum-Beschleunigerarchitektur: Entwurf eines neuartigen LUT-basierten mpGEMM-Beschleunigers mit entkoppeltem pfadbasiertem LUT-Konstruktionsrahmen, der LUT-Generierungskosten reduziert und Hardwareoverhead minimiert
Pfadanpassbare Ausführung: Durch Pfadumschaltung wird sowohl generische bitserielle Ausführung für Ganzzahlgewichte als auch optimierte Ausführung für spezifische Präzisionen (wie ternäre Gewichte) unterstützt
Systemweite Optimierungsdesign:
Architektur optimiert für Parallelität und Datenfluss
Leichtgewichtiges modulares Design für Edge-Bereitstellung
Chipfläche von nur 0,96 mm²
Hervorragende Leistungsergebnisse: Auf BitNet b1.58-3B erreicht:
Bis zu 73,6× Beschleunigung gegenüber dem Stand der Technik
32,4× Energieeinsparung
Demonstriert das Potenzial von LUT-basierten ASICs als hocheffiziente, skalierbare Lösung für ultraniederbit neuronale Netze auf Edge-Plattformen
Formalisiert LUT-Konstruktion als gerichteter Hypergraph
Jeder Knoten stellt einen LUT-Eintrag dar
Jede Hyperkante stellt eine Rechenoperation dar
MST-Algorithmus-Anwendung:
Quellknoten: lut[0] = 0
Operationsbeschränkung: Nur Addition/Subtraktion von Eingabeelementen
Ziel: Finde Pfad mit minimalen Kosten, der alle Knoten verbindet
Vorteile:
Nutzt Symmetrie zur Reduktion der LUT-Größe auf ⌈3^c/2⌉
Für c=5 reduziert sich die Anzahl der Additionen um etwa 10× gegenüber naivem Aufbau
Platinum stellt einen wichtigen Fortschritt in der LUT-basierten Beschleunigung neuronaler Netze dar. Durch geschickliche Entkopplung der Pfadgenerierung zur Offline-Phase, kombiniert mit adaptiven Ausführungsmodi, erreicht es ein ausgezeichnetes Gleichgewicht zwischen Hardwareoverhead, Leistung und Energieeffizienz. Die 73,6× Beschleunigung und das kompakte 0,96 mm²-Design machen es zu einer starken Lösung für Edge-LLM-Inferenz.
Allerdings weist die Arbeit auch deutliche Einschränkungen auf: Abhängigkeit von spezifischen Modellen (BitNet), begrenzte Universalität und fehlende Open-Source-Implementierung. Zukünftige Forschung könnte die Adaptivität bei Beibehaltung niedriger Overheads verbessern und auf breitere Quantisierungsschemen und Modellarchitekturen ausweiten.
Insgesamt ist dies ein hochqualitatives Computerarchitektur-Papier mit solider technischer Innovation, umfassender experimenteller Bewertung und bietet ein neues Designparadigma für Niedrigbit-Neuronale-Netzwerk-Beschleunigung. Empfohlen für Forscher und Ingenieure, die sich mit Neuronalen-Netzwerk-Beschleunigern, Quantisierungs-Inferenz und Edge-AI-Chip-Entwicklung befassen.