Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
Platinum : Accélérateur Adaptatif de Chemin Basé sur LUT Optimisé pour la Multiplication de Matrices de Poids Faible Bit
L'expansion rapide des grands modèles de langage impose des exigences accrues en matière d'efficacité matérielle. Les techniques de quantification offrent un compromis prometteur entre efficacité et performance. La quantification ultra-faible bit crée de nombreuses opportunités de réutilisation de résultats, pouvant être accélérées via des tables de consultation (LUT). Cependant, les méthodes LUT existantes présentent des surcharges de calcul et matériel lors de la construction de LUT, et ne s'appuient que sur le calcul série de bits, ce qui n'est pas optimal pour les réseaux de poids ternaires. Cet article propose Platinum, un accélérateur ASIC léger pour la multiplication de matrices de précision mixte entière (mpGEMM). Platinum réduit les surcharges de construction de LUT via des chemins de construction générés hors ligne, et supporte simultanément l'exécution série de bits générale et l'exécution optimisée de poids ternaires via la commutation adaptative de chemins. Sur BitNet b1.58-3B, Platinum réalise une accélération de 73,6×, 4,09× et 2,15× respectivement par rapport à SpikingEyeriss, Prosperity et T-MAC 16 threads, avec une réduction de consommation énergétique de 32,4×, 3,23× et 20,9×, pour une surface de puce de seulement 0,96 mm².
Avec la croissance rapide de l'échelle des réseaux de neurones profonds, en particulier des grands modèles de langage (LLM), la consommation énergétique et la latence de calcul deviennent des défis majeurs de déploiement. La multiplication générale de matrices (GEMM) domine dans les couches entièrement connectées et les couches d'attention, avec une charge de calcul croissant proportionnellement à la taille du modèle.
La quantification ultra-faible bit (comme les poids ternaires {-1,0,1} de BitNet-b1.58) améliore considérablement l'efficacité tout en maintenant la précision
La quantification faible bit rend les stratégies d'accélération basées sur LUT possibles, via la précomputation et la réutilisation de résultats
Problèmes des méthodes LUT existantes :
Méthodes comme Prosperity : L'ordonnancement dynamique des chemins de construction de LUT entraîne des surcharges matérielles élevées (24% de surface de puce, 32,3% de puissance pour le module d'ordonnancement)
Inefficacité du calcul série de bits : L'utilisation d'un codage 2 bits pour les poids ternaires dépasse l'optimum théorique de 1,58 bits (log₂3), et la fusion des sommes partielles génère des surcharges supplémentaires
Précomputation non viable : La précomputation hors ligne de toutes les entrées LUT nécessite un stockage énorme (4 Go pour activation 8 bits, k=2)
Pour les modèles comme BitNet avec distribution de poids uniforme, la plupart des entrées LUT sont utilisées (seulement 1,16% inutilisées), rendant les surcharges d'ordonnancement dynamique inutiles
Les LUT ternaires représentent directement les résultats finaux, les expériences montrant une amélioration de performance de plus de 1,3× par rapport aux LUT binaires
Nécessité d'un accélérateur spécialisé léger et hautement efficace en énergie, supportant à la fois les poids entiers généraux et l'optimisation pour des largeurs de bits spécifiques
Architecture de l'accélérateur Platinum : Conception d'un nouvel accélérateur mpGEMM basé sur LUT, adoptant un cadre de construction de LUT découplé basé sur chemins, réduisant les coûts de génération de LUT et minimisant les surcharges matérielles
Exécution adaptative de chemins : Via la commutation de chemins de construction, support de l'exécution série de bits pour les poids entiers généraux et de l'exécution optimisée pour des précisions spécifiques (comme les poids ternaires)
Conception d'optimisation système :
Architecture optimisée pour le parallélisme et le flux de données
Conception modulaire légère, adaptée au déploiement périphérique
Surface de puce de seulement 0,96 mm²
Performance exceptionnelle : Sur BitNet b1.58-3B :
Accélération jusqu'à 73,6× par rapport aux meilleures lignes de base
Réduction de consommation énergétique de 32,4×
Démontre le potentiel des ASIC basés sur LUT comme solution hautement efficace et scalable pour les réseaux de neurones ultra-faible bit sur les plates-formes périphériques
Formalisation de la construction de LUT comme hypergraphe dirigé
Chaque nœud représente une entrée LUT
Chaque hyperbord représente une opération de calcul
Application de l'algorithme MST :
Nœud source : lut[0] = 0
Restrictions d'opération : Seulement addition/soustraction d'éléments d'entrée
Objectif : Trouver le chemin de coût minimal connectant tous les nœuds
Avantages :
Exploitation de la symétrie pour réduire la taille de LUT à ⌈3^c/2⌉
Pour c=5, réduction d'environ 10× du nombre d'additions par rapport à la construction naïve
Garantit les dépendances de données correctes (tri topologique)
Distance de dépendance lecture-après-écriture (RAW) minimale dépassant le nombre d'étages de pipeline, sans gestion d'aléas supplémentaire
Platinum représente une avancée importante dans la conception d'accélérateurs de réseaux de neurones basés sur LUT. En découplant ingénieusement la génération de chemin hors ligne, combinée avec un mode d'exécution adaptatif, il réalise un excellent équilibre entre surcharge matérielle, performance et efficacité énergétique. L'accélération 73,6× et la conception compacte 0,96 mm² en font une solution puissante pour l'inférence LLM périphérique.
Cependant, ce travail présente aussi des limitations évidentes : dépendance à modèles spécifiques (BitNet), universalité à améliorer, et absence d'implémentation open-source. Les recherches futures pourraient améliorer l'adaptabilité tout en maintenant faible surcharge, étendre à schémas quantification plus larges et architectures modèles.
Globalement, ceci est un article de haute qualité en architecture informatique, avec innovation technique solide, évaluation expérimentale complète, fournissant nouveau paradigme de conception pour l'accélération de réseaux de neurones faible bit. Recommandé aux chercheurs et ingénieurs travaillant sur accélérateurs réseaux de neurones, inférence quantifiée et puces AI périphérique.