Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
प्लैटिनम: पाथ-अनुकूलनीय LUT-आधारित त्वरक निम्न-बिट वजन मैट्रिक्स गुणन के लिए तैयार
बड़े भाषा मॉडल के तीव्र विस्तार ने हार्डवेयर दक्षता के लिए उच्च मांग प्रस्तुत की है। परिमाणीकरण तकनीकें दक्षता और प्रदर्शन के बीच आशाजनक समझौता प्रदान करती हैं। अति-निम्न-बिट परिमाणीकरण परिणाम पुनः उपयोग के लिए विशाल अवसर सृजित करता है, जिसे लुकअप टेबल (LUT) त्वरण के माध्यम से कार्यान्वित किया जा सकता है। हालांकि, मौजूदा LUT विधियों में LUT निर्माण में कम्प्यूटेशनल और हार्डवेयर ओवरहेड होता है, और केवल बिट-सीरियल कम्प्यूटेशन पर निर्भर करती हैं, जो त्रिमान वजन नेटवर्क के लिए इष्टतम नहीं है। यह पेपर प्लैटिनम प्रस्तुत करता है, एक हल्का ASIC त्वरक, पूर्णांक वजन मिश्रित-सटीकता मैट्रिक्स गुणन (mpGEMM) के लिए। प्लैटिनम ऑफ़लाइन-उत्पन्न निर्माण पथों के माध्यम से LUT निर्माण ओवरहेड को कम करता है, और स्व-अनुकूलनीय पथ स्विचिंग के माध्यम से सामान्य बिट-सीरियल और अनुकूलित त्रिमान वजन निष्पादन दोनों का समर्थन करता है। BitNet b1.58-3B पर, प्लैटिनम SpikingEyeriss, Prosperity और 16-थ्रेड T-MAC की तुलना में क्रमशः 73.6×, 4.09× और 2.15× त्वरण प्राप्त करता है, ऊर्जा खपत में 32.4×, 3.23× और 20.9× की कमी के साथ, केवल 0.96mm² चिप क्षेत्र के साथ।
गहन तंत्रिका नेटवर्क, विशेष रूप से बड़े भाषा मॉडल (LLM) के आकार में तीव्र वृद्धि के साथ, ऊर्जा खपत और कम्प्यूटेशनल विलंबता मुख्य तैनाती चुनौतियां बन गई हैं। सामान्य मैट्रिक्स गुणन (GEMM) पूरी तरह से जुड़ी परतों और ध्यान परतों में प्रमुख है, इसका कम्प्यूटेशनल बोझ मॉडल आकार के साथ आनुपातिक रूप से बढ़ता है।
अति-निम्न-बिट परिमाणीकरण (जैसे BitNet-b1.58 के त्रिमान वजन {-1,0,1}) सटीकता बनाए रखते हुए दक्षता में नाटकीय सुधार करता है
निम्न-बिट परिमाणीकरण LUT-आधारित त्वरण रणनीति को संभव बनाता है, पूर्वकलित और पुनः उपयोग किए गए परिणामों के माध्यम से
मौजूदा LUT विधियों की समस्याएं:
Prosperity जैसी विधियां: गतिशील अनुसूचित LUT निर्माण पथ उच्च हार्डवेयर ओवरहेड का कारण बनते हैं (24% चिप क्षेत्र, 32.3% शक्ति अनुसूचन मॉड्यूल के लिए)
बिट-सीरियल कम्प्यूटेशन की अक्षमता: त्रिमान वजन के लिए 2-बिट एन्कोडिंग का उपयोग, सैद्धांतिक इष्टतम 1.58 बिट (log₂3) से अधिक, और आंशिक योग विलय अतिरिक्त ओवरहेड उत्पन्न करता है
पूर्वकलन अव्यावहारिक: सभी LUT प्रविष्टियों का ऑफ़लाइन पूर्वकलन विशाल भंडारण की आवश्यकता है (8-बिट सक्रियण k=2 के लिए 4GB)
प्लैटिनम त्वरक आर्किटेक्चर: एक नोवल LUT-आधारित mpGEMM त्वरक डिज़ाइन किया गया है, जो विघटित पाथ-आधारित LUT निर्माण ढांचे को अपनाता है, LUT पीढ़ी लागत को कम करता है और हार्डवेयर ओवरहेड को न्यूनतम करता है
पाथ-अनुकूलनीय निष्पादन: निर्माण पथों को स्विच करके, सामान्य पूर्णांक वजन के लिए बिट-सीरियल निष्पादन और विशिष्ट सटीकता (जैसे त्रिमान वजन) के लिए अनुकूलित निष्पादन का समर्थन करता है
प्रणाली-स्तरीय अनुकूलन डिज़ाइन:
समानता और डेटा प्रवाह के लिए अनुकूलित आर्किटेक्चर
हल्का मॉड्यूलर डिज़ाइन, किनारे तैनाती के लिए उपयुक्त
केवल 0.96mm² चिप क्षेत्र
उत्कृष्ट प्रदर्शन: BitNet b1.58-3B पर प्राप्त:
सबसे उन्नत आधारभूत की तुलना में 73.6× तक त्वरण
32.4× ऊर्जा खपत में कमी
LUT-आधारित ASIC को किनारे प्लेटफॉर्म पर अति-निम्न-बिट तंत्रिका नेटवर्क के लिए उच्च दक्षता और स्केलेबल समाधान के रूप में साबित करता है
प्लैटिनम LUT-आधारित तंत्रिका नेटवर्क त्वरक डिज़ाइन में महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। पाथ जनरेशन को ऑफ़लाइन में चतुराई से विघटित करके, स्व-अनुकूलनीय निष्पादन मोड के साथ मिलकर, यह हार्डवेयर ओवरहेड, प्रदर्शन और ऊर्जा दक्षता के बीच उत्कृष्ट संतुलन प्राप्त करता है। 73.6× त्वरण और 0.96mm² कॉम्पैक्ट डिज़ाइन इसे किनारे LLM अनुमान के लिए एक शक्तिशाली समाधान बनाता है।
हालांकि, यह कार्य स्पष्ट सीमाएं भी प्रस्तुत करता है: विशिष्ट मॉडल (BitNet) पर निर्भरता, सार्वभौमिकता में सुधार की आवश्यकता, और ओपन-सोर्स कार्यान्वयन की कमी। भविष्य का अनुसंधान कम ओवरहेड बनाए रखते हुए अनुकूलनशीलता बढ़ा सकता है, अधिक व्यापक परिमाणीकरण योजनाओं और मॉडल आर्किटेक्चर तक विस्तार कर सकता है।
कुल मिलाकर, यह एक उच्च-गुणवत्ता वाला कंप्यूटर आर्किटेक्चर पेपर है, तकनीकी नवाचार मजबूत है, प्रायोगिक मूल्यांकन व्यापक है, निम्न-बिट तंत्रिका नेटवर्क त्वरण के लिए नया डिज़ाइन प्रतिमान प्रदान करता है। तंत्रिका नेटवर्क त्वरक, परिमाणीकरण अनुमान और किनारे AI चिप अनुसंधान में लगे विद्वानों और इंजीनियरों के लिए अनुशंसित है।