Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
بلاتينيوم: معجل قابل للتكيف مع المسار يعتمد على جداول البحث مخصص لضرب مصفوفات الأوزان منخفضة البت
يفرض التوسع السريع للنماذج اللغوية الكبيرة متطلبات أعلى على كفاءة الأجهزة. توفر تقنيات التكميم مقايضة واعدة بين الكفاءة والأداء. يخلق التكميم فائق منخفض البت فرصاً كبيرة لإعادة استخدام النتائج، والتي يمكن تسريعها من خلال جداول البحث (LUT). ومع ذلك، تعاني الطرق القائمة على LUT من تكاليف حسابية وأجهزة في بناء LUT، وتعتمد فقط على الحساب المتسلسل بالبت، وهو ليس الأمثل للشبكات ذات الأوزان الثلاثية. تقدم هذه الورقة بلاتينيوم، معجل ASIC خفيف الوزن لضرب المصفوفات بدقة مختلطة للأوزان الصحيحة (mpGEMM). يقلل بلاتينيوم من تكاليف بناء LUT من خلال مسارات بناء تم إنشاؤها بشكل غير متصل، ويدعم في نفس الوقت الحساب المتسلسل بالبت العام والتنفيذ المحسّن للأوزان الثلاثية من خلال تبديل المسار التكيفي. على BitNet b1.58-3B، يحقق بلاتينيوم تسريعاً بمعامل 73.6×، و4.09×، و2.15× مقارنة بـ SpikingEyeriss و Prosperity و T-MAC بـ 16 خيط على التوالي، مع تقليل استهلاك الطاقة بمعامل 32.4×، و3.23×، و20.9×، مع مساحة رقاقة تبلغ فقط 0.96 ملم².
مع النمو السريع لحجم الشبكات العصبية العميقة، وخاصة النماذج اللغوية الكبيرة (LLM)، أصبح استهلاك الطاقة وكمون الحساب من التحديات الرئيسية للنشر. تهيمن عمليات الضرب المصفوفي العام (GEMM) على الطبقات المتصلة بالكامل وطبقات الانتباه، مع زيادة العبء الحسابي بما يتناسب مع حجم النموذج.
بالنسبة لنماذج مثل BitNet ذات التوزيع المنتظم للأوزان، يتم استخدام معظم إدخالات LUT (فقط 1.16% غير مستخدمة)، مما يجعل تكاليف الجدولة الديناميكية غير ضرورية
تمثل جداول البحث الثلاثية النتيجة النهائية مباشرة، وتظهر التجارب تحسناً بمعامل 1.3× أو أكثر مقارنة بجداول البحث الثنائية
الحاجة إلى معجل متخصص خفيف الوزن وعالي الكفاءة يدعم في نفس الوقت الأوزان الصحيحة العامة والتنفيذ المحسّن لعروض بت محددة
معمارية معجل بلاتينيوم: تصميم معجل mpGEMM جديد قائم على LUT مع إطار عمل بناء LUT قائم على المسار مفكك، مما يقلل من تكاليف توليد LUT ويقلل من تكاليف الأجهزة
التنفيذ التكيفي للمسار: دعم تنفيذ متسلسل بالبت عام للأوزان الصحيحة والتنفيذ المحسّن لدقة محددة (مثل الأوزان الثلاثية) من خلال تبديل مسارات البناء
تصميم التحسين على مستوى النظام:
معمارية محسّنة للتوازي وتدفق البيانات
تصميم معياري خفيف الوزن مناسب للنشر على الحافة
مساحة رقاقة تبلغ فقط 0.96 ملم²
أداء متفوقة:
على BitNet b1.58-3B تحقيق:
تسريع يصل إلى 73.6× مقارنة بأحدث الخطوط الأساسية
تقليل استهلاك الطاقة بمعامل 32.4×
إثبات إمكانات ASIC القائم على LUT كحل قابل للتوسع وفعال من حيث الطاقة للشبكات العصبية فائقة منخفضة البت على منصات الحافة
المرحلة 1: تحميل مسار البناء (dst, src, j, sign)
المرحلة 2: قراءة LUT + الوصول للإدخال
المرحلة 3: حساب الجامع lut[src] ± a[j]
المرحلة 4: إعادة كتابة LUT
يمثل بلاتينيوم تقدماً مهماً في تصميم معجلات الشبكات العصبية القائمة على LUT. من خلال فصل ذكي لتوليد المسار إلى غير متصل، مع دمج وضع التنفيذ التكيفي، يحقق توازناً ممتازاً بين تكاليف الأجهزة والأداء وكفاءة الطاقة. يجعل التسريع 73.6× والتصميم المضغوط 0.96 ملم² حلاً قوياً لاستدلال LLM على الحافة.
ومع ذلك، يعترف العمل أيضاً بقيود واضحة: الاعتماد على نماذج محددة (BitNet)، والعمومية التي تحتاج إلى تحسين، وغياب التنفيذ مفتوح المصدر. يمكن للأبحاث المستقبلية تحسين القابلية للتكيف مع الحفاظ على التكاليف المنخفضة، والتوسع إلى مخططات تكميم أوسع وهياكل نماذج متنوعة.
بشكل عام، هذه ورقة عالية الجودة في معمارية الحاسوب، مع ابتكار تقني قوي وتقييم تجريبي شامل، توفر نموذج تصميم جديد لتسريع الشبكات العصبية منخفضة البت. موصى به بشدة للعلماء والمهندسين العاملين في مجالات معجلات الشبكات العصبية والاستدلال المكمم وشرائح AI على الحافة.