Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
প্ল্যাটিনাম: পাথ-অ্যাডাপ্টেবল LUT-ভিত্তিক অ্যাক্সিলারেটর নিম্ন-বিট ওজন ম্যাট্রিক্স গুণনের জন্য তৈরি
বৃহৎ ভাষা মডেলের দ্রুত সম্প্রসারণ হার্ডওয়্যার দক্ষতার উপর উচ্চতর চাহিদা আরোপ করে। কোয়ান্টাইজেশন প্রযুক্তি দক্ষতা এবং কর্মক্ষমতার মধ্যে প্রতিশ্রুতিশীল ভারসাম্য প্রদান করে। অতি-নিম্ন বিট কোয়ান্টাইজেশন ফলাফল পুনর্ব্যবহারের জন্য বিশাল সুযোগ তৈরি করে, যা লুকআপ টেবিল (LUT) ত্বরণের মাধ্যমে বাস্তবায়িত হতে পারে। তবে, বিদ্যমান LUT পদ্ধতিগুলি LUT নির্মাণে গণনা এবং হার্ডওয়্যার ওভারহেড নিয়ে সমস্যায় পড়ে এবং শুধুমাত্র বিট-সিরিয়াল গণনার উপর নির্ভর করে, যা ত্রিমূল্যবান ওজন নেটওয়ার্কের জন্য সর্বোত্তম নয়। এই পেপারটি প্ল্যাটিনাম উপস্থাপন করে, একটি হালকা ASIC অ্যাক্সিলারেটর যা পূর্ণসংখ্যা ওজন মিশ্র-নির্ভুলতা ম্যাট্রিক্স গুণনের (mpGEMM) জন্য। প্ল্যাটিনাম অফলাইন-উৎপাদিত নির্মাণ পথের মাধ্যমে LUT নির্মাণ ওভারহেড হ্রাস করে এবং স্ব-অভিযোজনশীল পথ স্যুইচিংয়ের মাধ্যমে সাধারণ বিট-সিরিয়াল এবং অপ্টিমাইজড ত্রিমূল্যবান ওজন সম্পাদন উভয়ই সমর্থন করে। BitNet b1.58-3B-তে, প্ল্যাটিনাম SpikingEyeriss, Prosperity এবং 16-থ্রেড T-MAC-এর তুলনায় যথাক্রমে 73.6×, 4.09× এবং 2.15× ত্বরণ অর্জন করে, শক্তি খরচ 32.4×, 3.23× এবং 20.9× হ্রাস করে, চিপ এলাকা মাত্র 0.96mm²।
গভীর স্নায়ু নেটওয়ার্ক, বিশেষত বৃহৎ ভাষা মডেল (LLM) এর আকারের দ্রুত বৃদ্ধির সাথে, শক্তি খরচ এবং গণনা বিলম্ব প্রধান স্থাপনার চ্যালেঞ্জ হয়ে ওঠে। সাধারণ ম্যাট্রিক্স গুণন (GEMM) সম্পূর্ণ-সংযুক্ত স্তর এবং মনোযোগ স্তরে প্রভাবশালী, এর গণনা বোঝা মডেল আকারের সাথে সমানুপাতিকভাবে বৃদ্ধি পায়।
অতি-নিম্ন বিট কোয়ান্টাইজেশন (যেমন BitNet-b1.58 এর ত্রিমূল্যবান ওজন {-1,0,1}) নির্ভুলতা বজায় রেখে দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে
নিম্ন-বিট কোয়ান্টাইজেশন LUT-ভিত্তিক ত্বরণ কৌশলকে সম্ভব করে তোলে, পূর্ব-গণনা এবং ফলাফল পুনর্ব্যবহারের মাধ্যমে
বিদ্যমান LUT পদ্ধতির সমস্যা:
Prosperity এবং অন্যান্য পদ্ধতি: গতিশীল সময়সূচী LUT নির্মাণ পথ উচ্চ হার্ডওয়্যার ওভারহেড তৈরি করে (24% চিপ এলাকা, 32.3% শক্তি সময়সূচী মডিউলের জন্য)
বিট-সিরিয়াল গণনার অদক্ষতা: ত্রিমূল্যবান ওজনের জন্য 2-বিট এনকোডিং ব্যবহার করে, তাত্ত্বিক সর্বোত্তম 1.58 বিট (log₂3) অতিক্রম করে, এবং আংশিক যোগফল একত্রিত করা অতিরিক্ত ওভারহেড তৈরি করে
পূর্ব-গণনা অসম্ভব: সমস্ত LUT এন্ট্রি অফলাইন পূর্ব-গণনা করতে বিশাল সঞ্চয়স্থান প্রয়োজন (8-বিট সক্রিয়করণ k=2 এর জন্য 4GB)
প্ল্যাটিনাম অ্যাক্সিলারেটর আর্কিটেকচার: একটি উপন্যাস LUT-ভিত্তিক mpGEMM অ্যাক্সিলারেটর ডিজাইন করা হয়েছে যা বিচ্ছিন্ন পথ-ভিত্তিক LUT নির্মাণ কাঠামো ব্যবহার করে, LUT উৎপাদন খরচ হ্রাস করে এবং হার্ডওয়্যার ওভারহেড কমায়
পথ স্ব-অভিযোজনশীল সম্পাদন: নির্মাণ পথ স্যুইচিংয়ের মাধ্যমে, সাধারণ পূর্ণসংখ্যা ওজনের বিট-সিরিয়াল সম্পাদন এবং নির্দিষ্ট নির্ভুলতার জন্য অপ্টিমাইজড সম্পাদন (যেমন ত্রিমূল্যবান ওজন) উভয়ই সমর্থন করে
সিস্টেম-স্তরের অপ্টিমাইজেশন ডিজাইন:
সমান্তরালতা এবং ডেটা প্রবাহের জন্য অপ্টিমাইজড আর্কিটেকচার
হালকা মডুলার ডিজাইন, প্রান্ত স্থাপনার জন্য উপযুক্ত
প্ল্যাটিনাম LUT-ভিত্তিক স্নায়ু নেটওয়ার্ক অ্যাক্সিলারেটর ডিজাইনে গুরুত্বপূর্ণ অগ্রগতি প্রতিনিধিত্ব করে। পথ উৎপাদনকে চতুরভাবে অফলাইনে বিচ্ছিন্ন করে, স্ব-অভিযোজনশীল সম্পাদন মোডের সাথে মিলিত, এটি হার্ডওয়্যার ওভারহেড, কর্মক্ষমতা এবং শক্তি দক্ষতার মধ্যে চমৎকার ভারসাম্য অর্জন করে। 73.6× ত্বরণ এবং 0.96mm² সংক্ষিপ্ত ডিজাইন এটিকে প্রান্ত LLM অনুমানের জন্য একটি শক্তিশালী সমাধান করে তোলে।
তবে, এই কাজটি স্পষ্ট সীমাবদ্ধতাও রয়েছে: নির্দিষ্ট মডেল (BitNet) এর উপর নির্ভরতা, সাধারণীকরণ উন্নতির জন্য অপেক্ষা করছে, এবং ওপেন-সোর্স বাস্তবায়ন অনুপস্থিত। ভবিষ্যত গবেষণা কম ওভারহেড বজায় রেখে অভিযোজনযোগ্যতা বৃদ্ধি করতে পারে, আরও বিস্তৃত কোয়ান্টাইজেশন স্কিম এবং মডেল আর্কিটেকচারে সম্প্রসারণ করতে পারে।
সামগ্রিকভাবে, এটি একটি উচ্চ-মানের কম্পিউটার আর্কিটেকচার পেপার, প্রযুক্তিগত উদ্ভাবন দৃঢ়, পরীক্ষা মূল্যায়ন ব্যাপক, নিম্ন-বিট স্নায়ু নেটওয়ার্ক ত্বরণের জন্য নতুন ডিজাইন প্যারাডাইম প্রদান করে। স্নায়ু নেটওয়ার্ক অ্যাক্সিলারেটর, কোয়ান্টাইজেশন অনুমান এবং প্রান্ত AI চিপ গবেষণায় নিয়োজিত পণ্ডিত এবং প্রকৌশলীদের কাছে পড়ার জন্য সুপারিশ করা হয়।