2025-12-01T05:34:19.512651

Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication

Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic

প্ল্যাটিনাম: পাথ-অ্যাডাপ্টেবল LUT-ভিত্তিক অ্যাক্সিলারেটর নিম্ন-বিট ওজন ম্যাট্রিক্স গুণনের জন্য তৈরি

মৌলিক তথ্য

  • পেপার আইডি: 2511.21910
  • শিরোনাম: প্ল্যাটিনাম: পাথ-অ্যাডাপ্টেবল LUT-ভিত্তিক অ্যাক্সিলারেটর নিম্ন-বিট ওজন ম্যাট্রিক্স গুণনের জন্য তৈরি
  • লেখক: হাওক্সুয়ান শান, কং গুও, চিয়ু ওয়েই, ফেং চেং, জুনিয়াও ঝাং, হাই (হেলেন) লি, ইরান চেন
  • প্রতিষ্ঠান: ডিউক বিশ্ববিদ্যালয়, বৈদ্যুতিক ও কম্পিউটার প্রকৌশল বিভাগ
  • শ্রেণীবিভাগ: cs.AR (কম্পিউটার আর্কিটেকচার)
  • প্রকাশনার সময়: 2025 সালের 26 নভেম্বর arXiv-এ জমা দেওয়া
  • পেপার লিঙ্ক: https://arxiv.org/abs/2511.21910

সারসংক্ষেপ

বৃহৎ ভাষা মডেলের দ্রুত সম্প্রসারণ হার্ডওয়্যার দক্ষতার উপর উচ্চতর চাহিদা আরোপ করে। কোয়ান্টাইজেশন প্রযুক্তি দক্ষতা এবং কর্মক্ষমতার মধ্যে প্রতিশ্রুতিশীল ভারসাম্য প্রদান করে। অতি-নিম্ন বিট কোয়ান্টাইজেশন ফলাফল পুনর্ব্যবহারের জন্য বিশাল সুযোগ তৈরি করে, যা লুকআপ টেবিল (LUT) ত্বরণের মাধ্যমে বাস্তবায়িত হতে পারে। তবে, বিদ্যমান LUT পদ্ধতিগুলি LUT নির্মাণে গণনা এবং হার্ডওয়্যার ওভারহেড নিয়ে সমস্যায় পড়ে এবং শুধুমাত্র বিট-সিরিয়াল গণনার উপর নির্ভর করে, যা ত্রিমূল্যবান ওজন নেটওয়ার্কের জন্য সর্বোত্তম নয়। এই পেপারটি প্ল্যাটিনাম উপস্থাপন করে, একটি হালকা ASIC অ্যাক্সিলারেটর যা পূর্ণসংখ্যা ওজন মিশ্র-নির্ভুলতা ম্যাট্রিক্স গুণনের (mpGEMM) জন্য। প্ল্যাটিনাম অফলাইন-উৎপাদিত নির্মাণ পথের মাধ্যমে LUT নির্মাণ ওভারহেড হ্রাস করে এবং স্ব-অভিযোজনশীল পথ স্যুইচিংয়ের মাধ্যমে সাধারণ বিট-সিরিয়াল এবং অপ্টিমাইজড ত্রিমূল্যবান ওজন সম্পাদন উভয়ই সমর্থন করে। BitNet b1.58-3B-তে, প্ল্যাটিনাম SpikingEyeriss, Prosperity এবং 16-থ্রেড T-MAC-এর তুলনায় যথাক্রমে 73.6×, 4.09× এবং 2.15× ত্বরণ অর্জন করে, শক্তি খরচ 32.4×, 3.23× এবং 20.9× হ্রাস করে, চিপ এলাকা মাত্র 0.96mm²।

গবেষণা পটভূমি এবং প্রেরণা

1. সমাধান করার মূল সমস্যা

গভীর স্নায়ু নেটওয়ার্ক, বিশেষত বৃহৎ ভাষা মডেল (LLM) এর আকারের দ্রুত বৃদ্ধির সাথে, শক্তি খরচ এবং গণনা বিলম্ব প্রধান স্থাপনার চ্যালেঞ্জ হয়ে ওঠে। সাধারণ ম্যাট্রিক্স গুণন (GEMM) সম্পূর্ণ-সংযুক্ত স্তর এবং মনোযোগ স্তরে প্রভাবশালী, এর গণনা বোঝা মডেল আকারের সাথে সমানুপাতিকভাবে বৃদ্ধি পায়।

2. সমস্যার গুরুত্ব

  • শক্তি দক্ষতার প্রয়োজনীয়তা: LLM অনুমান প্রান্ত ডিভাইসে দক্ষতার সাথে চলতে হবে
  • রিয়েল-টাইম প্রয়োজনীয়তা: গণনা বিলম্ব হ্রাস করা ব্যবহারকারীর অভিজ্ঞতার জন্য গুরুত্বপূর্ণ
  • হার্ডওয়্যার খরচ: সীমিত চিপ এলাকা এবং শক্তি বাজেটের মধ্যে উচ্চ কর্মক্ষমতা অর্জন করতে হবে

3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

কোয়ান্টাইজেশন প্রযুক্তির সুযোগ:

  • অতি-নিম্ন বিট কোয়ান্টাইজেশন (যেমন BitNet-b1.58 এর ত্রিমূল্যবান ওজন {-1,0,1}) নির্ভুলতা বজায় রেখে দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে
  • নিম্ন-বিট কোয়ান্টাইজেশন LUT-ভিত্তিক ত্বরণ কৌশলকে সম্ভব করে তোলে, পূর্ব-গণনা এবং ফলাফল পুনর্ব্যবহারের মাধ্যমে

বিদ্যমান LUT পদ্ধতির সমস্যা:

  • Prosperity এবং অন্যান্য পদ্ধতি: গতিশীল সময়সূচী LUT নির্মাণ পথ উচ্চ হার্ডওয়্যার ওভারহেড তৈরি করে (24% চিপ এলাকা, 32.3% শক্তি সময়সূচী মডিউলের জন্য)
  • বিট-সিরিয়াল গণনার অদক্ষতা: ত্রিমূল্যবান ওজনের জন্য 2-বিট এনকোডিং ব্যবহার করে, তাত্ত্বিক সর্বোত্তম 1.58 বিট (log₂3) অতিক্রম করে, এবং আংশিক যোগফল একত্রিত করা অতিরিক্ত ওভারহেড তৈরি করে
  • পূর্ব-গণনা অসম্ভব: সমস্ত LUT এন্ট্রি অফলাইন পূর্ব-গণনা করতে বিশাল সঞ্চয়স্থান প্রয়োজন (8-বিট সক্রিয়করণ k=2 এর জন্য 4GB)

4. গবেষণা প্রেরণা

  • BitNet এর মতো ওজন বিতরণ সমান মডেলের জন্য, বেশিরভাগ LUT এন্ট্রি ব্যবহার করা হয় (মাত্র 1.16% অব্যবহৃত), গতিশীল সময়সূচী ওভারহেড অপ্রয়োজনীয়
  • ত্রিমূল্যবান LUT সরাসরি চূড়ান্ত ফলাফল প্রতিনিধিত্ব করে, পরীক্ষা দেখায় বাইনারি LUT এর তুলনায় 1.3× এর বেশি কর্মক্ষমতা উন্নতি
  • একটি হালকা, উচ্চ শক্তি-দক্ষ বিশেষায়িত অ্যাক্সিলারেটর প্রয়োজন যা সাধারণ পূর্ণসংখ্যা ওজন এবং নির্দিষ্ট বিট-প্রস্থ অপ্টিমাইজেশন উভয়ই সমর্থন করে

মূল অবদান

  1. প্ল্যাটিনাম অ্যাক্সিলারেটর আর্কিটেকচার: একটি উপন্যাস LUT-ভিত্তিক mpGEMM অ্যাক্সিলারেটর ডিজাইন করা হয়েছে যা বিচ্ছিন্ন পথ-ভিত্তিক LUT নির্মাণ কাঠামো ব্যবহার করে, LUT উৎপাদন খরচ হ্রাস করে এবং হার্ডওয়্যার ওভারহেড কমায়
  2. পথ স্ব-অভিযোজনশীল সম্পাদন: নির্মাণ পথ স্যুইচিংয়ের মাধ্যমে, সাধারণ পূর্ণসংখ্যা ওজনের বিট-সিরিয়াল সম্পাদন এবং নির্দিষ্ট নির্ভুলতার জন্য অপ্টিমাইজড সম্পাদন (যেমন ত্রিমূল্যবান ওজন) উভয়ই সমর্থন করে
  3. সিস্টেম-স্তরের অপ্টিমাইজেশন ডিজাইন:
    • সমান্তরালতা এবং ডেটা প্রবাহের জন্য অপ্টিমাইজড আর্কিটেকচার
    • হালকা মডুলার ডিজাইন, প্রান্ত স্থাপনার জন্য উপযুক্ত
    • চিপ এলাকা মাত্র 0.96mm²
  4. উৎকর্ষ কর্মক্ষমতা প্রদর্শন: BitNet b1.58-3B-তে অর্জিত:
    • সর্বশেষ ভিত্তিরেখার তুলনায় 73.6× পর্যন্ত ত্বরণ
    • 32.4× শক্তি খরচ হ্রাস
    • LUT-ভিত্তিক ASIC প্রান্ত প্ল্যাটফর্মের জন্য অতি-নিম্ন বিট স্নায়ু নেটওয়ার্কের উচ্চ দক্ষ স্কেলেবল সমাধান হিসাবে সম্ভাবনা প্রমাণ করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

মিশ্র-নির্ভুলতা GEMM (mpGEMM):

  • ইনপুট: ওজন ম্যাট্রিক্স W (m×k, নিম্ন-বিট পূর্ণসংখ্যা), সক্রিয়করণ ম্যাট্রিক্স X (k×n, 8-বিট পূর্ণসংখ্যা)
  • আউটপুট: ফলাফল ম্যাট্রিক্স Y (m×n)
  • লক্ষ্য: Y = W·X দক্ষতার সাথে গণনা করা, বিশেষত ত্রিমূল্যবান ওজন পরিস্থিতির জন্য অপ্টিমাইজ করা

সামগ্রিক আর্কিটেকচার ডিজাইন

প্ল্যাটিনাম প্রসেসর উপাদান (চিত্র 3):

  1. L টি প্ল্যাটিনাম প্রসেসিং ইউনিট (PPE): প্রতিটিতে নিয়ন্ত্রক, যোগকারী এবং বিশেষায়িত LUT বাফার রয়েছে
  2. সমষ্টিকারী (Aggregator): PPE-তে যোগকারীগুলি ভাগ করে, অতিরিক্ত যোগকারীর সাথে মিলিত হয়ে পাইপলাইন যোগ গাছ গঠন করে
  3. উচ্চ-ব্যান্ডউইথ চিপ-অন বাফার: ওজন, ইনপুট, আউটপুট এবং নির্মাণ পথ বাফার অন্তর্ভুক্ত করে
  4. বিশেষ ফাংশন ইউনিট (SFU): GEMM-এর বাইরে অপারেশন সমর্থন করে (যেমন ভেক্টর গুণন, সক্রিয়করণ ফাংশন)

মূল পরামিতি:

  • L = 52টি PPE
  • প্রতিটি LUT এন্ট্রি 8-বিট (BitNet এর 8-বিট সক্রিয়করণের সাথে সংযুক্ত)
  • ত্রিমূল্যবান ওজনের জন্য chunk আকার c = 5 (128-এন্ট্রি LUT উৎপাদন করে)
  • প্রতিটি PPE ncols = 8 কলাম ইনপুট প্রক্রিয়া করে

LUT নির্মাণ পদ্ধতি উদ্ভাবন

1. অফলাইন পথ উৎপাদন (ন্যূনতম বিস্তৃত গাছ MST-এর উপর ভিত্তি করে)

সমস্যা মডেলিং:

  • LUT নির্মাণকে নির্দেশিত হাইপারগ্রাফ হিসাবে আনুষ্ঠানিক করা হয়
  • প্রতিটি নোড একটি LUT এন্ট্রি প্রতিনিধিত্ব করে
  • প্রতিটি হাইপার-এজ একটি গণনা অপারেশন প্রতিনিধিত্ব করে

MST অ্যালগরিদম প্রয়োগ:

উৎস নোড: lut[0] = 0
অপারেশন সীমাবদ্ধতা: শুধুমাত্র ইনপুট উপাদানের যোগ/বিয়োগ হতে পারে
লক্ষ্য: সমস্ত নোড সংযুক্ত করার ন্যূনতম খরচ পথ খুঁজে পাওয়া

সুবিধা:

  • সমরূপতা ব্যবহার করে LUT আকার ⌈3^c/2⌉-এ হ্রাস করে
  • c=5 এর জন্য, নিষ্পাপ নির্মাণের তুলনায় প্রায় 10× যোগ সংখ্যা হ্রাস করে
  • সঠিক ডেটা নির্ভরতা সম্পর্ক নিশ্চিত করে (টপোলজিক্যাল সর্টিং)
  • সর্বশেষ পড়া-পরে-লেখা (RAW) নির্ভরতা দূরত্ব পাইপলাইন স্তর অতিক্রম করে, অতিরিক্ত বিপদ পরিচালনার প্রয়োজন নেই

2. চার-স্তরের নির্মাণ পাইপলাইন (চিত্র 4)

পর্যায় 1: নির্মাণ পথ লোড করা (dst, src, j, sign)
পর্যায় 2: LUT পড়া + ইনপুট অ্যাক্সেস
পর্যায় 3: যোগকারী গণনা lut[src] ± a[j]
পর্যায় 4: LUT লেখা

পথ বিন্যাস:

(dst, src, j, flip) মানে lut[dst] = lut[src] ± aj

ত্রিমূল্যবান ওজন অপ্টিমাইজেশন

1. গণনা জটিলতা বিশ্লেষণ

বিট-সিরিয়াল পদ্ধতি (সমীকরণ 1):

#add_bs = [⌈K/c⌉·c·2^c + M·⌈K/c⌉ + M(⌈K/c⌉-1)]·N

ত্রিমূল্যবান LUT পদ্ধতি (সমীকরণ 2):

#add_ter = [⌈K/c⌉·c·3^c + M(⌈K/c⌉-1)]·N

প্ল্যাটিনাম অপ্টিমাইজেশন পদ্ধতি (সমীকরণ 3):

#add_platinum = [⌈K/c⌉·⌈3^c/2⌉ + M(⌈K/c⌉-1)]·N

মিরর একত্রিতকরণ (mirror consolidation) মাধ্যমে সমরূপতা ব্যবহার করে, LUT আকার এবং নির্মাণ খরচ হ্রাস করে।

2. সংক্ষিপ্ত ওজন এনকোডিং

সমস্যা:

  • 2-বিট এনকোডিং: তাত্ত্বিক সর্বোত্তম 1.58 বিট অনেক বেশি
  • বাইট সঞ্চয়স্থান: অত্যন্ত অপ্রয়োজনীয়

সমাধান:

  • প্রতিটি c ত্রিমূল্যবান ওজন base-3 পূর্ণসংখ্যায় প্যাক করা
  • ⌈log₂3^c⌉ বিট প্রয়োজন
  • সমরূপতা বজায় রাখতে 1টি চিহ্ন বিট এবং ⌈log₂3^c⌉-1 সূচক বিটে আরও বিভক্ত করা
  • c=5 এ সর্বোত্তম অর্জিত: 1.6 বিট/ওজন, ঠিক একটি বাইটে ফিট করে (চিত্র 6)

সূচক পুনর্বিন্যাস:

  • নির্মাণ পথের উপর ভিত্তি করে সূচক পুনর্বিন্যাস করা
  • LUT এন্ট্রি ক্রমিক অ্যাক্সেস নিশ্চিত করে
  • বিপদ সনাক্তকরণ হার্ডওয়্যারের প্রয়োজন নেই

সিস্টেম-স্তরের অপ্টিমাইজেশন

1. সমান্তরালতা ডিজাইন

N-মাত্রা সমান্তরালতা:

  • প্রতিটি PPE ইনপুট ব্লকের ncols=8 কলাম প্রক্রিয়া করে
  • ncols এর LUT ব্লক আকার নির্মাণ করা
  • প্রতিটি প্রশ্ন ncols আংশিক যোগফল প্রদান করে
  • Cacti 7.0 বিশ্লেষণ দেখায় ncols>8 এর পরে এলাকা দক্ষতা হ্রাস পায়

K এবং N-মাত্রা সমান্তরালতা:

  • L=52টি PE সমান্তরালে L·c × ncols ইনপুট প্রক্রিয়া করে
  • আংশিক যোগফল সরাসরি সংগ্রাহকের দিকে প্রবাহিত হয়, আউটপুট বাফার চাপ হ্রাস করে

2. ব্যবহার উন্নতি

সম্পদ ভারসাম্যহীনতা সমস্যা:

  • নির্মাণ পর্যায়: 1টি যোগকারী + 2টি LUT পোর্ট
  • প্রশ্ন পর্যায়: 2টি যোগকারী + 2টি LUT পোর্ট

সমাধান:

  • হ্রাস পর্যায়কে সম্পূর্ণভাবে সমর্থন করার জন্য অতিরিক্ত যোগকারী কনফিগার করা
  • LUT পোর্ট তাত্ত্বিক ব্যবহার হার প্রায় 100%
  • যোগকারী গড় ব্যবহার হার 90.5%

3. ডেটা খণ্ডীকরণ এবং বাসস্থান কৌশল

খণ্ড কনফিগারেশন (ডিজাইন স্থান অন্বেষণ, চিত্র 7):

  • m_tiled = 1080
  • k_tiled = 520
  • n_tiled = 32
  • mnk-স্থির কৌশল

চিপ-অন সঞ্চয়স্থান:

  • ওজন/আউটপুট/ইনপুট বাফারের জন্য 272KB
  • LUT এর জন্য 52KB
  • মোট 324KB চিপ-অন SRAM

পরীক্ষামূলক সেটআপ

ডেটাসেট এবং মডেল

BitNet-b1.58 মডেল স্যুট:

  • b1.58-l: 700M পরামিতি
  • b1.58-xl: 1.3B পরামিতি
  • b1.58-3B: 3B পরামিতি

কর্মভার:

  • Prefill পর্যায়: N=1024 (ব্যাচ আকার×ক্রম দৈর্ঘ্য)
  • Decode পর্যায়: N=8
  • BitLinear স্তর থেকে M এবং K মাত্রা নিষ্কাশন করা

হার্ডওয়্যার মডেলিং পদ্ধতি

RTL বাস্তবায়ন:

  • SystemVerilog-এ PPE বাস্তবায়ন
  • Synopsys Design Compiler সংশ্লেষণ
  • ARM মান কোষ লাইব্রেরি
  • 28nm প্রযুক্তি নোড
  • 500 MHz ফ্রিকোয়েন্সি

সঞ্চয়স্থান মডেলিং:

  • চিপ-অন SRAM: CACTI 7.0 মডেলিং
  • চিপ-বাইরে DRAM: DRAMsim3 মডেলিং
    • 64GB DDR4 2133R
    • সর্বাধিক ব্যান্ডউইথ 64GB/s

সিমুলেটর:

  • প্রসারিত ওপেন-সোর্স Prosperity সিমুলেটর
  • চক্র-নির্ভুল অনুকরণ
  • গণনা চক্র, মেমরি অ্যাক্সেস, PE কার্যকলাপ ক্যাপচার করে

তুলনা ভিত্তিরেখা

অ্যাক্সিলারেটরধরনফ্রিকোয়েন্সিপ্রযুক্তিPE সংখ্যাএলাকাথ্রুপুট
SpikingEyerissASIC500MHz28nm1681.07mm²20.8 GOP/s
ProsperityASIC500MHz28nm2561.06mm²375 GOP/s
T-MACCPU3490MHz5nm-289mm²715 GOP/s
প্ল্যাটিনামASIC500MHz28nm4160.955mm²1534 GOP/s

মূল্যায়ন মেট্রিক্স

  • কর্মক্ষমতা: বিলম্ব (ms), থ্রুপুট (GOP/s)
  • শক্তি দক্ষতা: মোট শক্তি খরচ (mJ), শক্তি দক্ষতা অনুপাত
  • হার্ডওয়্যার খরচ: চিপ এলাকা (mm²), শক্তি (W)

পরীক্ষামূলক ফলাফল

চিপ এলাকা এবং শক্তি বিয়োজন

এলাকা বিতরণ (মোট 0.96mm²):

  • ওজন এবং সক্রিয়করণ বাফার: 65%
  • LUT সহ সঞ্চয়স্থান: 83.3%
  • সমষ্টিকারী এবং PPE (মূল গণনা): 15%
  • অন্যান্য: 1.7%

শক্তি বিতরণ (b1.58-3B prefill, 3.2W):

  • DRAM অ্যাক্সেস: 53.5%
  • ওজন বাফার অ্যাক্সেস: 31.6%
  • LUT বাফার: তুলনামূলকভাবে কম
  • অন্যান্য: 14.9%

মূল অন্তর্দৃষ্টি:

  • সঞ্চয়স্থান চিপ এলাকা প্রভাবশালী, LUT পদ্ধতির এলাকা দক্ষতা তুলে ধরে
  • DRAM এবং ওজন অ্যাক্সেস শক্তি বোতলনেক, সংক্ষিপ্ত ওজন এনকোডিং গুরুত্বপূর্ণ
  • LUT শক্তি ওভারহেড কম, LUT গণনা প্যারাডাইমের উচ্চ দক্ষতা যাচাই করে

মূল-স্তরের কর্মক্ষমতা তুলনা

b1.58-3B মডেল কর্মক্ষমতা উন্নতি (চিত্র 8, চিত্র 9):

Prefill পর্যায় (N=1024):

  • vs SpikingEyeriss: 73.6× ত্বরণ, 32.4× শক্তি খরচ হ্রাস
  • vs Prosperity: 4.09× ত্বরণ, 3.23× শক্তি খরচ হ্রাস
  • vs T-MAC (16-থ্রেড): 2.15× ত্বরণ, 20.9× শক্তি খরচ হ্রাস
  • vs প্ল্যাটিনাম-bs (নিজস্ব বিট-সিরিয়াল): 1.4× ত্বরণ, 1.34× শক্তি খরচ হ্রাস

Decode পর্যায় (N=8):

  • vs SpikingEyeriss: 47.6× ত্বরণ, 18.4× শক্তি খরচ হ্রাস
  • vs Prosperity: 28.4× ত্বরণ, 15.3× শক্তি খরচ হ্রাস
  • vs T-MAC: 1.75× ত্বরণ, 15.0× শক্তি খরচ হ্রাস
  • vs প্ল্যাটিনাম-bs: 1.3× ত্বরণ, 1.31× শক্তি খরচ হ্রাস

কর্মক্ষমতা সুবিধা উৎস বিশ্লেষণ

1. অফলাইন পথ উৎপাদনের সুবিধা

  • চলমান সময়সূচী হার্ডওয়্যার ওভারহেড নির্মূল করে (Prosperity এর 24% এলাকা + 32.3% শক্তি)
  • PE এর জন্য আরও এলাকা, থ্রুপুট বৃদ্ধি
  • ওজন বিতরণ সমান মডেলের জন্য বিশেষভাবে কার্যকর (যেমন BitNet)

2. উচ্চ PE ব্যবহার হার

  • ncols=8 ডিজাইন কম N কর্মভারের অধীনে ব্যবহার হার নিশ্চিত করে
  • যোগকারী প্রতিলিপি LUT পোর্ট সম্পূর্ণভাবে ব্যবহার করে
  • Prosperity decode লোডের অধীনে PE ব্যবহার অপর্যাপ্ত

3. ত্রিমূল্যবান ওজন বিশেষায়িত অপ্টিমাইজেশন

  • বিট-সিরিয়াল মোডের তুলনায় 1.3-1.4× অতিরিক্ত ত্বরণ
  • 1.6 বিট/ওজন সংক্ষিপ্ত এনকোডিং
  • আংশিক যোগফল একত্রিতকরণ ওভারহেড এড়িয়ে সরাসরি টেবিল অনুসন্ধান

4. K-মাত্রা উচ্চ সমান্তরালতা

  • আউটপুট ডেটা DRAM অ্যাক্সেস ফ্রিকোয়েন্সি হ্রাস করে
  • আংশিক যোগফল সংগ্রাহকের দিকে স্ট্রিম করা

ক্রস-মডেল সামঞ্জস্য

তিনটি মডেলের গড় উন্নতি (চিত্র 10):

  • b1.58-l, b1.58-xl, b1.58-3B সামঞ্জস্যপূর্ণ কর্মক্ষমতা
  • Prefill এবং Decode পর্যায় উভয়ই ভিত্তিরেখা উল্লেখযোগ্যভাবে অতিক্রম করে
  • পদ্ধতির সার্বজনীনতা এবং স্কেলেবিলিটি প্রমাণ করে

যোগ সংখ্যা অপ্টিমাইজেশন প্রভাব

চিত্র 5 বিশ্লেষণ:

  • বিভিন্ন LUT আকারের (16-128 এন্ট্রি) যোগ সংখ্যা তুলনা
  • প্ল্যাটিনাম সমস্ত chunk আকারে সর্বনিম্ন যোগ সংখ্যা অর্জন করে
  • c=5 এ সুবিধা সবচেয়ে স্পষ্ট (ত্রিমূল্যবান LUT এবং মিরর একত্রিতকরণের সাথে মিলিত)

এনকোডিং দক্ষতা

চিত্র 6 বিশ্লেষণ:

  • Pack আকার c=5 সর্বোত্তম 1.6 বিট/পরামিতি অর্জন করে
  • তাত্ত্বিক সর্বোত্তম 1.58 বিটের কাছাকাছি
  • 2-বিট এনকোডিং (T-MAC ইত্যাদি) থেকে অনেক ভাল

সম্পর্কিত কাজ

1. কোয়ান্টাইজেশন প্রযুক্তি

  • নিম্ন-বিট কোয়ান্টাইজেশন: ANT, Olive, FP8-LM ইত্যাদি আক্রমণাত্মক কোয়ান্টাইজেশন অন্বেষণ করে
  • ওজন-বিশেষ কোয়ান্টাইজেশন: AWQ, GPTQ, BitNet সিরিজ
  • BitNet-b1.58: ত্রিমূল্যবান ওজন {-1,0,1} দক্ষতা এবং নির্ভুলতার ভারসাম্য রাখে

2. LUT-ভিত্তিক ত্বরণ

  • BIQGEMM: বাইনারি ওজনের জন্য গতিশীল প্রোগ্রামিং পদ্ধতি
  • Prosperity: গতিশীল "শর্টকাট" সনাক্তকরণ, কিন্তু উচ্চ হার্ডওয়্যার ওভারহেড
  • T-MAC: CPU-তে টেবিল অনুসন্ধান পদ্ধতি
  • LUT-GEMM, LUT Tensor Core: নিম্ন-বিট LLM-তে LUT অন্বেষণ করে
  • Bitnet.cpp: CPU বাস্তবায়ন, অনুরূপ ওজন এনকোডিং কৌশল

এই কাজের সুবিধা:

  • পথ উৎপাদন অফলাইনে বিচ্ছিন্ন করার প্রথম ASIC ডিজাইন
  • সাধারণ এবং নির্দিষ্ট নির্ভুলতা অপ্টিমাইজেশন উভয়ই সমর্থন করে
  • সর্বনিম্ন হার্ডওয়্যার ওভারহেড, সর্বোত্তম কর্মক্ষমতা

3. স্নায়ু নেটওয়ার্ক অ্যাক্সিলারেটর

  • Eyeriss: শক্তি-দক্ষ DNN অ্যাক্সিলারেটর
  • SpinalFlow: স্পাইকিং স্নায়ু নেটওয়ার্ক ডেটা প্রবাহ
  • BitMod: মিশ্র ডেটা ধরন বিট-সিরিয়াল ত্বরণ

এই কাজের অবস্থান: অতি-নিম্ন বিট ওজনের LUT-ভিত্তিক ASIC-তে ফোকাস করে, প্রান্ত LLM অনুমানের জন্য লক্ষ্য করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. প্ল্যাটিনাম সফলভাবে উচ্চ-দক্ষ LUT-ভিত্তিক ত্বরণ বাস্তবায়ন করে:
    • অফলাইন পথ উৎপাদনের মাধ্যমে চলমান সময়সূচী ওভারহেড নির্মূল করে
    • 0.96mm² চিপ এলাকায় 1534 GOP/s থ্রুপুট অর্জন করে
    • সর্বশেষ ভিত্তিরেখার তুলনায় 73.6× ত্বরণ এবং 32.4× শক্তি খরচ হ্রাস
  2. পথ স্ব-অভিযোজনশীল ডিজাইনের কার্যকারিতা:
    • সাধারণ বিট-সিরিয়াল এবং ত্রিমূল্যবান অপ্টিমাইজেশন উভয় মোড সমর্থন করে
    • ত্রিমূল্যবান অপ্টিমাইজেশন অতিরিক্ত 1.3-1.4× কর্মক্ষমতা উন্নতি নিয়ে আসে
    • নমনীয়তা এবং বিশেষত্বের ভাল ভারসাম্য
  3. প্রান্ত স্থাপনার সম্ভাবনা:
    • হালকা মডুলার ডিজাইন
    • উচ্চ শক্তি দক্ষতা অনুপাত প্রান্ত প্ল্যাটফর্মের জন্য উপযুক্ত
    • অতি-নিম্ন বিট স্নায়ু নেটওয়ার্কের জন্য স্কেলেবল সমাধান প্রদান করে

সীমাবদ্ধতা

1. মডেল প্রযোজ্যতা পরিসীমা

  • প্রধানত BitNet-শ্রেণীর মডেলের জন্য: ওজন বিতরণ সমান, বেশিরভাগ LUT এন্ট্রি ব্যবহৃত
  • অ-সমান বিতরণের সীমাবদ্ধতা: বিরল বা অ-সমান ওজন বিতরণের জন্য, অফলাইন পথ সর্বোত্তম নাও হতে পারে
  • নির্দিষ্ট chunk আকার: c=5 ত্রিমূল্যবান ওজনের জন্য অপ্টিমাইজ করা, অন্যান্য বিট-প্রস্থ সমন্বয় প্রয়োজন হতে পারে

2. নির্ভুলতা সমর্থন

  • বর্তমান সীমাবদ্ধতা 8-বিট সক্রিয়করণ: যদিও LUT এন্ট্রি স্কেলেবল, উচ্চতর নির্ভুলতা সম্পূর্ণভাবে অন্বেষণ করা হয়নি
  • পূর্ণসংখ্যা কোয়ান্টাইজেশন অনুমান: ফ্লোটিং-পয়েন্ট বা মিশ্র-নির্ভুলতা সক্রিয়করণ সমর্থন করে না

3. মেমরি ব্যান্ডউইথ বোতলনেক

  • DRAM অ্যাক্সেস 53.5% শক্তি দখল করে: অপ্টিমাইজেশনের জন্য এখনও স্থান রয়েছে
  • ওজন বাফার অ্যাক্সেস 31.6% শক্তি: বড় মডেল চিপ-অন সঞ্চয়স্থান চাপের সম্মুখীন হতে পারে

4. সার্বজনীনতা ট্রেড-অফ

  • SFU শুধুমাত্র ওভারহেড হিসাবে: এই কাজ GEMM-তে ফোকাস করে, অন্যান্য অপারেশন সমর্থন সীমিত
  • অফলাইন এনকোডিং প্রয়োজন: স্থাপনা প্রক্রিয়া প্রাক-প্রক্রিয়াকরণ পদক্ষেপ যোগ করে

ভবিষ্যত দিকনির্দেশনা

1. আরও মডেলে সম্প্রসারণ

  • অ-সমান ওজন বিতরণের জন্য স্ব-অভিযোজনশীল পথ উৎপাদন অন্বেষণ করা
  • আরও কোয়ান্টাইজেশন স্কিম সমর্থন করা (যেমন 4-বিট, মিশ্র-নির্ভুলতা)

2. সিস্টেম-স্তরের অপ্টিমাইজেশন

  • আরও দক্ষ মেমরি শ্রেণীবিন্যাস কাঠামো গবেষণা করা
  • ব্যান্ডউইথ প্রয়োজনীয়তা আরও হ্রাস করতে চিপ-অন সংকোচন প্রযুক্তি অন্বেষণ করা

3. গতিশীল এবং স্থির হাইব্রিড

  • কম ওভারহেড বজায় রেখে হালকা গতিশীল সমন্বয় প্রবর্তন করা
  • বিভিন্ন স্তর বৈশিষ্ট্যের জন্য স্ব-অভিযোজনশীলভাবে পথ নির্বাচন করা

4. অন্যান্য অপারেশনে সম্প্রসারণ

  • সম্পূর্ণ LLM অনুমান সমর্থন করতে SFU সম্পূর্ণভাবে ব্যবহার করা
  • মনোযোগ প্রক্রিয়ায় LUT পদ্ধতির প্রয়োগ অন্বেষণ করা

গভীর মূল্যায়ন

সুবিধা

1. পদ্ধতি উদ্ভাবনী ⭐⭐⭐⭐⭐

  • মূল উদ্ভাবন স্পষ্ট: অফলাইন পথ উৎপাদন + স্ব-অভিযোজনশীল সম্পাদনের সমন্বয় মূল
  • তাত্ত্বিক ভিত্তি দৃঢ়: MST মডেলিং LUT নির্মাণ সমস্যা, গাণিতিকভাবে মার্জিত
  • প্রকৌশল বাস্তবায়ন চতুর:
    • মিরর একত্রিতকরণ সমরূপতা ব্যবহার করে
    • সংক্ষিপ্ত এনকোডিং তাত্ত্বিক সর্বোত্তমের কাছাকাছি
    • চার-স্তরের পাইপলাইন বিপদ এড়ায়

2. পরীক্ষা সম্পূর্ণতা ⭐⭐⭐⭐⭐

  • ব্যাপক ভিত্তিরেখা তুলনা: ASIC (Eyeriss, Prosperity) এবং CPU (T-MAC)
  • বহু-মডেল যাচাইকরণ: তিনটি ভিন্ন আকারের BitNet মডেল
  • বহু-পরিস্থিতি মূল্যায়ন: Prefill এবং Decode পর্যায়
  • বিস্তারিত হার্ডওয়্যার মডেলিং: RTL সংশ্লেষণ + CACTI + DRAMsim3
  • অপসারণ গবেষণা: প্ল্যাটিনাম বনাম প্ল্যাটিনাম-bs ত্রিমূল্যবান অপ্টিমাইজেশন যাচাই করে

3. ফলাফল প্রভাবশালীতা ⭐⭐⭐⭐⭐

  • উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: 73.6× ত্বরণ প্রান্তিক উন্নতি নয়
  • স্পষ্ট শক্তি দক্ষতা সুবিধা: 32.4× শক্তি খরচ হ্রাস প্রান্ত স্থাপনার জন্য গুরুত্বপূর্ণ
  • যুক্তিসঙ্গত হার্ডওয়্যার খরচ: 0.96mm² 28nm প্রযুক্তিতে অত্যন্ত সংক্ষিপ্ত
  • ডেটা স্বচ্ছতা: বিস্তারিত এলাকা, শক্তি বিয়োজন প্রদান করে

4. লেখার স্পষ্টতা ⭐⭐⭐⭐

  • যুক্তিসঙ্গত কাঠামো: পটভূমি → পদ্ধতি → পরীক্ষা যুক্তি স্পষ্ট
  • সমৃদ্ধ চার্ট: 9টি চিত্র কার্যকরভাবে যুক্তি সমর্থন করে
  • সম্পূর্ণ প্রযুক্তিগত বিবরণ: অ্যালগরিদম সিউডোকোড, সূত্র অনুমান সম্পূর্ণ
  • কিছুটা ঘন: কিছু অধ্যায় তথ্য-সমৃদ্ধ, সাবধানে পড়া প্রয়োজন

অপূর্ণতা

1. পদ্ধতি সীমাবদ্ধতা

  • অফলাইন পথের কঠোরতা: চলমান পরিবর্তন অভিযোজন করতে পারে না, অ-সমান বিতরণ মডেলের জন্য সাব-অপ্টিমাল হতে পারে
  • chunk আকার নির্দিষ্ট: c=5 ত্রিমূল্যবান অপ্টিমাইজেশনের জন্য, অন্যান্য কনফিগারেশনের গভীর অন্বেষণ অনুপস্থিত
  • সাধারণীকরণ অপর্যাপ্তভাবে যাচাই: শুধুমাত্র BitNet-এ পরীক্ষিত, অন্যান্য নিম্ন-বিট মডেল (যেমন 4-বিট) প্রভাব অজানা

2. পরীক্ষা সেটআপ

  • ভিত্তিরেখা ন্যায্যতা:
    • Prosperity এলাকা মেলাতে স্কেল করা, এর সর্বোত্তম কনফিগারেশন প্রভাবিত করতে পারে
    • T-MAC 5nm প্রযুক্তিতে, প্রযুক্তি নোড পার্থক্য বড়
    • SpikingEyeriss পুরানো ডিজাইন যুগ (2016)
  • GPU তুলনা অনুপস্থিত: আধুনিক GPU (যেমন A100, H100) এর সাথে তুলনা করা হয়নি
  • শক্তি পরীক্ষা পরিস্থিতি একক: শুধুমাত্র prefill এর 3.2W রিপোর্ট করে, decode শক্তি বিস্তারিত নয়

3. বিশ্লেষণ গভীরতা

  • PE ব্যবহার হার: 90.5% দাবি কিন্তু বিস্তারিত বিশ্লেষণ অনুপস্থিত
  • মেমরি অ্যাক্সেস প্যাটার্ন: DRAM ব্যান্ডউইথ ব্যবহার হারের গভীর আলোচনা অনুপস্থিত
  • স্কেলেবিলিটি: L=52 নির্বাচন অপর্যাপ্ত ন্যায্যতা, বৃহত্তর স্কেল সিস্টেম কর্মক্ষমতা অজানা
  • তাপমাত্রা এবং নির্ভরযোগ্যতা: তাপীয় ডিজাইন এবং দীর্ঘমেয়াদী নির্ভরযোগ্যতা আলোচনা করা হয়নি

4. ব্যবহারিক বিবেচনা

  • স্থাপনা জটিলতা: অফলাইন এনকোডিং এবং পথ উৎপাদন স্থাপনা প্রক্রিয়া জটিল করে
  • মডেল অভিযোজন: বিভিন্ন মডেলের জন্য পথ পুনর্জন্ম প্রয়োজন
  • ওপেন-সোর্স পরিকল্পনা: কোড এবং হার্ডওয়্যার ডিজাইন ওপেন-সোর্স সম্পর্কে উল্লেখ করা হয়নি, পুনরুৎপাদনযোগ্যতা সন্দেহজনক

প্রভাব মূল্যায়ন

1. একাডেমিক অবদান ⭐⭐⭐⭐

  • অগ্রগামী কাজ: LUT নির্মাণ ওভারহেড সমাধানের প্রথম সিস্টেমেটিক ASIC ডিজাইন
  • পদ্ধতি মূল্য: MST মডেলিং অন্যান্য অ্যাক্সিলারেটর ডিজাইন অনুপ্রাণিত করতে পারে
  • উদ্ধৃতি সম্ভাবনা: LUT-ভিত্তিক ত্বরণ এবং নিম্ন-বিট অনুমান ক্ষেত্রে উচ্চ উদ্ধৃতি প্রত্যাশিত

2. ব্যবহারিক মূল্য ⭐⭐⭐⭐

  • প্রান্ত স্থাপনা: 0.96mm² এবং উচ্চ শক্তি দক্ষতা প্রান্ত AI চিপের জন্য অত্যন্ত উপযুক্ত
  • বাণিজ্যিক সম্ভাবনা: BitNet এর মতো ত্রিমূল্যবান মডেলের জনপ্রিয়তা বাস্তব প্রয়োগ পরিস্থিতি তৈরি করে
  • প্রযুক্তি পরিপক্কতা: পরিপক্ক 28nm প্রযুক্তির উপর ভিত্তি করে, দ্রুত চিপ যাচাইকরণ সম্ভব
  • সীমাবদ্ধতা: নির্দিষ্ট মডেল বৈশিষ্ট্যের উপর নির্ভরশীল, সার্বজনীনতা উন্নতির জন্য অপেক্ষা করছে

3. পুনরুৎপাদনযোগ্যতা ⭐⭐⭐

  • হার্ডওয়্যার বিবরণ পর্যাপ্ত: RTL বাস্তবায়ন, সংশ্লেষণ পরামিতি, সঞ্চয়স্থান কনফিগারেশন বিস্তারিত
  • অ্যালগরিদম স্পষ্ট: সিউডোকোড এবং সূত্র সম্পূর্ণ
  • টুলচেইন স্পষ্ট: Synopsys DC, CACTI 7.0, DRAMsim3
  • অনুপস্থিত উপাদান:
    • ওপেন-সোর্স কোড বা RTL প্রদান করা হয়নি
    • ওজন এনকোডিং নির্দিষ্ট বাস্তবায়ন বিবরণ অপর্যাপ্ত
    • পথ উৎপাদন অ্যালগরিদম সম্পূর্ণ বাস্তবায়ন প্রকাশ করা হয়নি

প্রযোজ্য পরিস্থিতি

আদর্শ পরিস্থিতি ✅

  1. BitNet-শ্রেণীর ত্রিমূল্যবান ওজন মডেল অনুমান: সর্বোত্তম কর্মক্ষমতা
  2. প্রান্ত ডিভাইস LLM স্থাপনা: এলাকা এবং শক্তি সীমাবদ্ধতা কঠোর
  3. ব্যাচ অনুমান কাজ: Prefill পর্যায় সুবিধা স্পষ্ট
  4. সমান ওজন বিতরণ মডেল: LUT ব্যবহার হার উচ্চ

উপযুক্ত পরিস্থিতি ⚠️

  1. সাধারণ নিম্ন-বিট (2-4 বিট) পূর্ণসংখ্যা ওজন মডেল: বিট-সিরিয়াল মোড মাধ্যমে সমর্থিত
  2. মধ্যম আকারের মডেল (1-3B): পরীক্ষা যাচাইকৃত পরিসীমা
  3. নির্দিষ্ট মডেল অনুমান: অফলাইন অপ্টিমাইজেশন সম্পূর্ণভাবে ব্যবহার করতে পারে

অনুপযুক্ত পরিস্থিতি ❌

  1. ফ্লোটিং-পয়েন্ট বা মিশ্র-নির্ভুলতা মডেল: বর্তমান ডিজাইন সমর্থন করে না
  2. গতিশীল ওজন বা অনলাইন শিক্ষা: অফলাইন পথ অভিযোজন করতে পারে না
  3. অত্যন্ত বড় মডেল (>10B): চিপ-অন সঞ্চয়স্থান অপর্যাপ্ত হতে পারে
  4. অত্যন্ত বিরল বা অ-সমান ওজন বিতরণ: LUT ব্যবহার হার কম

ক্ষেত্রের জন্য অন্তর্দৃষ্টি

  1. হার্ডওয়্যার-সফটওয়্যার সহ-ডিজাইন: অফলাইন অপ্টিমাইজেশন এবং চলমান সম্পাদনের ভারসাম্য
  2. বিশেষায়িত বনাম সাধারণ ভারসাম্য: পথ স্যুইচিং নমনীয়তা বাস্তবায়ন করে
  3. সঞ্চয়স্থান-কেন্দ্রিক ডিজাইন: LUT পদ্ধতিতে সঞ্চয়স্থান আর্কিটেকচারের গুরুত্ব
  4. কোয়ান্টাইজেশন পদ্ধতি এবং হার্ডওয়্যার মিলন: ত্রিমূল্যবান ওজন এবং LUT এর প্রাকৃতিক সামঞ্জস্য

সংদর্ভ (নির্বাচিত)

  1. BitNet-b1.58 13: Ma et al., "The era of 1-bit llms: All large language models are in 1.58 bits"
  2. T-MAC 14: Wei et al., "T-MAC: CPU renaissance via table lookup for low-bit LLM deployment on edge"
  3. Prosperity 24: Wei et al., "Prosperity: Accelerating spiking neural networks via product sparsity"
  4. BIQGEMM 18: Jeon et al., "Biqgemm: matrix multiplication with lookup table for binary-coding-based quantized dnns"
  5. Eyeriss 27: Chen et al., "Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks"

সারসংক্ষেপ

প্ল্যাটিনাম LUT-ভিত্তিক স্নায়ু নেটওয়ার্ক অ্যাক্সিলারেটর ডিজাইনে গুরুত্বপূর্ণ অগ্রগতি প্রতিনিধিত্ব করে। পথ উৎপাদনকে চতুরভাবে অফলাইনে বিচ্ছিন্ন করে, স্ব-অভিযোজনশীল সম্পাদন মোডের সাথে মিলিত, এটি হার্ডওয়্যার ওভারহেড, কর্মক্ষমতা এবং শক্তি দক্ষতার মধ্যে চমৎকার ভারসাম্য অর্জন করে। 73.6× ত্বরণ এবং 0.96mm² সংক্ষিপ্ত ডিজাইন এটিকে প্রান্ত LLM অনুমানের জন্য একটি শক্তিশালী সমাধান করে তোলে।

তবে, এই কাজটি স্পষ্ট সীমাবদ্ধতাও রয়েছে: নির্দিষ্ট মডেল (BitNet) এর উপর নির্ভরতা, সাধারণীকরণ উন্নতির জন্য অপেক্ষা করছে, এবং ওপেন-সোর্স বাস্তবায়ন অনুপস্থিত। ভবিষ্যত গবেষণা কম ওভারহেড বজায় রেখে অভিযোজনযোগ্যতা বৃদ্ধি করতে পারে, আরও বিস্তৃত কোয়ান্টাইজেশন স্কিম এবং মডেল আর্কিটেকচারে সম্প্রসারণ করতে পারে।

সামগ্রিকভাবে, এটি একটি উচ্চ-মানের কম্পিউটার আর্কিটেকচার পেপার, প্রযুক্তিগত উদ্ভাবন দৃঢ়, পরীক্ষা মূল্যায়ন ব্যাপক, নিম্ন-বিট স্নায়ু নেটওয়ার্ক ত্বরণের জন্য নতুন ডিজাইন প্যারাডাইম প্রদান করে। স্নায়ু নেটওয়ার্ক অ্যাক্সিলারেটর, কোয়ান্টাইজেশন অনুমান এবং প্রান্ত AI চিপ গবেষণায় নিয়োজিত পণ্ডিত এবং প্রকৌশলীদের কাছে পড়ার জন্য সুপারিশ করা হয়।