The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
論文ID : 2511.21910タイトル : Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication著者 : Haoxuan Shan, Cong Guo, Chiyue Wei, Feng Cheng, Junyao Zhang, Hai (Helen) Li, Yiran Chen所属機関 : Duke University, Department of Electrical and Computer Engineering分類 : cs.AR(コンピュータアーキテクチャ)投稿日 : 2025年11月26日(arXivへ)論文リンク : https://arxiv.org/abs/2511.21910 大規模言語モデル(LLM)の急速な拡大により、ハードウェア効率に対する要求が高まっています。量子化技術は効率と性能の間で有望なトレードオフを提供します。超低ビット量子化は結果の再利用に多くの機会を生み出し、ルックアップテーブル(LUT)加速により実装できます。しかし、既存のLUT方法はLUT構築にかかる計算およびハードウェアオーバーヘッドに問題があり、ビットシリアル計算のみに依存しているため、三値重みネットワークには最適ではありません。本論文ではPlatinumを提案します。これは整数重み混合精度行列乗算(mpGEMM)向けの軽量ASICアクセラレータです。Platinumはオフライン生成された構築パスによってLUT構築オーバーヘッドを削減し、自適応パス切り替えにより汎用ビットシリアルと最適化された三値重み実行の両方をサポートします。BitNet b1.58-3Bでは、Platinumはそれぞれ73.6×、4.09×、2.15×の加速を達成し、SpikingEyeriss、Prosperity、16スレッドT-MACと比較して、エネルギー消費を32.4×、3.23×、20.9×削減し、チップ面積はわずか0.96mm²です。
深層ニューラルネットワーク、特に大規模言語モデル(LLM)の規模が急速に増加するにつれて、消費電力と計算遅延が主要な展開課題となっています。汎用行列乗算(GEMM)は全結合層と注意層で支配的であり、その計算負荷はモデル規模に比例して増加します。
エネルギー効率の要求 :LLMの推論はエッジデバイス上で効率的に実行される必要がありますリアルタイム性の要求 :計算遅延の削減はユーザー体験に不可欠ですハードウェアコスト :限定されたチップ面積と電力予算内で高性能を実現する必要があります量子化技術の機会 :
超低ビット量子化(BitNet-b1.58の三値重み{-1,0,1}など)は精度を維持しながら効率を大幅に向上させます 低ビット量子化により、結果の事前計算と再利用を通じてLUTベースの加速戦略が可能になります 既存LUT方法の問題 :
Prosperityなどの方法 :動的スケジューリングされたLUT構築パスにより高いハードウェアオーバーヘッド(チップ面積の24%、電力の32.3%がスケジューリングモジュールに使用)ビットシリアル計算の非効率性 :三値重みに2ビットエンコーディングを使用し、理論的最適値の1.58ビット(log₂3)を超過し、部分和の統合により追加オーバーヘッドが発生事前計算の実行不可能性 :すべてのLUTエントリをオフラインで事前計算するには膨大なストレージが必要(8ビット活性化、k=2の場合4GB)BitNetのような重み分布が均一なモデルでは、ほとんどのLUTエントリが使用されます(未使用は1.16%のみ)。動的スケジューリングオーバーヘッドは不要です 三値LUTは最終結果を直接表現し、実験では二進LUTと比較して1.3倍以上の性能向上を示しています 汎用整数重みと特定ビット幅最適化の両方をサポートする軽量で高エネルギー効率の専用アクセラレータが必要です Platinumアクセラレータアーキテクチャ :分離されたパスベースのLUT構築フレームワークを採用した新規なLUTベースmpGEMM加速器を設計し、LUT生成コストを削減し、ハードウェアオーバーヘッドを最小化しますパス自適応実行 :構築パスの切り替えにより、汎用整数重みのビットシリアル実行と特定精度(三値重みなど)の最適化実行をサポートしますシステムレベルの最適化設計 :並列性とデータフローの最適化されたアーキテクチャ エッジ展開に適した軽量モジュール設計 チップ面積わずか0.96mm² 優れた性能 :BitNet b1.58-3Bで実現:最先端ベースラインと比較して最大73.6×の加速 32.4×のエネルギー消費削減 LUTベースASICがエッジプラットフォーム向け超低ビットニューラルネットワークの高効率スケーラブルソリューションであることを実証 混合精度GEMM(mpGEMM) :
入力 :重み行列W(m×k、低ビット整数)、活性化行列X(k×n、8ビット整数)出力 :結果行列Y(m×n)目標 :Y = W·Xを効率的に計算し、特に三値重みシナリオに最適化Platinumプロセッサの構成 (図3):
L個のPlatinumプロセッシング要素(PPE) :各々がコントローラ、加算器、専用LUTバッファを含むアグリゲータ(Aggregator) :PPE内の加算器を共有し、追加加算器と組み合わせてパイプライン加算ツリーを形成高帯域幅オンチップバッファ :重み、入力、出力、構築パスバッファを含む特殊機能ユニット(SFU) :GEMM以外の操作(ベクトル乗算、活性化関数など)をサポート主要パラメータ :
L = 52個のPPE 各LUTエントリ8ビット(BitNetの8ビット活性化に合わせる) 三値重みのチャンクサイズ c = 5(128エントリLUTを生成) 各PPEが処理する入力列 ncols = 8 問題のモデル化 :
LUT構築を有向ハイパーグラフとして形式化 各ノードはLUTエントリを表現 各ハイパーエッジは計算操作を表現 MST アルゴリズムの適用 :
ソースノード:lut[0] = 0
操作制約:入力要素の加算/減算のみ可能
目標:すべてのノードを接続する最小コストパスを検出
利点 :
対称性を利用してLUTサイズを⌈3^c/2⌉に削減 c=5の場合、素朴な構築と比較して約10倍の加算回数削減 正しいデータ依存関係を保証(トポロジカルソート) 最短読み後書き(RAW)依存距離がパイプラインステージ数を超過し、追加ハザード処理が不要 ステージ1:構築パスをロード (dst, src, j, sign)
ステージ2:LUT読み取り + 入力アクセス
ステージ3:加算器計算 lut[src] ± a[j]
ステージ4:LUT書き戻し
パスフォーマット :
(dst, src, j, flip) は lut[dst] = lut[src] ± aj を表現
ビットシリアル方法 (式1):
#add_bs = [⌈K/c⌉·c·2^c + M·⌈K/c⌉ + M(⌈K/c⌉-1)]·N
三値LUT方法 (式2):
#add_ter = [⌈K/c⌉·c·3^c + M(⌈K/c⌉-1)]·N
Platinum最適化方法 (式3):
#add_platinum = [⌈K/c⌉·⌈3^c/2⌉ + M(⌈K/c⌉-1)]·N
ミラー統合(mirror consolidation)により対称性を利用し、LUTサイズと構築コストを削減します。
問題 :
2ビットエンコーディング:理論的最適値1.58ビットを大幅に超過 バイトストレージ:極度に冗長 ソリューション :
c個の三値重みを基数3整数にパック ⌈log₂3^c⌉ビットが必要 対称性を保つため1つの符号ビットと⌈log₂3^c⌉-1個のインデックスビットに分割 c=5の場合に最適:1.6ビット/重み、ちょうど1バイトに収まる(図6) インデックス再配列 :
構築パスに基づいてインデックスを再配列 LUTエントリの順序アクセスを保証 ハザード検出ハードウェアが不要 N次元並列化 :
各PPEが入力ブロックの8列(ncols=8)を処理 構築ブロックサイズはncolsのLUT 各クエリはncols個の部分和を返す Cacti 7.0分析ではncols>8後に面積効率が低下 K およびN次元並列化 :
L=52個のPEが並列してL·c × ncols入力を処理 部分和は直接アキュムレータにストリーミング、出力バッファ圧力を低減 リソース不均衡の問題 :
構築フェーズ:1個の加算器 + 2個のLUTポート クエリフェーズ:2個の加算器 + 2個のLUTポート ソリューション :
削減フェーズを十分にサポートするための追加加算器を構成 LUTポート理論利用率はほぼ100% 加算器平均利用率90.5% 分割構成 (設計空間探索、図7):
m_tiled = 1080 k_tiled = 520 n_tiled = 32 mnk-stationary戦略 オンチップストレージ :
重み/出力/入力バッファに272KB LUTに52KB 合計324KBのオンチップSRAM BitNetb1.58モデルスイート :
b1.58-l : 700Mパラメータb1.58-xl : 1.3Bパラメータb1.58-3B : 3Bパラメータワークロード :
プリフィルフェーズ : N=1024(バッチサイズ×シーケンス長)デコードフェーズ : N=8BitLinearレイヤーからM およびK次元を抽出 RTL実装 :
SystemVerilogでPPEを実装 Synopsys Design Compilerで総合 ARM標準セルライブラリ 28nmプロセス技術 500 MHz周波数 ストレージモデリング :
オンチップSRAM : CACTI 7.0でモデリングオフチップDRAM : DRAMsim3でモデリング
64GB DDR4 2133R 最大帯域幅64GB/s シミュレータ :
オープンソースProsperityシミュレータを拡張 サイクル精密シミュレーション 計算サイクル、メモリアクセス、PE活動をキャプチャ アクセラレータ タイプ 周波数 プロセス PE数 面積 スループット SpikingEyeriss ASIC 500MHz 28nm 168 1.07mm² 20.8 GOP/s Prosperity ASIC 500MHz 28nm 256 1.06mm² 375 GOP/s T-MAC CPU 3490MHz 5nm - 289mm² 715 GOP/s Platinum ASIC 500MHz 28nm 416 0.955mm² 1534 GOP/s
性能 : レイテンシ(ms)、スループット(GOP/s)エネルギー効率 : 総エネルギー消費(mJ)、エネルギー効率比ハードウェアコスト : チップ面積(mm²)、電力(W)面積分布(合計0.96mm²) :
重みと活性化バッファ:65% LUT後のストレージを含む:83.3% アグリゲータとPPE(コア計算):15% その他:1.7% 電力分布(b1.58-3B プリフィル、3.2W) :
DRAMアクセス:53.5% 重みバッファアクセス:31.6% LUTバッファ:相対的に低い その他:14.9% 主要な洞察 :
ストレージがチップ面積を支配し、LUT方法の面積効率を強調 DRAMと重みアクセスがエネルギー消費のボトルネック、コンパクト重みエンコーディングが重要 LUT電力オーバーヘッドが低く、LUT計算パラダイムの高効率性を検証 b1.58-3Bモデル性能向上 (図8、図9):
プリフィルフェーズ(N=1024) :
vs SpikingEyeriss: 73.6× 加速、32.4× エネルギー消費削減 vs Prosperity: 4.09× 加速、3.23× エネルギー消費削減 vs T-MAC(16スレッド): 2.15× 加速、20.9× エネルギー消費削減 vs Platinum-bs(自身のビットシリアル): 1.4× 加速、1.34× エネルギー消費削減 デコードフェーズ(N=8) :
vs SpikingEyeriss: 47.6× 加速、18.4× エネルギー消費削減 vs Prosperity: 28.4× 加速、15.3× エネルギー消費削減 vs T-MAC: 1.75× 加速、15.0× エネルギー消費削減 vs Platinum-bs: 1.3× 加速、1.31× エネルギー消費削減 実行時スケジューリングハードウェアオーバーヘッド(Prosperityの24%面積+32.3%電力)を排除 より多くの面積をPEに使用、スループット向上 重み分布が均一なモデル(BitNetなど)に特に有効 ncols=8設計により低N ワークロード下での利用率を保証 加算器を複製してLUTポート利用を十分にサポート Prosperityはデコードロード下でPE利用不足 ビットシリアルモードと比較して1.3-1.4倍の追加加速 1.6ビット/重みのコンパクトエンコーディング 部分和統合オーバーヘッドを回避する直接テーブル検索 出力データDRAMアクセス頻度を低減 部分和をアキュムレータにストリーミング 3つのモデルの平均改善 (図10):
b1.58-l、b1.58-xl、b1.58-3Bで一貫した性能 プリフィルとデコードフェーズの両方でベースラインを大幅に上回る 方法の汎用性とスケーラビリティを実証 図5分析 :
異なるLUTサイズ(16-128エントリ)の加算回数比較 Platinumはすべてのチャンクサイズで最低加算回数を達成 c=5の場合に最も明らかな優位性(三値LUTとミラー統合と組み合わせ) 図6分析 :
パックサイズc=5で最適な1.6ビット/パラメータを達成 理論的最適値1.58ビットに近い 2ビットエンコーディング(T-MACなど)をはるかに上回る 低ビット量子化 :ANT、Olive、FP8-LMなど激進的な量子化を探索重み専用量子化 :AWQ、GPTQ、BitNetシリーズBitNet-b1.58 :三値重み{-1,0,1}が効率と精度のバランスを取るBIQGEMM :二進重みの動的計画法方法Prosperity :動的「ショートカット」検出、ただしハードウェアオーバーヘッド高いT-MAC :CPU上のテーブル検索方法LUT-GEMM、LUT Tensor Core :低ビットLLMでのLUT応用を探索Bitnet.cpp :CPU実装、類似の重みエンコーディング戦略本論文の利点 :
パス生成をオフラインに分離した初のASIC設計 汎用と特定精度最適化の両方をサポート ハードウェアオーバーヘッド最小、性能最適 Eyeriss :エネルギー効率DNN加速器SpinalFlow :スパイキングニューラルネットワークデータフローBitMod :混合データ型ビットシリアル加速本論文の位置付け :超低ビット重みのLUTベースASICに焦点、エッジLLM推論向け
Platinumが高効率LUTベース加速を成功裏に実現 :オフラインパス生成により実行時スケジューリングオーバーヘッドを排除 0.96mm²チップ面積内で1534 GOP/sスループットを実現 最先端ベースラインと比較して73.6×加速と32.4×エネルギー消費削減 パス自適応設計の有効性 :汎用ビットシリアルと三値最適化の両モードをサポート 三値最適化により1.3-1.4倍の追加性能向上 柔軟性と専用性の良好なバランス エッジ展開の可能性 :軽量モジュール設計 高エネルギー効率比がエッジプラットフォームに適合 超低ビットニューラルネットワークのスケーラブルソリューションを提供 主にBitNetクラスモデルを対象 :重み分布が均一、ほとんどのLUTエントリが使用される非均一分布の制限 :疎または非均一な重み分布に対して、オフラインパスが最適でない可能性固定チャンクサイズ :c=5は三値重みに最適化、他のビット幅は調整が必要な可能性現在の制限は8ビット活性化 :LUTエントリはスケーラブルですが、より高い精度は十分に探索されていない整数量子化の仮定 :浮動小数点または混合精度活性化をサポートしないDRAM アクセスが53.5%の電力を占める :最適化の余地あり重みバッファアクセス31.6%の電力 :大規模モデルはオンチップストレージ圧力に直面する可能性SFUは単なるオーバーヘッド :本論文はGEMMに焦点、他の操作サポートは限定的オフラインエンコーディングが必要 :展開フローに前処理ステップを追加非均一重み分布の自適応パス生成を探索 より多くの量子化方案(4ビット、混合精度など)をサポート より効率的なメモリ階層構造を研究 オンチップ圧縮技術を探索して帯域幅要件をさらに削減 低オーバーヘッドを維持しながら軽量な動的調整を導入 異なるレイヤー特性に対してパスを自適応的に選択 完全なLLM推論をサポートするためにSFUを十分に活用 注意メカニズムでのLUT方法の応用を探索 中核的革新が明確 :オフラインパス生成+自適応実行の組み合わせはオリジナル理論基礎が堅実 :MST建模LUT構築問題、数学的に優雅エンジニアリング実装が巧妙 :
ミラー統合が対称性を活用 コンパクトエンコーディングが理論的最適値に近い 4段階パイプラインがハザードを回避 包括的なベースライン比較 :ASIC(Eyeriss、Prosperity)とCPU(T-MAC)複数モデル検証 :3つの異なる規模のBitNetモデル複数シナリオ評価 :プリフィルとデコードフェーズ詳細なハードウェアモデリング :RTL総合+CACTI+DRAMsim3消融研究 :Platinum vs Platinum-bs が三値最適化を検証顕著な性能向上 :73.6×加速は周辺的改善ではないエネルギー効率優位性が明白 :32.4×エネルギー消費削減はエッジ展開に重要ハードウェアコストが合理的 :28nmプロセスで0.96mm²は非常にコンパクトデータが透明 :詳細な面積・電力分解を提供構成が合理的 :背景→方法→実験の論理が明確図表が豊富 :9つの図表が論述を効果的にサポート技術詳細が完全 :アルゴリズム疑似コード、公式導出が完備やや密集 :一部の章は情報量が多く、注意深い読み取りが必要オフラインパスの硬直性 :実行時変化に適応できず、非均一分布モデルで次最適の可能性チャンクサイズ固定 :c=5は三値最適化、他の構成の深い探索が不足汎用性が十分に検証されていない :BitNetのみでテスト、他の低ビットモデル(4ビットなど)の効果不明ベースライン公平性 :
Prosperityは面積マッチングのためスケール、最適構成に影響の可能性 T-MACは5nmプロセス、技術ノード差が大きい SpikingEyerissは設計年代が古い(2016) GPU比較が不足 :現代GPU(A100、H100など)との比較なし電力テストシナリオが単一 :プリフィルの3.2Wのみ報告、デコード電力が詳述されていないPE利用率 :90.5%を主張するが詳細分析が不足メモリアクセスパターン :DRAM帯域幅利用率の深い考察が不足スケーラビリティ :L=52の選択が十分に論証されず、より大規模システムの性能が不明温度と信頼性 :熱設計と長期信頼性について議論なし展開複雑性 :オフラインエンコーディングとパス生成が展開フローを複雑化モデル適応 :異なるモデルに対してパスを再生成する必要オープンソース計画 :コードとハードウェア設計のオープンソース化について言及なし、再現性に疑問開拓的研究 :LUT構築オーバーヘッドを体系的に解決する初のASIC設計方法論的価値 :MST建模は他のアクセラレータ設計に示唆を与える可能性引用可能性 :LUTベース加速と低ビット推論分野で高い引用が予想されるエッジ展開 :0.96mm²と高エネルギー効率はエッジAIチップに非常に適合商業化の可能性 :BitNetなど三値モデルの流行により実際の応用シーンあり技術成熟度 :成熟した28nmプロセスベース、迅速なテープアウト検証が可能制限 :特定モデル特性に依存、汎用性向上が必要ハードウェア詳細が十分 :RTL実装、総合パラメータ、ストレージ構成が詳細アルゴリズムが明確 :疑似コードと公式が完全ツールチェーンが明確 :Synopsys DC、CACTI 7.0、DRAMsim3欠落要素 :
オープンソースコードやRTLが提供されていない 重みエンコーディングの具体的実装詳細が不足 パス生成アルゴリズムの完全実装が公開されていない BitNetクラス三値重みモデル推論 :性能が最適エッジデバイスLLM展開 :面積と電力制約が厳しいバッチ推論タスク :プリフィルフェーズで優位性が明白重み分布が均一なモデル :LUT利用率が高い汎用低ビット(2-4ビット)整数重みモデル :ビットシリアルモードでサポート中規模モデル(1-3B) :実験検証の範囲固定モデル推論 :オフライン最適化を十分に活用浮動小数点または混合精度モデル :現在の設計がサポートしない動的重みまたはオンライン学習 :オフラインパスが適応不可超大規模モデル(>10B) :オンチップストレージが不足の可能性重みが高度に疎または非均一分布 :LUT利用率が低いハードウェア・ソフトウェア協調設計 :オフライン最適化と実行時実行のバランス専用vs汎用のトレードオフ :パス切り替えで柔軟性を実現ストレージ中心設計 :LUT方法でのストレージアーキテクチャの重要性量子化方法とハードウェアの適合 :三値重みとLUTの自然な相性BitNet-b1.58 13 : Ma et al., "The era of 1-bit llms: All large language models are in 1.58 bits"T-MAC 14 : Wei et al., "T-MAC: CPU renaissance via table lookup for low-bit LLM deployment on edge"Prosperity 24 : Wei et al., "Prosperity: Accelerating spiking neural networks via product sparsity"BIQGEMM 18 : Jeon et al., "Biqgemm: matrix multiplication with lookup table for binary-coding-based quantized dnns"Eyeriss 27 : Chen et al., "Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks"Platinumは、LUTベースニューラルネットワークアクセラレータ設計における重要な進歩を表しています。パス生成をオフラインに巧妙に分離し、自適応実行モードと組み合わせることで、ハードウェアオーバーヘッド、性能、エネルギー効率の間で優れたバランスを実現しています。73.6×の加速と0.96mm²のコンパクト設計により、エッジLLM推論の強力なソリューションとなっています。
ただし、この研究には明らかな制限もあります:特定モデル(BitNet)への依存、汎用性の向上が必要、およびオープンソース実装の欠落です。将来の研究は、低オーバーヘッドを維持しながら適応性を強化し、より広範な量子化方案とモデルアーキテクチャに拡張できます。
全体的に、これは高品質なコンピュータアーキテクチャ論文であり、技術革新が堅実で、実験評価が包括的であり、低ビットニューラルネットワーク加速に新しい設計パラダイムを提供しています。ニューラルネットワークアクセラレータ、量子化推論、エッジAIチップ研究に従事する学者とエンジニアに読むことを推奨します。