2025-12-01T05:34:19.512651

Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication

Shan, Guo, Wei et al.

The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.

academic

Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication

基本信息

论文ID: 2511.21910
标题: Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
作者: Haoxuan Shan, Cong Guo, Chiyue Wei, Feng Cheng, Junyao Zhang, Hai (Helen) Li, Yiran Chen
单位: Duke University, Department of Electrical and Computer Engineering
分类: cs.AR (Computer Architecture)
发表时间: 2025年11月26日提交至arXiv
论文链接: https://arxiv.org/abs/2511.21910

摘要

大语言模型的快速扩展对硬件效率提出了更高要求。量化技术在效率与性能之间提供了有前景的权衡。超低比特量化为结果复用创造了大量机会，可通过查找表(LUT)加速实现。然而，现有LUT方法在LUT构建上存在计算和硬件开销，且仅依赖位串行计算，对三值权重网络不是最优解。本文提出Platinum，一个轻量级ASIC加速器，用于整数权重混合精度矩阵乘法(mpGEMM)。Platinum通过离线生成的构建路径减少LUT构建开销，并通过自适应路径切换同时支持通用位串行和优化的三值权重执行。在BitNet b1.58-3B上，Platinum相比SpikingEyeriss、Prosperity和16线程T-MAC分别实现了73.6×、4.09×和2.15×的加速，能耗降低32.4×、3.23×和20.9×，芯片面积仅0.96mm²。

研究背景与动机

1. 要解决的核心问题

随着深度神经网络特别是大语言模型(LLM)规模的快速增长，能耗和计算延迟成为主要部署挑战。通用矩阵乘法(GEMM)在全连接层和注意力层中占主导地位，其计算负担随模型规模成比例增长。

2. 问题的重要性

能效需求：LLM的推理需要在边缘设备上高效运行
实时性要求：降低计算延迟对用户体验至关重要
硬件成本：需要在有限的芯片面积和功耗预算内实现高性能

3. 现有方法的局限性

量化技术的机遇：

超低比特量化(如BitNet-b1.58的三值权重{-1,0,1})在保持精度的同时大幅提升效率
低比特量化使得基于LUT的加速策略成为可能，通过预计算和复用结果

现有LUT方法的问题：

Prosperity等方法：动态调度LUT构建路径导致高硬件开销(24%芯片面积，32.3%功耗用于调度模块)
位串行计算的低效：对三值权重使用2比特编码，超过理论最优的1.58比特(log₂3)，且合并部分和产生额外开销
预计算不可行：离线预计算所有LUT需要巨大存储(8位激活k=2时需4GB)

4. 研究动机

对于BitNet这类权重分布均匀的模型，大部分LUT条目都会被使用(仅1.16%未使用)，动态调度开销不必要
三值LUT直接表示最终结果，实验显示相比二进制LUT有1.3×以上的性能提升
需要一个轻量级、高能效的专用加速器，同时支持通用整数权重和特定比特宽度优化

核心贡献

Platinum加速器架构：设计了一个新颖的基于LUT的mpGEMM加速器，采用解耦的基于路径的LUT构建框架，降低LUT生成成本并最小化硬件开销
路径自适应执行：通过切换构建路径，支持通用整数权重的位串行执行和针对特定精度(如三值权重)的优化执行
系统优化设计：
- 针对并行性和数据流优化的架构
- 轻量级模块化设计，适合边缘部署
- 芯片面积仅0.96mm²
卓越性能表现：在BitNet b1.58-3B上实现：
- 相比最先进基线高达73.6×加速
- 能耗降低32.4×
- 证明了LUT-based ASIC作为边缘平台超低比特神经网络高效可扩展解决方案的潜力

方法详解

任务定义

混合精度GEMM (mpGEMM)：

输入：权重矩阵W (m×k, 低比特整数)，激活矩阵X (k×n, 8位整数)
输出：结果矩阵Y (m×n)
目标：高效计算Y = W·X，特别优化三值权重场景

整体架构设计

Platinum处理器组成（图3）：

L个Platinum处理单元(PPE)：每个包含控制器、加法器和专用LUT缓冲区
聚合器(Aggregator)：共享PPE中的加法器，配合额外加法器形成流水线加法树
高带宽片上缓冲区：包括权重、输入、输出和构建路径缓冲区
特殊功能单元(SFU)：支持GEMM之外的操作(如向量乘法、激活函数)

关键参数：

L = 52个PPE
每个LUT条目8位(对齐BitNet的8位激活)
三值权重的chunk size c = 5(生成128条目LUT)
每个PPE处理ncols = 8列输入

LUT构建方法创新

1. 离线路径生成(基于最小生成树MST)

问题建模：

将LUT构建形式化为有向超图
每个节点代表一个LUT条目
每条超边代表一次计算操作

MST算法应用：

源节点：lut[0] = 0
操作限制：只能是输入元素的加/减
目标：找到连接所有节点的最小成本路径

优势：

利用对称性减少LUT大小至⌈3^c/2⌉
对于c=5，相比朴素构建减少约10×加法次数
保证正确的数据依赖关系(拓扑排序)
最短读后写(RAW)依赖距离超过流水线级数，无需额外冒险处理

2. 四级构建流水线（图4）

Stage 1: 加载构建路径 (dst, src, j, sign)
Stage 2: LUT读取 + 输入访问
Stage 3: 加法器计算 lut[src] ± a[j]
Stage 4: LUT写回

路径格式：

(dst, src, j, flip) 表示 lut[dst] = lut[src] ± aj

三值权重优化

1. 计算复杂度分析

位串行方法（Equation 1）：

#add_bs = [⌈K/c⌉·c·2^c + M·⌈K/c⌉ + M(⌈K/c⌉-1)]·N

三值LUT方法（Equation 2）：

#add_ter = [⌈K/c⌉·c·3^c + M(⌈K/c⌉-1)]·N

Platinum优化方法（Equation 3）：

#add_platinum = [⌈K/c⌉·⌈3^c/2⌉ + M(⌈K/c⌉-1)]·N

通过镜像合并(mirror consolidation)利用对称性，减少LUT大小和构建成本。

2. 紧凑权重编码

问题：

2比特编码：远超理论最优1.58比特
字节存储：极度冗余

解决方案：

每c个三值权重打包为base-3整数
需要⌈log₂3^c⌉比特
进一步分为1个符号位和⌈log₂3^c⌉-1个索引位以保持对称性
c=5时达到最优：1.6比特/权重，恰好放入一个字节（图6）

索引重排：

基于构建路径重排索引
确保LUT条目顺序访问
无需冒险检测硬件

系统级优化

1. 并行性设计

N维度并行：

每个PPE处理ncols=8列输入块
构建块大小为ncols的LUT
每次查询返回ncols个部分和
Cacti 7.0分析显示ncols>8后面积效率递减

K和N维度并行：

L=52个PE并行处理L·c × ncols输入
部分和直接流向累加器，降低输出缓冲压力

2. 利用率改进

资源不平衡问题：

构建阶段：1个加法器 + 2个LUT端口
查询阶段：2个加法器 + 2个LUT端口

解决方案：

配置额外加法器以充分支持归约阶段
LUT端口理论利用率接近100%
加法器平均利用率90.5%

3. 数据分块与驻留策略

分块配置（设计空间探索，图7）：

m_tiled = 1080
k_tiled = 520
n_tiled = 32
mnk-stationary策略

片上存储：

272KB用于权重/输出/输入缓冲区
52KB用于LUT
总计324KB片上SRAM

实验设置

数据集和模型

BitNet-b1.58模型套件：

b1.58-l: 700M参数
b1.58-xl: 1.3B参数
b1.58-3B: 3B参数

工作负载：

Prefill阶段: N=1024 (批量大小×序列长度)
Decode阶段: N=8
从BitLinear层提取M和K维度

硬件建模方法

RTL实现：

SystemVerilog实现PPE
Synopsys Design Compiler综合
ARM标准单元库
28nm工艺节点
500 MHz频率

存储建模：

片上SRAM: CACTI 7.0建模
片外DRAM: DRAMsim3建模
- 64GB DDR4 2133R
- 最大带宽64GB/s

仿真器：

扩展开源Prosperity仿真器
周期精确模拟
捕获计算周期、内存访问、PE活动

对比基线

加速器	类型	频率	工艺	PE数	面积	吞吐量
SpikingEyeriss	ASIC	500MHz	28nm	168	1.07mm²	20.8 GOP/s
Prosperity	ASIC	500MHz	28nm	256	1.06mm²	375 GOP/s
T-MAC	CPU	3490MHz	5nm	-	289mm²	715 GOP/s
Platinum	ASIC	500MHz	28nm	416	0.955mm²	1534 GOP/s

评价指标

性能: 延迟(ms)、吞吐量(GOP/s)
能效: 总能耗(mJ)、能效比
硬件成本: 芯片面积(mm²)、功耗(W)

实验结果

芯片面积与功耗分解

面积分布(总计0.96mm²)：

权重和激活缓冲区：65%
包含LUT后的存储：83.3%
聚合器和PPE(核心计算)：15%
其他：1.7%

功耗分布(b1.58-3B prefill, 3.2W)：

DRAM访问：53.5%
权重缓冲访问：31.6%
LUT缓冲：相对较低
其他：14.9%

关键洞察：

存储主导芯片面积，凸显LUT方法的面积效率
DRAM和权重访问是能耗瓶颈，紧凑权重编码至关重要
LUT功耗开销低，验证了LUT计算范式的高效性

核心级性能对比

b1.58-3B模型性能提升（图8、图9）：

Prefill阶段 (N=1024)：

vs SpikingEyeriss: 73.6× 加速, 32.4× 能耗降低
vs Prosperity: 4.09× 加速, 3.23× 能耗降低
vs T-MAC (16线程): 2.15× 加速, 20.9× 能耗降低
vs Platinum-bs (自身位串行): 1.4× 加速, 1.34× 能耗降低

Decode阶段 (N=8)：

vs SpikingEyeriss: 47.6× 加速, 18.4× 能耗降低
vs Prosperity: 28.4× 加速, 15.3× 能耗降低
vs T-MAC: 1.75× 加速, 15.0× 能耗降低
vs Platinum-bs: 1.3× 加速, 1.31× 能耗降低

性能优势来源分析

1. 离线路径生成的优势

消除运行时调度硬件开销(Prosperity的24%面积+32.3%功耗)
更多面积用于PE，提高吞吐量
对权重分布均匀的模型(如BitNet)特别有效

2. 高PE利用率

ncols=8设计保证低N工作负载下的利用率
复制加法器充分利用LUT端口
Prosperity在decode负载下PE利用不足

3. 三值权重专用优化

相比位串行模式1.3-1.4×额外加速
1.6比特/权重的紧凑编码
直接查表避免部分和合并开销

4. K维度高并行度

降低输出数据DRAM访问频率
部分和流式传输至累加器

跨模型一致性

三个模型的平均改进（图10）：

b1.58-l, b1.58-xl, b1.58-3B表现一致
Prefill和Decode阶段均显著优于基线
证明了方法的通用性和可扩展性

加法次数优化效果

图5分析：

不同LUT大小(16-128条目)的加法次数对比
Platinum在所有chunk size下达到最低加法次数
c=5时优势最明显(配合三值LUT和镜像合并)

编码效率

图6分析：

Pack size c=5达到最优1.6比特/参数
接近理论最优1.58比特
远优于2比特编码(T-MAC等)

结论与讨论

主要结论

Platinum成功实现高效LUT-based加速：
- 通过离线路径生成消除运行时调度开销
- 0.96mm²芯片面积内实现1534 GOP/s吞吐量
- 相比最先进基线73.6×加速和32.4×能耗降低
路径自适应设计的有效性：
- 支持通用位串行和三值优化两种模式
- 三值优化带来额外1.3-1.4×性能提升
- 灵活性与专用性的良好平衡
边缘部署潜力：
- 轻量级模块化设计
- 高能效比适合边缘平台
- 为超低比特神经网络提供可扩展解决方案

局限性

1. 模型适用范围

主要针对BitNet类模型：权重分布均匀、大部分LUT条目被使用
非均匀分布的限制：对于稀疏或非均匀权重分布，离线路径可能不是最优
固定chunk size：c=5针对三值权重优化，其他比特宽度可能需要调整

2. 精度支持

当前限制8位激活：虽然LUT条目可扩展，但未充分探索更高精度
整数量化假设：不支持浮点或混合精度激活

3. 内存带宽瓶颈

DRAM访问占53.5%功耗：仍有优化空间
权重缓冲访问31.6%功耗：大模型可能面临片上存储压力

4. 通用性权衡

SFU仅作为开销：本文聚焦GEMM，其他操作支持有限
需要离线编码：部署流程增加预处理步骤

未来方向

1. 扩展到更多模型

探索非均匀权重分布的自适应路径生成
支持更多量化方案(如4位、混合精度)

2. 系统级优化

研究更高效的内存层次结构
探索片上压缩技术进一步降低带宽需求

3. 动态与静态混合

在保持低开销的同时引入轻量级动态调整
针对不同层特性自适应选择路径

4. 扩展到其他操作

充分利用SFU支持完整LLM推理
探索LUT方法在注意力机制中的应用

深度评价

优点

1. 方法创新性 ⭐⭐⭐⭐⭐

核心创新清晰：离线路径生成+自适应执行的组合是原创性的
理论基础扎实：MST建模LUT构建问题，数学上优雅
工程实现巧妙：
- 镜像合并利用对称性
- 紧凑编码接近理论最优
- 四级流水线避免冒险

2. 实验充分性 ⭐⭐⭐⭐⭐

全面的基线对比：ASIC(Eyeriss, Prosperity)和CPU(T-MAC)
多模型验证：三个不同规模BitNet模型
多场景评估：Prefill和Decode阶段
详细的硬件建模：RTL综合+CACTI+DRAMsim3
消融研究：Platinum vs Platinum-bs验证三值优化

3. 结果说服力 ⭐⭐⭐⭐⭐

显著性能提升：73.6×加速不是边际改进
能效优势明显：32.4×能耗降低对边缘部署至关重要
硬件成本合理：0.96mm²在28nm工艺下非常紧凑
数据透明：提供详细的面积、功耗分解

4. 写作清晰度 ⭐⭐⭐⭐

结构合理：背景→方法→实验逻辑清晰
图表丰富：9个图表有效支撑论述
技术细节完整：算法伪代码、公式推导齐全
略显密集：部分章节信息量大，需仔细阅读

不足

1. 方法局限性

离线路径的刚性：无法适应运行时变化，对非均匀分布模型可能次优
chunk size固定：c=5针对三值优化，缺乏对其他配置的深入探索
泛化性未充分验证：仅在BitNet上测试，其他低比特模型(如4位)效果未知

2. 实验设置

基线公平性：
- Prosperity被缩放以匹配面积，可能影响其最优配置
- T-MAC在5nm工艺，技术节点差异大
- SpikingEyeriss设计年代较早(2016)
缺少GPU对比：未与现代GPU(如A100, H100)比较
功耗测试场景单一：仅报告prefill的3.2W，decode功耗未详述

3. 分析深度

PE利用率：声称90.5%但未提供详细分析
内存访问模式：缺少对DRAM带宽利用率的深入探讨
可扩展性：L=52的选择缺乏充分论证，更大规模系统表现未知
温度和可靠性：未讨论热设计和长期可靠性

4. 实用性考量

部署复杂度：离线编码和路径生成增加部署流程
模型适配：需要针对不同模型重新生成路径
开源计划：未提及代码和硬件设计开源，可复现性存疑

影响力评估

1. 学术贡献 ⭐⭐⭐⭐

开创性工作：首个系统性解决LUT构建开销的ASIC设计
方法论价值：MST建模可启发其他加速器设计
引用潜力：预计在LUT-based加速和低比特推理领域有较高引用

2. 实用价值 ⭐⭐⭐⭐

边缘部署：0.96mm²和高能效非常适合边缘AI芯片
商业化潜力：BitNet等三值模型的流行使其有实际应用场景
技术成熟度：基于成熟的28nm工艺，可快速流片验证
局限：依赖特定模型特性，通用性有待提升

3. 可复现性 ⭐⭐⭐

硬件细节充分：RTL实现、综合参数、存储配置详细
算法清晰：伪代码和公式完整
工具链明确：Synopsys DC, CACTI 7.0, DRAMsim3
缺失要素：
- 未提供开源代码或RTL
- 权重编码的具体实现细节不足
- 路径生成算法的完整实现未公开

适用场景

理想场景 ✅

BitNet类三值权重模型推理：性能最优
边缘设备LLM部署：面积和功耗约束严格
批量推理任务：Prefill阶段优势明显
权重分布均匀的模型：LUT利用率高

适合场景 ⚠️

通用低比特(2-4位)整数权重模型：通过位串行模式支持
中等规模模型(1-3B)：实验验证的范围
固定模型推理：离线优化可充分发挥

不适合场景 ❌

浮点或混合精度模型：当前设计不支持
动态权重或在线学习：离线路径无法适应
极大规模模型(>10B)：片上存储可能不足
权重高度稀疏或非均匀分布：LUT利用率低

对领域的启示

硬件软件协同设计：离线优化与运行时执行的平衡
专用vs通用权衡：路径切换实现灵活性
存储为中心的设计：LUT方法中存储架构的重要性
量化方法与硬件的匹配：三值权重与LUT的天然契合

参考文献（精选）

BitNet-b1.58 13: Ma et al., "The era of 1-bit llms: All large language models are in 1.58 bits"
T-MAC 14: Wei et al., "T-MAC: CPU renaissance via table lookup for low-bit LLM deployment on edge"
Prosperity 24: Wei et al., "Prosperity: Accelerating spiking neural networks via product sparsity"
BIQGEMM 18: Jeon et al., "Biqgemm: matrix multiplication with lookup table for binary-coding-based quantized dnns"
Eyeriss 27: Chen et al., "Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks"

总结

Platinum代表了LUT-based神经网络加速器设计的重要进展。通过巧妙地将路径生成解耦到离线，结合自适应执行模式，它在硬件开销、性能和能效之间实现了优秀的平衡。73.6×的加速和0.96mm²的紧凑设计使其成为边缘LLM推理的有力解决方案。

然而，该工作也存在明显的局限性：对特定模型（BitNet）的依赖、通用性有待提升、以及缺少开源实现。未来研究可以在保持低开销的同时增强适应性，扩展到更广泛的量化方案和模型架构。

总体而言，这是一篇高质量的计算机体系结构论文，技术创新扎实，实验评估全面，为低比特神经网络加速提供了新的设计范式。推荐给从事神经网络加速器、量化推理和边缘AI芯片研究的学者和工程师阅读。