The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
论文ID : 2511.21910标题 : Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication作者 : Haoxuan Shan, Cong Guo, Chiyue Wei, Feng Cheng, Junyao Zhang, Hai (Helen) Li, Yiran Chen单位 : Duke University, Department of Electrical and Computer Engineering分类 : cs.AR (Computer Architecture)发表时间 : 2025年11月26日提交至arXiv论文链接 : https://arxiv.org/abs/2511.21910 大语言模型的快速扩展对硬件效率提出了更高要求。量化技术在效率与性能之间提供了有前景的权衡。超低比特量化为结果复用创造了大量机会,可通过查找表(LUT)加速实现。然而,现有LUT方法在LUT构建上存在计算和硬件开销,且仅依赖位串行计算,对三值权重网络不是最优解。本文提出Platinum,一个轻量级ASIC加速器,用于整数权重混合精度矩阵乘法(mpGEMM)。Platinum通过离线生成的构建路径减少LUT构建开销,并通过自适应路径切换同时支持通用位串行和优化的三值权重执行。在BitNet b1.58-3B上,Platinum相比SpikingEyeriss、Prosperity和16线程T-MAC分别实现了73.6×、4.09×和2.15×的加速,能耗降低32.4×、3.23×和20.9×,芯片面积仅0.96mm²。
随着深度神经网络特别是大语言模型(LLM)规模的快速增长,能耗和计算延迟成为主要部署挑战。通用矩阵乘法(GEMM)在全连接层和注意力层中占主导地位,其计算负担随模型规模成比例增长。
能效需求 :LLM的推理需要在边缘设备上高效运行实时性要求 :降低计算延迟对用户体验至关重要硬件成本 :需要在有限的芯片面积和功耗预算内实现高性能量化技术的机遇 :
超低比特量化(如BitNet-b1.58的三值权重{-1,0,1})在保持精度的同时大幅提升效率 低比特量化使得基于LUT的加速策略成为可能,通过预计算和复用结果 现有LUT方法的问题 :
Prosperity等方法 :动态调度LUT构建路径导致高硬件开销(24%芯片面积,32.3%功耗用于调度模块)位串行计算的低效 :对三值权重使用2比特编码,超过理论最优的1.58比特(log₂3),且合并部分和产生额外开销预计算不可行 :离线预计算所有LUT需要巨大存储(8位激活k=2时需4GB)对于BitNet这类权重分布均匀的模型,大部分LUT条目都会被使用(仅1.16%未使用),动态调度开销不必要 三值LUT直接表示最终结果,实验显示相比二进制LUT有1.3×以上的性能提升 需要一个轻量级、高能效的专用加速器,同时支持通用整数权重和特定比特宽度优化 Platinum加速器架构 :设计了一个新颖的基于LUT的mpGEMM加速器,采用解耦的基于路径的LUT构建框架,降低LUT生成成本并最小化硬件开销路径自适应执行 :通过切换构建路径,支持通用整数权重的位串行执行和针对特定精度(如三值权重)的优化执行系统优化设计 :针对并行性和数据流优化的架构 轻量级模块化设计,适合边缘部署 芯片面积仅0.96mm² 卓越性能表现 :在BitNet b1.58-3B上实现:相比最先进基线高达73.6×加速 能耗降低32.4× 证明了LUT-based ASIC作为边缘平台超低比特神经网络高效可扩展解决方案的潜力 混合精度GEMM (mpGEMM) :
输入 :权重矩阵W (m×k, 低比特整数),激活矩阵X (k×n, 8位整数)输出 :结果矩阵Y (m×n)目标 :高效计算Y = W·X,特别优化三值权重场景Platinum处理器组成 (图3):
L个Platinum处理单元(PPE) :每个包含控制器、加法器和专用LUT缓冲区聚合器(Aggregator) :共享PPE中的加法器,配合额外加法器形成流水线加法树高带宽片上缓冲区 :包括权重、输入、输出和构建路径缓冲区特殊功能单元(SFU) :支持GEMM之外的操作(如向量乘法、激活函数)关键参数 :
L = 52个PPE 每个LUT条目8位(对齐BitNet的8位激活) 三值权重的chunk size c = 5(生成128条目LUT) 每个PPE处理ncols = 8列输入 问题建模 :
将LUT构建形式化为有向超图 每个节点代表一个LUT条目 每条超边代表一次计算操作 MST算法应用 :
源节点:lut[0] = 0
操作限制:只能是输入元素的加/减
目标:找到连接所有节点的最小成本路径
优势 :
利用对称性减少LUT大小至⌈3^c/2⌉ 对于c=5,相比朴素构建减少约10×加法次数 保证正确的数据依赖关系(拓扑排序) 最短读后写(RAW)依赖距离超过流水线级数,无需额外冒险处理 Stage 1: 加载构建路径 (dst, src, j, sign)
Stage 2: LUT读取 + 输入访问
Stage 3: 加法器计算 lut[src] ± a[j]
Stage 4: LUT写回
路径格式 :
(dst, src, j, flip) 表示 lut[dst] = lut[src] ± aj
位串行方法 (Equation 1):
#add_bs = [⌈K/c⌉·c·2^c + M·⌈K/c⌉ + M(⌈K/c⌉-1)]·N
三值LUT方法 (Equation 2):
#add_ter = [⌈K/c⌉·c·3^c + M(⌈K/c⌉-1)]·N
Platinum优化方法 (Equation 3):
#add_platinum = [⌈K/c⌉·⌈3^c/2⌉ + M(⌈K/c⌉-1)]·N
通过镜像合并(mirror consolidation)利用对称性,减少LUT大小和构建成本。
问题 :
2比特编码:远超理论最优1.58比特 字节存储:极度冗余 解决方案 :
每c个三值权重打包为base-3整数 需要⌈log₂3^c⌉比特 进一步分为1个符号位和⌈log₂3^c⌉-1个索引位以保持对称性 c=5时达到最优:1.6比特/权重,恰好放入一个字节(图6) 索引重排 :
基于构建路径重排索引 确保LUT条目顺序访问 无需冒险检测硬件 N维度并行 :
每个PPE处理ncols=8列输入块 构建块大小为ncols的LUT 每次查询返回ncols个部分和 Cacti 7.0分析显示ncols>8后面积效率递减 K和N维度并行 :
L=52个PE并行处理L·c × ncols输入 部分和直接流向累加器,降低输出缓冲压力 资源不平衡问题 :
构建阶段:1个加法器 + 2个LUT端口 查询阶段:2个加法器 + 2个LUT端口 解决方案 :
配置额外加法器以充分支持归约阶段 LUT端口理论利用率接近100% 加法器平均利用率90.5% 分块配置 (设计空间探索,图7):
m_tiled = 1080 k_tiled = 520 n_tiled = 32 mnk-stationary策略 片上存储 :
272KB用于权重/输出/输入缓冲区 52KB用于LUT 总计324KB片上SRAM BitNet-b1.58模型套件 :
b1.58-l : 700M参数b1.58-xl : 1.3B参数b1.58-3B : 3B参数工作负载 :
Prefill阶段 : N=1024 (批量大小×序列长度)Decode阶段 : N=8从BitLinear层提取M和K维度 RTL实现 :
SystemVerilog实现PPE Synopsys Design Compiler综合 ARM标准单元库 28nm工艺节点 500 MHz频率 存储建模 :
片上SRAM : CACTI 7.0建模片外DRAM : DRAMsim3建模
64GB DDR4 2133R 最大带宽64GB/s 仿真器 :
扩展开源Prosperity仿真器 周期精确模拟 捕获计算周期、内存访问、PE活动 加速器 类型 频率 工艺 PE数 面积 吞吐量 SpikingEyeriss ASIC 500MHz 28nm 168 1.07mm² 20.8 GOP/s Prosperity ASIC 500MHz 28nm 256 1.06mm² 375 GOP/s T-MAC CPU 3490MHz 5nm - 289mm² 715 GOP/s Platinum ASIC 500MHz 28nm 416 0.955mm² 1534 GOP/s
性能 : 延迟(ms)、吞吐量(GOP/s)能效 : 总能耗(mJ)、能效比硬件成本 : 芯片面积(mm²)、功耗(W)面积分布(总计0.96mm²) :
权重和激活缓冲区:65% 包含LUT后的存储:83.3% 聚合器和PPE(核心计算):15% 其他:1.7% 功耗分布(b1.58-3B prefill, 3.2W) :
DRAM访问:53.5% 权重缓冲访问:31.6% LUT缓冲:相对较低 其他:14.9% 关键洞察 :
存储主导芯片面积,凸显LUT方法的面积效率 DRAM和权重访问是能耗瓶颈,紧凑权重编码至关重要 LUT功耗开销低,验证了LUT计算范式的高效性 b1.58-3B模型性能提升 (图8、图9):
Prefill阶段 (N=1024) :
vs SpikingEyeriss: 73.6× 加速, 32.4× 能耗降低 vs Prosperity: 4.09× 加速, 3.23× 能耗降低 vs T-MAC (16线程): 2.15× 加速, 20.9× 能耗降低 vs Platinum-bs (自身位串行): 1.4× 加速, 1.34× 能耗降低 Decode阶段 (N=8) :
vs SpikingEyeriss: 47.6× 加速, 18.4× 能耗降低 vs Prosperity: 28.4× 加速, 15.3× 能耗降低 vs T-MAC: 1.75× 加速, 15.0× 能耗降低 vs Platinum-bs: 1.3× 加速, 1.31× 能耗降低 消除运行时调度硬件开销(Prosperity的24%面积+32.3%功耗) 更多面积用于PE,提高吞吐量 对权重分布均匀的模型(如BitNet)特别有效 ncols=8设计保证低N工作负载下的利用率 复制加法器充分利用LUT端口 Prosperity在decode负载下PE利用不足 相比位串行模式1.3-1.4×额外加速 1.6比特/权重的紧凑编码 直接查表避免部分和合并开销 降低输出数据DRAM访问频率 部分和流式传输至累加器 三个模型的平均改进 (图10):
b1.58-l, b1.58-xl, b1.58-3B表现一致 Prefill和Decode阶段均显著优于基线 证明了方法的通用性和可扩展性 图5分析 :
不同LUT大小(16-128条目)的加法次数对比 Platinum在所有chunk size下达到最低加法次数 c=5时优势最明显(配合三值LUT和镜像合并) 图6分析 :
Pack size c=5达到最优1.6比特/参数 接近理论最优1.58比特 远优于2比特编码(T-MAC等) 低比特量化 :ANT、Olive、FP8-LM等探索激进量化权重专用量化 :AWQ、GPTQ、BitNet系列BitNet-b1.58 :三值权重{-1,0,1}平衡效率与精度BIQGEMM :二进制权重的动态规划方法Prosperity :动态"shortcut"检测,但硬件开销高T-MAC :CPU上的表查找方法LUT-GEMM, LUT Tensor Core :探索LUT在低比特LLM中的应用Bitnet.cpp :CPU实现,类似权重编码策略本文优势 :
首个将路径生成解耦到离线的ASIC设计 同时支持通用和特定精度优化 硬件开销最低,性能最优 Eyeriss :能效DNN加速器SpinalFlow :脉冲神经网络数据流BitMod :混合数据类型位串行加速本文定位 :专注于超低比特权重的LUT-based ASIC,面向边缘LLM推理
Platinum成功实现高效LUT-based加速 :通过离线路径生成消除运行时调度开销 0.96mm²芯片面积内实现1534 GOP/s吞吐量 相比最先进基线73.6×加速和32.4×能耗降低 路径自适应设计的有效性 :支持通用位串行和三值优化两种模式 三值优化带来额外1.3-1.4×性能提升 灵活性与专用性的良好平衡 边缘部署潜力 :轻量级模块化设计 高能效比适合边缘平台 为超低比特神经网络提供可扩展解决方案 主要针对BitNet类模型 :权重分布均匀、大部分LUT条目被使用非均匀分布的限制 :对于稀疏或非均匀权重分布,离线路径可能不是最优固定chunk size :c=5针对三值权重优化,其他比特宽度可能需要调整当前限制8位激活 :虽然LUT条目可扩展,但未充分探索更高精度整数量化假设 :不支持浮点或混合精度激活DRAM访问占53.5%功耗 :仍有优化空间权重缓冲访问31.6%功耗 :大模型可能面临片上存储压力SFU仅作为开销 :本文聚焦GEMM,其他操作支持有限需要离线编码 :部署流程增加预处理步骤探索非均匀权重分布的自适应路径生成 支持更多量化方案(如4位、混合精度) 研究更高效的内存层次结构 探索片上压缩技术进一步降低带宽需求 在保持低开销的同时引入轻量级动态调整 针对不同层特性自适应选择路径 充分利用SFU支持完整LLM推理 探索LUT方法在注意力机制中的应用 核心创新清晰 :离线路径生成+自适应执行的组合是原创性的理论基础扎实 :MST建模LUT构建问题,数学上优雅工程实现巧妙 :
镜像合并利用对称性 紧凑编码接近理论最优 四级流水线避免冒险 全面的基线对比 :ASIC(Eyeriss, Prosperity)和CPU(T-MAC)多模型验证 :三个不同规模BitNet模型多场景评估 :Prefill和Decode阶段详细的硬件建模 :RTL综合+CACTI+DRAMsim3消融研究 :Platinum vs Platinum-bs验证三值优化显著性能提升 :73.6×加速不是边际改进能效优势明显 :32.4×能耗降低对边缘部署至关重要硬件成本合理 :0.96mm²在28nm工艺下非常紧凑数据透明 :提供详细的面积、功耗分解结构合理 :背景→方法→实验逻辑清晰图表丰富 :9个图表有效支撑论述技术细节完整 :算法伪代码、公式推导齐全略显密集 :部分章节信息量大,需仔细阅读离线路径的刚性 :无法适应运行时变化,对非均匀分布模型可能次优chunk size固定 :c=5针对三值优化,缺乏对其他配置的深入探索泛化性未充分验证 :仅在BitNet上测试,其他低比特模型(如4位)效果未知基线公平性 :
Prosperity被缩放以匹配面积,可能影响其最优配置 T-MAC在5nm工艺,技术节点差异大 SpikingEyeriss设计年代较早(2016) 缺少GPU对比 :未与现代GPU(如A100, H100)比较功耗测试场景单一 :仅报告prefill的3.2W,decode功耗未详述PE利用率 :声称90.5%但未提供详细分析内存访问模式 :缺少对DRAM带宽利用率的深入探讨可扩展性 :L=52的选择缺乏充分论证,更大规模系统表现未知温度和可靠性 :未讨论热设计和长期可靠性部署复杂度 :离线编码和路径生成增加部署流程模型适配 :需要针对不同模型重新生成路径开源计划 :未提及代码和硬件设计开源,可复现性存疑开创性工作 :首个系统性解决LUT构建开销的ASIC设计方法论价值 :MST建模可启发其他加速器设计引用潜力 :预计在LUT-based加速和低比特推理领域有较高引用边缘部署 :0.96mm²和高能效非常适合边缘AI芯片商业化潜力 :BitNet等三值模型的流行使其有实际应用场景技术成熟度 :基于成熟的28nm工艺,可快速流片验证局限 :依赖特定模型特性,通用性有待提升硬件细节充分 :RTL实现、综合参数、存储配置详细算法清晰 :伪代码和公式完整工具链明确 :Synopsys DC, CACTI 7.0, DRAMsim3缺失要素 :
未提供开源代码或RTL 权重编码的具体实现细节不足 路径生成算法的完整实现未公开 BitNet类三值权重模型推理 :性能最优边缘设备LLM部署 :面积和功耗约束严格批量推理任务 :Prefill阶段优势明显权重分布均匀的模型 :LUT利用率高通用低比特(2-4位)整数权重模型 :通过位串行模式支持中等规模模型(1-3B) :实验验证的范围固定模型推理 :离线优化可充分发挥浮点或混合精度模型 :当前设计不支持动态权重或在线学习 :离线路径无法适应极大规模模型(>10B) :片上存储可能不足权重高度稀疏或非均匀分布 :LUT利用率低硬件软件协同设计 :离线优化与运行时执行的平衡专用vs通用权衡 :路径切换实现灵活性存储为中心的设计 :LUT方法中存储架构的重要性量化方法与硬件的匹配 :三值权重与LUT的天然契合BitNet-b1.58 13 : Ma et al., "The era of 1-bit llms: All large language models are in 1.58 bits"T-MAC 14 : Wei et al., "T-MAC: CPU renaissance via table lookup for low-bit LLM deployment on edge"Prosperity 24 : Wei et al., "Prosperity: Accelerating spiking neural networks via product sparsity"BIQGEMM 18 : Jeon et al., "Biqgemm: matrix multiplication with lookup table for binary-coding-based quantized dnns"Eyeriss 27 : Chen et al., "Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks"Platinum代表了LUT-based神经网络加速器设计的重要进展。通过巧妙地将路径生成解耦到离线,结合自适应执行模式,它在硬件开销、性能和能效之间实现了优秀的平衡。73.6×的加速和0.96mm²的紧凑设计使其成为边缘LLM推理的有力解决方案。
然而,该工作也存在明显的局限性:对特定模型(BitNet)的依赖、通用性有待提升、以及缺少开源实现。未来研究可以在保持低开销的同时增强适应性,扩展到更广泛的量化方案和模型架构。
总体而言,这是一篇高质量的计算机体系结构论文,技术创新扎实,实验评估全面,为低比特神经网络加速提供了新的设计范式。推荐给从事神经网络加速器、量化推理和边缘AI芯片研究的学者和工程师阅读。