2025-12-01T05:34:19.512651

Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication

Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic

Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication

基本信息

  • 论文ID: 2511.21910
  • 标题: Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
  • 作者: Haoxuan Shan, Cong Guo, Chiyue Wei, Feng Cheng, Junyao Zhang, Hai (Helen) Li, Yiran Chen
  • 单位: Duke University, Department of Electrical and Computer Engineering
  • 分类: cs.AR (Computer Architecture)
  • 发表时间: 2025年11月26日提交至arXiv
  • 论文链接: https://arxiv.org/abs/2511.21910

摘要

大语言模型的快速扩展对硬件效率提出了更高要求。量化技术在效率与性能之间提供了有前景的权衡。超低比特量化为结果复用创造了大量机会,可通过查找表(LUT)加速实现。然而,现有LUT方法在LUT构建上存在计算和硬件开销,且仅依赖位串行计算,对三值权重网络不是最优解。本文提出Platinum,一个轻量级ASIC加速器,用于整数权重混合精度矩阵乘法(mpGEMM)。Platinum通过离线生成的构建路径减少LUT构建开销,并通过自适应路径切换同时支持通用位串行和优化的三值权重执行。在BitNet b1.58-3B上,Platinum相比SpikingEyeriss、Prosperity和16线程T-MAC分别实现了73.6×、4.09×和2.15×的加速,能耗降低32.4×、3.23×和20.9×,芯片面积仅0.96mm²。

研究背景与动机

1. 要解决的核心问题

随着深度神经网络特别是大语言模型(LLM)规模的快速增长,能耗和计算延迟成为主要部署挑战。通用矩阵乘法(GEMM)在全连接层和注意力层中占主导地位,其计算负担随模型规模成比例增长。

2. 问题的重要性

  • 能效需求:LLM的推理需要在边缘设备上高效运行
  • 实时性要求:降低计算延迟对用户体验至关重要
  • 硬件成本:需要在有限的芯片面积和功耗预算内实现高性能

3. 现有方法的局限性

量化技术的机遇

  • 超低比特量化(如BitNet-b1.58的三值权重{-1,0,1})在保持精度的同时大幅提升效率
  • 低比特量化使得基于LUT的加速策略成为可能,通过预计算和复用结果

现有LUT方法的问题

  • Prosperity等方法:动态调度LUT构建路径导致高硬件开销(24%芯片面积,32.3%功耗用于调度模块)
  • 位串行计算的低效:对三值权重使用2比特编码,超过理论最优的1.58比特(log₂3),且合并部分和产生额外开销
  • 预计算不可行:离线预计算所有LUT需要巨大存储(8位激活k=2时需4GB)

4. 研究动机

  • 对于BitNet这类权重分布均匀的模型,大部分LUT条目都会被使用(仅1.16%未使用),动态调度开销不必要
  • 三值LUT直接表示最终结果,实验显示相比二进制LUT有1.3×以上的性能提升
  • 需要一个轻量级、高能效的专用加速器,同时支持通用整数权重和特定比特宽度优化

核心贡献

  1. Platinum加速器架构:设计了一个新颖的基于LUT的mpGEMM加速器,采用解耦的基于路径的LUT构建框架,降低LUT生成成本并最小化硬件开销
  2. 路径自适应执行:通过切换构建路径,支持通用整数权重的位串行执行和针对特定精度(如三值权重)的优化执行
  3. 系统优化设计
    • 针对并行性和数据流优化的架构
    • 轻量级模块化设计,适合边缘部署
    • 芯片面积仅0.96mm²
  4. 卓越性能表现:在BitNet b1.58-3B上实现:
    • 相比最先进基线高达73.6×加速
    • 能耗降低32.4×
    • 证明了LUT-based ASIC作为边缘平台超低比特神经网络高效可扩展解决方案的潜力

方法详解

任务定义

混合精度GEMM (mpGEMM)

  • 输入:权重矩阵W (m×k, 低比特整数),激活矩阵X (k×n, 8位整数)
  • 输出:结果矩阵Y (m×n)
  • 目标:高效计算Y = W·X,特别优化三值权重场景

整体架构设计

Platinum处理器组成(图3):

  1. L个Platinum处理单元(PPE):每个包含控制器、加法器和专用LUT缓冲区
  2. 聚合器(Aggregator):共享PPE中的加法器,配合额外加法器形成流水线加法树
  3. 高带宽片上缓冲区:包括权重、输入、输出和构建路径缓冲区
  4. 特殊功能单元(SFU):支持GEMM之外的操作(如向量乘法、激活函数)

关键参数

  • L = 52个PPE
  • 每个LUT条目8位(对齐BitNet的8位激活)
  • 三值权重的chunk size c = 5(生成128条目LUT)
  • 每个PPE处理ncols = 8列输入

LUT构建方法创新

1. 离线路径生成(基于最小生成树MST)

问题建模

  • 将LUT构建形式化为有向超图
  • 每个节点代表一个LUT条目
  • 每条超边代表一次计算操作

MST算法应用

源节点:lut[0] = 0
操作限制:只能是输入元素的加/减
目标:找到连接所有节点的最小成本路径

优势

  • 利用对称性减少LUT大小至⌈3^c/2⌉
  • 对于c=5,相比朴素构建减少约10×加法次数
  • 保证正确的数据依赖关系(拓扑排序)
  • 最短读后写(RAW)依赖距离超过流水线级数,无需额外冒险处理

2. 四级构建流水线(图4)

Stage 1: 加载构建路径 (dst, src, j, sign)
Stage 2: LUT读取 + 输入访问
Stage 3: 加法器计算 lut[src] ± a[j]
Stage 4: LUT写回

路径格式

(dst, src, j, flip) 表示 lut[dst] = lut[src] ± aj

三值权重优化

1. 计算复杂度分析

位串行方法(Equation 1):

#add_bs = [⌈K/c⌉·c·2^c + M·⌈K/c⌉ + M(⌈K/c⌉-1)]·N

三值LUT方法(Equation 2):

#add_ter = [⌈K/c⌉·c·3^c + M(⌈K/c⌉-1)]·N

Platinum优化方法(Equation 3):

#add_platinum = [⌈K/c⌉·⌈3^c/2⌉ + M(⌈K/c⌉-1)]·N

通过镜像合并(mirror consolidation)利用对称性,减少LUT大小和构建成本。

2. 紧凑权重编码

问题

  • 2比特编码:远超理论最优1.58比特
  • 字节存储:极度冗余

解决方案

  • 每c个三值权重打包为base-3整数
  • 需要⌈log₂3^c⌉比特
  • 进一步分为1个符号位和⌈log₂3^c⌉-1个索引位以保持对称性
  • c=5时达到最优:1.6比特/权重,恰好放入一个字节(图6)

索引重排

  • 基于构建路径重排索引
  • 确保LUT条目顺序访问
  • 无需冒险检测硬件

系统级优化

1. 并行性设计

N维度并行

  • 每个PPE处理ncols=8列输入块
  • 构建块大小为ncols的LUT
  • 每次查询返回ncols个部分和
  • Cacti 7.0分析显示ncols>8后面积效率递减

K和N维度并行

  • L=52个PE并行处理L·c × ncols输入
  • 部分和直接流向累加器,降低输出缓冲压力

2. 利用率改进

资源不平衡问题

  • 构建阶段:1个加法器 + 2个LUT端口
  • 查询阶段:2个加法器 + 2个LUT端口

解决方案

  • 配置额外加法器以充分支持归约阶段
  • LUT端口理论利用率接近100%
  • 加法器平均利用率90.5%

3. 数据分块与驻留策略

分块配置(设计空间探索,图7):

  • m_tiled = 1080
  • k_tiled = 520
  • n_tiled = 32
  • mnk-stationary策略

片上存储

  • 272KB用于权重/输出/输入缓冲区
  • 52KB用于LUT
  • 总计324KB片上SRAM

实验设置

数据集和模型

BitNet-b1.58模型套件

  • b1.58-l: 700M参数
  • b1.58-xl: 1.3B参数
  • b1.58-3B: 3B参数

工作负载

  • Prefill阶段: N=1024 (批量大小×序列长度)
  • Decode阶段: N=8
  • 从BitLinear层提取M和K维度

硬件建模方法

RTL实现

  • SystemVerilog实现PPE
  • Synopsys Design Compiler综合
  • ARM标准单元库
  • 28nm工艺节点
  • 500 MHz频率

存储建模

  • 片上SRAM: CACTI 7.0建模
  • 片外DRAM: DRAMsim3建模
    • 64GB DDR4 2133R
    • 最大带宽64GB/s

仿真器

  • 扩展开源Prosperity仿真器
  • 周期精确模拟
  • 捕获计算周期、内存访问、PE活动

对比基线

加速器类型频率工艺PE数面积吞吐量
SpikingEyerissASIC500MHz28nm1681.07mm²20.8 GOP/s
ProsperityASIC500MHz28nm2561.06mm²375 GOP/s
T-MACCPU3490MHz5nm-289mm²715 GOP/s
PlatinumASIC500MHz28nm4160.955mm²1534 GOP/s

评价指标

  • 性能: 延迟(ms)、吞吐量(GOP/s)
  • 能效: 总能耗(mJ)、能效比
  • 硬件成本: 芯片面积(mm²)、功耗(W)

实验结果

芯片面积与功耗分解

面积分布(总计0.96mm²)

  • 权重和激活缓冲区:65%
  • 包含LUT后的存储:83.3%
  • 聚合器和PPE(核心计算):15%
  • 其他:1.7%

功耗分布(b1.58-3B prefill, 3.2W)

  • DRAM访问:53.5%
  • 权重缓冲访问:31.6%
  • LUT缓冲:相对较低
  • 其他:14.9%

关键洞察

  • 存储主导芯片面积,凸显LUT方法的面积效率
  • DRAM和权重访问是能耗瓶颈,紧凑权重编码至关重要
  • LUT功耗开销低,验证了LUT计算范式的高效性

核心级性能对比

b1.58-3B模型性能提升(图8、图9):

Prefill阶段 (N=1024)

  • vs SpikingEyeriss: 73.6× 加速, 32.4× 能耗降低
  • vs Prosperity: 4.09× 加速, 3.23× 能耗降低
  • vs T-MAC (16线程): 2.15× 加速, 20.9× 能耗降低
  • vs Platinum-bs (自身位串行): 1.4× 加速, 1.34× 能耗降低

Decode阶段 (N=8)

  • vs SpikingEyeriss: 47.6× 加速, 18.4× 能耗降低
  • vs Prosperity: 28.4× 加速, 15.3× 能耗降低
  • vs T-MAC: 1.75× 加速, 15.0× 能耗降低
  • vs Platinum-bs: 1.3× 加速, 1.31× 能耗降低

性能优势来源分析

1. 离线路径生成的优势

  • 消除运行时调度硬件开销(Prosperity的24%面积+32.3%功耗)
  • 更多面积用于PE,提高吞吐量
  • 对权重分布均匀的模型(如BitNet)特别有效

2. 高PE利用率

  • ncols=8设计保证低N工作负载下的利用率
  • 复制加法器充分利用LUT端口
  • Prosperity在decode负载下PE利用不足

3. 三值权重专用优化

  • 相比位串行模式1.3-1.4×额外加速
  • 1.6比特/权重的紧凑编码
  • 直接查表避免部分和合并开销

4. K维度高并行度

  • 降低输出数据DRAM访问频率
  • 部分和流式传输至累加器

跨模型一致性

三个模型的平均改进(图10):

  • b1.58-l, b1.58-xl, b1.58-3B表现一致
  • Prefill和Decode阶段均显著优于基线
  • 证明了方法的通用性和可扩展性

加法次数优化效果

图5分析

  • 不同LUT大小(16-128条目)的加法次数对比
  • Platinum在所有chunk size下达到最低加法次数
  • c=5时优势最明显(配合三值LUT和镜像合并)

编码效率

图6分析

  • Pack size c=5达到最优1.6比特/参数
  • 接近理论最优1.58比特
  • 远优于2比特编码(T-MAC等)

相关工作

1. 量化技术

  • 低比特量化:ANT、Olive、FP8-LM等探索激进量化
  • 权重专用量化:AWQ、GPTQ、BitNet系列
  • BitNet-b1.58:三值权重{-1,0,1}平衡效率与精度

2. LUT-based加速

  • BIQGEMM:二进制权重的动态规划方法
  • Prosperity:动态"shortcut"检测,但硬件开销高
  • T-MAC:CPU上的表查找方法
  • LUT-GEMM, LUT Tensor Core:探索LUT在低比特LLM中的应用
  • Bitnet.cpp:CPU实现,类似权重编码策略

本文优势

  • 首个将路径生成解耦到离线的ASIC设计
  • 同时支持通用和特定精度优化
  • 硬件开销最低,性能最优

3. 神经网络加速器

  • Eyeriss:能效DNN加速器
  • SpinalFlow:脉冲神经网络数据流
  • BitMod:混合数据类型位串行加速

本文定位:专注于超低比特权重的LUT-based ASIC,面向边缘LLM推理

结论与讨论

主要结论

  1. Platinum成功实现高效LUT-based加速
    • 通过离线路径生成消除运行时调度开销
    • 0.96mm²芯片面积内实现1534 GOP/s吞吐量
    • 相比最先进基线73.6×加速和32.4×能耗降低
  2. 路径自适应设计的有效性
    • 支持通用位串行和三值优化两种模式
    • 三值优化带来额外1.3-1.4×性能提升
    • 灵活性与专用性的良好平衡
  3. 边缘部署潜力
    • 轻量级模块化设计
    • 高能效比适合边缘平台
    • 为超低比特神经网络提供可扩展解决方案

局限性

1. 模型适用范围

  • 主要针对BitNet类模型:权重分布均匀、大部分LUT条目被使用
  • 非均匀分布的限制:对于稀疏或非均匀权重分布,离线路径可能不是最优
  • 固定chunk size:c=5针对三值权重优化,其他比特宽度可能需要调整

2. 精度支持

  • 当前限制8位激活:虽然LUT条目可扩展,但未充分探索更高精度
  • 整数量化假设:不支持浮点或混合精度激活

3. 内存带宽瓶颈

  • DRAM访问占53.5%功耗:仍有优化空间
  • 权重缓冲访问31.6%功耗:大模型可能面临片上存储压力

4. 通用性权衡

  • SFU仅作为开销:本文聚焦GEMM,其他操作支持有限
  • 需要离线编码:部署流程增加预处理步骤

未来方向

1. 扩展到更多模型

  • 探索非均匀权重分布的自适应路径生成
  • 支持更多量化方案(如4位、混合精度)

2. 系统级优化

  • 研究更高效的内存层次结构
  • 探索片上压缩技术进一步降低带宽需求

3. 动态与静态混合

  • 在保持低开销的同时引入轻量级动态调整
  • 针对不同层特性自适应选择路径

4. 扩展到其他操作

  • 充分利用SFU支持完整LLM推理
  • 探索LUT方法在注意力机制中的应用

深度评价

优点

1. 方法创新性 ⭐⭐⭐⭐⭐

  • 核心创新清晰:离线路径生成+自适应执行的组合是原创性的
  • 理论基础扎实:MST建模LUT构建问题,数学上优雅
  • 工程实现巧妙
    • 镜像合并利用对称性
    • 紧凑编码接近理论最优
    • 四级流水线避免冒险

2. 实验充分性 ⭐⭐⭐⭐⭐

  • 全面的基线对比:ASIC(Eyeriss, Prosperity)和CPU(T-MAC)
  • 多模型验证:三个不同规模BitNet模型
  • 多场景评估:Prefill和Decode阶段
  • 详细的硬件建模:RTL综合+CACTI+DRAMsim3
  • 消融研究:Platinum vs Platinum-bs验证三值优化

3. 结果说服力 ⭐⭐⭐⭐⭐

  • 显著性能提升:73.6×加速不是边际改进
  • 能效优势明显:32.4×能耗降低对边缘部署至关重要
  • 硬件成本合理:0.96mm²在28nm工艺下非常紧凑
  • 数据透明:提供详细的面积、功耗分解

4. 写作清晰度 ⭐⭐⭐⭐

  • 结构合理:背景→方法→实验逻辑清晰
  • 图表丰富:9个图表有效支撑论述
  • 技术细节完整:算法伪代码、公式推导齐全
  • 略显密集:部分章节信息量大,需仔细阅读

不足

1. 方法局限性

  • 离线路径的刚性:无法适应运行时变化,对非均匀分布模型可能次优
  • chunk size固定:c=5针对三值优化,缺乏对其他配置的深入探索
  • 泛化性未充分验证:仅在BitNet上测试,其他低比特模型(如4位)效果未知

2. 实验设置

  • 基线公平性
    • Prosperity被缩放以匹配面积,可能影响其最优配置
    • T-MAC在5nm工艺,技术节点差异大
    • SpikingEyeriss设计年代较早(2016)
  • 缺少GPU对比:未与现代GPU(如A100, H100)比较
  • 功耗测试场景单一:仅报告prefill的3.2W,decode功耗未详述

3. 分析深度

  • PE利用率:声称90.5%但未提供详细分析
  • 内存访问模式:缺少对DRAM带宽利用率的深入探讨
  • 可扩展性:L=52的选择缺乏充分论证,更大规模系统表现未知
  • 温度和可靠性:未讨论热设计和长期可靠性

4. 实用性考量

  • 部署复杂度:离线编码和路径生成增加部署流程
  • 模型适配:需要针对不同模型重新生成路径
  • 开源计划:未提及代码和硬件设计开源,可复现性存疑

影响力评估

1. 学术贡献 ⭐⭐⭐⭐

  • 开创性工作:首个系统性解决LUT构建开销的ASIC设计
  • 方法论价值:MST建模可启发其他加速器设计
  • 引用潜力:预计在LUT-based加速和低比特推理领域有较高引用

2. 实用价值 ⭐⭐⭐⭐

  • 边缘部署:0.96mm²和高能效非常适合边缘AI芯片
  • 商业化潜力:BitNet等三值模型的流行使其有实际应用场景
  • 技术成熟度:基于成熟的28nm工艺,可快速流片验证
  • 局限:依赖特定模型特性,通用性有待提升

3. 可复现性 ⭐⭐⭐

  • 硬件细节充分:RTL实现、综合参数、存储配置详细
  • 算法清晰:伪代码和公式完整
  • 工具链明确:Synopsys DC, CACTI 7.0, DRAMsim3
  • 缺失要素
    • 未提供开源代码或RTL
    • 权重编码的具体实现细节不足
    • 路径生成算法的完整实现未公开

适用场景

理想场景 ✅

  1. BitNet类三值权重模型推理:性能最优
  2. 边缘设备LLM部署:面积和功耗约束严格
  3. 批量推理任务:Prefill阶段优势明显
  4. 权重分布均匀的模型:LUT利用率高

适合场景 ⚠️

  1. 通用低比特(2-4位)整数权重模型:通过位串行模式支持
  2. 中等规模模型(1-3B):实验验证的范围
  3. 固定模型推理:离线优化可充分发挥

不适合场景 ❌

  1. 浮点或混合精度模型:当前设计不支持
  2. 动态权重或在线学习:离线路径无法适应
  3. 极大规模模型(>10B):片上存储可能不足
  4. 权重高度稀疏或非均匀分布:LUT利用率低

对领域的启示

  1. 硬件软件协同设计:离线优化与运行时执行的平衡
  2. 专用vs通用权衡:路径切换实现灵活性
  3. 存储为中心的设计:LUT方法中存储架构的重要性
  4. 量化方法与硬件的匹配:三值权重与LUT的天然契合

参考文献(精选)

  1. BitNet-b1.58 13: Ma et al., "The era of 1-bit llms: All large language models are in 1.58 bits"
  2. T-MAC 14: Wei et al., "T-MAC: CPU renaissance via table lookup for low-bit LLM deployment on edge"
  3. Prosperity 24: Wei et al., "Prosperity: Accelerating spiking neural networks via product sparsity"
  4. BIQGEMM 18: Jeon et al., "Biqgemm: matrix multiplication with lookup table for binary-coding-based quantized dnns"
  5. Eyeriss 27: Chen et al., "Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks"

总结

Platinum代表了LUT-based神经网络加速器设计的重要进展。通过巧妙地将路径生成解耦到离线,结合自适应执行模式,它在硬件开销、性能和能效之间实现了优秀的平衡。73.6×的加速和0.96mm²的紧凑设计使其成为边缘LLM推理的有力解决方案。

然而,该工作也存在明显的局限性:对特定模型(BitNet)的依赖、通用性有待提升、以及缺少开源实现。未来研究可以在保持低开销的同时增强适应性,扩展到更广泛的量化方案和模型架构。

总体而言,这是一篇高质量的计算机体系结构论文,技术创新扎实,实验评估全面,为低比特神经网络加速提供了新的设计范式。推荐给从事神经网络加速器、量化推理和边缘AI芯片研究的学者和工程师阅读。