Platinum: Path-Adaptable LUT-Based Accelerator Tailored for Low-Bit Weight Matrix Multiplication
Shan, Guo, Wei et al.
The rapid scaling of large language models demands more efficient hardware. Quantization offers a promising trade-off between efficiency and performance. With ultra-low-bit quantization, there are abundant opportunities for results reuse, and thus it can be boosted with lookup tables (LUTs) based acceleration. However, existing LUT-based methods suffer from computation and hardware overheads for LUT construction, and rely solely on bit-serial computation, which is suboptimal for ternary-weight networks. We propose Platinum, a lightweight ASIC accelerator for integer weight mixed-precision matrix multiplication (mpGEMM) using LUTs. Platinum reduces LUT construction overhead via offline-generated construction paths and supports both general bit-serial and optimized ternary-weight execution through adaptive path switching. On BitNet b1.58-3B, Platinum achieves up to 73.6x, 4.09x, and 2.15x speedups over SpikingEyeriss, Prosperity, and 16-thread T-MAC (CPU), respectively, along with energy reductions of 32.4x, 3.23x, and 20.9x, all within a 0.96mm2 chip area. This demonstrates the potential of LUT-based ASICs as efficient, scalable solutions for ultra-low-bit neural networks on edge platforms.
academic
Platinum: Acelerador Adaptable a Rutas Basado en LUT Diseñado para Multiplicación de Matrices de Pesos de Bajo Bit
La rápida expansión de los modelos de lenguaje grandes impone mayores requisitos de eficiencia de hardware. Las técnicas de cuantificación ofrecen un compromiso prometedor entre eficiencia y rendimiento. La cuantificación de ultra-bajo bit crea amplias oportunidades para la reutilización de resultados, que pueden acelerarse mediante tablas de búsqueda (LUT). Sin embargo, los métodos LUT existentes presentan sobrecarga computacional y de hardware en la construcción de LUT, y dependen únicamente de cálculos seriales por bits, lo que no es óptimo para redes de pesos ternarios. Este artículo presenta Platinum, un acelerador ASIC ligero para multiplicación de matrices de precisión mixta con pesos enteros (mpGEMM). Platinum reduce la sobrecarga de construcción de LUT mediante rutas generadas sin conexión y soporta simultáneamente ejecución serial por bits de propósito general y ejecución optimizada de pesos ternarios mediante conmutación adaptable de rutas. En BitNet b1.58-3B, Platinum logra aceleración de 73.6×, 4.09× y 2.15× en comparación con SpikingEyeriss, Prosperity y T-MAC de 16 hilos respectivamente, con reducción de consumo de energía de 32.4×, 3.23× y 20.9×, con un área de chip de solo 0.96mm².
Con el rápido crecimiento de redes neuronales profundas, especialmente modelos de lenguaje grandes (LLM), el consumo de energía y la latencia computacional se han convertido en desafíos principales de implementación. La multiplicación de matrices general (GEMM) domina en capas completamente conectadas y capas de atención, con carga computacional que crece proporcionalmente al tamaño del modelo.
La cuantificación de ultra-bajo bit (como pesos ternarios {-1,0,1} en BitNet-b1.58) mejora significativamente la eficiencia mientras mantiene precisión
La cuantificación de bajo bit hace posibles estrategias de aceleración basadas en LUT mediante precálculo y reutilización de resultados
Problemas de Métodos LUT Existentes:
Métodos como Prosperity: La programación dinámica de rutas de construcción de LUT genera alta sobrecarga de hardware (24% de área de chip, 32.3% de potencia en módulos de programación)
Ineficiencia del Cálculo Serial por Bits: Usa codificación de 2 bits para pesos ternarios, superando el óptimo teórico de 1.58 bits (log₂3), con sobrecarga adicional en la fusión de sumas parciales
Precálculo Inviable: Precalcular todos los LUT sin conexión requiere almacenamiento masivo (4GB para activación de 8 bits con k=2)
Para modelos como BitNet con distribución de pesos uniforme, la mayoría de entradas de LUT se utilizan (solo 1.16% sin usar), haciendo innecesaria la sobrecarga de programación dinámica
Los LUT ternarios representan directamente resultados finales, con experimentos mostrando mejora de rendimiento de 1.3× en comparación con LUT binarios
Se necesita un acelerador especializado ligero y de alta eficiencia energética que soporte simultáneamente pesos enteros generales y optimización de ancho de bit específico
Arquitectura del Acelerador Platinum: Diseño de un nuevo acelerador mpGEMM basado en LUT con marco de construcción de LUT basado en rutas desacopladas, reduciendo costos de generación de LUT y minimizando sobrecarga de hardware
Ejecución Adaptable a Rutas: Mediante conmutación de rutas de construcción, soporta ejecución serial por bits de propósito general para pesos enteros y ejecución optimizada para precisiones específicas (como pesos ternarios)
Diseño de Optimización de Sistema:
Arquitectura optimizada para paralelismo y flujo de datos
Diseño modular ligero adecuado para implementación periférica
Área de chip de solo 0.96mm²
Rendimiento Excepcional: En BitNet b1.58-3B logra:
Aceleración de hasta 73.6× en comparación con líneas base de última generación
Reducción de consumo de energía de 32.4×
Demuestra el potencial de ASIC basado en LUT como solución escalable y eficiente para redes neuronales de ultra-bajo bit en plataformas periféricas
Formalizar construcción de LUT como hipergrafo dirigido
Cada nodo representa una entrada de LUT
Cada hiperarista representa una operación computacional
Aplicación del Algoritmo MST:
Nodo fuente: lut[0] = 0
Restricción de operaciones: Solo suma/resta de elementos de entrada
Objetivo: Encontrar ruta de costo mínimo conectando todos los nodos
Ventajas:
Explotar simetría para reducir tamaño de LUT a ⌈3^c/2⌉
Para c=5, reduce aproximadamente 10× el número de sumas en comparación con construcción ingenua
Garantiza relaciones correctas de dependencia de datos (ordenamiento topológico)
Distancia de dependencia lectura-después-escritura (RAW) más corta que niveles de tubería, sin necesidad de manejo adicional de riesgos
Platinum representa un avance importante en diseño de aceleradores de redes neuronales basados en LUT. Mediante desacoplamiento ingenioso de generación de rutas a sin conexión, combinado con modo de ejecución adaptable, logra excelente equilibrio entre sobrecarga de hardware, rendimiento y eficiencia energética. La aceleración de 73.6× y diseño compacto de 0.96mm² lo convierten en solución potente para inferencia de LLM periférica.
Sin embargo, este trabajo también presenta limitaciones evidentes: dependencia de modelos específicos (BitNet), universalidad requiere mejora, y falta implementación de código abierto. Investigación futura puede mejorar adaptabilidad mientras mantiene baja sobrecarga, extendiendo a esquemas de cuantificación más amplios y arquitecturas de modelos.
En general, este es un artículo de alta calidad en arquitectura de computadores, con innovación técnica sólida, evaluación experimental exhaustiva, proporcionando nuevo paradigma de diseño para aceleración de redes neuronales de bajo bit. Recomendado para académicos e ingenieros trabajando en aceleradores de redes neuronales, inferencia de cuantificación y investigación de chips de IA periférica.