2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.

General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.

academic

Коммерческая оценка конструкции MAC с пропуском нулей для использования разреженности битов в выводе DL

Основная информация

ID статьи: 2402.19376
Название: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
Авторы: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
Учреждения: Carnegie Mellon University, MediaTek USA Inc.
Классификация: cs.AR (Архитектура компьютеров)
Дата публикации: февраль 2024 г.
Ссылка на статью: https://arxiv.org/abs/2402.19376

Аннотация

В данной статье предлагается OzMAC (Omit-zero-MAC) — улучшенная реализация конструкции Bit-Pragmatic (PRA) MAC, специально разработанная для использования разреженности битов при выводе глубокого обучения. В отличие от предыдущих работ, авторы проводят строгую постсинтезную оценку конструкции с использованием коммерческого технологического узла TSMC N5 при различных разрядностях и тактовых частотах. Исследование показывает высокую разреженность битов в восьми предварительно обученных рабочих нагрузках INT8 глубокого обучения, при этом 8-битный OzMAC достигает значительных улучшений на 21%, 70% и 28% по площади, мощности и энергопотреблению соответственно.

Исследовательский контекст и мотивация

Определение проблемы

Вычислительное узкое место: Массивы умножения-накопления (MAC) в блоках обобщенного матричного умножения (GEMM) являются основной вычислительной структурой ускорителей глубокого обучения, и их эффективность напрямую влияет на общую производительность
Тенденции точности: Промышленные стандарты переходят от 32-битных чисел с плавающей точкой (FP32) к 16-битным (FP16), 8-битным целым числам (INT8) и даже более низким точностям
Требования энергоэффективности: Приложения вывода на граничных устройствах имеют строгие ограничения на площадь, мощность и энергопотребление

Исследовательская мотивация

В моделях глубокого обучения существует значительная разреженность битов (bit sparsity), то есть двоичное представление содержит множество нулевых битов
Хотя существующая конструкция Bit-Pragmatic (PRA) предложила концепцию использования разреженности битов, ей не хватает строгой оценки на коммерческих технологических узлах
Необходимо оценить осуществимость и преимущества конструкции MAC с пропуском нулей в реальной коммерческой реализации

Основные вклады

Конструкция OzMAC: Улучшенная архитектура MAC с пропуском нулей на основе PRA, которая динамически использует разреженность битов путем пропуска нулевых битов в двоичном представлении
Коммерческая оценка: Строгая оценка мощности-производительности-площади (PPA) с использованием технологического узла TSMC N5 (5 нм) и коммерческих инструментов проектирования
Многомерный анализ: Комплексная оценка по различным точностям данных (4-бит, 8-бит, 16-бит) и тактовым частотам (0,5 ГГц, 1 ГГц, 1,5 ГГц)
Проверка разреженности: Верификация наличия высокой разреженности битов в восьми моделях глубокого обучения и демонстрация того, как использовать снижение мощности для повышения пропускной способности

Подробное описание методики

Микроархитектура OzMAC

OzMAC состоит из трех основных функциональных модулей:

Oz-кодировщик (Oz-encoder):
- Конечный автомат, отслеживающий текущее и следующее положение единиц в шаблоне входных битов
- Выводит унарное кодированное значение, захватывающее положение единиц в каждом тактовом цикле
- Пример: входное значение '0101₂' кодируется в два унарных значения, распределенные на два тактовых цикла: первый цикл '0100₂', следующий цикл '0001₂'
Сдвигатель (Shifter):
- Определяет величину сдвига второго входа на основе выхода кодировщика Oz
- В отличие от двоичных значений сдвига в PRA, OzMAC использует унарное представление для упрощения аппаратной сложности сдвигателя
Аккумулятор (Accumulator):
- Добавляет надлежащим образом сдвинутый второй вход к значению аккумулятора

Технические инновации

Механизм пропуска нулей: Выполняет вычисления только для единичных битов, пропуская нулевые биты, что снижает количество вычислительных циклов
Оптимизация сдвигателя: Использует унарное кодированное входное значение для упрощения сложности логических элементов сдвигателя
Последовательные вычисления: Обменивает задержку на более низкую площадь и мощность

Экспериментальная установка

Оценочная база

Технологический узел: TSMC N5 (5 нм) коммерческий процесс
Инструменты проектирования: Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
Метод верификации: Проектирование RTL на SystemVerilog, моделирование на уровне вентилей, сброс SAIF для точного расчета мощности

Наборы данных и модели

Используются восемь предварительно обученных квантованных моделей INT8 из библиотеки PyTorch Torchvision:

MobileNetV2, MobileNetV3
InceptionV3, ShuffleNetV2
GoogleNet, ResNet18, ResNet50, ResNeXt101

Метрики оценки

Площадь: Площадь кристалла (μm²)
Мощность: Динамическая мощность (мВт)
Задержка: Задержка вычисления (нс)
Энергопотребление: Энергопотребление на операцию (пДж)

Конфигурации тестирования

Конфигурации точности: 4×4, 4×8, 8×8, 8×16, 16×16 бит
Диапазон частот: 500 МГц, 1 ГГц, 1,5 ГГц
Базовые линии сравнения: Традиционная конструкция bMAC с параллельными битами

Результаты экспериментов

Анализ разреженности битов

Модель	Среднее количество единичных битов	Процент разреженности битов
MobileNetV2	2.334	70.83%
MobileNetV3	1.711	78.61%
InceptionV3	2.430	69.62%
ShuffleNetV2	2.583	67.71%
GoogleNet	2.461	69.24%
ResNet18	2.398	70.02%
ResNet50	2.495	68.81%
ResNeXt101	2.289	71.39%

Все модели демонстрируют разреженность битов близко к 70%, при этом MobileNetV3 достигает максимума 78.61%.

Основные результаты PPA (8-бит, 500 МГц)

Аппаратура MAC	Площадь (μm²)	Мощность (мВт)	Задержка (нс)	Энергопотребление (пДж)
bMAC	25.361	0.084	2	0.167
OzMAC	19.996	0.025	4.76	0.120
Процент улучшения	21.2%	69.7%	—	28.0%

Анализ масштабирования по точности

Результаты по различным конфигурациям точности показывают:

Лучшее улучшение площади: Конфигурация 8×16 достигает 31.7%
Лучшее улучшение энергопотребления: Конфигурации смешанной точности 4×8 и 8×16 достигают 45%
Критическая точка: При конфигурации 16×16 улучшение энергопотребления исчезает (-1.2%)

Анализ масштабирования по частоте

Оценка при равной частоте: В диапазоне от 500 МГц до 1.5 ГГц OzMAC постоянно поддерживает примерно 70% улучшение мощности и 29% улучшение энергопотребления
Оценка при равной задержке: После масштабирования частоты для согласования пропускной способности OzMAC все еще может достичь:
- Конструкции INT4: 29% улучшение мощности/энергопотребления
- Конструкции INT8: 30% улучшение мощности/энергопотребления
- Конструкции смешанной точности: улучшение до 46%

Ключевые выводы

Пороговое значение энергоэффективности: OzMAC требует по крайней мере 58% разреженности битов для поддержания лучшей энергоэффективности по сравнению с bMAC
Практическая разреженность: Все протестированные модели DL превышают этот порог
Характеристики масштабирования: Мощность масштабируется линейно с частотой, энергопотребление остается практически постоянным

Связанные работы

Данная статья основана на следующих исследованиях:

Bit-Pragmatic (PRA): Исходный метод вычисления нейронных сетей на основе битовой прагматичности
Bit-Tactical: Программно-аппаратный метод использования разреженности значений и битов
STRIPES: Вычисление нейронных сетей с битовой последовательностью
Bit Fusion: Архитектура динамической композиции на уровне битов

Основное отличие данной работы заключается в использовании новейшего коммерческого процесса для строгой оценки и расширении на несколько конфигураций точности и частоты.

Заключение и обсуждение

Основные выводы

Значительные улучшения: OzMAC достигает значительных улучшений на 21%, 70% и 28% по площади, мощности и энергопотреблению соответственно по сравнению с традиционным bMAC
Коммерческая осуществимость: Оценка с использованием технологического узла TSMC N5 доказывает осуществимость коммерческой реализации
Преимущества масштабирования: Сохраняет преимущества при различных конфигурациях точности и частоты
Согласование пропускной способности: Путем масштабирования частоты можно согласовать или превзойти пропускную способность bMAC, сохраняя преимущества энергоэффективности

Ограничения

Задержка: Многоциклическая задержка OzMAC может быть неподходящей для приложений, чувствительных к задержке
Ограничения точности: Преимущества исчезают при точности выше 16 бит
Зависимость от разреженности: Производительность сильно зависит от разреженности битов входных данных
Отсутствие системной оценки: Еще не проведена оценка на уровне реальной системы DLA

Направления будущих исследований

Системная интеграция: Оценка производительности больших массивов OzMAC в реальных DLA
Адаптивная конструкция: Динамическая регулировка конфигурации в зависимости от разреженности во время выполнения
Гибридная архитектура: Гибридная конструкция, объединяющая OzMAC и традиционный MAC

Углубленная оценка

Преимущества

Строгая оценка: Комплексная оценка с использованием коммерческих технологических узлов и инструментов обеспечивает высокую достоверность результатов
Многомерный анализ: Систематический анализ по нескольким измерениям точности и частоты
Практическая ценность: Верификация наличия разреженности битов на реальных моделях DL
Четкое изложение: Ясное описание технических деталей и полная экспериментальная установка

Недостатки

Ограниченная инновация: Главным образом инженерная реализация и оценка существующей конструкции PRA с ограниченной технической инновацией
Область применения: Применимо только к рабочим нагрузкам с высокой разреженностью битов
Недостаточное системное рассмотрение: Отсутствие рассмотрения системных факторов, таких как пропускная способность памяти и потоки данных
Ограниченное сравнение: Главным образом сравнение с базовым bMAC, отсутствие сравнения с другими передовыми конструкциями MAC

Влияние

Инженерная ценность: Предоставляет ценные справочные данные для коммерческого проектирования DLA
Методологический вклад: Устанавливает строгую базу для оценки конструкции MAC
Практическое руководство: Предоставляет осуществимое решение аппаратной оптимизации для приложений вывода с низкой точностью

Применимые сценарии

Граничный вывод: Приложения граничного ИИ с ограничениями по мощности и площади
Вычисления низкой точности: Вывод глубокого обучения с точностью 8 бит и ниже
Разреженные модели: Нейронные сетевые модели с высокой разреженностью битов
Массовое производство: Сценарии крупномасштабного развертывания, требующие верификации коммерческого технологического узла

Библиография

Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

Данная статья предоставляет важную инженерную верификацию для коммерциализации конструкции MAC с пропуском нулей. Хотя технические инновации ограничены, ее строгая методология оценки и практические результаты имеют значительную ценность для продвижения развития низкопотребляющих ускорителей ИИ.