General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic- 論文ID: 2402.19376
- タイトル: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
- 著者: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
- 所属機関: Carnegie Mellon University, MediaTek USA Inc.
- 分類: cs.AR(コンピュータアーキテクチャ)
- 発表時期: 2024年2月
- 論文リンク: https://arxiv.org/abs/2402.19376
本論文では、ディープラーニング推論における位スパース性を活用するために設計されたOzMAC(Omit-zero-MAC)を提案しています。これはBit-Pragmatic(PRA)MAC設計の改良実装です。従来の研究と異なり、本論文は商用グレードのTSMC N5プロセスノードを使用して、複数のビット幅とクロック周波数における設計の厳密な合成後評価を実施しました。研究結果は、8つの事前学習済みINT8ディープラーニングワークロードに高い位スパース性が存在することを示し、8ビットOzMACは面積、消費電力、エネルギー効率の3つの指標において、それぞれ21%、70%、28%の顕著な改善を達成しました。
- 計算ボトルネック:汎用行列乗算(GEMM)ユニット内の乗算累積(MAC)アレイはディープラーニングアクセラレータの中核計算構造であり、その効率は全体的なパフォーマンスに直接影響します
- 精度トレンド:業界標準は32ビット浮動小数点(FP32)から16ビット浮動小数点(FP16)、8ビット整数(INT8)、さらには低精度へと進化しています
- エネルギー効率要件:エッジ推論アプリケーションは面積、消費電力、エネルギー効率に対して厳格な制約があります
- ディープラーニングモデルには、二進表現に多数の「0」ビットを含む位スパース性が大量に存在します
- 既存のBit-Pragmatic(PRA)設計は位スパース性を活用する概念を提案していますが、商用プロセスの厳密な評価が不足しています
- ゼロスキップMAC設計の実用的な商用実装における実現可能性と利益を評価する必要があります
- OzMAC設計:PRAに基づいた改良ゼロスキップMAC アーキテクチャを提案し、二進値内のゼロビットをスキップすることで動的に位スパース性を活用します
- 商用グレード評価:TSMC N5(5nm)プロセスと商用設計ツールを使用して、厳密な電力性能面積(PPA)評価を実施しました
- 多次元分析:複数のデータ精度(4ビット、8ビット、16ビット)とクロック周波数(0.5 GHz、1 GHz、1.5 GHz)にわたる包括的な評価
- スパース性検証:8つのディープラーニングモデルで高い位スパース性の存在を検証し、消費電力削減を活用してスループットを向上させる方法を実証しました
OzMACは3つの中核機能モジュールで構成されています:
- Oz-エンコーダ(ゼロエンコーダ):
- 有限状態機械で、入力ビットパターン内の「1」の現在位置と次の位置を追跡します
- ワンホットエンコード値を出力し、各クロックサイクルで「1」の位置をキャプチャします
- 例:入力「0101₂」は2つのワンホット値にエンコードされ、2つのクロックサイクルにまたがります:最初のサイクル「0100₂」、次のサイクル「0001₂」
- シフタ(Shifter):
- Ozエンコーダの出力に基づいて、2番目の入力のシフト量を決定します
- PRAのバイナリシフト値と比較して、OzMACはワンホットエンコーディングを採用してシフタハードウェアを簡素化します
- アキュムレータ(Accumulator):
- 適切にシフトされた2番目の入力をアキュムレータ値に加算します
- ゼロスキップメカニズム:「1」ビットに対してのみ計算を実行し、「0」ビットをスキップして計算サイクルを削減します
- シフタ最適化:ワンホットエンコード入力を採用してシフタゲート複雑度を簡素化します
- シリアル計算:遅延と引き換えに、より低い面積と消費電力を実現します
- プロセスノード:TSMC N5(5nm)商用プロセス
- 設計ツール:Synopsys VCS、SpyGlass、Design Compiler、PrimeTime PX
- 検証方法:SystemVerilog RTL設計、ゲートレベルネットリスト シミュレーション、SAIF ダンプによる正確な消費電力計算
PyTorch Torchvisionライブラリの8つの事前学習済み量子化INT8モデルを使用:
- MobileNetV2、MobileNetV3
- InceptionV3、ShuffleNetV2
- GoogleNet、ResNet18、ResNet50、ResNeXt101
- 面積:チップ面積(μm²)
- 消費電力:動的消費電力(mW)
- 遅延:計算遅延(ns)
- エネルギー効率:操作あたりのエネルギー(pJ)
- 精度構成:4×4、4×8、8×8、8×16、16×16ビット
- 周波数範囲:500 MHz、1 GHz、1.5 GHz
- 比較ベースライン:従来のビット並列bMAC設計
| モデル | 平均「1」ビット数 | 位スパース性パーセンテージ |
|---|
| MobileNetV2 | 2.334 | 70.83% |
| MobileNetV3 | 1.711 | 78.61% |
| InceptionV3 | 2.430 | 69.62% |
| ShuffleNetV2 | 2.583 | 67.71% |
| GoogleNet | 2.461 | 69.24% |
| ResNet18 | 2.398 | 70.02% |
| ResNet50 | 2.495 | 68.81% |
| ResNeXt101 | 2.289 | 71.39% |
すべてのモデルは約70%の位スパース性を示し、MobileNetV3は最高の78.61%に達しました。
| MACハードウェア | 面積(μm²) | 消費電力(mW) | 遅延(ns) | エネルギー効率(pJ) |
|---|
| bMAC | 25.361 | 0.084 | 2 | 0.167 |
| OzMAC | 19.996 | 0.025 | 4.76 | 0.120 |
| 改善パーセンテージ | 21.2% | 69.7% | - | 28.0% |
異なる精度構成にわたる結果は以下を示しています:
- 最良の面積改善:8×16構成で31.7%に達する
- 最良のエネルギー効率改善:混合精度4×8および8×16構成で45%に達する
- 臨界点:16×16構成ではエネルギー効率改善が消失(-1.2%)
- 等周波数評価:500 MHzから1.5 GHzの範囲内で、OzMACは約70%の消費電力改善と29%のエネルギー効率改善を一貫して維持します
- 等遅延評価:周波数スケーリングによってスループットをマッチングさせた後、OzMACは以下を実現できます:
- INT4設計:29%の消費電力/エネルギー効率改善
- INT8設計:30%の消費電力/エネルギー効率改善
- 混合精度設計:最大46%の改善
- エネルギー効率閾値:OzMACはbMACより優れたエネルギー効率を維持するために、少なくとも58%の位スパース性が必要です
- 実際のスパース性:テストされたすべてのDLモデルはこの閾値を超えています
- スケーリング特性:消費電力は周波数に対して線形にスケーリングし、エネルギー効率はほぼ一定に保たれます
本論文は以下の関連研究に基づいています:
- Bit-Pragmatic(PRA):元のビット実用的ディープニューラルネットワーク計算方法
- Bit-Tactical:値とビットスパース性を活用するソフトウェア/ハードウェア方法
- STRIPES:ビットシリアルディープニューラルネットワーク計算
- Bit Fusion:ビットレベル動的合成可能アーキテクチャ
本論文の主な違いは、最新の商用プロセスを使用した厳密な評価と、複数の精度と周波数構成への拡張にあります。
- 顕著な改善:OzMACは従来のbMACと比較して、面積、消費電力、エネルギー効率において顕著な改善を実現しました
- 商用実現可能性:TSMC N5プロセスを使用した評価は、商用実装の実現可能性を証明しています
- スケーリング利点:複数の精度と周波数構成にわたって利点を維持します
- スループットマッチング:周波数スケーリングにより、エネルギー効率の利点を維持しながらbMACのスループットをマッチングまたは超過できます
- 遅延オーバーヘッド:OzMACの多サイクル遅延は、遅延に敏感なアプリケーションには適さない可能性があります
- 精度制限:16ビット以上の精度では利点が消失します
- スパース性依存:パフォーマンスは入力データの位スパース性に大きく依存します
- システムレベル評価の欠落:実際のDLAシステムレベルでの評価はまだ実施されていません
- システムレベル統合:大規模OzMACアレイの実際のDLAでのパフォーマンスを評価します
- 適応型設計:実行時スパース性に基づいて構成を動的に調整します
- ハイブリッドアーキテクチャ:OzMACと従来のMACを組み合わせたハイブリッド設計
- 厳密な評価:商用グレードのプロセスとツールを使用した包括的な評価で、結果の信頼性が高い
- 多次元分析:精度と周波数の複数の次元にわたる体系的な分析
- 実用的価値:実際のDLモデルで位スパース性の存在を検証しました
- 明確な表現:技術詳細の説明が明確で、実験設定が完全です
- 限定的な革新:主に既存のPRA設計のエンジニアリング実装と評価であり、技術的革新は相対的に限定的です
- 適用範囲:高い位スパース性を持つワークロードにのみ適用可能です
- システム考慮の不足:メモリ帯域幅、データフローなどのシステムレベルの要因が不足しています
- 比較の限定:主に基本的なbMACとの比較であり、他の先進的なMAC設計との比較が不足しています
- エンジニアリング価値:商用DLA設計に対して価値のある参考データを提供します
- 方法論的貢献:厳密なMAC設計評価フレームワークを確立しました
- 実用的なガイダンス:低精度推論アプリケーションに対して実現可能なハードウェア最適化ソリューションを提供します
- エッジ推論:消費電力と面積が制限されるエッジAIアプリケーション
- 低精度計算:8ビット以下の精度のディープラーニング推論
- スパースモデル:高い位スパース性特性を持つニューラルネットワークモデル
- 大量生産:商用グレードのプロセス検証が必要な大規模展開シナリオ
- Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
- Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
- Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
- Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
- Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.
本論文は、ゼロスキップMAC設計の商用化アプリケーションに対して重要なエンジニアリング検証を提供しています。技術的革新は限定的ですが、その厳密な評価方法論と実用的な結果は、低消費電力AIアクセラレータの開発を推進する上で重要な価値があります。