2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.

General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.

academic

गहन शिक्षा अनुमान में बिट विरलता दोहन के लिए शून्य-स्किपिंग MAC डिज़ाइन का वाणिज्यिक मूल्यांकन

मूल जानकारी

पेपर ID: 2402.19376
शीर्षक: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
लेखक: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
संस्थान: कार्नेगी मेलॉन विश्वविद्यालय, MediaTek USA Inc.
वर्गीकरण: cs.AR (कंप्यूटर आर्किटेक्चर)
प्रकाशन समय: फरवरी 2024
पेपर लिंक: https://arxiv.org/abs/2402.19376

सारांश

यह पेपर OzMAC (Omit-zero-MAC) प्रस्तावित करता है, जो गहन शिक्षा अनुमान में बिट विरलता का उपयोग करने के लिए Bit-Pragmatic (PRA) MAC डिज़ाइन का एक सुधारा हुआ कार्यान्वयन है। पिछले कार्यों के विपरीत, यह पेपर वाणिज्यिक-ग्रेड TSMC N5 प्रक्रिया नोड का उपयोग करके कई बिट-चौड़ाई और घड़ी आवृत्तियों पर डिज़ाइन का कठोर संश्लेषण-पश्चात मूल्यांकन करता है। अनुसंधान से पता चलता है कि 8 पूर्व-प्रशिक्षित INT8 गहन शिक्षा कार्यभार में उच्च बिट विरलता मौजूद है, 8-बिट OzMAC क्षेत्र, शक्ति और ऊर्जा खपत में क्रमशः 21%, 70% और 28% का उल्लेखनीय सुधार प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

कम्प्यूटेशनल बाधा: सामान्य मैट्रिक्स गुणन (GEMM) इकाइयों में गुणा-संचय (MAC) सरणियां गहन शिक्षा त्वरकों की मूल कम्प्यूटेशनल संरचना हैं, उनकी दक्षता समग्र प्रदर्शन को सीधे प्रभावित करती है
परिशुद्धता प्रवृत्ति: औद्योगिक मानक 32-बिट फ्लोटिंग पॉइंट (FP32) से 16-बिट फ्लोटिंग पॉइंट (FP16), 8-बिट पूर्णांक (INT8) और यहां तक कि कम परिशुद्धता की ओर बढ़ रहे हैं
ऊर्जा दक्षता आवश्यकताएं: किनारे अनुमान अनुप्रयोगों के पास क्षेत्र, शक्ति और ऊर्जा खपत पर कठोर बाधाएं हैं

अनुसंधान प्रेरणा

गहन शिक्षा मॉडल में बिट विरलता (bit sparsity) की बहुतायत है, अर्थात् बाइनरी प्रतिनिधित्व में बहुत सारे '0' बिट होते हैं
मौजूदा Bit-Pragmatic (PRA) डिज़ाइन ने हालांकि बिट विरलता का उपयोग करने की अवधारणा प्रस्तावित की है, लेकिन वाणिज्यिक-ग्रेड प्रक्रिया का कठोर मूल्यांकन नहीं है
वास्तविक वाणिज्यिक कार्यान्वयन में शून्य-स्किपिंग MAC डिज़ाइन की व्यवहार्यता और लाभों का मूल्यांकन करने की आवश्यकता है

मूल योगदान

OzMAC डिज़ाइन: PRA के आधार पर सुधारा हुआ शून्य-स्किपिंग MAC आर्किटेक्चर, बाइनरी मान में शून्य बिट को छोड़कर बिट विरलता का गतिशील उपयोग करता है
वाणिज्यिक-ग्रेड मूल्यांकन: TSMC N5 (5nm) प्रक्रिया और वाणिज्यिक डिज़ाइन उपकरणों का उपयोग करके कठोर शक्ति-प्रदर्शन-क्षेत्र (PPA) मूल्यांकन
बहु-आयामी विश्लेषण: कई डेटा परिशुद्धता (4-बिट, 8-बिट, 16-बिट) और घड़ी आवृत्तियों (0.5 GHz, 1 GHz, 1.5 GHz) में व्यापक मूल्यांकन
विरलता सत्यापन: 8 गहन शिक्षा मॉडल में उच्च बिट विरलता की उपस्थिति को सत्यापित करता है और दिखाता है कि शक्ति में कमी का उपयोग करके थ्रूपुट को कैसे बढ़ाया जाए

विधि विवरण

OzMAC माइक्रोआर्किटेक्चर डिज़ाइन

OzMAC तीन मूल कार्यात्मक मॉड्यूल से बना है:

Oz-encoder (शून्य एनकोडर):
- परिमित अवस्था मशीन जो इनपुट बिट पैटर्न में '1' की वर्तमान और अगली स्थिति को ट्रैक करती है
- प्रत्येक घड़ी चक्र में '1' की स्थिति को कैप्चर करते हुए वन-हॉट एन्कोडेड मान आउटपुट करता है
- उदाहरण: इनपुट '0101₂' को दो वन-हॉट मानों में एन्कोड किया जाता है, दो घड़ी चक्रों में फैला हुआ: पहला चक्र '0100₂', अगला चक्र '0001₂'
शिफ्टर (Shifter):
- Oz एनकोडर के आउटपुट के आधार पर दूसरे इनपुट की शिफ्ट मात्रा निर्धारित करता है
- PRA के बाइनरी शिफ्ट मान की तुलना में, OzMAC शिफ्टर हार्डवेयर को सरल बनाने के लिए वन-हॉट प्रतिनिधित्व अपनाता है
संचायक (Accumulator):
- उपयुक्त रूप से शिफ्ट किए गए दूसरे इनपुट को संचायक मान में जोड़ता है

तकनीकी नवाचार बिंदु

शून्य-स्किपिंग तंत्र: केवल '1' बिट पर गणना करता है, '0' बिट को छोड़ता है, गणना चक्र को कम करता है
शिफ्टर अनुकूलन: शिफ्टर गेट जटिलता को सरल बनाने के लिए वन-हॉट एन्कोडेड इनपुट अपनाता है
क्रमिक गणना: विलंबता के बदले में कम क्षेत्र और शक्ति का उपयोग करता है

प्रायोगिक सेटअप

मूल्यांकन ढांचा

प्रक्रिया नोड: TSMC N5 (5nm) वाणिज्यिक प्रक्रिया
डिज़ाइन उपकरण: Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
सत्यापन विधि: SystemVerilog RTL डिज़ाइन, गेट-स्तर नेटलिस्ट सिमुलेशन, सटीक शक्ति गणना के लिए SAIF डंप

डेटासेट और मॉडल

PyTorch Torchvision लाइब्रेरी से 8 पूर्व-प्रशिक्षित परिमाणित INT8 मॉडल का उपयोग:

MobileNetV2, MobileNetV3
InceptionV3, ShuffleNetV2
GoogleNet, ResNet18, ResNet50, ResNeXt101

मूल्यांकन मेट्रिक्स

क्षेत्र: चिप क्षेत्र (μm²)
शक्ति: गतिशील शक्ति (mW)
विलंबता: गणना विलंबता (ns)
ऊर्जा खपत: प्रति ऑपरेशन ऊर्जा खपत (pJ)

परीक्षण कॉन्फ़िगरेशन

परिशुद्धता कॉन्फ़िगरेशन: 4×4, 4×8, 8×8, 8×16, 16×16 बिट
आवृत्ति श्रेणी: 500 MHz, 1 GHz, 1.5 GHz
तुलना आधारभूत: पारंपरिक बिट-समानांतर bMAC डिज़ाइन

प्रायोगिक परिणाम

बिट विरलता विश्लेषण

मॉडल	औसत '1' बिट संख्या	बिट विरलता प्रतिशत
MobileNetV2	2.334	70.83%
MobileNetV3	1.711	78.61%
InceptionV3	2.430	69.62%
ShuffleNetV2	2.583	67.71%
GoogleNet	2.461	69.24%
ResNet18	2.398	70.02%
ResNet50	2.495	68.81%
ResNeXt101	2.289	71.39%

सभी मॉडल लगभग 70% की बिट विरलता प्रदर्शित करते हैं, MobileNetV3 सर्वोच्च 78.61% तक पहुंचता है।

मुख्य PPA परिणाम (8-बिट, 500 MHz)

MAC हार्डवेयर	क्षेत्र(μm²)	शक्ति(mW)	विलंबता(ns)	ऊर्जा खपत(pJ)
bMAC	25.361	0.084	2	0.167
OzMAC	19.996	0.025	4.76	0.120
सुधार प्रतिशत	21.2%	69.7%	-	28.0%

परिशुद्धता स्केलिंग विश्लेषण

विभिन्न परिशुद्धता कॉन्फ़िगरेशन में परिणाम दिखाते हैं:

सर्वोत्तम क्षेत्र सुधार: 8×16 कॉन्फ़िगरेशन 31.7% तक पहुंचता है
सर्वोत्तम ऊर्जा खपत सुधार: मिश्रित परिशुद्धता 4×8 और 8×16 कॉन्फ़िगरेशन 45% तक पहुंचते हैं
महत्वपूर्ण बिंदु: 16×16 कॉन्फ़िगरेशन में ऊर्जा खपत सुधार गायब हो जाता है (-1.2%)

आवृत्ति स्केलिंग विश्लेषण

समान आवृत्ति मूल्यांकन: 500 MHz से 1.5 GHz की श्रेणी में, OzMAC लगातार लगभग 70% की शक्ति सुधार और 29% की ऊर्जा खपत सुधार बनाए रखता है
समान विलंबता मूल्यांकन: आवृत्ति स्केलिंग के माध्यम से थ्रूपुट मिलाने के बाद, OzMAC अभी भी प्राप्त कर सकता है:
- INT4 डिज़ाइन: 29% की शक्ति/ऊर्जा खपत सुधार
- INT8 डिज़ाइन: 30% की शक्ति/ऊर्जा खपत सुधार
- मिश्रित परिशुद्धता डिज़ाइन: 46% तक सुधार

मुख्य निष्कर्ष

ऊर्जा दक्षता सीमा: OzMAC को bMAC से बेहतर ऊर्जा दक्षता बनाए रखने के लिए कम से कम 58% की बिट विरलता की आवश्यकता है
व्यावहारिक विरलता: सभी परीक्षित DL मॉडल इस सीमा से अधिक हैं
स्केलिंग विशेषताएं: शक्ति आवृत्ति के साथ रैखिक रूप से स्केल होती है, ऊर्जा खपत मूलतः स्थिर रहती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

उल्लेखनीय सुधार: OzMAC पारंपरिक bMAC की तुलना में क्षेत्र, शक्ति और ऊर्जा खपत में उल्लेखनीय सुधार प्राप्त करता है
वाणिज्यिक व्यवहार्यता: TSMC N5 प्रक्रिया का उपयोग करके मूल्यांकन वाणिज्यिक कार्यान्वयन की व्यवहार्यता को साबित करता है
स्केलिंग लाभ: कई परिशुद्धता और आवृत्ति कॉन्फ़िगरेशन में लाभ बनाए रखता है
थ्रूपुट मिलान: आवृत्ति स्केलिंग के माध्यम से ऊर्जा दक्षता लाभ बनाए रखते हुए bMAC के थ्रूपुट को मिलाया या पार किया जा सकता है

सीमाएं

विलंबता ओवरहेड: OzMAC की बहु-चक्र विलंबता विलंबता-संवेदनशील अनुप्रयोगों के लिए उपयुक्त नहीं हो सकती है
परिशुद्धता सीमा: 16-बिट से अधिक परिशुद्धता में लाभ गायब हो जाता है
विरलता निर्भरता: प्रदर्शन इनपुट डेटा की बिट विरलता पर बहुत अधिक निर्भर है
सिस्टम-स्तर मूल्यांकन की कमी: अभी तक वास्तविक DLA सिस्टम-स्तर पर मूल्यांकन नहीं किया गया है

भविष्य की दिशाएं

सिस्टम-स्तर एकीकरण: वास्तविक DLA में बड़े OzMAC सरणियों के प्रदर्शन का मूल्यांकन करना
अनुकूली डिज़ाइन: रनटाइम विरलता के आधार पर कॉन्फ़िगरेशन को गतिशील रूप से समायोजित करना
हाइब्रिड आर्किटेक्चर: OzMAC और पारंपरिक MAC का हाइब्रिड डिज़ाइन

गहन मूल्यांकन

शक्तियां

कठोर मूल्यांकन: वाणिज्यिक-ग्रेड प्रक्रिया और उपकरणों का उपयोग करके व्यापक मूल्यांकन, परिणाम विश्वसनीयता अधिक है
बहु-आयामी विश्लेषण: परिशुद्धता, आवृत्ति के कई आयामों में व्यवस्थित विश्लेषण
व्यावहारिक मूल्य: वास्तविक DL मॉडल में बिट विरलता की उपस्थिति को सत्यापित करता है
स्पष्ट अभिव्यक्ति: तकनीकी विवरण स्पष्ट रूप से वर्णित, प्रायोगिक सेटअप पूर्ण है

कमियां

सीमित नवाचार: मुख्य रूप से मौजूदा PRA डिज़ाइन का इंजीनियरिंग कार्यान्वयन और मूल्यांकन, तकनीकी नवाचार अपेक्षाकृत सीमित है
आवेदन श्रेणी: केवल उच्च बिट विरलता वाले कार्यभार के लिए उपयुक्त है
सिस्टम विचार अपर्याप्त: मेमोरी बैंडविड्थ, डेटा प्रवाह आदि सिस्टम-स्तर कारकों पर विचार की कमी है
सीमित तुलना: मुख्य रूप से बुनियादी bMAC के साथ तुलना, अन्य उन्नत MAC डिज़ाइन के साथ तुलना की कमी है

प्रभाव

इंजीनियरिंग मूल्य: वाणिज्यिक DLA डिज़ाइन के लिए मूल्यवान संदर्भ डेटा प्रदान करता है
पद्धति योगदान: MAC डिज़ाइन मूल्यांकन के लिए कठोर ढांचा स्थापित करता है
व्यावहारिक मार्गदर्शन: कम परिशुद्धता अनुमान अनुप्रयोगों के लिए व्यवहार्य हार्डवेयर अनुकूलन समाधान प्रदान करता है

लागू परिदृश्य

किनारे अनुमान: शक्ति और क्षेत्र-सीमित किनारे AI अनुप्रयोग
कम परिशुद्धता कम्प्यूटेशन: 8-बिट और उससे कम परिशुद्धता की गहन शिक्षा अनुमान
विरल मॉडल: उच्च बिट विरलता विशेषताओं वाले तंत्रिका नेटवर्क मॉडल
बल्क उत्पादन: बड़े पैमाने पर तैनाती के लिए वाणिज्यिक-ग्रेड प्रक्रिया सत्यापन की आवश्यकता वाले परिदृश्य

संदर्भ

Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

यह पेपर शून्य-स्किपिंग MAC डिज़ाइन के वाणिज्यिकीकरण के लिए महत्वपूर्ण इंजीनियरिंग सत्यापन प्रदान करता है। हालांकि तकनीकी नवाचार सीमित है, लेकिन इसकी कठोर मूल्यांकन पद्धति और व्यावहारिक परिणाम कम-शक्ति AI त्वरकों के विकास को आगे बढ़ाने के लिए महत्वपूर्ण मूल्य रखते हैं।