General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic- معرّف الورقة: 2402.19376
- العنوان: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
- المؤلفون: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
- المؤسسات: جامعة كارنيجي ميلون، MediaTek USA Inc.
- التصنيف: cs.AR (معمارية الحاسوب)
- تاريخ النشر: فبراير 2024
- رابط الورقة: https://arxiv.org/abs/2402.19376
تقترح هذه الورقة OzMAC (Omit-zero-MAC)، وهي تحسين على تصميم Bit-Pragmatic (PRA) MAC مخصص لاستغلال الندرة البتية في استدلال التعلم العميق. بخلاف الأعمال السابقة، تستخدم هذه الورقة عقدة TSMC N5 من الدرجة التجارية وتجري تقييماً صارماً بعد التوليف لتصاميم متعددة البتات والترددات. تُظهر الدراسة وجود ندرة بتية عالية في 8 أحمال عمل INT8 للتعلم العميق المُدرَّبة مسبقاً، حيث يحقق OzMAC بـ 8 بتات تحسينات ملحوظة بنسبة 21% في المساحة و70% في الطاقة و28% في استهلاك الطاقة.
- اختناق الحساب: مصفوفات الضرب والتراكم (MAC) في وحدات الضرب المصفوفي العام (GEMM) هي البنية الحسابية الأساسية لمسرّعات التعلم العميق، وتؤثر كفاءتها بشكل مباشر على الأداء الإجمالية
- اتجاهات الدقة: تتطور المعايير الصناعية من 32 بت عائم (FP32) إلى 16 بت عائم (FP16) و8 بت صحيح (INT8) وحتى دقة أقل
- متطلبات كفاءة الطاقة: تطبيقات الاستدلال على الحافة لها قيود صارمة على المساحة والطاقة واستهلاك الطاقة
- توجد ندرة بتية كبيرة في نماذج التعلم العميق (أي وجود عدد كبير من بتات '0' في التمثيل الثنائي)
- على الرغم من أن تصميم Bit-Pragmatic (PRA) الموجود يقترح مفهوم استغلال الندرة البتية، إلا أنه يفتقر إلى تقييم صارم باستخدام عمليات تجارية
- الحاجة إلى تقييم جدوى وفوائد تصميم MAC بتخطي الأصفار في التطبيقات التجارية الفعلية
- تصميم OzMAC: معمارية MAC محسّنة بتخطي الأصفار بناءً على PRA، تستغل الندرة البتية ديناميكياً بتخطي البتات ذات القيمة صفر في القيم الثنائية
- تقييم من الدرجة التجارية: تقييم صارم لـ PPA (الطاقة والأداء والمساحة) باستخدام عملية TSMC N5 (5 نانومتر) وأدوات التصميم التجارية
- تحليل متعدد الأبعاد: تقييم شامل عبر دقات بيانات متعددة (4 بت و8 بت و16 بت) وترددات ساعة (0.5 جيجاهرتز و1 جيجاهرتز و1.5 جيجاهرتز)
- التحقق من الندرة: التحقق من وجود ندرة بتية عالية في 8 نماذج تعلم عميق وإظهار كيفية استغلال تقليل الطاقة لزيادة الإنتاجية
يتكون OzMAC من ثلاث وحدات وظيفية أساسية:
- Oz-encoder (مشفّر الأصفار):
- آلة الحالات المحدودة التي تتتبع الموضع الحالي والتالي للبتات '1' في نمط الإدخال
- تُخرج قيماً بترميز أحادي الحار، تلتقط موضع البتات '1' في كل دورة ساعة
- مثال: الإدخال '0101₂' يُرمّز كقيمتين بترميز أحادي الحار، عبر دورتي ساعة: الدورة الأولى '0100₂'، الدورة التالية '0001₂'
- المُزاح (Shifter):
- يحدد مقدار إزاحة الإدخال الثاني بناءً على مخرجات مشفّر Oz
- بدلاً من قيم الإزاحة الثنائية في PRA، يستخدم OzMAC تمثيل ترميز أحادي الحار لتبسيط معقولية بوابات المُزاح
- المراكم (Accumulator):
- يضيف الإدخال الثاني المُزاح بشكل مناسب إلى قيمة المراكم
- آلية تخطي الأصفار: إجراء حسابات فقط على البتات '1' وتخطي البتات '0'، مما يقلل دورات الحساب
- تحسين المُزاح: استخدام إدخال ترميز أحادي الحار لتبسيط معقولية بوابات المُزاح
- الحساب المتسلسل: استبدال التأخير بمساحة وطاقة أقل
- عقدة العملية: TSMC N5 (5 نانومتر) من الدرجة التجارية
- أدوات التصميم: Synopsys VCS و SpyGlass و Design Compiler و PrimeTime PX
- طريقة التحقق: تصميم RTL بـ SystemVerilog، محاكاة الشبكة المنطقية، تفريغ SAIF لحساب الطاقة الدقيق
استخدام 8 نماذج INT8 مُدرَّبة مسبقاً محددة الكمية من مكتبة PyTorch Torchvision:
- MobileNetV2, MobileNetV3
- InceptionV3, ShuffleNetV2
- GoogleNet, ResNet18, ResNet50, ResNeXt101
- المساحة: مساحة الرقاقة (μm²)
- الطاقة: الطاقة الديناميكية (mW)
- الكمون: كمون الحساب (ns)
- استهلاك الطاقة: استهلاك الطاقة لكل عملية (pJ)
- تكوينات الدقة: 4×4, 4×8, 8×8, 8×16, 16×16 بت
- نطاق التردد: 500 ميجاهرتز، 1 جيجاهرتز، 1.5 جيجاهرتز
- خطوط الأساس للمقارنة: تصميم bMAC متوازي البتات التقليدي
| النموذج | متوسط عدد البتات '1' | نسبة الندرة البتية |
|---|
| MobileNetV2 | 2.334 | 70.83% |
| MobileNetV3 | 1.711 | 78.61% |
| InceptionV3 | 2.430 | 69.62% |
| ShuffleNetV2 | 2.583 | 67.71% |
| GoogleNet | 2.461 | 69.24% |
| ResNet18 | 2.398 | 70.02% |
| ResNet50 | 2.495 | 68.81% |
| ResNeXt101 | 2.289 | 71.39% |
تُظهر جميع النماذج ندرة بتية قريبة من 70%، حيث يصل MobileNetV3 إلى أعلى نسبة بـ 78.61%.
| جهاز MAC | المساحة (μm²) | الطاقة (mW) | الكمون (ns) | استهلاك الطاقة (pJ) |
|---|
| bMAC | 25.361 | 0.084 | 2 | 0.167 |
| OzMAC | 19.996 | 0.025 | 4.76 | 0.120 |
| نسبة التحسين | 21.2% | 69.7% | - | 28.0% |
تُظهر النتائج عبر تكوينات دقة مختلفة:
- أفضل تحسين للمساحة: تكوين 8×16 يحقق 31.7%
- أفضل تحسين لاستهلاك الطاقة: تكوينات الدقة المختلطة 4×8 و8×16 تحقق 45%
- نقطة حرجة: تكوين 16×16 يفقد تحسين استهلاك الطاقة (-1.2%)
- التقييم بتردد متساوٍ: في نطاق 500 ميجاهرتز إلى 1.5 جيجاهرتز، يحافظ OzMAC باستمرار على تحسين طاقة بنسبة حوالي 70% وتحسين استهلاك طاقة بنسبة 29%
- التقييم بكمون متساوٍ: بعد مطابقة الإنتاجية من خلال تدرج التردد، يحقق OzMAC:
- تصاميم INT4: تحسين طاقة/استهلاك طاقة بنسبة 29%
- تصاميم INT8: تحسين طاقة/استهلاك طاقة بنسبة 30%
- تصاميم دقة مختلطة: تحسين يصل إلى 46%
- عتبة كفاءة الطاقة: يحتاج OzMAC إلى ندرة بتية بنسبة 58% على الأقل للحفاظ على كفاءة طاقة أفضل من bMAC
- الندرة الفعلية: جميع نماذج التعلم العميق المختبرة تتجاوز هذه العتبة
- خصائص التدرج: تتدرج الطاقة خطياً مع التردد، بينما يبقى استهلاك الطاقة ثابتاً بشكل أساسي
تُبني هذه الورقة على أساس الأبحاث ذات الصلة التالية:
- Bit-Pragmatic (PRA): الطريقة الأصلية للحساب العملي للشبكات العصبية العميقة
- Bit-Tactical: طريقة برمجية وجهازية لاستغلال ندرة القيمة والبتية
- STRIPES: حساب الشبكات العصبية العميقة بتسلسل البتات
- Bit Fusion: معمارية ديناميكية قابلة للتكوين على مستوى البت
يكمن الفرق الرئيسي في استخدام أحدث العمليات التجارية لإجراء تقييم صارم والتوسع إلى تكوينات دقة وتردد متعددة.
- تحسينات ملحوظة: يحقق OzMAC تحسينات ملحوظة في المساحة والطاقة واستهلاك الطاقة مقارنة بـ bMAC التقليدي
- الجدوى التجارية: يثبت التقييم باستخدام عملية TSMC N5 جدوى التطبيق التجاري
- مزايا التدرج: يحافظ على المزايا عبر تكوينات دقة وتردد متعددة
- مطابقة الإنتاجية: يمكن مطابقة أو تجاوز إنتاجية bMAC من خلال تدرج التردد مع الحفاظ على مزايا كفاءة الطاقة
- تكلفة الكمون: قد لا يكون الكمون متعدد الدورات لـ OzMAC مناسباً للتطبيقات الحساسة للكمون
- حدود الدقة: تختفي المزايا عند دقة 16 بت وأعلى
- الاعتماد على الندرة: يعتمد الأداء بشكل كبير على الندرة البتية لبيانات الإدخال
- غياب التقييم على مستوى النظام: لم يتم إجراء تقييم على مستوى نظام DLA الفعلي
- التكامل على مستوى النظام: تقييم أداء مصفوفات OzMAC الكبيرة في DLA الفعلي
- التصميم التكيفي: تعديل التكوين ديناميكياً بناءً على ندرة وقت التشغيل
- المعمارية الهجينة: تصميم هجين يجمع بين OzMAC و MAC التقليدي
- تقييم صارم: تقييم شامل باستخدام عمليات وأدوات من الدرجة التجارية، مما يعطي نتائج موثوقة عالية
- تحليل متعدد الأبعاد: تحليل منهجي عبر أبعاد متعددة من الدقة والتردد
- القيمة العملية: التحقق من وجود ندرة بتية في نماذج التعلم العميق الفعلية
- التعبير الواضح: وصف تفاصيل تقنية واضح وإعداد تجربة كامل
- الابتكار المحدود: يتعلق الأمر بشكل أساسي بالتطبيق الهندسي والتقييم لتصميم PRA الموجود، مع ابتكار تقني محدود نسبياً
- نطاق التطبيق: ينطبق فقط على أحمال العمل ذات الندرة البتية العالية
- عدم كفاية الاعتبارات النظامية: غياب النظر في عوامل النظام مثل عرض النطاق الترددي للذاكرة وتدفق البيانات
- المقارنة المحدودة: المقارنة الأساسية مع bMAC الأساسي، مع غياب المقارنة مع تصاميم MAC المتقدمة الأخرى
- القيمة الهندسية: توفير بيانات مرجعية قيمة لتصميم DLA التجاري
- مساهمة منهجية: إنشاء إطار عمل صارم لتقييم تصميم MAC
- التوجيه العملي: توفير حل تحسين جهاز صلب قابل للتطبيق لتطبيقات الاستدلال منخفضة الدقة
- الاستدلال على الحافة: تطبيقات الذكاء الاصطناعي على الحافة المقيدة بالطاقة والمساحة
- الحساب منخفض الدقة: استدلال التعلم العميق بدقة 8 بت وأقل
- النماذج المتفرقة: نماذج الشبكات العصبية ذات خصائص الندرة البتية العالية
- الإنتاج الضخم: سيناريوهات النشر على نطاق واسع التي تتطلب التحقق من العملية التجارية
- Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
- Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
- Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
- Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
- Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.
توفر هذه الورقة تحقيقاً هندسياً مهماً للتطبيق التجاري لتصميم MAC بتخطي الأصفار. على الرغم من أن الابتكار التقني محدود، إلا أن منهجيتها الصارمة في التقييم والنتائج العملية لها قيمة مهمة في دفع تطور مسرّعات الذكاء الاصطناعي منخفضة الطاقة.