2025-11-19T05:31:14.213589

Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference

Nair, Vellaisamy, Lin et al.

General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.

academic

تقييم تجاري لتصميم MAC بتخطي الأصفار لاستغلال الندرة البتية في استدلال التعلم العميق

المعلومات الأساسية

معرّف الورقة: 2402.19376
العنوان: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
المؤلفون: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
المؤسسات: جامعة كارنيجي ميلون، MediaTek USA Inc.
التصنيف: cs.AR (معمارية الحاسوب)
تاريخ النشر: فبراير 2024
رابط الورقة: https://arxiv.org/abs/2402.19376

الملخص

تقترح هذه الورقة OzMAC (Omit-zero-MAC)، وهي تحسين على تصميم Bit-Pragmatic (PRA) MAC مخصص لاستغلال الندرة البتية في استدلال التعلم العميق. بخلاف الأعمال السابقة، تستخدم هذه الورقة عقدة TSMC N5 من الدرجة التجارية وتجري تقييماً صارماً بعد التوليف لتصاميم متعددة البتات والترددات. تُظهر الدراسة وجود ندرة بتية عالية في 8 أحمال عمل INT8 للتعلم العميق المُدرَّبة مسبقاً، حيث يحقق OzMAC بـ 8 بتات تحسينات ملحوظة بنسبة 21% في المساحة و70% في الطاقة و28% في استهلاك الطاقة.

خلفية البحث والدافع

تعريف المشكلة

اختناق الحساب: مصفوفات الضرب والتراكم (MAC) في وحدات الضرب المصفوفي العام (GEMM) هي البنية الحسابية الأساسية لمسرّعات التعلم العميق، وتؤثر كفاءتها بشكل مباشر على الأداء الإجمالية
اتجاهات الدقة: تتطور المعايير الصناعية من 32 بت عائم (FP32) إلى 16 بت عائم (FP16) و8 بت صحيح (INT8) وحتى دقة أقل
متطلبات كفاءة الطاقة: تطبيقات الاستدلال على الحافة لها قيود صارمة على المساحة والطاقة واستهلاك الطاقة

دافع البحث

توجد ندرة بتية كبيرة في نماذج التعلم العميق (أي وجود عدد كبير من بتات '0' في التمثيل الثنائي)
على الرغم من أن تصميم Bit-Pragmatic (PRA) الموجود يقترح مفهوم استغلال الندرة البتية، إلا أنه يفتقر إلى تقييم صارم باستخدام عمليات تجارية
الحاجة إلى تقييم جدوى وفوائد تصميم MAC بتخطي الأصفار في التطبيقات التجارية الفعلية

المساهمات الأساسية

تصميم OzMAC: معمارية MAC محسّنة بتخطي الأصفار بناءً على PRA، تستغل الندرة البتية ديناميكياً بتخطي البتات ذات القيمة صفر في القيم الثنائية
تقييم من الدرجة التجارية: تقييم صارم لـ PPA (الطاقة والأداء والمساحة) باستخدام عملية TSMC N5 (5 نانومتر) وأدوات التصميم التجارية
تحليل متعدد الأبعاد: تقييم شامل عبر دقات بيانات متعددة (4 بت و8 بت و16 بت) وترددات ساعة (0.5 جيجاهرتز و1 جيجاهرتز و1.5 جيجاهرتز)
التحقق من الندرة: التحقق من وجود ندرة بتية عالية في 8 نماذج تعلم عميق وإظهار كيفية استغلال تقليل الطاقة لزيادة الإنتاجية

شرح الطريقة

تصميم معمارية OzMAC

يتكون OzMAC من ثلاث وحدات وظيفية أساسية:

Oz-encoder (مشفّر الأصفار):
- آلة الحالات المحدودة التي تتتبع الموضع الحالي والتالي للبتات '1' في نمط الإدخال
- تُخرج قيماً بترميز أحادي الحار، تلتقط موضع البتات '1' في كل دورة ساعة
- مثال: الإدخال '0101₂' يُرمّز كقيمتين بترميز أحادي الحار، عبر دورتي ساعة: الدورة الأولى '0100₂'، الدورة التالية '0001₂'
المُزاح (Shifter):
- يحدد مقدار إزاحة الإدخال الثاني بناءً على مخرجات مشفّر Oz
- بدلاً من قيم الإزاحة الثنائية في PRA، يستخدم OzMAC تمثيل ترميز أحادي الحار لتبسيط معقولية بوابات المُزاح
المراكم (Accumulator):
- يضيف الإدخال الثاني المُزاح بشكل مناسب إلى قيمة المراكم

نقاط الابتكار التقني

آلية تخطي الأصفار: إجراء حسابات فقط على البتات '1' وتخطي البتات '0'، مما يقلل دورات الحساب
تحسين المُزاح: استخدام إدخال ترميز أحادي الحار لتبسيط معقولية بوابات المُزاح
الحساب المتسلسل: استبدال التأخير بمساحة وطاقة أقل

إعداد التجربة

إطار التقييم

عقدة العملية: TSMC N5 (5 نانومتر) من الدرجة التجارية
أدوات التصميم: Synopsys VCS و SpyGlass و Design Compiler و PrimeTime PX
طريقة التحقق: تصميم RTL بـ SystemVerilog، محاكاة الشبكة المنطقية، تفريغ SAIF لحساب الطاقة الدقيق

مجموعات البيانات والنماذج

استخدام 8 نماذج INT8 مُدرَّبة مسبقاً محددة الكمية من مكتبة PyTorch Torchvision:

MobileNetV2, MobileNetV3
InceptionV3, ShuffleNetV2
GoogleNet, ResNet18, ResNet50, ResNeXt101

مؤشرات التقييم

المساحة: مساحة الرقاقة (μm²)
الطاقة: الطاقة الديناميكية (mW)
الكمون: كمون الحساب (ns)
استهلاك الطاقة: استهلاك الطاقة لكل عملية (pJ)

تكوينات الاختبار

تكوينات الدقة: 4×4, 4×8, 8×8, 8×16, 16×16 بت
نطاق التردد: 500 ميجاهرتز، 1 جيجاهرتز، 1.5 جيجاهرتز
خطوط الأساس للمقارنة: تصميم bMAC متوازي البتات التقليدي

نتائج التجربة

تحليل الندرة البتية

النموذج	متوسط عدد البتات '1'	نسبة الندرة البتية
MobileNetV2	2.334	70.83%
MobileNetV3	1.711	78.61%
InceptionV3	2.430	69.62%
ShuffleNetV2	2.583	67.71%
GoogleNet	2.461	69.24%
ResNet18	2.398	70.02%
ResNet50	2.495	68.81%
ResNeXt101	2.289	71.39%

تُظهر جميع النماذج ندرة بتية قريبة من 70%، حيث يصل MobileNetV3 إلى أعلى نسبة بـ 78.61%.

نتائج PPA الرئيسية (8 بت، 500 ميجاهرتز)

جهاز MAC	المساحة (μm²)	الطاقة (mW)	الكمون (ns)	استهلاك الطاقة (pJ)
bMAC	25.361	0.084	2	0.167
OzMAC	19.996	0.025	4.76	0.120
نسبة التحسين	21.2%	69.7%	-	28.0%

تحليل تدرج الدقة

تُظهر النتائج عبر تكوينات دقة مختلفة:

أفضل تحسين للمساحة: تكوين 8×16 يحقق 31.7%
أفضل تحسين لاستهلاك الطاقة: تكوينات الدقة المختلطة 4×8 و8×16 تحقق 45%
نقطة حرجة: تكوين 16×16 يفقد تحسين استهلاك الطاقة (-1.2%)

تحليل تدرج التردد

التقييم بتردد متساوٍ: في نطاق 500 ميجاهرتز إلى 1.5 جيجاهرتز، يحافظ OzMAC باستمرار على تحسين طاقة بنسبة حوالي 70% وتحسين استهلاك طاقة بنسبة 29%
التقييم بكمون متساوٍ: بعد مطابقة الإنتاجية من خلال تدرج التردد، يحقق OzMAC:
- تصاميم INT4: تحسين طاقة/استهلاك طاقة بنسبة 29%
- تصاميم INT8: تحسين طاقة/استهلاك طاقة بنسبة 30%
- تصاميم دقة مختلطة: تحسين يصل إلى 46%

النتائج الرئيسية

عتبة كفاءة الطاقة: يحتاج OzMAC إلى ندرة بتية بنسبة 58% على الأقل للحفاظ على كفاءة طاقة أفضل من bMAC
الندرة الفعلية: جميع نماذج التعلم العميق المختبرة تتجاوز هذه العتبة
خصائص التدرج: تتدرج الطاقة خطياً مع التردد، بينما يبقى استهلاك الطاقة ثابتاً بشكل أساسي

الأعمال ذات الصلة

تُبني هذه الورقة على أساس الأبحاث ذات الصلة التالية:

Bit-Pragmatic (PRA): الطريقة الأصلية للحساب العملي للشبكات العصبية العميقة
Bit-Tactical: طريقة برمجية وجهازية لاستغلال ندرة القيمة والبتية
STRIPES: حساب الشبكات العصبية العميقة بتسلسل البتات
Bit Fusion: معمارية ديناميكية قابلة للتكوين على مستوى البت

يكمن الفرق الرئيسي في استخدام أحدث العمليات التجارية لإجراء تقييم صارم والتوسع إلى تكوينات دقة وتردد متعددة.

الخلاصة والنقاش

الاستنتاجات الرئيسية

تحسينات ملحوظة: يحقق OzMAC تحسينات ملحوظة في المساحة والطاقة واستهلاك الطاقة مقارنة بـ bMAC التقليدي
الجدوى التجارية: يثبت التقييم باستخدام عملية TSMC N5 جدوى التطبيق التجاري
مزايا التدرج: يحافظ على المزايا عبر تكوينات دقة وتردد متعددة
مطابقة الإنتاجية: يمكن مطابقة أو تجاوز إنتاجية bMAC من خلال تدرج التردد مع الحفاظ على مزايا كفاءة الطاقة

القيود

تكلفة الكمون: قد لا يكون الكمون متعدد الدورات لـ OzMAC مناسباً للتطبيقات الحساسة للكمون
حدود الدقة: تختفي المزايا عند دقة 16 بت وأعلى
الاعتماد على الندرة: يعتمد الأداء بشكل كبير على الندرة البتية لبيانات الإدخال
غياب التقييم على مستوى النظام: لم يتم إجراء تقييم على مستوى نظام DLA الفعلي

الاتجاهات المستقبلية

التكامل على مستوى النظام: تقييم أداء مصفوفات OzMAC الكبيرة في DLA الفعلي
التصميم التكيفي: تعديل التكوين ديناميكياً بناءً على ندرة وقت التشغيل
المعمارية الهجينة: تصميم هجين يجمع بين OzMAC و MAC التقليدي

التقييم المتعمق

المزايا

تقييم صارم: تقييم شامل باستخدام عمليات وأدوات من الدرجة التجارية، مما يعطي نتائج موثوقة عالية
تحليل متعدد الأبعاد: تحليل منهجي عبر أبعاد متعددة من الدقة والتردد
القيمة العملية: التحقق من وجود ندرة بتية في نماذج التعلم العميق الفعلية
التعبير الواضح: وصف تفاصيل تقنية واضح وإعداد تجربة كامل

أوجه القصور

الابتكار المحدود: يتعلق الأمر بشكل أساسي بالتطبيق الهندسي والتقييم لتصميم PRA الموجود، مع ابتكار تقني محدود نسبياً
نطاق التطبيق: ينطبق فقط على أحمال العمل ذات الندرة البتية العالية
عدم كفاية الاعتبارات النظامية: غياب النظر في عوامل النظام مثل عرض النطاق الترددي للذاكرة وتدفق البيانات
المقارنة المحدودة: المقارنة الأساسية مع bMAC الأساسي، مع غياب المقارنة مع تصاميم MAC المتقدمة الأخرى

التأثير

القيمة الهندسية: توفير بيانات مرجعية قيمة لتصميم DLA التجاري
مساهمة منهجية: إنشاء إطار عمل صارم لتقييم تصميم MAC
التوجيه العملي: توفير حل تحسين جهاز صلب قابل للتطبيق لتطبيقات الاستدلال منخفضة الدقة

السيناريوهات المناسبة

الاستدلال على الحافة: تطبيقات الذكاء الاصطناعي على الحافة المقيدة بالطاقة والمساحة
الحساب منخفض الدقة: استدلال التعلم العميق بدقة 8 بت وأقل
النماذج المتفرقة: نماذج الشبكات العصبية ذات خصائص الندرة البتية العالية
الإنتاج الضخم: سيناريوهات النشر على نطاق واسع التي تتطلب التحقق من العملية التجارية

المراجع

Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.

توفر هذه الورقة تحقيقاً هندسياً مهماً للتطبيق التجاري لتصميم MAC بتخطي الأصفار. على الرغم من أن الابتكار التقني محدود، إلا أن منهجيتها الصارمة في التقييم والنتائج العملية لها قيمة مهمة في دفع تطور مسرّعات الذكاء الاصطناعي منخفضة الطاقة.