Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
تعتبر تقنيات دمج الطبقات حاسمة لتحسين كفاءة الاستدلال في الشبكات العصبية العميقة (DNN) للنشر. يهدف الدمج إلى خفض تكاليف الاستدلال بتقليل معاملات البيانات بين المخزن المؤقت على الرقاقة و DRAM. يتم تحقيق ذلك من خلال التنفيذ المجمع لعمليات متعددة مثل الالتفاف والتفعيلات معاً في وحدات تنفيذ واحدة - مجموعات الدمج. ومع ذلك، تحد سعة المخزن المؤقت على الرقاقة من حجم مجموعة الدمج، وتحسين الدمج على شبكات DNN الكاملة يتطلب التقسيم إلى مجموعات دمج متعددة. إن إيجاد المجموعات المثلى مشكلة معقدة حيث يعيق وجود حلول غير صالحة الخوارزميات التقليدية ويتطلب نهجاً قوياً. في هذه الورقة، نندمج الذكاء الاصطناعي القابل للتفسير، وتحديداً تقنيات شرح الرسوم البيانية (GET)، في دمج الطبقات. بالنظر إلى مجموعة دمج غير صالحة، نحدد العمليات الأكثر مسؤولية عن عدم صحة المجموعة، ثم نستخدم هذه المعرفة لتقسيم مجموعة الدمج الأصلية بشكل متكرر عبر خوارزمية جشعة قائمة على الأشجار لتقليل وصول DRAM. نقرن مخطتنا بالخوارزميات الشائعة وننقح شبكات DNN على نوعين من دمج الطبقات: Line-Buffer Depth First (LBDF) و Branch Requirement Reduction (BRR). تُظهر التجارب فعالية مخطتنا على عدة شبكات عصبية التفافية شهيرة وكلاسيكية مثل ResNets و MobileNets. تحقق مخطتنا تقليلاً في وصول DRAM يزيد عن 20% على EfficientNet-B3.
المشكلة الأساسية التي تعالجها هذه الدراسة هي مشكلة تحسين دمج الطبقات (Layer Fusion) في الشبكات العصبية العميقة. دمج الطبقات هو تقنية تسريع الاستدلال تهدف إلى دمج طبقات عمليات DNN متعددة (مثل الالتفاف و ReLU) في وحدة تنفيذ واحدة، مما يقلل من عدد مرات نقل البيانات بين المخزن المؤقت على الرقاقة و DRAM في معجل الأعصاب، وبالتالي تقليل زمن الاستدلال واستهلاك الطاقة.
يقترح المؤلفون دمج تقنيات الذكاء الاصطناعي القابل للتفسير في تحسين دمج الطبقات، من خلال تحديد العمليات الحاسمة التي تسبب عدم صحة مجموعة الدمج باستخدام تقنيات شرح الرسوم البيانية (GET)، ثم استخدام خوارزمية شجرة جشعة لإجراء تقسيم ذكي لتقليل تكاليف وصول DRAM.
الاتصالات المتبقية في شبكات DNN الحديثة تجعل حذف الحافة البسيط غير كافٍ لفصل مجموعات الدمج. تتعامل الخوارزمية مع ذلك من خلال الفرز الطوبولوجي والفحص المتكرر، مما يضمن المعالجة الصحيحة للاتصالات المتخطية المتداخلة.
تظهر النتائج على BRR و LBDF تحت ذاكرة تخزين مؤقت 128KB أن الطرق المحسنة بـ GET تتفوق على خطوط الأساس على جميع الشبكات تقريباً، خاصة على الشبكات المعقدة مثل MobileNetV2 حيث تحقق تحسناً يزيد عن 10%.
تستشهد الورقة بأعمال مهمة من مجالات متعددة تشمل دمج الطبقات والشبكات العصبية الرسومية والذكاء الاصطناعي القابل للتفسير، بما في ذلك:
Sze et al. (2017): مسح شامل للمعالجة الفعالة للتعلم العميق
Ying et al. (2019): ورقة GNNExplainer الأصلية
Luo et al. (2020): طريقة PGExplainer
Shan et al. (2021): تقنية RG-Explainer
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة متعددة التخصصات، تنجح في تطبيق تقنيات الذكاء الاصطناعي القابل للتفسير على مشاكل التحسين الهندسي. الطريقة مبتكرة والتجارب شاملة. على الرغم من وجود مجال للتحسن في التحليل النظري والتحقق من الأجهزة، فإن ابتكارها وقيمتها العملية تجعلها ذات أهمية كبيرة في مجال تحسين أنظمة التعلم العميق.