2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

academic

تطبيق شرح الرسوم البيانية على دمج المشغلات

المعلومات الأساسية

معرّف الورقة: 2501.00636
العنوان: تطبيق شرح الرسوم البيانية على دمج المشغلات
المؤلفون: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
التصنيف: cs.LG cs.CV
تاريخ النشر: 31 ديسمبر 2024 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2501.00636

الملخص

تعتبر تقنيات دمج الطبقات حاسمة لتحسين كفاءة الاستدلال في الشبكات العصبية العميقة (DNN) للنشر. يهدف الدمج إلى خفض تكاليف الاستدلال بتقليل معاملات البيانات بين المخزن المؤقت على الرقاقة و DRAM. يتم تحقيق ذلك من خلال التنفيذ المجمع لعمليات متعددة مثل الالتفاف والتفعيلات معاً في وحدات تنفيذ واحدة - مجموعات الدمج. ومع ذلك، تحد سعة المخزن المؤقت على الرقاقة من حجم مجموعة الدمج، وتحسين الدمج على شبكات DNN الكاملة يتطلب التقسيم إلى مجموعات دمج متعددة. إن إيجاد المجموعات المثلى مشكلة معقدة حيث يعيق وجود حلول غير صالحة الخوارزميات التقليدية ويتطلب نهجاً قوياً. في هذه الورقة، نندمج الذكاء الاصطناعي القابل للتفسير، وتحديداً تقنيات شرح الرسوم البيانية (GET)، في دمج الطبقات. بالنظر إلى مجموعة دمج غير صالحة، نحدد العمليات الأكثر مسؤولية عن عدم صحة المجموعة، ثم نستخدم هذه المعرفة لتقسيم مجموعة الدمج الأصلية بشكل متكرر عبر خوارزمية جشعة قائمة على الأشجار لتقليل وصول DRAM. نقرن مخطتنا بالخوارزميات الشائعة وننقح شبكات DNN على نوعين من دمج الطبقات: Line-Buffer Depth First (LBDF) و Branch Requirement Reduction (BRR). تُظهر التجارب فعالية مخطتنا على عدة شبكات عصبية التفافية شهيرة وكلاسيكية مثل ResNets و MobileNets. تحقق مخطتنا تقليلاً في وصول DRAM يزيد عن 20% على EfficientNet-B3.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي تعالجها هذه الدراسة هي مشكلة تحسين دمج الطبقات (Layer Fusion) في الشبكات العصبية العميقة. دمج الطبقات هو تقنية تسريع الاستدلال تهدف إلى دمج طبقات عمليات DNN متعددة (مثل الالتفاف و ReLU) في وحدة تنفيذ واحدة، مما يقلل من عدد مرات نقل البيانات بين المخزن المؤقت على الرقاقة و DRAM في معجل الأعصاب، وبالتالي تقليل زمن الاستدلال واستهلاك الطاقة.

أهمية المشكلة

اختناق الأداء: مع أن نماذج DNN أصبحت أكبر وأعمق، أصبح وصول DRAM هو الاختناق الرئيسي للأداء والطاقة
متطلبات النشر: عند نشر DNN على الأجهزة الطرفية والمنصات المحمولة، تكون قيود عرض النطاق الترددي والطاقة حادة بشكل خاص
القيود الهندسية: سعة المخزن المؤقت على الرقاقة محدودة، مما يتطلب تجميع العمليات بذكاء لتعظيم تأثير الدمج

حدود الطرق الموجودة

كفاءة البحث المنخفضة: الخوارزميات التقليدية (مثل الخوارزميات التطورية والبحث المحلي) غير فعالة عند التعامل مع مجموعات دمج غير صالحة
التقسيم العشوائي: تقوم الطرق الموجودة عادة بتقسيم عشوائي لمجموعات الدمج غير الصالحة، مما لا يضمن الحد الأدنى من تكاليف وصول DRAM
نقص القابلية للتفسير: يصعب تحديد العمليات المحددة التي تسبب عدم صحة مجموعة الدمج، مما يجعل التحسين الموجه صعباً

الدافع البحثي

يقترح المؤلفون دمج تقنيات الذكاء الاصطناعي القابل للتفسير في تحسين دمج الطبقات، من خلال تحديد العمليات الحاسمة التي تسبب عدم صحة مجموعة الدمج باستخدام تقنيات شرح الرسوم البيانية (GET)، ثم استخدام خوارزمية شجرة جشعة لإجراء تقسيم ذكي لتقليل تكاليف وصول DRAM.

المساهمات الأساسية

أول تطبيق لتقنيات شرح الرسوم البيانية على تحسين دمج الطبقات: دمج مبتكر بين الذكاء الاصطناعي القابل للتفسير وحقل التحسين الهندسي
اقتراح خوارزمية تقسيم شجري متكرر: تصميم مخطط تقسيم متكرر قائم على استراتيجية جشعة يمكنه التعامل بذكاء مع مجموعات الدمج غير الصالحة
التحقق عبر طرق الدمج: التحقق من فعالية المخطط على نوعي دمج طبقات مختلفين: LBDF و BRR
تحسن ملحوظ في الأداء: تحقيق تقليل في وصول DRAM يزيد عن 20% على EfficientNet-B3

شرح الطريقة

تعريف المهمة

بالنظر إلى رسم بياني حسابي لشبكة عصبية عميقة G وسعة المخزن المؤقت على الرقاقة β، الهدف من تحسين دمج الطبقات هو إيجاد مخطط تقسيم مثلى Φ بحيث:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

حيث يحسب F_D تكلفة وصول DRAM، و F_β يحسب متطلبات المخزن المؤقت، ولا يمكن أن تتجاوز متطلبات الذاكرة لكل مجموعة دمج φn سعة المخزن المؤقت β.

معمارية النموذج

1. مصنف الشبكة العصبية الرسومية

استخدام k-GNN بـ 4 طبقات، بأبعاد مخفية 128
دوال تفعيل ReLU والتجميع بالمجموع
تحويل صحة مجموعة الدمج إلى مشكلة تصنيف ثنائي: Validity = σ(p(y|φ, β, θ))

2. دمج تقنيات شرح الرسوم البيانية

دعم ثلاث طرق شرح رسوم بيانية رئيسية:

GNNExplainer (GNNE): بناءً على تعظيم المعلومات المتبادلة
PGExplainer (PG): معرّف معاملات مدرب مسبقاً
RG-Explainer (RG): توليد رسم بياني فرعي متصل قائم على التعلم المعزز

3. خوارزمية التقسيم الجشع المتكرر

تقسم الخوارزمية حلول التقسيم إلى ثلاث فئات:

الفئة 1: كلا مجموعتي الدمج الجديدتين صالحتان (الحل المفضل)
الفئة 2: واحدة صالحة وواحدة غير صالحة (الحل الوسيط)
الفئة 3: كلاهما غير صالح (أسوأ حالة)

نقاط الابتكار التقني

1. معالجة الاتصالات المتخطية

الاتصالات المتبقية في شبكات DNN الحديثة تجعل حذف الحافة البسيط غير كافٍ لفصل مجموعات الدمج. تتعامل الخوارزمية مع ذلك من خلال الفرز الطوبولوجي والفحص المتكرر، مما يضمن المعالجة الصحيحة للاتصالات المتخطية المتداخلة.

2. تحسين الذاكرة

استخدام آلية التخزين المؤقت لتخزين نتائج التقسيم وحسابات التكلفة، مما يتجنب الحسابات المكررة ويحسن كفاءة البحث.

3. استراتيجية جشعة متعددة المستويات

إعطاء الأولوية للحلول التي تنتج مجموعتي دمج صالحتين
اختيار مجموعة الدمج الصالحة التي تحتوي على أكثر العقد في الحلول الوسيطة
معالجة مجموعات الدمج غير الصالحة بشكل متكرر حتى تصبح جميعها صالحة

إعداد التجارب

مجموعة البيانات

استخدام نماذج ONNX لعدة معماريات CNN كلاسيكية وحديثة:

الشبكات الكلاسيكية: VGG16, SqueezeNet, ResNet-18/50/101/152
الشبكات الحديثة: MobileNetV2/V3, EfficientNet-B0/B3
شبكات التقسيم: DeepLabV3+MobileNetV3

إنشاء أكثر من 54 ألف عينة مجموعة دمج، تغطي 5 أحجام ذاكرة تخزين مؤقت مختلفة (128KB-2048KB).

مقاييس التقييم

تكلفة وصول DRAM: كمية نقل البيانات بوحدة MB
أقصى استخدام للمخزن المؤقت (MBU): متطلبات المخزن المؤقت لأكبر مجموعة دمج في مخطط التقسيم
معدل الإصلاح: النسبة المئوية لنجاح GET في إصلاح مجموعات الدمج غير الصالحة

طرق المقارنة

خوارزميات البحث: البحث العشوائي (RS)، البحث المحلي (LS)، NSGA-II
طرق الأساس: خوارزميات البحث الأصلية بدون استخدام GET
متغيرات GET: ثلاث تقنيات شرح رسوم بيانية GNNE و PG و RG

تفاصيل التنفيذ

تدريب GNN لمدة 50 جولة، بدقة تزيد عن 95% ودرجة F1
ميزانية البحث: 1000-5000 مخطط تقسيم
استخدام OpenBox لتنفيذ NSGA-II، بحجم سكان K=10

نتائج التجارب

النتائج الرئيسية

تحسن الأداء على الشبكات الكبيرة

النتائج تحت ذاكرة تخزين مؤقت 256KB وميزانية بحث 5k:

الشبكة	الطريقة	وصول DRAM (MB)	نسبة التحسن
EfficientNet-B3	خط أساس LS	90.500	-
	LS+GNNE	78.007	13.8%
	NSGA-II+PG	61.792	31.7%
ResNet-152	خط أساس NSGA-II	77.205	-
	NSGA-II+RG	66.621	13.7%

التحقق عبر طرق الدمج

تظهر النتائج على BRR و LBDF تحت ذاكرة تخزين مؤقت 128KB أن الطرق المحسنة بـ GET تتفوق على خطوط الأساس على جميع الشبكات تقريباً، خاصة على الشبكات المعقدة مثل MobileNetV2 حيث تحقق تحسناً يزيد عن 10%.

تجارب الاستئصال

مقارنة طرق GET

معدل الإصلاح: RG-Explainer الأعلى (91.4%-94.0%)، PG الأقل (50.7%-59.1%)
الكفاءة الحسابية: PG الأسرع، GNNE الأبطأ، RG في الوسط
الأداء الإجمالي: RG يحقق أفضل توازن بين معدل الإصلاح والكفاءة

تحليل ميزانية البحث

تظهر التجارب أن البحث بميزانية 1k باستخدام GET يمكن أن يتفوق على أداء خط الأساس بميزانية 4k، مما يثبت كفاءة الطريقة.

تحليل الحالات

يوضح الشكل 4 تفسيرات طرق GET المختلفة لمجموعة دمج غير صالحة في EfficientNet:

تحدد جميع الطرق الاتصال المتخطي الرئيسي (Conv إلى Matmul)
تختار جميعها عمليات الحشو غير الملائمة لـ LBDF
مجموعات الحواف المختارة من قبل GET المختلفة تختلف قليلاً لكنها تلتقط جميعها الاختناقات الحاسمة

الاكتشافات التجريبية

تأثير الحجم: تكون مزايا GET أكثر وضوحاً على الشبكات الأكبر والأكثر تعقيداً
العمومية: الطريقة فعالة على خوارزميات بحث مختلفة وأنواع دمج مختلفة
تحسن الكفاءة: تقليل كبير في توليد المخططات غير الصالحة أثناء عملية البحث

الأعمال ذات الصلة

تطور تقنيات دمج الطبقات

الأعمال المبكرة: تركز بشكل أساسي على مجموعات العمليات البسيطة وتحسين الذاكرة
الطرق الحديثة: تأخذ في الاعتبار تأثير هياكل الشبكات غير المنتظمة والاتصالات المتخطية
التحسينات الخاصة بالأجهزة: تحسينات موجهة نحو عمليات محددة مثل CNN وآليات الانتباه

تقنيات شرح الرسوم البيانية

GNNExplainer: عمل رائد يعتمد على شرح الرسم البياني الفرعي بناءً على تعظيم المعلومات المتبادلة
الطرق المعاملية: طرق مثل PGExplainer المدربة مسبقاً تحسن الكفاءة
طرق التعلم المعزز: RG-Explainer وغيرها تضمن توليد رسوم بيانية فرعية متصلة

تحديد مساهمة هذه الورقة

أول تطبيق لتقنيات شرح الرسوم البيانية في مجال التحسين الهندسي، مما يوفر نهجاً جديداً لحل هذه المشكلة الكلاسيكية في دمج الطبقات.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تقنيات شرح الرسوم البيانية يمكنها تحديد العمليات الحاسمة التي تسبب عدم صحة مجموعة الدمج بشكل فعال
خوارزمية التقسيم الجشع المتكرر يمكنها التعامل بذكاء مع الهياكل الشبكية المعقدة
تظهر الطريقة تحسناً ملحوظاً في الأداء على معماريات شبكات وتكوينات أجهزة متعددة

القيود

تبسيط نموذج الأجهزة: يأخذ النموذج الحالي في الاعتبار فقط قيود سعة المخزن المؤقت، ولا يتعامل مع خصائص أجهزة أكثر تعقيداً
قيود نوع الدمج: BRR له دعم محدود لهياكل الشبكات الحديثة (مثل وحدات SE)
التكلفة الحسابية: يضيف تدريب GNN وتنفيذ GET تكاليف معالجة مسبقة

الاتجاهات المستقبلية

التوسع إلى قيود أجهزة أكثر: الأخذ في الاعتبار عوامل إضافية مثل عرض النطاق الترددي والكمون
دعم هياكل شبكات جديدة: التكيف مع Transformer والشبكات العصبية الرسومية وغيرها
التحسين من طرف إلى طرف: دمج دمج الطبقات مع تقنيات التحسين الأخرى للترجمة

التقييم المتعمق

المميزات

ابتكار قوي: أول تطبيق لتقنيات الذكاء الاصطناعي القابل للتفسير في التحسين الهندسي، مما يفتح اتجاهاً بحثياً جديداً
اكتمال الطريقة: تشكيل حلقة مغلقة كاملة من نمذجة المشكلة إلى تصميم الخوارزمية إلى التحقق التجريبي
تجارب شاملة: تحقق شامل يغطي شبكات متعددة وطرق دمج وخوارزميات بحث
قيمة عملية عالية: تطبيق مباشر في سيناريوهات النشر الفعلية

أوجه القصور

نقص التحليل النظري: افتقار إلى ضمانات نظرية حول تقارب الطريقة وأمثليتها
عدم كفاية التحقق من الأجهزة: تستند التجارب بشكل أساسي إلى المحاكاة، وتفتقر إلى التحقق على منصات أجهزة حقيقية
قابلية التوسع غير المعروفة: القدرة على التعامل مع الشبكات الأكبر حجماً لا تزال بحاجة إلى التحقق

التأثير

المساهمة الأكاديمية: توفير نموذج لتطبيق الذكاء الاصطناعي القابل للتفسير في تحسين الأنظمة
القيمة العملية: يمكن تطبيقها مباشرة على مترجمات التعلم العميق وأدوات النشر
الدلالة الإرشادية: قد تلهم المزيد من أعمال البحث في مجال AI4Systems

السيناريوهات المناسبة

تحسين نشر DNN على الأجهزة الطرفية
تسريع الاستدلال على المنصات المحمولة
تحسين كفاءة الطاقة في مراكز البيانات
تطوير مترجمات التعلم العميق

المراجع

تستشهد الورقة بأعمال مهمة من مجالات متعددة تشمل دمج الطبقات والشبكات العصبية الرسومية والذكاء الاصطناعي القابل للتفسير، بما في ذلك:

Sze et al. (2017): مسح شامل للمعالجة الفعالة للتعلم العميق
Ying et al. (2019): ورقة GNNExplainer الأصلية
Luo et al. (2020): طريقة PGExplainer
Shan et al. (2021): تقنية RG-Explainer

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة متعددة التخصصات، تنجح في تطبيق تقنيات الذكاء الاصطناعي القابل للتفسير على مشاكل التحسين الهندسي. الطريقة مبتكرة والتجارب شاملة. على الرغم من وجود مجال للتحسن في التحليل النظري والتحقق من الأجهزة، فإن ابتكارها وقيمتها العملية تجعلها ذات أهمية كبيرة في مجال تحسين أنظمة التعلم العميق.