2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

ضبط معاملات تطبيقات الحوسبة عالية الأداء على أجهزة الحافة: نهج التعلم بالعصابات

المعلومات الأساسية

معرّف الورقة: 2501.01057
العنوان: ضبط معاملات تطبيقات الحوسبة عالية الأداء على أجهزة الحافة: نهج التعلم بالعصابات
المؤلفون: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
المؤسسات: ¹جامعة توليدو، ²جامعة نيو مكسيكو الحكومية، ³جامعة تكساس في أرلينغتون، ⁴مختبر لورانس ليفرمور الوطني
التصنيفات: cs.PF cs.LG cs.SY eess.SY
تاريخ النشر: 2 يناير 2025
رابط الورقة: https://arxiv.org/abs/2501.01057

الملخص

مع تزايد الطلب على زيادة قدرات معالجة أجهزة الحافة، تطور هذا البحث طرقاً محسّنة لتحسين تطبيقات الحوسبة عالية الأداء (HPC). تقدم الورقة LASP (الضبط الخفيف لمعاملات تطبيقات العلوم)، وهي استراتيجية جديدة مصممة خصيصاً للتعامل مع تحديات فضاء البحث عن المعاملات على أجهزة الحافة. تستخدم الاستراتيجية تقنية العصابات متعددة الأذرع (MAB)، مع التركيز على الاستكشاف والاستغلال عبر الإنترنت. يعتمد LASP على نهج ديناميكي يمكنه التكيف بسلاسة مع البيئات المتغيرة. اختبر المؤلفون LASP على أربعة تطبيقات HPC (Lulesh و Kripke و Clomp و Hypre). تجعله خصائصه الخفيفة الوزن مناسباً بشكل خاص لأجهزة الحافة ذات الموارد المحدودة. من خلال اعتماد إطار عمل MAB للتنقل الفعال في فضاء البحث، تحقق الحل تحسينات أداء كبيرة مع الامتثال للقيود الحسابية الصارمة لأجهزة الحافة.

خلفية البحث والدافع

تعريف المشكلة

تتمثل المشكلة الأساسية التي يعالجها هذا البحث في الضبط التلقائي الفعال لمعاملات تطبيقات HPC على أجهزة الحافة ذات الموارد المحدودة. تم تصميم طرق الضبط التقليدية بشكل أساسي لأنظمة HPC التقليدية، وهذه الطرق نفسها تتطلب موارد حسابية كبيرة وغير مناسبة للبيئات المقيدة على أجهزة الحافة.

أهمية المشكلة

النمو السريع للحوسبة الطرفية: وفقاً للتقارير، يُتوقع أن ينمو سوق معالجة البيانات على الحافة بنسبة 75% بحلول عام 2026
تعقيد تطبيقات HPC: تتضمن تطبيقات HPC تكوينات معاملات معقدة تؤثر بشكل كبير على الأداء، وقد تؤدي حتى إلى فشل التنفيذ
تحديات القيود على الموارد: تشكل القدرات الحسابية المحدودة والموارد الموزعة غير المتجانسة لأجهزة الحافة تحديات فريدة لتنفيذ HPC

قيود الطرق الموجودة

الطرق التقليدية: الضبط اليدوي القائم على المعرفة الخبيرة يستغرق وقتاً طويلاً وغير قابل للتوسع؛ الطرق القائمة على الاستدلال تفتقر إلى المرونة وتميل إلى الوقوع في الحد الأدنى المحلي
طرق التعلم الآلي: على الرغم من فعاليتها، إلا أنها تجلب تكاليف إضافية غير مناسبة لأجهزة الحافة
التحسين البايزي: يؤدي أداءً ضعيفاً في العلاقات المعقدة، ويتطلب عدداً كبيراً من التكرارات، ويفتقر إلى الاستفادة من المعرفة التاريخية

دافع البحث

اقتراح نهج مبتكر يستفيد من قدرة أجهزة الحافة على تشغيل تطبيقات HPC بدقة منخفضة (LF) لتحديد معاملات التطبيق المثلى، ثم نقل هذه المعاملات إلى منصات HPC التقليدية للتنفيذ بدقة عالية (HF)، مما يقلل بشكل كبير من الوقت والطاقة المستهلكة في ضبط المعاملات على أنظمة HPC التقليدية.

المساهمات الأساسية

اقتراح خوارزمية LASP للمرة الأولى: طريقة خفيفة الوزن لضبط معاملات HPC تلقائياً مصممة خصيصاً لأجهزة الحافة
تطبيق مبتكر لتقنية MAB: أول تطبيق لعصابات متعددة الأذرع على الضبط التلقائي على أجهزة الحافة
القدرة على التكيف الديناميكي: يمكن للخوارزمية التكيف في الوقت الفعلي مع التغييرات البيئية، مما يناسب بيئات الحافة المتقلبة
التحسين متعدد الأهداف: تحسين وقت التنفيذ واستهلاك الطاقة في نفس الوقت، مع توفير توازن تحسين قابل للتخصيص من قبل المستخدم
قابلية النقل عبر المنصات: يمكن نقل نهج المعاملات على مستوى التطبيق بناءً على تقنيات عشوائية عبر منصات الحافة و HPC المختلفة

شرح الطريقة

تعريف المهمة

بالنظر إلى فضاء تكوين معاملات تطبيق HPC χ = {1, ..., x}، اختر التكوين الأمثل في T جولة تكرار لتعظيم دالة المكافأة المرجحة:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

حيث τx هو وقت التنفيذ المعياري، و ρx هو استهلاك الطاقة المعياري، و α و β هما معاملات الوزن المحددة من قبل المستخدم.

معمارية النموذج

إطار عمل العصابات متعددة الأذرع

يعتمد LASP على نموذج عصابات عشوائية متعددة الأذرع، بافتراض تنفيذ K إجراء (تكوين) في T جولة. يتوافق كل تكوين x مع توزيع مكافأة Dx غير معروف في البداية.

خوارزمية الحد الأعلى للثقة (UCB)

تعتمد استراتيجية الاختيار الأساسية على خوارزمية UCB:

UCB(x,t) = Rx + √(2ln t / Nx)

حيث:

Rx = freward(x) هي المكافأة المرجحة للتكوين x
Nx هو عدد المرات التي تم فيها اختيار التكوين x
t هو رقم التكرار الحالي

استراتيجية اختيار التكوين

في كل جولة، اختر التكوين ذو قيمة UCB الأعلى:

x*t = argmax_x UCB(x,t)

الإخراج النهائي هو التكوين الذي تم اختياره أكثر مرات:

xopt = argmax_x Nx

نقاط الابتكار التقني

التصميم الخفيف الوزن: مقارنة بطرق ML التقليدية، يتمتع LASP باستهلاك CPU وذاكرة أقل بكثير
التعلم عبر الإنترنت: التكيف في الوقت الفعلي مع التغييرات البيئية، بدون الحاجة إلى التدريب المسبق
طريقة متعددة الدقة: الاستفادة من تشغيل أجهزة الحافة بدقة منخفضة لتحديد المعاملات المثلى لأنظمة HPC بدقة عالية
مشاركة المستخدم: السماح للمستخدمين بتخصيص أهداف التحسين من خلال معاملات α و β

إعداد التجارب

منصات التجارب

أجهزة الحافة: NVIDIA Jetson Nano (GPU Maxwell بـ 128 نواة، CPU ARM A57 رباعي النوى @ 1.43GHz، 4GB LPDDR4)
نظام HPC: Intel Core i7-14700 vPro (20 نواة 28 خيط، 64GB DDR5، Ubuntu 24.04)
نظام التشغيل: Ubuntu 20.04
أوضاع الطاقة: MAXN (10W) و 5W

تطبيقات الاختبار

التطبيق	الوصف	حجم فضاء المعاملات	المعاملات الرئيسية
Hypre	مكتبة حل الأنظمة الخطية	92,160	شبكة المعالجات، معاملات AMG، إلخ
Kripke	كود نقل الجسيمات ثلاثي الأبعاد	216	تخطيط البيانات، إعدادات مجموعات الطاقة، إلخ
Lulesh	تطبيق وكيل ديناميكا السوائل الصدمية	128	عدد المناطق، عدد عناصر الشبكة
Clomp	معيار أداء OpenMP	125	كتل عمل الخيط، معاملات المنطقة، إلخ

مقاييس التقييم

مكاسب الأداء: PGbest = (fdefault - fbest)/fdefault × 100%
الندم التراكمي: RT = Tμ* - Σμj(t)
المسافة من التكوين Oracle: (وقت التنفيذ / وقت تنفيذ Oracle - 1) × 100%

طرق المقارنة

المقارنة الرئيسية مع BLISS (طريقة الحالة الفنية القائمة على التحسين البايزي) والتكوين الافتراضي.

نتائج التجارب

النتائج الرئيسية

تحليل مكاسب الأداء

مكاسب الأداء على التطبيقات المختلفة:

Clomp: تحسين الطاقة بنسبة 10%، تحسين وقت التنفيذ بشكل كبير
Lulesh: تحسين الطاقة بنسبة 14%
Hypre: تحسين الطاقة بنسبة 9%
Kripke: تحسين الطاقة بنسبة 6%

كفاءة التقارب

تطبيقات فضاء المعاملات الصغيرة (Lulesh و Kripke و Clomp) تتقارب بشكل فعال في غضون 500 تكرار
تطبيقات فضاء المعاملات الكبيرة (Hypre) تتطلب 1000 تكرار، لكنها لا تزال تصل إلى ضمن 12% من تكوين Oracle

استخدام الموارد

مقارنة بـ BLISS، يتمتع LASP باستخدام أقل بكثير للمعالج والذاكرة:

انخفاض استخدام المعالج بحوالي 50% في وضع MAXN
تقليل استهلاك الذاكرة بحوالي 60%

التجارب الاستئصالية

فعالية متعددة الدقة

أظهرت التجارب تداخلاً كبيراً بين التكوينات المثلى في إعدادات الدقة المنخفضة والعالية:

أداء أفضل 20 تكوين في إعدادات الدقة العالية ضمن 25% من Oracle
مجموعة كبيرة من التقاطع بين التكوينات المثلى للدقة المنخفضة والعالية

تأثير معاملات المستخدم

التحقق من فعالية تخصيص أهداف التحسين من قبل المستخدم من خلال تعديل معامل α (من 0.2 إلى 0.8):

عند α=0.2 التركيز على تحسين الطاقة
عند α=0.8 التركيز على تحسين وقت التنفيذ

تحليل المتانة

يحافظ LASP على أداء جيدة تحت أخطاء اصطناعية بنسبة 5% و 10% و 15%، مما يثبت قدرته على التكيف مع المشاكل الواقعية مثل تقلبات الشبكة.

تحليل الندم

يميل الندم التراكمي لجميع التطبيقات إلى التشبع بعد عدد معين من التكرارات، مما يثبت التقارب الفعال للخوارزمية. يتفوق تأثير تحسين وقت التنفيذ على تحسين الطاقة، وهذا يرجع إلى خصائص التشبع للطاقة في تطبيقات HPC كثيفة الحسابات.

الأعمال ذات الصلة

ضبط معاملات HPC

تشمل الطرق التقليدية الطرق القائمة على البحث (مثل التحسين البايزي) وطرق التعلم الآلي. تتمثل مزايا هذا العمل مقارنة بالأعمال الموجودة في التصميم الخفيف الوزن المتخصص لأجهزة الحافة والقدرة على التكيف عبر الإنترنت.

HPC في الحوسبة الطرفية

تشمل المشاريع ذات الصلة منصة مستشعرات Waggle و Sage Continuum، وهذا العمل هو الأول المتخصص في ضبط معاملات HPC على أجهزة الحافة.

تطبيقات العصابات متعددة الأذرع

تم تطبيق تقنية MAB في ضبط المعاملات الفائقة، لكن هذا العمل هو الأول الذي يطبقها على سيناريو ضبط HPC على أجهزة الحافة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

حقق LASP بنجاح ضبط معاملات HPC التلقائي الخفيف الوزن على أجهزة الحافة
إطار عمل MAB مناسب لاحتياجات التعلم عبر الإنترنت في بيئات الحافة الديناميكية
الطريقة متعددة الدقة تقلل بشكل فعال من تكاليف الضبط
تحقق الخوارزمية تحسينات أداء كبيرة على جميع تطبيقات HPC

القيود

حدود قابلية التوسع: مع زيادة عدد التكوينات، تحتاج خوارزمية UCB إلى استكشاف عدد كبير من الخيارات، مما يصبح غير فعال على الأجهزة ذات الموارد المحدودة
مشاكل التنسيق الشبكي: تؤثر الاتصالات منخفضة النطاق الترددي بين أجهزة الحافة المتعددة المتقلبة على كفاءة النظام
تحديات الأجهزة غير المتجانسة: يتطلب التعامل مع الأجهزة ذات القدرات الحسابية المختلفة تصميم خوارزمية متكيفة
تأثير تحسين الطاقة: مقارنة بتحسين وقت التنفيذ، تأثير تحسين الطاقة محدود نسبياً

الاتجاهات المستقبلية

استكشاف تصميم الخوارزميات المتوازية متعددة المستويات والمدركة للموارد
تحسين تكيف الخوارزمية في البيئات غير المتجانسة
التوسع إلى فضاءات معاملات أكبر
دمج المزيد من أنواع تطبيقات HPC

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق لـ MAB على ضبط HPC على أجهزة الحافة، ملء الفجوة البحثية
قيمة عملية عالية: يضمن التصميم الخفيف الوزن الملاءمة الفعلية للأجهزة ذات الموارد المحدودة
تجارب شاملة: التحقق من أربعة تطبيقات HPC مختلفة يثبت عمومية الطريقة
أساس نظري متين: بناءً على نظرية MAB الناضجة، مع توفير تحليل حدود الندم
تصميم سهل الاستخدام: يسمح تصميم معاملات α و β بتخصيص أهداف التحسين من قبل المستخدم

أوجه القصور

تجارب مقارنة محدودة: المقارنة الرئيسية مع BLISS والتكوين الافتراضي، مع نقص المقارنة مع طرق خفيفة الوزن أخرى
تحليل نظري غير كافٍ: على الرغم من توفير حدود الندم، إلا أن هناك نقصاً في التحليل النظري التفصيلي للتقارب
التحقق من الأجهزة غير المتجانسة غير كافٍ: تركزت التجارب بشكل أساسي على جهاز حافة واحد، مع نقص التحقق من التعاون بين أجهزة متعددة
تحليل حساسية المعاملات: تحليل حساسية معاملات α و β بسيط نسبياً

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لدمج الحوسبة الطرفية و HPC
القيمة العملية: تتمتع الطريقة بقابلية إعادة إنتاج جيدة وإمكانية نشر فعلية
الترويج التكنولوجي: تجعل الخصائص الخفيفة الوزن من السهل تطبيقها في الأنظمة الفعلية

السيناريوهات المناسبة

البيئات ذات الموارد المحدودة: مناسبة بشكل خاص للأجهزة ذات الموارد الحسابية والتخزينية المحدودة
البيئات الديناميكية: مناسبة للسيناريوهات التي تتغير فيها ظروف الشبكة والأحمال الحسابية بشكل متكرر
التحسين متعدد الأهداف: سيناريوهات التطبيق التي تحتاج إلى موازنة الأداء واستهلاك الطاقة
الضبط في الوقت الفعلي: نشر تطبيقات HPC التي تحتاج إلى التكيف عبر الإنترنت

المراجع

تستشهد الورقة بـ 48 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك الحوسبة الطرفية وضبط HPC والعصابات متعددة الأذرع وغيرها، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً في مجال التقاطع بين الحوسبة الطرفية و HPC. تم تصميم خوارزمية LASP بشكل معقول، والتحقق التجريبي شامل، وتتمتع بقيمة عملية جيدة وآفاق ترويج واعدة. على الرغم من وجود مجال للتحسن في العمق النظري وتجارب المقارنة، فإن المساهمة الإجمالية كبيرة وتوفر مرجعاً قيماً للبحث في المجالات ذات الصلة.