2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

HPC एप्लिकेशन पैरामीटर ऑटोट्यूनिंग एज डिवाइसेस पर: एक बैंडिट लर्निंग दृष्टिकोण

मूल जानकारी

पेपर ID: 2501.01057
शीर्षक: HPC एप्लिकेशन पैरामीटर ऑटोट्यूनिंग एज डिवाइसेस पर: एक बैंडिट लर्निंग दृष्टिकोण
लेखक: अब्रार हुसैन¹, अब्देल-हमीद ए. बदावी², मोहम्मद ए. इस्लाम³, तपस्या पाटकी⁴, किश्वर अहमद¹
संस्थान: ¹टोलेडो विश्वविद्यालय, ²न्यू मैक्सिको स्टेट विश्वविद्यालय, ³टेक्सास आर्लिंगटन विश्वविद्यालय, ⁴लॉरेंस लिवरमोर नेशनल लेबोरेटरी
वर्गीकरण: cs.PF cs.LG cs.SY eess.SY
प्रकाशन तिथि: 2 जनवरी 2025
पेपर लिंक: https://arxiv.org/abs/2501.01057

सारांश

एज डिवाइसेस की बढ़ती प्रसंस्करण क्षमता की आवश्यकता के साथ, यह पेपर उच्च-प्रदर्शन कंप्यूटिंग (HPC) अनुप्रयोगों को बेहतर बनाने के लिए प्रभावी तरीके विकसित करता है। लेख LASP (वैज्ञानिक एप्लिकेशन पैरामीटर्स की हल्की ऑटोट्यूनिंग) प्रस्तुत करता है, जो एज डिवाइसेस पर पैरामीटर खोज स्थान की चुनौतियों को हल करने के लिए डिज़ाइन किया गया एक नवीन रणनीति है। यह रणनीति मल्टी-आर्म्ड बैंडिट (MAB) तकनीक को अपनाती है, जो ऑनलाइन अन्वेषण और शोषण पर केंद्रित है। LASP एक गतिशील दृष्टिकोण अपनाता है जो बदलते हुए वातावरण के अनुकूल हो सकता है। लेखकों ने चार HPC एप्लिकेशन्स (Lulesh, Kripke, Clomp और Hypre) पर LASP का परीक्षण किया। इसकी हल्की प्रकृति इसे संसाधन-सीमित एज डिवाइसेस के लिए विशेष रूप से उपयुक्त बनाती है। MAB फ्रेमवर्क को अपनाकर खोज स्थान को कुशलतापूर्वक नेविगेट करते हुए, एज डिवाइसेस की कठोर कम्प्यूटेशनल सीमाओं का पालन करते हुए महत्वपूर्ण प्रदर्शन सुधार प्राप्त किए गए।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान का मूल समस्या संसाधन-सीमित एज डिवाइसेस पर HPC एप्लिकेशन पैरामीटर्स की कुशलतापूर्वक ऑटोट्यूनिंग करना है। पारंपरिक पैरामीटर ट्यूनिंग विधियां मुख्य रूप से पारंपरिक HPC सिस्टम्स के लिए डिज़ाइन की गई हैं, जिनमें स्वयं बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, और एज डिवाइसेस की सीमित परिस्थितियों के लिए उपयुक्त नहीं हैं।

समस्या की महत्ता

एज कंप्यूटिंग का तीव्र विकास: रिपोर्ट्स के अनुसार, एज प्रोसेसिंग एप्लिकेशन डेटा का बाजार 2026 तक 75% की वृद्धि का अनुमान है
HPC एप्लिकेशन की जटिलता: HPC एप्लिकेशन्स में जटिल पैरामीटर कॉन्फ़िगरेशन शामिल होते हैं जो प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करते हैं, यहां तक कि निष्पादन विफलता का कारण भी बन सकते हैं
संसाधन बाधा चुनौतियां: एज डिवाइसेस की सीमित कम्प्यूटेशनल क्षमता और विषम वितरित संसाधन HPC निष्पादन के लिए अद्वितीय चुनौतियां प्रस्तुत करते हैं

मौजूदा विधियों की सीमाएं

पारंपरिक विधियां: विशेषज्ञ ज्ञान पर आधारित मैनुअल ट्यूनिंग समय-खपत और अस्केलेबल है; अनुमानी-आधारित विधियां लचीलापन की कमी करती हैं और स्थानीय इष्टतम में फंस सकती हैं
मशीन लर्निंग विधियां: प्रभावी होने के बावजूद, ये अतिरिक्त ओवरहेड लाती हैं, जो एज डिवाइसेस के लिए उपयुक्त नहीं हैं
बेयेसियन ऑप्टिमाइजेशन: जटिल संबंधों में खराब प्रदर्शन करता है, बड़ी संख्या में पुनरावृत्तियों की आवश्यकता होती है, ऐतिहासिक ज्ञान का उपयोग करने में कमी है

अनुसंधान प्रेरणा

एक नवीन विधि प्रस्तावित करना जो एज डिवाइसेस पर कम-निष्ठा (LF) में HPC एप्लिकेशन्स चलाकर इष्टतम एप्लिकेशन-स्तरीय पैरामीटर्स निर्धारित करती है, फिर इन पैरामीटर्स को उच्च-निष्ठा (HF) निष्पादन के लिए पारंपरिक HPC प्लेटफॉर्म में स्थानांतरित करती है, जिससे पारंपरिक HPC सिस्टम्स पर पैरामीटर ट्यूनिंग का समय और ऊर्जा खपत में महत्वपूर्ण कमी होती है।

मुख्य योगदान

पहली बार LASP एल्गोरिथ्म प्रस्तावित करना: एज डिवाइसेस के लिए विशेष रूप से डिज़ाइन की गई हल्की HPC पैरामीटर ऑटोट्यूनिंग विधि
MAB तकनीक का नवीन अनुप्रयोग: एज डिवाइसेस पर ऑटोट्यूनिंग के लिए मल्टी-आर्म्ड बैंडिट का पहला अनुप्रयोग
गतिशील अनुकूलन क्षमता: एल्गोरिथ्म वास्तविक समय में पर्यावरणीय परिवर्तनों के अनुकूल हो सकता है, जो परिवर्तनशील एज वातावरण के लिए उपयुक्त है
बहु-उद्देश्य अनुकूलन: निष्पादन समय और शक्ति खपत दोनों को अनुकूलित करता है, उपयोगकर्ता-अनुकूलित अनुकूलन संतुलन प्रदान करता है
क्रॉस-प्लेटफॉर्म पोर्टेबिलिटी: स्टोकेस्टिक तकनीक पर आधारित एप्लिकेशन-स्तरीय पैरामीटर विधि विभिन्न एज और HPC प्लेटफॉर्म्स में पोर्टेबल है

विधि विवरण

कार्य परिभाषा

HPC एप्लिकेशन के पैरामीटर कॉन्फ़िगरेशन स्पेस χ = {1, ..., x} को देखते हुए, T राउंड पुनरावृत्तियों में इष्टतम कॉन्फ़िगरेशन चुनें जो भारित पुरस्कार फ़ंक्शन को अधिकतम करता है:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

जहां τx मानकीकृत निष्पादन समय है, ρx मानकीकृत शक्ति खपत है, α और β उपयोगकर्ता-परिभाषित भार पैरामीटर हैं।

मॉडल आर्किटेक्चर

मल्टी-आर्म्ड बैंडिट फ्रेमवर्क

LASP स्टोकेस्टिक मल्टी-आर्म्ड बैंडिट मॉडल पर आधारित है, जो मानता है कि K क्रियाएं (कॉन्फ़िगरेशन) T राउंड में निष्पादित होती हैं। प्रत्येक कॉन्फ़िगरेशन x एक पुरस्कार वितरण Dx से संबंधित है, जो प्रारंभ में अज्ञात है।

ऊपरी आत्मविश्वास सीमा (UCB) एल्गोरिथ्म

मुख्य चयन रणनीति UCB एल्गोरिथ्म पर आधारित है:

UCB(x,t) = Rx + √(2ln t / Nx)

जहां:

Rx = freward(x) कॉन्फ़िगरेशन x का भारित पुरस्कार है
Nx कॉन्फ़िगरेशन x को चुने जाने की संख्या है
t वर्तमान पुनरावृत्ति संख्या है

कॉन्फ़िगरेशन चयन रणनीति

प्रत्येक राउंड में सर्वोच्च UCB मान वाला कॉन्फ़िगरेशन चुनें:

x*t = argmax_x UCB(x,t)

अंतिम आउटपुट सबसे अधिक बार चुना गया कॉन्फ़िगरेशन है:

xopt = argmax_x Nx

तकनीकी नवाचार बिंदु

हल्का डिज़ाइन: पारंपरिक ML विधियों की तुलना में, LASP की CPU और मेमोरी खपत में महत्वपूर्ण कमी है
ऑनलाइन लर्निंग: वास्तविक समय में पर्यावरणीय परिवर्तनों के अनुकूल, पूर्व-प्रशिक्षण की आवश्यकता नहीं है
बहु-निष्ठा विधि: कम-निष्ठा एज डिवाइसेस का उपयोग करके उच्च-निष्ठा HPC सिस्टम्स के लिए इष्टतम पैरामीटर्स की पहचान करता है
उपयोगकर्ता भागीदारी: α और β पैरामीटर्स के माध्यम से उपयोगकर्ताओं को अनुकूलन उद्देश्य को अनुकूलित करने की अनुमति देता है

प्रायोगिक सेटअप

प्रायोगिक प्लेटफॉर्म

एज डिवाइस: NVIDIA Jetson Nano (128-कोर Maxwell GPU, चार-कोर ARM A57 CPU@1.43GHz, 4GB LPDDR4)
HPC सिस्टम: Intel Core i7-14700 vPro (20-कोर 28-थ्रेड, 64GB DDR5, Ubuntu 24.04)
ऑपरेटिंग सिस्टम: Ubuntu 20.04
शक्ति मोड: MAXN (10W) और 5W दो मोड

परीक्षण एप्लिकेशन्स

एप्लिकेशन	विवरण	पैरामीटर स्पेस आकार	मुख्य पैरामीटर्स
Hypre	रैखिक सिस्टम समाधान लाइब्रेरी	92,160	प्रोसेसर ग्रिड, AMG पैरामीटर्स आदि
Kripke	3D कण परिवहन कोड	216	डेटा लेआउट, ऊर्जा समूह सेटिंग्स आदि
Lulesh	शॉक हाइड्रोडायनामिक्स प्रॉक्सी एप्लिकेशन	128	क्षेत्र संख्या, ग्रिड तत्व संख्या
Clomp	OpenMP प्रदर्शन बेंचमार्क	125	थ्रेड वर्क ब्लॉक, क्षेत्र पैरामीटर्स आदि

मूल्यांकन मेट्रिक्स

प्रदर्शन लाभ: PGbest = (fdefault - fbest)/fdefault × 100%
संचयी खेद: RT = Tμ* - Σμj(t)
Oracle कॉन्फ़िगरेशन से दूरी: (निष्पादन समय/Oracle निष्पादन समय - 1) × 100%

तुलनात्मक विधियां

मुख्य रूप से BLISS (बेयेसियन ऑप्टिमाइजेशन-आधारित SOTA विधि) और डिफ़ॉल्ट कॉन्फ़िगरेशन के साथ तुलना।

प्रायोगिक परिणाम

मुख्य परिणाम

प्रदर्शन लाभ विश्लेषण

विभिन्न एप्लिकेशन्स पर प्रदर्शन लाभ:

Clomp: शक्ति अनुकूलन 10%, निष्पादन समय अनुकूलन महत्वपूर्ण
Lulesh: शक्ति अनुकूलन 14%
Hypre: शक्ति अनुकूलन 9%
Kripke: शक्ति अनुकूलन 6%

अभिसरण दक्षता

छोटे पैरामीटर स्पेस एप्लिकेशन्स (Lulesh, Kripke, Clomp) 500 पुनरावृत्तियों के भीतर प्रभावी रूप से अभिसरित होते हैं
बड़े पैरामीटर स्पेस एप्लिकेशन (Hypre) को 1000 पुनरावृत्तियों की आवश्यकता है, लेकिन फिर भी Oracle कॉन्फ़िगरेशन के 12% के भीतर पहुंच सकता है

संसाधन उपयोग दक्षता

BLISS की तुलना में, LASP CPU और मेमोरी उपयोग में महत्वपूर्ण रूप से कम है:

MAXN मोड में CPU उपयोग दर में लगभग 50% की कमी
मेमोरी खपत में लगभग 60% की कमी

विलोपन प्रयोग

बहु-निष्ठा प्रभावशीलता

प्रयोग दिखाते हैं कि कम-निष्ठा और उच्च-निष्ठा सेटिंग्स के तहत इष्टतम कॉन्फ़िगरेशन में महत्वपूर्ण ओवरलैप है:

शीर्ष 20 कॉन्फ़िगरेशन उच्च-निष्ठा सेटिंग्स में Oracle के 25% के भीतर प्रदर्शन करते हैं
कम-निष्ठा और उच्च-निष्ठा के इष्टतम कॉन्फ़िगरेशन सेट में बड़ा प्रतिच्छेदन है

उपयोगकर्ता पैरामीटर प्रभाव

α पैरामीटर (0.2 से 0.8) को समायोजित करके उपयोगकर्ता-अनुकूलित अनुकूलन उद्देश्य की प्रभावशीलता सत्यापित की गई:

α=0.2 पर शक्ति अनुकूलन पर ध्यान केंद्रित करता है
α=0.8 पर निष्पादन समय अनुकूलन पर ध्यान केंद्रित करता है

मजबूती विश्लेषण

5%, 10%, 15% के सिंथेटिक त्रुटि के तहत, LASP अच्छा प्रदर्शन बनाए रखता है, जो नेटवर्क उतार-चढ़ाव जैसी वास्तविक समस्याओं के अनुकूलन क्षमता को प्रमाणित करता है।

खेद विश्लेषण

सभी एप्लिकेशन्स का संचयी खेद एक निश्चित संख्या में पुनरावृत्तियों के बाद संतृप्त होता है, जो एल्गोरिथ्म की प्रभावी अभिसरण क्षमता को प्रमाणित करता है। निष्पादन समय अनुकूलन की प्रभावशीलता शक्ति अनुकूलन से बेहतर है, यह कम्प्यूटेशन-गहन HPC एप्लिकेशन्स में शक्ति की संतृप्ति विशेषता के कारण है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

LASP ने एज डिवाइसेस पर हल्की HPC पैरामीटर ऑटोट्यूनिंग को सफलतापूर्वक लागू किया
MAB फ्रेमवर्क गतिशील एज वातावरण की ऑनलाइन लर्निंग आवश्यकताओं के लिए उपयुक्त है
बहु-निष्ठा विधि ट्यूनिंग लागत को प्रभावी रूप से कम करती है
एल्गोरिथ्म विभिन्न HPC एप्लिकेशन्स पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है

सीमाएं

स्केलेबिलिटी सीमाएं: कॉन्फ़िगरेशन संख्या बढ़ने के साथ, UCB एल्गोरिथ्म को कई विकल्पों की खोज करनी पड़ती है, जो संसाधन-सीमित डिवाइसेस पर अक्षम हो जाता है
नेटवर्क समन्वय समस्याएं: कई परिवर्तनशील एज डिवाइसेस के बीच कम बैंडविड्थ संचार सिस्टम दक्षता को प्रभावित करता है
विषम डिवाइस चुनौतियां: विभिन्न कम्प्यूटेशनल क्षमता वाले डिवाइसेस को संभालने के लिए अनुकूली एल्गोरिथ्म डिज़ाइन की आवश्यकता है
शक्ति अनुकूलन प्रभाव: निष्पादन समय अनुकूलन की तुलना में, शक्ति अनुकूलन प्रभाव सीमित है

भविष्य की दिशाएं

बहु-स्तरीय समानता और संसाधन-जागरूक एल्गोरिथ्म डिज़ाइन की खोज करना
विषम वातावरण में एल्गोरिथ्म अनुकूलन क्षमता में सुधार करना
बड़े पैरामीटर स्पेस तक विस्तार करना
अधिक प्रकार के HPC एप्लिकेशन्स को एकीकृत करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: एज डिवाइसेस पर HPC ट्यूनिंग के लिए MAB का पहला अनुप्रयोग, अनुसंधान अंतराल को भरता है
उच्च व्यावहारिक मूल्य: हल्का डिज़ाइन वास्तव में संसाधन-सीमित एज डिवाइसेस के लिए उपयुक्त है
पर्याप्त प्रयोग: चार विभिन्न प्रकार के HPC एप्लिकेशन्स विधि की सामान्यता को सत्यापित करते हैं
ठोस सैद्धांतिक आधार: परिपक्व MAB सिद्धांत पर आधारित, खेद सीमा विश्लेषण प्रदान करता है
उपयोगकर्ता-अनुकूल: उपयोगकर्ताओं को α, β पैरामीटर्स के माध्यम से अनुकूलन उद्देश्य को अनुकूलित करने की अनुमति देता है

कमियां

सीमित तुलनात्मक प्रयोग: मुख्य रूप से BLISS और डिफ़ॉल्ट कॉन्फ़िगरेशन के साथ तुलना, अन्य हल्की विधियों के साथ तुलना की कमी है
अपर्याप्त सैद्धांतिक विश्लेषण: हालांकि खेद सीमा प्रदान की गई है, लेकिन अभिसरण की विस्तृत सैद्धांतिक विश्लेषण की कमी है
अपर्याप्त विषम डिवाइस सत्यापन: प्रयोग मुख्य रूप से एकल एज डिवाइस पर किए गए हैं, बहु-डिवाइस सहयोग के सत्यापन की कमी है
पैरामीटर संवेदनशीलता विश्लेषण: α, β पैरामीटर्स के प्रति संवेदनशीलता विश्लेषण अपेक्षाकृत सरल है

प्रभाव

शैक्षणिक योगदान: एज कंप्यूटिंग और HPC संयोजन के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: विधि में अच्छी पुनरुत्पादनशीलता और वास्तविक तैनाती क्षमता है
तकनीकी प्रचार: हल्की विशेषता इसे वास्तविक सिस्टम्स में आसानी से लागू करने योग्य बनाती है

लागू परिदृश्य

संसाधन-सीमित वातावरण: विशेष रूप से कम्प्यूटेशनल और स्टोरेज संसाधनों वाले एज डिवाइसेस के लिए उपयुक्त
गतिशील वातावरण: नेटवर्क स्थितियां और कार्यभार अक्सर बदलते रहने वाले परिदृश्यों के लिए उपयुक्त
बहु-उद्देश्य अनुकूलन: प्रदर्शन और शक्ति खपत को संतुलित करने की आवश्यकता वाले एप्लिकेशन परिदृश्य
वास्तविक समय ट्यूनिंग: ऑनलाइन अनुकूलन की आवश्यकता वाले HPC एप्लिकेशन तैनाती

संदर्भ

पेपर ने 48 संबंधित संदर्भों का उद्धृत किया है, जो एज कंप्यूटिंग, HPC ट्यूनिंग, मल्टी-आर्म्ड बैंडिट आदि कई क्षेत्रों के महत्वपूर्ण कार्य को कवर करते हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह एज कंप्यूटिंग और HPC के अंतःक्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो एक नवीन समाधान प्रस्तुत करता है। LASP एल्गोरिथ्म का डिज़ाइन तर्कसंगत है, प्रायोगिक सत्यापन पर्याप्त है, और इसमें अच्छी व्यावहारिक मूल्य और प्रचार संभावनाएं हैं। हालांकि सैद्धांतिक गहराई और तुलनात्मक प्रयोगों में सुधार की गुंजाइश है, लेकिन समग्र योगदान महत्वपूर्ण है और संबंधित क्षेत्र के अनुसंधान के लिए मूल्यवान संदर्भ प्रदान करता है।