HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
Hossain, Badawy, Islam et al.
The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.
academic
HPC-Anwendungsparameter-Autotuning auf Edge-Geräten: Ein Bandit-Learning-Ansatz
Angesichts des wachsenden Bedarfs an erhöhter Verarbeitungsleistung auf Edge-Geräten entwickelt dieser Artikel verbesserte Methoden zur Optimierung von Hochleistungsrechner(HPC)-Anwendungen. Der Artikel stellt LASP (Lightweight Autotuning of Scientific Application Parameters) vor, eine neuartige Strategie, die speziell zur Bewältigung der Herausforderungen der Parametersuche auf Edge-Geräten entwickelt wurde. Die Strategie nutzt Multi-Armed-Bandit(MAB)-Techniken mit Fokus auf Online-Exploration und -Exploitation. LASP verfolgt einen dynamischen Ansatz, der sich nahtlos an verändernde Umgebungen anpasst. Die Autoren testeten LASP mit vier HPC-Anwendungen (Lulesh, Kripke, Clomp und Hypre). Ihre leichte Beschaffenheit macht sie besonders geeignet für ressourcenbegrenzte Edge-Geräte. Durch die Anwendung des MAB-Rahmens zur effizienten Navigation des Suchraums wurden erhebliche Leistungsverbesserungen erreicht, während die strengen Rechenbeschränkungen von Edge-Geräten eingehalten wurden.
Das Kernproblem dieser Forschung ist die effiziente automatische Parameteroptimierung von HPC-Anwendungen auf ressourcenbegrenzten Edge-Geräten. Traditionelle Parameteroptimierungsmethoden wurden hauptsächlich für konventionelle HPC-Systeme entwickelt und erfordern selbst erhebliche Rechenressourcen, was sie für die eingeschränkte Umgebung von Edge-Geräten ungeeignet macht.
Schnelle Entwicklung des Edge-Computing: Berichten zufolge wird der Markt für Edge-Datenverarbeitung bis 2026 um 75% wachsen
Komplexität von HPC-Anwendungen: HPC-Anwendungen beinhalten komplexe Parameterkonfigurationen, die die Leistung erheblich beeinflussen und sogar zu Ausführungsfehlern führen können
Ressourcenbeschränkungen: Die begrenzte Rechenkapazität und heterogene verteilte Ressourcen von Edge-Geräten stellen einzigartige Herausforderungen für die HPC-Ausführung dar
Traditionelle Methoden: Manuelle Optimierung basierend auf Expertenwissen ist zeitaufwändig und nicht skalierbar; heuristische Methoden mangelt es an Flexibilität und sie können in lokalen Optima steckenbleiben
Machine-Learning-Methoden: Obwohl wirksam, verursachen sie zusätzliche Overhead und sind nicht für Edge-Geräte geeignet
Bayessche Optimierung: Zeigt schlechte Leistung bei komplexen Beziehungen, erfordert viele Iterationen und nutzt historisches Wissen nicht aus
Einen innovativen Ansatz vorschlagen, der Edge-Geräte nutzt, um HPC-Anwendungen mit niedriger Wiedergabetreue (LF) auszuführen, um optimale Parameter auf Anwendungsebene zu bestimmen, und diese Parameter dann auf konventionelle HPC-Plattformen für die Ausführung mit hoher Wiedergabetreue (HF) zu übertragen, wodurch Zeit und Energieverbrauch bei der Parameteroptimierung auf traditionellen HPC-Systemen erheblich reduziert werden.
Erstmalige Vorstellung des LASP-Algorithmus: Leichte HPC-Parameterautotuning-Methode speziell für Edge-Geräte
Innovative Anwendung der MAB-Technik: Erstmalige Anwendung von Multi-Armed-Bandits auf Autotuning auf Edge-Geräten
Dynamische Anpassungsfähigkeit: Der Algorithmus kann sich in Echtzeit an Umgebungsveränderungen anpassen und eignet sich für volatile Edge-Umgebungen
Multi-Objective-Optimierung: Gleichzeitige Optimierung von Ausführungszeit und Stromverbrauch mit benutzerdefinierten Optimierungsabwägungen
Plattformübergreifende Portabilität: Der auf stochastischen Techniken basierende Ansatz auf Anwendungsebene ist über verschiedene Edge- und HPC-Plattformen hinweg portierbar
Gegeben ein Parameterkonfigurationsraum χ = {1, ..., x} einer HPC-Anwendung, wählen Sie die optimale Konfiguration in T Iterationsrunden aus, um die gewichtete Belohnungsfunktion zu maximieren:
freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))
wobei τx die normalisierte Ausführungszeit ist, ρx der normalisierte Stromverbrauch ist, und α und β benutzerdefinierte Gewichtungsparameter sind.
LASP basiert auf einem stochastischen Multi-Armed-Bandit-Modell, das davon ausgeht, dass K Aktionen (Konfigurationen) in T Runden ausgeführt werden. Jede Konfiguration x entspricht einer Belohnungsverteilung Dx, die anfangs unbekannt ist.
Anwendungen mit kleinem Parameterspeicher (Lulesh, Kripke, Clomp) konvergieren effektiv innerhalb von 500 Iterationen
Anwendungen mit großem Parameterspeicher (Hypre) benötigen 1000 Iterationen, können aber immer noch innerhalb von 12% der Oracle-Konfiguration erreicht werden
Unter synthetischen Fehlern von 5%, 10% und 15% behält LASP gute Leistung bei, was seine Anpassungsfähigkeit an reale Probleme wie Netzwerkschwankungen beweist.
Die kumulative Reue aller Anwendungen stabilisiert sich nach einer bestimmten Anzahl von Iterationen, was die effektive Konvergenz des Algorithmus beweist. Die Ausführungszeitoptimierung ist wirksamer als die Stromverbrauchsoptimierung, was auf die Sättigungseigenschaften des Stromverbrauchs in rechenintensiven HPC-Anwendungen zurückzuführen ist.
Traditionelle Methoden umfassen suchbasierte Methoden (wie Bayessche Optimierung) und Machine-Learning-Methoden. Der Vorteil dieses Papiers gegenüber bestehenden Arbeiten liegt in der leichten Konstruktion speziell für Edge-Geräte und der Online-Anpassungsfähigkeit.
Verwandte Projekte umfassen die Waggle-Sensorplattform, Sage Continuum usw. Dieses Papier ist die erste Arbeit, die sich speziell auf HPC-Parameteroptimierung auf Edge-Geräten konzentriert.
MAB-Techniken werden in der Hyperparameter-Optimierung angewendet, aber dieses Papier wendet sie erstmals auf das HPC-Tuning-Szenario auf Edge-Geräten an.
Skalierungsbeschränkungen: Mit zunehmender Konfigurationszahl muss der UCB-Algorithmus viele Optionen erkunden, was auf ressourcenbegrenzten Geräten ineffizient wird
Netzwerkkoordinationsprobleme: Niedrigbandbreitenkommunikation zwischen mehreren volatilen Edge-Geräten beeinträchtigt die Systemeffizienz
Herausforderungen heterogener Geräte: Die Behandlung von Geräten mit unterschiedlicher Rechenleistung erfordert adaptive Algorithmusdesign
Stromverbrauchsoptimierungseffekt: Im Vergleich zur Ausführungszeitoptimierung ist der Stromverbrauchsoptimierungseffekt begrenzt
Begrenzte Vergleichsexperimente: Hauptsächlich Vergleich mit BLISS und Standardkonfiguration, mangelnde Vergleiche mit anderen leichten Methoden
Unzureichende theoretische Analyse: Obwohl Reue-Grenzen bereitgestellt werden, fehlt eine detaillierte theoretische Analyse der Konvergenz
Unzureichende Validierung heterogener Geräte: Experimente werden hauptsächlich auf einem einzelnen Edge-Gerät durchgeführt, mangelnde Validierung der Multi-Device-Zusammenarbeit
Parametersensitivitätsanalyse: Die Sensitivitätsanalyse für α- und β-Parameter ist relativ einfach
Das Papier zitiert 48 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie Edge-Computing, HPC-Tuning und Multi-Armed-Bandits abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Schnittstellenbereich von Edge-Computing und HPC bietet. Der LASP-Algorithmus ist gut konzipiert, die experimentelle Validierung ist umfassend und hat guten praktischen Wert und Verbreitungspotenzial. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Vergleichsexperimenten gibt, ist der Gesamtbeitrag erheblich und bietet wertvolle Referenzen für verwandte Forschungsbereiche.