2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

HPC-Anwendungsparameter-Autotuning auf Edge-Geräten: Ein Bandit-Learning-Ansatz

Grundinformationen

Papier-ID: 2501.01057
Titel: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
Autoren: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
Institutionen: ¹University of Toledo, ²New Mexico State University, ³University of Texas at Arlington, ⁴Lawrence Livermore National Laboratory
Klassifizierung: cs.PF cs.LG cs.SY eess.SY
Veröffentlichungsdatum: 2. Januar 2025
Papier-Link: https://arxiv.org/abs/2501.01057

Zusammenfassung

Angesichts des wachsenden Bedarfs an erhöhter Verarbeitungsleistung auf Edge-Geräten entwickelt dieser Artikel verbesserte Methoden zur Optimierung von Hochleistungsrechner(HPC)-Anwendungen. Der Artikel stellt LASP (Lightweight Autotuning of Scientific Application Parameters) vor, eine neuartige Strategie, die speziell zur Bewältigung der Herausforderungen der Parametersuche auf Edge-Geräten entwickelt wurde. Die Strategie nutzt Multi-Armed-Bandit(MAB)-Techniken mit Fokus auf Online-Exploration und -Exploitation. LASP verfolgt einen dynamischen Ansatz, der sich nahtlos an verändernde Umgebungen anpasst. Die Autoren testeten LASP mit vier HPC-Anwendungen (Lulesh, Kripke, Clomp und Hypre). Ihre leichte Beschaffenheit macht sie besonders geeignet für ressourcenbegrenzte Edge-Geräte. Durch die Anwendung des MAB-Rahmens zur effizienten Navigation des Suchraums wurden erhebliche Leistungsverbesserungen erreicht, während die strengen Rechenbeschränkungen von Edge-Geräten eingehalten wurden.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die effiziente automatische Parameteroptimierung von HPC-Anwendungen auf ressourcenbegrenzten Edge-Geräten. Traditionelle Parameteroptimierungsmethoden wurden hauptsächlich für konventionelle HPC-Systeme entwickelt und erfordern selbst erhebliche Rechenressourcen, was sie für die eingeschränkte Umgebung von Edge-Geräten ungeeignet macht.

Bedeutung des Problems

Schnelle Entwicklung des Edge-Computing: Berichten zufolge wird der Markt für Edge-Datenverarbeitung bis 2026 um 75% wachsen
Komplexität von HPC-Anwendungen: HPC-Anwendungen beinhalten komplexe Parameterkonfigurationen, die die Leistung erheblich beeinflussen und sogar zu Ausführungsfehlern führen können
Ressourcenbeschränkungen: Die begrenzte Rechenkapazität und heterogene verteilte Ressourcen von Edge-Geräten stellen einzigartige Herausforderungen für die HPC-Ausführung dar

Einschränkungen bestehender Methoden

Traditionelle Methoden: Manuelle Optimierung basierend auf Expertenwissen ist zeitaufwändig und nicht skalierbar; heuristische Methoden mangelt es an Flexibilität und sie können in lokalen Optima steckenbleiben
Machine-Learning-Methoden: Obwohl wirksam, verursachen sie zusätzliche Overhead und sind nicht für Edge-Geräte geeignet
Bayessche Optimierung: Zeigt schlechte Leistung bei komplexen Beziehungen, erfordert viele Iterationen und nutzt historisches Wissen nicht aus

Forschungsmotivation

Einen innovativen Ansatz vorschlagen, der Edge-Geräte nutzt, um HPC-Anwendungen mit niedriger Wiedergabetreue (LF) auszuführen, um optimale Parameter auf Anwendungsebene zu bestimmen, und diese Parameter dann auf konventionelle HPC-Plattformen für die Ausführung mit hoher Wiedergabetreue (HF) zu übertragen, wodurch Zeit und Energieverbrauch bei der Parameteroptimierung auf traditionellen HPC-Systemen erheblich reduziert werden.

Kernbeiträge

Erstmalige Vorstellung des LASP-Algorithmus: Leichte HPC-Parameterautotuning-Methode speziell für Edge-Geräte
Innovative Anwendung der MAB-Technik: Erstmalige Anwendung von Multi-Armed-Bandits auf Autotuning auf Edge-Geräten
Dynamische Anpassungsfähigkeit: Der Algorithmus kann sich in Echtzeit an Umgebungsveränderungen anpassen und eignet sich für volatile Edge-Umgebungen
Multi-Objective-Optimierung: Gleichzeitige Optimierung von Ausführungszeit und Stromverbrauch mit benutzerdefinierten Optimierungsabwägungen
Plattformübergreifende Portabilität: Der auf stochastischen Techniken basierende Ansatz auf Anwendungsebene ist über verschiedene Edge- und HPC-Plattformen hinweg portierbar

Methodische Details

Aufgabendefinition

Gegeben ein Parameterkonfigurationsraum χ = {1, ..., x} einer HPC-Anwendung, wählen Sie die optimale Konfiguration in T Iterationsrunden aus, um die gewichtete Belohnungsfunktion zu maximieren:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

wobei τx die normalisierte Ausführungszeit ist, ρx der normalisierte Stromverbrauch ist, und α und β benutzerdefinierte Gewichtungsparameter sind.

Modellarchitektur

Multi-Armed-Bandit-Rahmen

LASP basiert auf einem stochastischen Multi-Armed-Bandit-Modell, das davon ausgeht, dass K Aktionen (Konfigurationen) in T Runden ausgeführt werden. Jede Konfiguration x entspricht einer Belohnungsverteilung Dx, die anfangs unbekannt ist.

Upper Confidence Bound (UCB)-Algorithmus

Die Kernauswahlstrategie basiert auf dem UCB-Algorithmus:

UCB(x,t) = Rx + √(2ln t / Nx)

wobei:

Rx = freward(x) die gewichtete Belohnung der Konfiguration x ist
Nx die Anzahl der Male ist, die Konfiguration x ausgewählt wurde
t die aktuelle Iterationsnummer ist

Konfigurationsauswahlstrategie

Wählen Sie in jeder Runde die Konfiguration mit dem höchsten UCB-Wert:

x*t = argmax_x UCB(x,t)

Geben Sie abschließend die am häufigsten ausgewählte Konfiguration aus:

xopt = argmax_x Nx

Technische Innovationen

Leichte Konstruktion: Im Vergleich zu traditionellen ML-Methoden hat LASP deutlich niedrigere CPU- und Speichernutzung
Online-Lernen: Passt sich in Echtzeit an Umgebungsveränderungen an, ohne Vortraining
Multi-Fidelity-Methode: Nutzt Low-Fidelity-Edge-Geräte, um optimale Parameter für High-Fidelity-HPC-Systeme zu identifizieren
Benutzereinbindung: Ermöglicht Benutzern durch α- und β-Parameter, Optimierungsziele anzupassen

Experimentelle Einrichtung

Experimentelle Plattformen

Edge-Geräte: NVIDIA Jetson Nano (128-Kern Maxwell GPU, Quad-Core ARM A57 CPU@1,43GHz, 4GB LPDDR4)
HPC-System: Intel Core i7-14700 vPro (20-Kern 28-Thread, 64GB DDR5, Ubuntu 24.04)
Betriebssystem: Ubuntu 20.04
Stromverbrauchsmodi: MAXN (10W) und 5W zwei Modi

Testanwendungen

Anwendung	Beschreibung	Parameterspeichergröße	Hauptparameter
Hypre	Bibliothek zur Lösung linearer Systeme	92.160	Prozessorgitter, AMG-Parameter usw.
Kripke	3D-Partikeltransportcode	216	Datenlayout, Energiegruppeneinstellungen usw.
Lulesh	Proxy-Anwendung für Stoßfluidmechanik	128	Zonenzahl, Netzelementzahl
Clomp	OpenMP-Leistungs-Benchmark	125	Thread-Arbeitsblöcke, Zonenparameter usw.

Bewertungsmetriken

Leistungsgewinn: PGbest = (fdefault - fbest)/fdefault × 100%
Kumulative Reue: RT = Tμ* - Σμj(t)
Abstand zur Oracle-Konfiguration: (Ausführungszeit/Oracle-Ausführungszeit - 1) × 100%

Vergleichsmethoden

Hauptsächlich Vergleich mit BLISS (State-of-the-Art-Methode basierend auf Bayesscher Optimierung) und Standardkonfiguration.

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsgewinn-Analyse

Leistungsgewinne über verschiedene Anwendungen:

Clomp: 10% Stromverbrauchsoptimierung, signifikante Ausführungszeitoptimierung
Lulesh: 14% Stromverbrauchsoptimierung
Hypre: 9% Stromverbrauchsoptimierung
Kripke: 6% Stromverbrauchsoptimierung

Konvergenzeffizienz

Anwendungen mit kleinem Parameterspeicher (Lulesh, Kripke, Clomp) konvergieren effektiv innerhalb von 500 Iterationen
Anwendungen mit großem Parameterspeicher (Hypre) benötigen 1000 Iterationen, können aber immer noch innerhalb von 12% der Oracle-Konfiguration erreicht werden

Ressourcenauslastung

Im Vergleich zu BLISS zeigt LASP deutlich niedrigere CPU- und Speichernutzung:

CPU-Auslastung im MAXN-Modus um etwa 50% reduziert
Speicherverbrauch um etwa 60% reduziert

Ablationsexperimente

Wirksamkeit der Multi-Fidelity

Experimente zeigen erhebliche Überlappung der optimalen Konfigurationen unter Low-Fidelity- und High-Fidelity-Einstellungen:

Die Top-20-Konfigurationen zeigen unter High-Fidelity-Einstellungen Leistung innerhalb von 25% der Oracle
Große Schnittmenge zwischen optimalen Konfigurationssätzen von Low-Fidelity und High-Fidelity

Auswirkung von Benutzerparametern

Durch Anpassung des α-Parameters (0,2 bis 0,8) wurde die Wirksamkeit benutzerdefinierter Optimierungsziele validiert:

α=0,2 konzentriert sich auf Stromverbrauchsoptimierung
α=0,8 konzentriert sich auf Ausführungszeitoptimierung

Robustheitsanalyse

Unter synthetischen Fehlern von 5%, 10% und 15% behält LASP gute Leistung bei, was seine Anpassungsfähigkeit an reale Probleme wie Netzwerkschwankungen beweist.

Reue-Analyse

Die kumulative Reue aller Anwendungen stabilisiert sich nach einer bestimmten Anzahl von Iterationen, was die effektive Konvergenz des Algorithmus beweist. Die Ausführungszeitoptimierung ist wirksamer als die Stromverbrauchsoptimierung, was auf die Sättigungseigenschaften des Stromverbrauchs in rechenintensiven HPC-Anwendungen zurückzuführen ist.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

LASP realisiert erfolgreich leichte HPC-Parameterautotuning auf Edge-Geräten
Das MAB-Framework eignet sich für Online-Learning-Anforderungen in dynamischen Edge-Umgebungen
Die Multi-Fidelity-Methode reduziert die Tuning-Kosten effektiv
Der Algorithmus erreicht signifikante Leistungsverbesserungen über verschiedene HPC-Anwendungen hinweg

Einschränkungen

Skalierungsbeschränkungen: Mit zunehmender Konfigurationszahl muss der UCB-Algorithmus viele Optionen erkunden, was auf ressourcenbegrenzten Geräten ineffizient wird
Netzwerkkoordinationsprobleme: Niedrigbandbreitenkommunikation zwischen mehreren volatilen Edge-Geräten beeinträchtigt die Systemeffizienz
Herausforderungen heterogener Geräte: Die Behandlung von Geräten mit unterschiedlicher Rechenleistung erfordert adaptive Algorithmusdesign
Stromverbrauchsoptimierungseffekt: Im Vergleich zur Ausführungszeitoptimierung ist der Stromverbrauchsoptimierungseffekt begrenzt

Zukünftige Richtungen

Erkundung von mehrstufiger Parallelisierung und ressourcenabhängigem Algorithmusdesign
Verbesserung der Algorithmusadaptivität in heterogenen Umgebungen
Erweiterung auf größere Parameterspeicher
Integration weiterer Arten von HPC-Anwendungen

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erstmalige Anwendung von MAB auf HPC-Tuning auf Edge-Geräten, füllt eine Forschungslücke
Hoher praktischer Wert: Leichte Konstruktion ist wirklich für ressourcenbegrenzte Edge-Geräte geeignet
Umfassende Experimente: Vier verschiedene Arten von HPC-Anwendungen validieren die Universalität der Methode
Solide theoretische Grundlagen: Basierend auf etablierter MAB-Theorie mit Reue-Grenzanalyse
Benutzerfreundlich: Das Design von α- und β-Parametern ermöglicht es Benutzern, Optimierungsziele anzupassen

Mängel

Begrenzte Vergleichsexperimente: Hauptsächlich Vergleich mit BLISS und Standardkonfiguration, mangelnde Vergleiche mit anderen leichten Methoden
Unzureichende theoretische Analyse: Obwohl Reue-Grenzen bereitgestellt werden, fehlt eine detaillierte theoretische Analyse der Konvergenz
Unzureichende Validierung heterogener Geräte: Experimente werden hauptsächlich auf einem einzelnen Edge-Gerät durchgeführt, mangelnde Validierung der Multi-Device-Zusammenarbeit
Parametersensitivitätsanalyse: Die Sensitivitätsanalyse für α- und β-Parameter ist relativ einfach

Einfluss

Akademischer Beitrag: Bietet eine neue Forschungsrichtung für die Kombination von Edge-Computing und HPC
Praktischer Wert: Die Methode hat gute Reproduzierbarkeit und Potenzial für praktische Bereitstellung
Technologieverbreitung: Leichte Eigenschaften ermöglichen einfache Anwendung in realen Systemen

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Besonders geeignet für Edge-Geräte mit begrenzten Rechen- und Speicherressourcen
Dynamische Umgebungen: Geeignet für Szenarien mit häufig wechselnden Netzwerkbedingungen und Arbeitslasten
Multi-Objective-Optimierung: Anwendungsszenarien, die Leistung und Stromverbrauch ausgleichen müssen
Echtzeit-Tuning: HPC-Anwendungsbereitstellung, die Online-Anpassung erfordert

Literaturverzeichnis

Das Papier zitiert 48 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie Edge-Computing, HPC-Tuning und Multi-Armed-Bandits abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Schnittstellenbereich von Edge-Computing und HPC bietet. Der LASP-Algorithmus ist gut konzipiert, die experimentelle Validierung ist umfassend und hat guten praktischen Wert und Verbreitungspotenzial. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Vergleichsexperimenten gibt, ist der Gesamtbeitrag erheblich und bietet wertvolle Referenzen für verwandte Forschungsbereiche.