2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.
The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.
academic

HPC-Anwendungsparameter-Autotuning auf Edge-Geräten: Ein Bandit-Learning-Ansatz

Grundinformationen

  • Papier-ID: 2501.01057
  • Titel: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
  • Autoren: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
  • Institutionen: ¹University of Toledo, ²New Mexico State University, ³University of Texas at Arlington, ⁴Lawrence Livermore National Laboratory
  • Klassifizierung: cs.PF cs.LG cs.SY eess.SY
  • Veröffentlichungsdatum: 2. Januar 2025
  • Papier-Link: https://arxiv.org/abs/2501.01057

Zusammenfassung

Angesichts des wachsenden Bedarfs an erhöhter Verarbeitungsleistung auf Edge-Geräten entwickelt dieser Artikel verbesserte Methoden zur Optimierung von Hochleistungsrechner(HPC)-Anwendungen. Der Artikel stellt LASP (Lightweight Autotuning of Scientific Application Parameters) vor, eine neuartige Strategie, die speziell zur Bewältigung der Herausforderungen der Parametersuche auf Edge-Geräten entwickelt wurde. Die Strategie nutzt Multi-Armed-Bandit(MAB)-Techniken mit Fokus auf Online-Exploration und -Exploitation. LASP verfolgt einen dynamischen Ansatz, der sich nahtlos an verändernde Umgebungen anpasst. Die Autoren testeten LASP mit vier HPC-Anwendungen (Lulesh, Kripke, Clomp und Hypre). Ihre leichte Beschaffenheit macht sie besonders geeignet für ressourcenbegrenzte Edge-Geräte. Durch die Anwendung des MAB-Rahmens zur effizienten Navigation des Suchraums wurden erhebliche Leistungsverbesserungen erreicht, während die strengen Rechenbeschränkungen von Edge-Geräten eingehalten wurden.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die effiziente automatische Parameteroptimierung von HPC-Anwendungen auf ressourcenbegrenzten Edge-Geräten. Traditionelle Parameteroptimierungsmethoden wurden hauptsächlich für konventionelle HPC-Systeme entwickelt und erfordern selbst erhebliche Rechenressourcen, was sie für die eingeschränkte Umgebung von Edge-Geräten ungeeignet macht.

Bedeutung des Problems

  1. Schnelle Entwicklung des Edge-Computing: Berichten zufolge wird der Markt für Edge-Datenverarbeitung bis 2026 um 75% wachsen
  2. Komplexität von HPC-Anwendungen: HPC-Anwendungen beinhalten komplexe Parameterkonfigurationen, die die Leistung erheblich beeinflussen und sogar zu Ausführungsfehlern führen können
  3. Ressourcenbeschränkungen: Die begrenzte Rechenkapazität und heterogene verteilte Ressourcen von Edge-Geräten stellen einzigartige Herausforderungen für die HPC-Ausführung dar

Einschränkungen bestehender Methoden

  1. Traditionelle Methoden: Manuelle Optimierung basierend auf Expertenwissen ist zeitaufwändig und nicht skalierbar; heuristische Methoden mangelt es an Flexibilität und sie können in lokalen Optima steckenbleiben
  2. Machine-Learning-Methoden: Obwohl wirksam, verursachen sie zusätzliche Overhead und sind nicht für Edge-Geräte geeignet
  3. Bayessche Optimierung: Zeigt schlechte Leistung bei komplexen Beziehungen, erfordert viele Iterationen und nutzt historisches Wissen nicht aus

Forschungsmotivation

Einen innovativen Ansatz vorschlagen, der Edge-Geräte nutzt, um HPC-Anwendungen mit niedriger Wiedergabetreue (LF) auszuführen, um optimale Parameter auf Anwendungsebene zu bestimmen, und diese Parameter dann auf konventionelle HPC-Plattformen für die Ausführung mit hoher Wiedergabetreue (HF) zu übertragen, wodurch Zeit und Energieverbrauch bei der Parameteroptimierung auf traditionellen HPC-Systemen erheblich reduziert werden.

Kernbeiträge

  1. Erstmalige Vorstellung des LASP-Algorithmus: Leichte HPC-Parameterautotuning-Methode speziell für Edge-Geräte
  2. Innovative Anwendung der MAB-Technik: Erstmalige Anwendung von Multi-Armed-Bandits auf Autotuning auf Edge-Geräten
  3. Dynamische Anpassungsfähigkeit: Der Algorithmus kann sich in Echtzeit an Umgebungsveränderungen anpassen und eignet sich für volatile Edge-Umgebungen
  4. Multi-Objective-Optimierung: Gleichzeitige Optimierung von Ausführungszeit und Stromverbrauch mit benutzerdefinierten Optimierungsabwägungen
  5. Plattformübergreifende Portabilität: Der auf stochastischen Techniken basierende Ansatz auf Anwendungsebene ist über verschiedene Edge- und HPC-Plattformen hinweg portierbar

Methodische Details

Aufgabendefinition

Gegeben ein Parameterkonfigurationsraum χ = {1, ..., x} einer HPC-Anwendung, wählen Sie die optimale Konfiguration in T Iterationsrunden aus, um die gewichtete Belohnungsfunktion zu maximieren:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

wobei τx die normalisierte Ausführungszeit ist, ρx der normalisierte Stromverbrauch ist, und α und β benutzerdefinierte Gewichtungsparameter sind.

Modellarchitektur

Multi-Armed-Bandit-Rahmen

LASP basiert auf einem stochastischen Multi-Armed-Bandit-Modell, das davon ausgeht, dass K Aktionen (Konfigurationen) in T Runden ausgeführt werden. Jede Konfiguration x entspricht einer Belohnungsverteilung Dx, die anfangs unbekannt ist.

Upper Confidence Bound (UCB)-Algorithmus

Die Kernauswahlstrategie basiert auf dem UCB-Algorithmus:

UCB(x,t) = Rx + √(2ln t / Nx)

wobei:

  • Rx = freward(x) die gewichtete Belohnung der Konfiguration x ist
  • Nx die Anzahl der Male ist, die Konfiguration x ausgewählt wurde
  • t die aktuelle Iterationsnummer ist

Konfigurationsauswahlstrategie

Wählen Sie in jeder Runde die Konfiguration mit dem höchsten UCB-Wert:

x*t = argmax_x UCB(x,t)

Geben Sie abschließend die am häufigsten ausgewählte Konfiguration aus:

xopt = argmax_x Nx

Technische Innovationen

  1. Leichte Konstruktion: Im Vergleich zu traditionellen ML-Methoden hat LASP deutlich niedrigere CPU- und Speichernutzung
  2. Online-Lernen: Passt sich in Echtzeit an Umgebungsveränderungen an, ohne Vortraining
  3. Multi-Fidelity-Methode: Nutzt Low-Fidelity-Edge-Geräte, um optimale Parameter für High-Fidelity-HPC-Systeme zu identifizieren
  4. Benutzereinbindung: Ermöglicht Benutzern durch α- und β-Parameter, Optimierungsziele anzupassen

Experimentelle Einrichtung

Experimentelle Plattformen

  • Edge-Geräte: NVIDIA Jetson Nano (128-Kern Maxwell GPU, Quad-Core ARM A57 CPU@1,43GHz, 4GB LPDDR4)
  • HPC-System: Intel Core i7-14700 vPro (20-Kern 28-Thread, 64GB DDR5, Ubuntu 24.04)
  • Betriebssystem: Ubuntu 20.04
  • Stromverbrauchsmodi: MAXN (10W) und 5W zwei Modi

Testanwendungen

AnwendungBeschreibungParameterspeichergrößeHauptparameter
HypreBibliothek zur Lösung linearer Systeme92.160Prozessorgitter, AMG-Parameter usw.
Kripke3D-Partikeltransportcode216Datenlayout, Energiegruppeneinstellungen usw.
LuleshProxy-Anwendung für Stoßfluidmechanik128Zonenzahl, Netzelementzahl
ClompOpenMP-Leistungs-Benchmark125Thread-Arbeitsblöcke, Zonenparameter usw.

Bewertungsmetriken

  1. Leistungsgewinn: PGbest = (fdefault - fbest)/fdefault × 100%
  2. Kumulative Reue: RT = Tμ* - Σμj(t)
  3. Abstand zur Oracle-Konfiguration: (Ausführungszeit/Oracle-Ausführungszeit - 1) × 100%

Vergleichsmethoden

Hauptsächlich Vergleich mit BLISS (State-of-the-Art-Methode basierend auf Bayesscher Optimierung) und Standardkonfiguration.

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsgewinn-Analyse

Leistungsgewinne über verschiedene Anwendungen:

  • Clomp: 10% Stromverbrauchsoptimierung, signifikante Ausführungszeitoptimierung
  • Lulesh: 14% Stromverbrauchsoptimierung
  • Hypre: 9% Stromverbrauchsoptimierung
  • Kripke: 6% Stromverbrauchsoptimierung

Konvergenzeffizienz

  • Anwendungen mit kleinem Parameterspeicher (Lulesh, Kripke, Clomp) konvergieren effektiv innerhalb von 500 Iterationen
  • Anwendungen mit großem Parameterspeicher (Hypre) benötigen 1000 Iterationen, können aber immer noch innerhalb von 12% der Oracle-Konfiguration erreicht werden

Ressourcenauslastung

Im Vergleich zu BLISS zeigt LASP deutlich niedrigere CPU- und Speichernutzung:

  • CPU-Auslastung im MAXN-Modus um etwa 50% reduziert
  • Speicherverbrauch um etwa 60% reduziert

Ablationsexperimente

Wirksamkeit der Multi-Fidelity

Experimente zeigen erhebliche Überlappung der optimalen Konfigurationen unter Low-Fidelity- und High-Fidelity-Einstellungen:

  • Die Top-20-Konfigurationen zeigen unter High-Fidelity-Einstellungen Leistung innerhalb von 25% der Oracle
  • Große Schnittmenge zwischen optimalen Konfigurationssätzen von Low-Fidelity und High-Fidelity

Auswirkung von Benutzerparametern

Durch Anpassung des α-Parameters (0,2 bis 0,8) wurde die Wirksamkeit benutzerdefinierter Optimierungsziele validiert:

  • α=0,2 konzentriert sich auf Stromverbrauchsoptimierung
  • α=0,8 konzentriert sich auf Ausführungszeitoptimierung

Robustheitsanalyse

Unter synthetischen Fehlern von 5%, 10% und 15% behält LASP gute Leistung bei, was seine Anpassungsfähigkeit an reale Probleme wie Netzwerkschwankungen beweist.

Reue-Analyse

Die kumulative Reue aller Anwendungen stabilisiert sich nach einer bestimmten Anzahl von Iterationen, was die effektive Konvergenz des Algorithmus beweist. Die Ausführungszeitoptimierung ist wirksamer als die Stromverbrauchsoptimierung, was auf die Sättigungseigenschaften des Stromverbrauchs in rechenintensiven HPC-Anwendungen zurückzuführen ist.

Verwandte Arbeiten

HPC-Parameteroptimierung

Traditionelle Methoden umfassen suchbasierte Methoden (wie Bayessche Optimierung) und Machine-Learning-Methoden. Der Vorteil dieses Papiers gegenüber bestehenden Arbeiten liegt in der leichten Konstruktion speziell für Edge-Geräte und der Online-Anpassungsfähigkeit.

HPC in Edge-Computing

Verwandte Projekte umfassen die Waggle-Sensorplattform, Sage Continuum usw. Dieses Papier ist die erste Arbeit, die sich speziell auf HPC-Parameteroptimierung auf Edge-Geräten konzentriert.

Multi-Armed-Bandit-Anwendungen

MAB-Techniken werden in der Hyperparameter-Optimierung angewendet, aber dieses Papier wendet sie erstmals auf das HPC-Tuning-Szenario auf Edge-Geräten an.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. LASP realisiert erfolgreich leichte HPC-Parameterautotuning auf Edge-Geräten
  2. Das MAB-Framework eignet sich für Online-Learning-Anforderungen in dynamischen Edge-Umgebungen
  3. Die Multi-Fidelity-Methode reduziert die Tuning-Kosten effektiv
  4. Der Algorithmus erreicht signifikante Leistungsverbesserungen über verschiedene HPC-Anwendungen hinweg

Einschränkungen

  1. Skalierungsbeschränkungen: Mit zunehmender Konfigurationszahl muss der UCB-Algorithmus viele Optionen erkunden, was auf ressourcenbegrenzten Geräten ineffizient wird
  2. Netzwerkkoordinationsprobleme: Niedrigbandbreitenkommunikation zwischen mehreren volatilen Edge-Geräten beeinträchtigt die Systemeffizienz
  3. Herausforderungen heterogener Geräte: Die Behandlung von Geräten mit unterschiedlicher Rechenleistung erfordert adaptive Algorithmusdesign
  4. Stromverbrauchsoptimierungseffekt: Im Vergleich zur Ausführungszeitoptimierung ist der Stromverbrauchsoptimierungseffekt begrenzt

Zukünftige Richtungen

  1. Erkundung von mehrstufiger Parallelisierung und ressourcenabhängigem Algorithmusdesign
  2. Verbesserung der Algorithmusadaptivität in heterogenen Umgebungen
  3. Erweiterung auf größere Parameterspeicher
  4. Integration weiterer Arten von HPC-Anwendungen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erstmalige Anwendung von MAB auf HPC-Tuning auf Edge-Geräten, füllt eine Forschungslücke
  2. Hoher praktischer Wert: Leichte Konstruktion ist wirklich für ressourcenbegrenzte Edge-Geräte geeignet
  3. Umfassende Experimente: Vier verschiedene Arten von HPC-Anwendungen validieren die Universalität der Methode
  4. Solide theoretische Grundlagen: Basierend auf etablierter MAB-Theorie mit Reue-Grenzanalyse
  5. Benutzerfreundlich: Das Design von α- und β-Parametern ermöglicht es Benutzern, Optimierungsziele anzupassen

Mängel

  1. Begrenzte Vergleichsexperimente: Hauptsächlich Vergleich mit BLISS und Standardkonfiguration, mangelnde Vergleiche mit anderen leichten Methoden
  2. Unzureichende theoretische Analyse: Obwohl Reue-Grenzen bereitgestellt werden, fehlt eine detaillierte theoretische Analyse der Konvergenz
  3. Unzureichende Validierung heterogener Geräte: Experimente werden hauptsächlich auf einem einzelnen Edge-Gerät durchgeführt, mangelnde Validierung der Multi-Device-Zusammenarbeit
  4. Parametersensitivitätsanalyse: Die Sensitivitätsanalyse für α- und β-Parameter ist relativ einfach

Einfluss

  1. Akademischer Beitrag: Bietet eine neue Forschungsrichtung für die Kombination von Edge-Computing und HPC
  2. Praktischer Wert: Die Methode hat gute Reproduzierbarkeit und Potenzial für praktische Bereitstellung
  3. Technologieverbreitung: Leichte Eigenschaften ermöglichen einfache Anwendung in realen Systemen

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Besonders geeignet für Edge-Geräte mit begrenzten Rechen- und Speicherressourcen
  2. Dynamische Umgebungen: Geeignet für Szenarien mit häufig wechselnden Netzwerkbedingungen und Arbeitslasten
  3. Multi-Objective-Optimierung: Anwendungsszenarien, die Leistung und Stromverbrauch ausgleichen müssen
  4. Echtzeit-Tuning: HPC-Anwendungsbereitstellung, die Online-Anpassung erfordert

Literaturverzeichnis

Das Papier zitiert 48 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie Edge-Computing, HPC-Tuning und Multi-Armed-Bandits abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Schnittstellenbereich von Edge-Computing und HPC bietet. Der LASP-Algorithmus ist gut konzipiert, die experimentelle Validierung ist umfassend und hat guten praktischen Wert und Verbreitungspotenzial. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Vergleichsexperimenten gibt, ist der Gesamtbeitrag erheblich und bietet wertvolle Referenzen für verwandte Forschungsbereiche.