2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

Autotuning dei Parametri delle Applicazioni HPC su Dispositivi Edge: Un Approccio di Apprendimento Bandit

Informazioni Fondamentali

ID Articolo: 2501.01057
Titolo: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
Autori: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
Istituzioni: ¹University of Toledo, ²New Mexico State University, ³University of Texas at Arlington, ⁴Lawrence Livermore National Laboratory
Classificazione: cs.PF cs.LG cs.SY eess.SY
Data di Pubblicazione: 2 gennaio 2025
Link Articolo: https://arxiv.org/abs/2501.01057

Riassunto

Con la crescente necessità di aumentare la capacità di elaborazione dei dispositivi edge, questo articolo sviluppa metodi efficaci per migliorare le applicazioni di calcolo ad alte prestazioni (HPC). L'articolo introduce LASP (Lightweight Autotuning of Scientific Application Parameters), una strategia innovativa progettata specificamente per affrontare le sfide dello spazio di ricerca dei parametri sui dispositivi edge. La strategia impiega la tecnica Multi-Armed Bandit (MAB), focalizzandosi sull'esplorazione e lo sfruttamento online. LASP adotta un approccio dinamico, in grado di adattarsi perfettamente agli ambienti in evoluzione. Gli autori hanno testato LASP su quattro applicazioni HPC (Lulesh, Kripke, Clomp e Hypre). La sua natura leggera la rende particolarmente adatta ai dispositivi edge con risorse limitate. Adottando il framework MAB per navigare efficientemente lo spazio di ricerca, sono stati raggiunti miglioramenti significativi delle prestazioni rispettando i severi vincoli computazionali dei dispositivi edge.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è l'autotuning efficiente dei parametri delle applicazioni HPC su dispositivi edge con risorse limitate. I metodi tradizionali di autotuning dei parametri sono stati progettati principalmente per i sistemi HPC convenzionali, che richiedono di per sé notevoli risorse computazionali e non sono adatti agli ambienti vincolati dei dispositivi edge.

Importanza del Problema

Rapida evoluzione dell'edge computing: Secondo i rapporti, il mercato dell'elaborazione dei dati edge dovrebbe crescere del 75% entro il 2026
Complessità delle applicazioni HPC: Le applicazioni HPC coinvolgono configurazioni di parametri complesse che influenzano significativamente le prestazioni e possono persino causare errori di esecuzione
Sfide dei vincoli di risorse: La capacità computazionale limitata dei dispositivi edge e le risorse distribuite eterogenee presentano sfide uniche per l'esecuzione HPC

Limitazioni degli Approcci Esistenti

Metodi tradizionali: L'autotuning manuale basato sulla conoscenza degli esperti è dispendioso in termini di tempo e non scalabile; i metodi basati su euristiche mancano di flessibilità e tendono a rimanere intrappolati negli ottimi locali
Metodi di apprendimento automatico: Sebbene efficaci, introducono overhead aggiuntivo inadatto ai dispositivi edge
Ottimizzazione bayesiana: Funziona male con relazioni complesse, richiede numerose iterazioni e manca di sfruttamento della conoscenza storica

Motivazione della Ricerca

Proporre un metodo innovativo che sfrutti i dispositivi edge per eseguire applicazioni HPC a bassa fedeltà (LF) al fine di determinare i parametri ottimali a livello di applicazione, quindi trasferire questi parametri a piattaforme HPC tradizionali per l'esecuzione ad alta fedeltà (HF), riducendo significativamente il tempo e il consumo energetico dell'autotuning dei parametri sui sistemi HPC tradizionali.

Contributi Fondamentali

Primo algoritmo LASP: Metodo innovativo di autotuning leggero dei parametri HPC specificamente progettato per dispositivi edge
Applicazione innovativa della tecnica MAB: Prima applicazione del Multi-Armed Bandit all'autotuning su dispositivi edge
Capacità di adattamento dinamico: L'algoritmo può adattarsi in tempo reale ai cambiamenti ambientali, adatto agli ambienti edge volatili
Ottimizzazione multi-obiettivo: Ottimizza simultaneamente il tempo di esecuzione e il consumo energetico, fornendo un equilibrio di ottimizzazione personalizzabile dall'utente
Portabilità cross-platform: L'approccio dei parametri a livello di applicazione basato su tecniche stocastiche è portabile tra varie piattaforme edge e HPC

Dettagli del Metodo

Definizione del Compito

Dato uno spazio di configurazione dei parametri χ = {1, ..., x} di un'applicazione HPC, selezionare la configurazione ottimale in T iterazioni per massimizzare la funzione di ricompensa ponderata:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

dove τx è il tempo di esecuzione normalizzato, ρx è il consumo energetico normalizzato, e α e β sono parametri di peso definiti dall'utente.

Architettura del Modello

Framework Multi-Armed Bandit

LASP si basa sul modello stocastico Multi-Armed Bandit, assumendo K azioni (configurazioni) eseguite in T iterazioni. Ogni configurazione x corrisponde a una distribuzione di ricompensa Dx inizialmente sconosciuta.

Algoritmo Upper Confidence Bound (UCB)

La strategia di selezione principale si basa sull'algoritmo UCB:

UCB(x,t) = Rx + √(2ln t / Nx)

dove:

Rx = freward(x) è la ricompensa ponderata della configurazione x
Nx è il numero di volte che la configurazione x è stata selezionata
t è il numero di iterazione corrente

Strategia di Selezione della Configurazione

In ogni iterazione, selezionare la configurazione con il valore UCB più alto:

x*t = argmax_x UCB(x,t)

L'output finale è la configurazione selezionata il maggior numero di volte:

xopt = argmax_x Nx

Punti di Innovazione Tecnica

Design leggero: Rispetto ai metodi ML tradizionali, l'utilizzo di CPU e memoria di LASP è significativamente inferiore
Apprendimento online: Si adatta in tempo reale ai cambiamenti ambientali senza necessità di pre-addestramento
Metodo multi-fedeltà: Sfrutta l'esecuzione a bassa fedeltà su dispositivi edge per identificare i parametri ottimali per i sistemi HPC ad alta fedeltà
Partecipazione dell'utente: Consente agli utenti di personalizzare gli obiettivi di ottimizzazione attraverso i parametri α e β

Configurazione Sperimentale

Piattaforme Sperimentali

Dispositivo Edge: NVIDIA Jetson Nano (GPU Maxwell 128-core, CPU ARM A57 quad-core@1.43GHz, 4GB LPDDR4)
Sistema HPC: Intel Core i7-14700 vPro (20-core 28-thread, 64GB DDR5, Ubuntu 24.04)
Sistema Operativo: Ubuntu 20.04
Modalità di Consumo Energetico: MAXN (10W) e 5W

Applicazioni Testate

Applicazione	Descrizione	Dimensione Spazio Parametri	Parametri Principali
Hypre	Libreria di risoluzione di sistemi lineari	92,160	Griglia di processori, parametri AMG, ecc.
Kripke	Codice di trasporto di particelle 3D	216	Layout dei dati, impostazioni dei gruppi di energia, ecc.
Lulesh	Applicazione proxy di dinamica dei fluidi d'urto	128	Numero di zone, numero di elementi della griglia
Clomp	Benchmark di prestazioni OpenMP	125	Blocchi di lavoro dei thread, parametri di zona, ecc.

Metriche di Valutazione

Guadagno di Prestazioni: PGbest = (fdefault - fbest)/fdefault × 100%
Rimpianto Cumulativo: RT = Tμ* - Σμj(t)
Distanza dalla Configurazione Oracle: (tempo di esecuzione/tempo di esecuzione Oracle - 1) × 100%

Metodi di Confronto

Confronto principalmente con BLISS (metodo SOTA basato su ottimizzazione bayesiana) e configurazione predefinita.

Risultati Sperimentali

Risultati Principali

Analisi del Guadagno di Prestazioni

Guadagni di prestazioni su diverse applicazioni:

Clomp: Ottimizzazione del consumo energetico del 10%, significativo miglioramento del tempo di esecuzione
Lulesh: Ottimizzazione del consumo energetico del 14%
Hypre: Ottimizzazione del consumo energetico del 9%
Kripke: Ottimizzazione del consumo energetico del 6%

Efficienza di Convergenza

Le applicazioni con spazio parametri piccolo (Lulesh, Kripke, Clomp) convergono efficacemente entro 500 iterazioni
Le applicazioni con spazio parametri grande (Hypre) richiedono 1000 iterazioni, ma riescono comunque a raggiungere entro il 12% della configurazione Oracle

Utilizzo delle Risorse

Rispetto a BLISS, LASP mostra un utilizzo significativamente inferiore di CPU e memoria:

Riduzione dell'utilizzo della CPU di circa il 50% in modalità MAXN
Riduzione dell'occupazione di memoria di circa il 60%

Esperimenti di Ablazione

Validità dell'Approccio Multi-Fedeltà

Gli esperimenti mostrano una sovrapposizione significativa tra le configurazioni ottimali in impostazioni a bassa e alta fedeltà:

Le prime 20 configurazioni hanno prestazioni entro il 25% dell'Oracle in impostazioni ad alta fedeltà
L'insieme delle configurazioni ottimali a bassa e alta fedeltà ha una grande intersezione

Impatto dei Parametri Utente

La validazione dell'efficacia della personalizzazione degli obiettivi di ottimizzazione da parte dell'utente attraverso la regolazione del parametro α (da 0,2 a 0,8):

α=0,2 si concentra sull'ottimizzazione del consumo energetico
α=0,8 si concentra sull'ottimizzazione del tempo di esecuzione

Analisi di Robustezza

LASP mantiene buone prestazioni con errori sintetici del 5%, 10% e 15%, dimostrando la sua capacità di adattamento ai problemi reali come le fluttuazioni di rete.

Analisi del Rimpianto

Il rimpianto cumulativo di tutte le applicazioni tende a saturarsi dopo un certo numero di iterazioni, provando l'efficace convergenza dell'algoritmo. L'effetto dell'ottimizzazione del tempo di esecuzione è superiore a quello dell'ottimizzazione del consumo energetico, dovuto alle caratteristiche di saturazione del consumo energetico nelle applicazioni HPC ad alta intensità computazionale.

Lavori Correlati

Autotuning dei Parametri HPC

I metodi tradizionali includono metodi basati sulla ricerca (come l'ottimizzazione bayesiana) e metodi di apprendimento automatico. Il vantaggio di questo articolo rispetto ai lavori esistenti risiede nel design leggero specificamente per i dispositivi edge e nella capacità di adattamento online.

HPC nell'Edge Computing

I progetti correlati includono la piattaforma di sensori Waggle, Sage Continuum, ecc. Questo articolo è il primo lavoro specificamente dedicato all'autotuning dei parametri HPC su dispositivi edge.

Applicazioni del Multi-Armed Bandit

La tecnica MAB ha applicazioni nell'autotuning degli iperparametri, ma questo articolo è il primo a applicarla allo scenario di autotuning HPC su dispositivi edge.

Conclusioni e Discussione

Conclusioni Principali

LASP realizza con successo l'autotuning leggero dei parametri HPC su dispositivi edge
Il framework MAB è adatto alle esigenze di apprendimento online negli ambienti edge dinamici
L'approccio multi-fedeltà riduce efficacemente i costi di autotuning
L'algoritmo raggiunge miglioramenti significativi delle prestazioni su varie applicazioni HPC

Limitazioni

Limitazioni di Scalabilità: Con l'aumento del numero di configurazioni, l'algoritmo UCB richiede l'esplorazione di numerose opzioni, diventando inefficiente su dispositivi con risorse limitate
Problemi di Coordinamento di Rete: La comunicazione a bassa larghezza di banda tra più dispositivi edge volatili influisce sull'efficienza del sistema
Sfide dei Dispositivi Eterogenei: La gestione di dispositivi con diverse capacità computazionali richiede un design di algoritmi adattivi
Effetto dell'Ottimizzazione del Consumo Energetico: L'effetto dell'ottimizzazione del consumo energetico è più limitato rispetto all'ottimizzazione del tempo di esecuzione

Direzioni Future

Esplorare il design di algoritmi paralleli multi-livello e consapevoli delle risorse
Migliorare l'adattabilità dell'algoritmo negli ambienti eterogenei
Estendere a spazi parametrici di dimensioni maggiori
Integrare più tipi di applicazioni HPC

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione di MAB all'autotuning HPC su dispositivi edge, colmando un vuoto di ricerca
Alto Valore Pratico: Il design leggero è effettivamente adatto ai dispositivi edge con risorse limitate
Esperimenti Completi: La validazione su quattro diversi tipi di applicazioni HPC dimostra l'universalità del metodo
Fondamenta Teoriche Solide: Basato sulla teoria MAB consolidata, fornisce analisi dei limiti di rimpianto
Design Amichevole per l'Utente: Il design dei parametri α e β consente agli utenti di personalizzare gli obiettivi di ottimizzazione

Insufficienze

Esperimenti di Confronto Limitati: Principalmente confrontati con BLISS e configurazione predefinita, mancano confronti con altri metodi leggeri
Analisi Teorica Non Sufficientemente Approfondita: Sebbene fornisca limiti di rimpianto, manca un'analisi teorica dettagliata della convergenza
Validazione Insufficiente su Dispositivi Eterogenei: Gli esperimenti sono principalmente condotti su un singolo dispositivo edge, mancando la validazione della cooperazione multi-dispositivo
Analisi di Sensibilità dei Parametri: L'analisi della sensibilità ai parametri α e β è relativamente semplice

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per la combinazione di edge computing e HPC
Valore Pratico: Il metodo ha buona riproducibilità e potenziale di distribuzione pratica
Promozione Tecnologica: La natura leggera la rende facile da applicare nei sistemi reali

Scenari Applicabili

Ambienti con Risorse Limitate: Particolarmente adatto ai dispositivi edge con risorse computazionali e di archiviazione limitate
Ambienti Dinamici: Adatto a scenari in cui le condizioni di rete e i carichi di lavoro cambiano frequentemente
Ottimizzazione Multi-Obiettivo: Scenari di applicazioni che richiedono il bilanciamento tra prestazioni e consumo energetico
Autotuning in Tempo Reale: Distribuzione di applicazioni HPC che richiedono adattamento online

Riferimenti Bibliografici

L'articolo cita 48 riferimenti correlati, coprendo importanti lavori in più campi tra cui edge computing, autotuning HPC e Multi-Armed Bandit, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo trasversale dell'edge computing e dell'HPC. L'algoritmo LASP è ben progettato, la validazione sperimentale è completa e ha buon valore pratico e prospettive di promozione. Sebbene ci sia ancora spazio per miglioramenti nella profondità teorica e negli esperimenti di confronto, il contributo complessivo è significativo e fornisce un riferimento prezioso per la ricerca nei campi correlati.