2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

Autoréglage des Paramètres des Applications HPC sur les Appareils Edge : Une Approche par Apprentissage par Bandit

Informations Fondamentales

ID de l'article: 2501.01057
Titre: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
Auteurs: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
Institutions: ¹Université de Toledo, ²Université d'État du Nouveau-Mexique, ³Université du Texas à Arlington, ⁴Laboratoire National de Livermore
Classification: cs.PF cs.LG cs.SY eess.SY
Date de Publication: 2 janvier 2025
Lien de l'article: https://arxiv.org/abs/2501.01057

Résumé

Face à la demande croissante de capacités de traitement accrues sur les appareils edge, cet article développe des méthodes efficaces pour améliorer les applications de calcul haute performance (HPC). L'article présente LASP (Lightweight Autotuning of Scientific Application Parameters), une stratégie novatrice conçue pour résoudre les défis de l'espace de recherche de paramètres sur les appareils edge. Cette stratégie emploie la technique des bandits multi-bras (MAB), en se concentrant sur l'exploration et l'exploitation en ligne. LASP adopte une approche dynamique capable de s'adapter de manière transparente aux environnements changeants. Les auteurs ont testé LASP sur quatre applications HPC (Lulesh, Kripke, Clomp et Hypre). Sa nature légère la rend particulièrement adaptée aux appareils edge aux ressources limitées. En adoptant le cadre MAB pour naviguer efficacement dans l'espace de recherche, des améliorations de performance significatives ont été réalisées tout en respectant les contraintes informatiques strictes des appareils edge.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est l'autoréglage efficace des paramètres des applications HPC sur les appareils edge aux ressources limitées. Les méthodes traditionnelles d'autoréglage des paramètres sont principalement conçues pour les systèmes HPC conventionnels, qui nécessitent eux-mêmes des ressources informatiques considérables et ne conviennent pas aux environnements contraints des appareils edge.

Importance du Problème

Croissance rapide de l'informatique edge: Selon les rapports, le marché des applications de traitement des données en edge devrait croître de 75% d'ici 2026
Complexité des applications HPC: Les applications HPC impliquent des configurations de paramètres complexes qui affectent significativement les performances et peuvent même entraîner des défaillances d'exécution
Défis des contraintes de ressources: Les capacités informatiques limitées des appareils edge et les ressources distribuées hétérogènes présentent des défis uniques pour l'exécution HPC

Limitations des Approches Existantes

Méthodes traditionnelles: L'autoréglage manuel basé sur les connaissances d'experts est chronophage et non évolutif; les méthodes basées sur l'heuristique manquent de flexibilité et sont susceptibles de converger vers des optima locaux
Méthodes d'apprentissage automatique: Bien qu'efficaces, elles introduisent une surcharge supplémentaire inadaptée aux appareils edge
Optimisation bayésienne: Performances médiocres dans les relations complexes, nécessite de nombreuses itérations, manque d'exploitation des connaissances historiques

Motivation de la Recherche

Proposer une approche innovante qui exploite les appareils edge pour exécuter les applications HPC à faible fidélité (LF) afin de déterminer les paramètres d'application optimaux, puis transférer ces paramètres vers les plates-formes HPC traditionnelles pour une exécution à haute fidélité (HF), réduisant ainsi significativement le temps et la consommation d'énergie de l'autoréglage des paramètres sur les systèmes HPC traditionnels.

Contributions Principales

Première proposition de l'algorithme LASP: Méthode légère d'autoréglage des paramètres HPC spécialement conçue pour les appareils edge
Application innovante de la technique MAB: Première application des bandits multi-bras à l'autoréglage sur les appareils edge
Capacité d'adaptation dynamique: L'algorithme peut s'adapter en temps réel aux changements d'environnement, adapté aux environnements edge volatiles
Optimisation multi-objectifs: Optimise simultanément le temps d'exécution et la consommation d'énergie, offrant un équilibre d'optimisation personnalisable par l'utilisateur
Portabilité inter-plates-formes: L'approche des paramètres au niveau de l'application basée sur des techniques stochastiques est portable entre diverses plates-formes edge et HPC

Détails de la Méthode

Définition de la Tâche

Étant donné l'espace de configuration des paramètres d'une application HPC χ = {1, ..., x}, sélectionner la configuration optimale sur T itérations pour maximiser la fonction de récompense pondérée:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

où τx est le temps d'exécution normalisé, ρx est la consommation d'énergie normalisée, et α et β sont des paramètres de poids définis par l'utilisateur.

Architecture du Modèle

Cadre des Bandits Multi-Bras

LASP est basé sur le modèle stochastique des bandits multi-bras, supposant K actions (configurations) exécutées sur T itérations. Chaque configuration x correspond à une distribution de récompense Dx initialement inconnue.

Algorithme de la Limite de Confiance Supérieure (UCB)

La stratégie de sélection principale est basée sur l'algorithme UCB:

UCB(x,t) = Rx + √(2ln t / Nx)

où:

Rx = freward(x) est la récompense pondérée de la configuration x
Nx est le nombre de fois que la configuration x a été sélectionnée
t est le numéro d'itération actuel

Stratégie de Sélection de Configuration

À chaque itération, sélectionner la configuration avec la valeur UCB la plus élevée:

x*t = argmax_x UCB(x,t)

La sortie finale est la configuration sélectionnée le plus souvent:

xopt = argmax_x Nx

Points d'Innovation Technique

Conception légère: Consommation CPU et mémoire significativement inférieure par rapport aux méthodes ML traditionnelles
Apprentissage en ligne: S'adapte en temps réel aux changements d'environnement, sans nécessité de pré-entraînement
Approche multi-fidélité: Exploite l'exécution à faible fidélité sur les appareils edge pour identifier les paramètres optimaux pour les systèmes HPC à haute fidélité
Participation de l'utilisateur: Permet aux utilisateurs de personnaliser les objectifs d'optimisation via les paramètres α et β

Configuration Expérimentale

Plates-formes Expérimentales

Appareil Edge: NVIDIA Jetson Nano (GPU Maxwell 128 cœurs, CPU ARM A57 4 cœurs@1.43GHz, 4GB LPDDR4)
Système HPC: Intel Core i7-14700 vPro (20 cœurs 28 threads, 64GB DDR5, Ubuntu 24.04)
Système d'exploitation: Ubuntu 20.04
Modes de Consommation d'Énergie: MAXN (10W) et 5W

Applications Testées

Application	Description	Taille de l'Espace de Paramètres	Paramètres Principaux
Hypre	Bibliothèque de résolution de systèmes linéaires	92,160	Grille de processeurs, paramètres AMG, etc.
Kripke	Code de transport de particules 3D	216	Disposition des données, configuration des groupes d'énergie, etc.
Lulesh	Application proxy de dynamique des fluides de choc	128	Nombre de domaines, nombre d'éléments de grille
Clomp	Benchmark de performance OpenMP	125	Blocs de travail de threads, paramètres de domaine, etc.

Métriques d'Évaluation

Gain de Performance: PGbest = (fdefault - fbest)/fdefault × 100%
Regret Cumulatif: RT = Tμ* - Σμj(t)
Distance par rapport à la Configuration Oracle: (Temps d'exécution/Temps d'exécution Oracle - 1) × 100%

Méthodes de Comparaison

Comparaison principale avec BLISS (méthode SOTA basée sur l'optimisation bayésienne) et la configuration par défaut.

Résultats Expérimentaux

Résultats Principaux

Analyse du Gain de Performance

Gains de performance sur différentes applications:

Clomp: Optimisation de la consommation d'énergie de 10%, optimisation significative du temps d'exécution
Lulesh: Optimisation de la consommation d'énergie de 14%
Hypre: Optimisation de la consommation d'énergie de 9%
Kripke: Optimisation de la consommation d'énergie de 6%

Efficacité de Convergence

Les applications avec petit espace de paramètres (Lulesh, Kripke, Clomp) convergent efficacement en moins de 500 itérations
Les applications avec grand espace de paramètres (Hypre) nécessitent 1000 itérations, mais atteignent toujours une configuration Oracle à 12% près

Utilisation des Ressources

Par rapport à BLISS, LASP montre une utilisation CPU et mémoire significativement inférieure:

Réduction de l'utilisation CPU d'environ 50% en mode MAXN
Réduction de la consommation mémoire d'environ 60%

Expériences d'Ablation

Efficacité Multi-Fidélité

Les expériences montrent un chevauchement significatif des configurations optimales entre les paramètres à faible et haute fidélité:

Les 20 premières configurations atteignent une performance à 25% de l'Oracle en haute fidélité
L'ensemble des configurations optimales à faible et haute fidélité présente une intersection importante

Impact des Paramètres Utilisateur

La validation en ajustant le paramètre α (0,2 à 0,8) démontre l'efficacité de la personnalisation des objectifs d'optimisation par l'utilisateur:

α=0,2 se concentre sur l'optimisation de la consommation d'énergie
α=0,8 se concentre sur l'optimisation du temps d'exécution

Analyse de Robustesse

Sous des erreurs synthétiques de 5%, 10% et 15%, LASP maintient de bonnes performances, démontrant sa capacité d'adaptation aux problèmes réels tels que les fluctuations réseau.

Analyse du Regret

Le regret cumulatif de toutes les applications tend à saturer après un certain nombre d'itérations, prouvant la convergence efficace de l'algorithme. L'effet d'optimisation du temps d'exécution surpasse celui de l'optimisation de la consommation d'énergie, ce qui est dû aux caractéristiques de saturation de la consommation d'énergie dans les applications HPC intensives en calcul.

Travaux Connexes

Autoréglage des Paramètres HPC

Les méthodes traditionnelles incluent les approches basées sur la recherche (telles que l'optimisation bayésienne) et les méthodes d'apprentissage automatique. L'avantage de cet article par rapport aux travaux existants réside dans sa conception légère spécialement adaptée aux appareils edge et sa capacité d'adaptation en ligne.

HPC dans l'Informatique Edge

Les projets connexes incluent la plate-forme de capteurs Waggle, Sage Continuum, etc. Cet article est le premier travail spécialement dédié à l'autoréglage des paramètres HPC sur les appareils edge.

Applications des Bandits Multi-Bras

La technique MAB a des applications dans l'autoréglage des hyperparamètres, mais cet article est le premier à l'appliquer au scénario d'autoréglage HPC sur les appareils edge.

Conclusion et Discussion

Conclusions Principales

LASP réalise avec succès l'autoréglage léger des paramètres HPC sur les appareils edge
Le cadre MAB convient aux besoins d'apprentissage en ligne dans les environnements edge dynamiques
L'approche multi-fidélité réduit efficacement les coûts d'autoréglage
L'algorithme réalise des améliorations de performance significatives sur diverses applications HPC

Limitations

Limites d'Évolutivité: À mesure que le nombre de configurations augmente, l'algorithme UCB doit explorer de nombreuses options, devenant inefficace sur les appareils aux ressources limitées
Problèmes de Coordination Réseau: La communication à faible bande passante entre plusieurs appareils edge volatiles affecte l'efficacité du système
Défis des Appareils Hétérogènes: La gestion d'appareils avec des capacités informatiques différentes nécessite une conception d'algorithme adaptatif
Efficacité de l'Optimisation de la Consommation d'Énergie: L'optimisation de la consommation d'énergie est moins efficace que l'optimisation du temps d'exécution

Directions Futures

Explorer la conception d'algorithmes parallèles multi-niveaux et conscients des ressources
Améliorer l'adaptabilité de l'algorithme dans les environnements hétérogènes
Étendre à des espaces de paramètres plus grands
Intégrer davantage de types d'applications HPC

Évaluation Approfondie

Points Forts

Innovation Forte: Première application de MAB à l'autoréglage HPC sur les appareils edge, comblant un vide de recherche
Valeur Pratique Élevée: La conception légère convient réellement aux appareils edge aux ressources limitées
Expériences Complètes: Quatre types différents d'applications HPC valident l'universalité de la méthode
Fondations Théoriques Solides: Basée sur la théorie MAB mature, fournit une analyse de limite de regret
Convivialité: La conception des paramètres α et β permet aux utilisateurs de personnaliser les objectifs d'optimisation

Insuffisances

Expériences de Comparaison Limitées: Comparaison principalement avec BLISS et la configuration par défaut, manque de comparaison avec d'autres méthodes légères
Analyse Théorique Insuffisante: Bien que fournissant une limite de regret, manque d'analyse théorique détaillée de la convergence
Vérification Insuffisante des Appareils Hétérogènes: Les expériences sont principalement menées sur un seul appareil edge, manquant de vérification de la coopération multi-appareils
Analyse de Sensibilité des Paramètres: L'analyse de sensibilité des paramètres α et β est relativement simple

Impact

Contribution Académique: Fournit une nouvelle direction de recherche pour la combinaison de l'informatique edge et HPC
Valeur Pratique: La méthode possède une bonne reproductibilité et un potentiel de déploiement pratique
Promotion Technologique: La nature légère la rend facile à appliquer dans les systèmes réels

Scénarios Applicables

Environnements aux Ressources Limitées: Particulièrement adapté aux appareils edge avec des ressources informatiques et de stockage limitées
Environnements Dynamiques: Adapté aux scénarios où les conditions réseau et les charges de travail changent fréquemment
Optimisation Multi-Objectifs: Scénarios d'applications nécessitant d'équilibrer la performance et la consommation d'énergie
Autoréglage en Temps Réel: Déploiement d'applications HPC nécessitant une adaptation en ligne

Références

L'article cite 48 références connexes, couvrant plusieurs domaines importants tels que l'informatique edge, l'autoréglage HPC et les bandits multi-bras, fournissant une base théorique solide pour la recherche.

Évaluation Globale: Ceci est un article de recherche de haute qualité proposant une solution innovante dans le domaine interdisciplinaire de l'informatique edge et HPC. L'algorithme LASP est bien conçu, la vérification expérimentale est complète et possède une bonne valeur pratique et des perspectives de promotion. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et d'expériences de comparaison, la contribution globale est significative et fournit une référence précieuse pour la recherche dans les domaines connexes.