2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.
The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.
academic

Autoréglage des Paramètres des Applications HPC sur les Appareils Edge : Une Approche par Apprentissage par Bandit

Informations Fondamentales

  • ID de l'article: 2501.01057
  • Titre: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
  • Auteurs: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
  • Institutions: ¹Université de Toledo, ²Université d'État du Nouveau-Mexique, ³Université du Texas à Arlington, ⁴Laboratoire National de Livermore
  • Classification: cs.PF cs.LG cs.SY eess.SY
  • Date de Publication: 2 janvier 2025
  • Lien de l'article: https://arxiv.org/abs/2501.01057

Résumé

Face à la demande croissante de capacités de traitement accrues sur les appareils edge, cet article développe des méthodes efficaces pour améliorer les applications de calcul haute performance (HPC). L'article présente LASP (Lightweight Autotuning of Scientific Application Parameters), une stratégie novatrice conçue pour résoudre les défis de l'espace de recherche de paramètres sur les appareils edge. Cette stratégie emploie la technique des bandits multi-bras (MAB), en se concentrant sur l'exploration et l'exploitation en ligne. LASP adopte une approche dynamique capable de s'adapter de manière transparente aux environnements changeants. Les auteurs ont testé LASP sur quatre applications HPC (Lulesh, Kripke, Clomp et Hypre). Sa nature légère la rend particulièrement adaptée aux appareils edge aux ressources limitées. En adoptant le cadre MAB pour naviguer efficacement dans l'espace de recherche, des améliorations de performance significatives ont été réalisées tout en respectant les contraintes informatiques strictes des appareils edge.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est l'autoréglage efficace des paramètres des applications HPC sur les appareils edge aux ressources limitées. Les méthodes traditionnelles d'autoréglage des paramètres sont principalement conçues pour les systèmes HPC conventionnels, qui nécessitent eux-mêmes des ressources informatiques considérables et ne conviennent pas aux environnements contraints des appareils edge.

Importance du Problème

  1. Croissance rapide de l'informatique edge: Selon les rapports, le marché des applications de traitement des données en edge devrait croître de 75% d'ici 2026
  2. Complexité des applications HPC: Les applications HPC impliquent des configurations de paramètres complexes qui affectent significativement les performances et peuvent même entraîner des défaillances d'exécution
  3. Défis des contraintes de ressources: Les capacités informatiques limitées des appareils edge et les ressources distribuées hétérogènes présentent des défis uniques pour l'exécution HPC

Limitations des Approches Existantes

  1. Méthodes traditionnelles: L'autoréglage manuel basé sur les connaissances d'experts est chronophage et non évolutif; les méthodes basées sur l'heuristique manquent de flexibilité et sont susceptibles de converger vers des optima locaux
  2. Méthodes d'apprentissage automatique: Bien qu'efficaces, elles introduisent une surcharge supplémentaire inadaptée aux appareils edge
  3. Optimisation bayésienne: Performances médiocres dans les relations complexes, nécessite de nombreuses itérations, manque d'exploitation des connaissances historiques

Motivation de la Recherche

Proposer une approche innovante qui exploite les appareils edge pour exécuter les applications HPC à faible fidélité (LF) afin de déterminer les paramètres d'application optimaux, puis transférer ces paramètres vers les plates-formes HPC traditionnelles pour une exécution à haute fidélité (HF), réduisant ainsi significativement le temps et la consommation d'énergie de l'autoréglage des paramètres sur les systèmes HPC traditionnels.

Contributions Principales

  1. Première proposition de l'algorithme LASP: Méthode légère d'autoréglage des paramètres HPC spécialement conçue pour les appareils edge
  2. Application innovante de la technique MAB: Première application des bandits multi-bras à l'autoréglage sur les appareils edge
  3. Capacité d'adaptation dynamique: L'algorithme peut s'adapter en temps réel aux changements d'environnement, adapté aux environnements edge volatiles
  4. Optimisation multi-objectifs: Optimise simultanément le temps d'exécution et la consommation d'énergie, offrant un équilibre d'optimisation personnalisable par l'utilisateur
  5. Portabilité inter-plates-formes: L'approche des paramètres au niveau de l'application basée sur des techniques stochastiques est portable entre diverses plates-formes edge et HPC

Détails de la Méthode

Définition de la Tâche

Étant donné l'espace de configuration des paramètres d'une application HPC χ = {1, ..., x}, sélectionner la configuration optimale sur T itérations pour maximiser la fonction de récompense pondérée:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

où τx est le temps d'exécution normalisé, ρx est la consommation d'énergie normalisée, et α et β sont des paramètres de poids définis par l'utilisateur.

Architecture du Modèle

Cadre des Bandits Multi-Bras

LASP est basé sur le modèle stochastique des bandits multi-bras, supposant K actions (configurations) exécutées sur T itérations. Chaque configuration x correspond à une distribution de récompense Dx initialement inconnue.

Algorithme de la Limite de Confiance Supérieure (UCB)

La stratégie de sélection principale est basée sur l'algorithme UCB:

UCB(x,t) = Rx + √(2ln t / Nx)

où:

  • Rx = freward(x) est la récompense pondérée de la configuration x
  • Nx est le nombre de fois que la configuration x a été sélectionnée
  • t est le numéro d'itération actuel

Stratégie de Sélection de Configuration

À chaque itération, sélectionner la configuration avec la valeur UCB la plus élevée:

x*t = argmax_x UCB(x,t)

La sortie finale est la configuration sélectionnée le plus souvent:

xopt = argmax_x Nx

Points d'Innovation Technique

  1. Conception légère: Consommation CPU et mémoire significativement inférieure par rapport aux méthodes ML traditionnelles
  2. Apprentissage en ligne: S'adapte en temps réel aux changements d'environnement, sans nécessité de pré-entraînement
  3. Approche multi-fidélité: Exploite l'exécution à faible fidélité sur les appareils edge pour identifier les paramètres optimaux pour les systèmes HPC à haute fidélité
  4. Participation de l'utilisateur: Permet aux utilisateurs de personnaliser les objectifs d'optimisation via les paramètres α et β

Configuration Expérimentale

Plates-formes Expérimentales

  • Appareil Edge: NVIDIA Jetson Nano (GPU Maxwell 128 cœurs, CPU ARM A57 4 cœurs@1.43GHz, 4GB LPDDR4)
  • Système HPC: Intel Core i7-14700 vPro (20 cœurs 28 threads, 64GB DDR5, Ubuntu 24.04)
  • Système d'exploitation: Ubuntu 20.04
  • Modes de Consommation d'Énergie: MAXN (10W) et 5W

Applications Testées

ApplicationDescriptionTaille de l'Espace de ParamètresParamètres Principaux
HypreBibliothèque de résolution de systèmes linéaires92,160Grille de processeurs, paramètres AMG, etc.
KripkeCode de transport de particules 3D216Disposition des données, configuration des groupes d'énergie, etc.
LuleshApplication proxy de dynamique des fluides de choc128Nombre de domaines, nombre d'éléments de grille
ClompBenchmark de performance OpenMP125Blocs de travail de threads, paramètres de domaine, etc.

Métriques d'Évaluation

  1. Gain de Performance: PGbest = (fdefault - fbest)/fdefault × 100%
  2. Regret Cumulatif: RT = Tμ* - Σμj(t)
  3. Distance par rapport à la Configuration Oracle: (Temps d'exécution/Temps d'exécution Oracle - 1) × 100%

Méthodes de Comparaison

Comparaison principale avec BLISS (méthode SOTA basée sur l'optimisation bayésienne) et la configuration par défaut.

Résultats Expérimentaux

Résultats Principaux

Analyse du Gain de Performance

Gains de performance sur différentes applications:

  • Clomp: Optimisation de la consommation d'énergie de 10%, optimisation significative du temps d'exécution
  • Lulesh: Optimisation de la consommation d'énergie de 14%
  • Hypre: Optimisation de la consommation d'énergie de 9%
  • Kripke: Optimisation de la consommation d'énergie de 6%

Efficacité de Convergence

  • Les applications avec petit espace de paramètres (Lulesh, Kripke, Clomp) convergent efficacement en moins de 500 itérations
  • Les applications avec grand espace de paramètres (Hypre) nécessitent 1000 itérations, mais atteignent toujours une configuration Oracle à 12% près

Utilisation des Ressources

Par rapport à BLISS, LASP montre une utilisation CPU et mémoire significativement inférieure:

  • Réduction de l'utilisation CPU d'environ 50% en mode MAXN
  • Réduction de la consommation mémoire d'environ 60%

Expériences d'Ablation

Efficacité Multi-Fidélité

Les expériences montrent un chevauchement significatif des configurations optimales entre les paramètres à faible et haute fidélité:

  • Les 20 premières configurations atteignent une performance à 25% de l'Oracle en haute fidélité
  • L'ensemble des configurations optimales à faible et haute fidélité présente une intersection importante

Impact des Paramètres Utilisateur

La validation en ajustant le paramètre α (0,2 à 0,8) démontre l'efficacité de la personnalisation des objectifs d'optimisation par l'utilisateur:

  • α=0,2 se concentre sur l'optimisation de la consommation d'énergie
  • α=0,8 se concentre sur l'optimisation du temps d'exécution

Analyse de Robustesse

Sous des erreurs synthétiques de 5%, 10% et 15%, LASP maintient de bonnes performances, démontrant sa capacité d'adaptation aux problèmes réels tels que les fluctuations réseau.

Analyse du Regret

Le regret cumulatif de toutes les applications tend à saturer après un certain nombre d'itérations, prouvant la convergence efficace de l'algorithme. L'effet d'optimisation du temps d'exécution surpasse celui de l'optimisation de la consommation d'énergie, ce qui est dû aux caractéristiques de saturation de la consommation d'énergie dans les applications HPC intensives en calcul.

Travaux Connexes

Autoréglage des Paramètres HPC

Les méthodes traditionnelles incluent les approches basées sur la recherche (telles que l'optimisation bayésienne) et les méthodes d'apprentissage automatique. L'avantage de cet article par rapport aux travaux existants réside dans sa conception légère spécialement adaptée aux appareils edge et sa capacité d'adaptation en ligne.

HPC dans l'Informatique Edge

Les projets connexes incluent la plate-forme de capteurs Waggle, Sage Continuum, etc. Cet article est le premier travail spécialement dédié à l'autoréglage des paramètres HPC sur les appareils edge.

Applications des Bandits Multi-Bras

La technique MAB a des applications dans l'autoréglage des hyperparamètres, mais cet article est le premier à l'appliquer au scénario d'autoréglage HPC sur les appareils edge.

Conclusion et Discussion

Conclusions Principales

  1. LASP réalise avec succès l'autoréglage léger des paramètres HPC sur les appareils edge
  2. Le cadre MAB convient aux besoins d'apprentissage en ligne dans les environnements edge dynamiques
  3. L'approche multi-fidélité réduit efficacement les coûts d'autoréglage
  4. L'algorithme réalise des améliorations de performance significatives sur diverses applications HPC

Limitations

  1. Limites d'Évolutivité: À mesure que le nombre de configurations augmente, l'algorithme UCB doit explorer de nombreuses options, devenant inefficace sur les appareils aux ressources limitées
  2. Problèmes de Coordination Réseau: La communication à faible bande passante entre plusieurs appareils edge volatiles affecte l'efficacité du système
  3. Défis des Appareils Hétérogènes: La gestion d'appareils avec des capacités informatiques différentes nécessite une conception d'algorithme adaptatif
  4. Efficacité de l'Optimisation de la Consommation d'Énergie: L'optimisation de la consommation d'énergie est moins efficace que l'optimisation du temps d'exécution

Directions Futures

  1. Explorer la conception d'algorithmes parallèles multi-niveaux et conscients des ressources
  2. Améliorer l'adaptabilité de l'algorithme dans les environnements hétérogènes
  3. Étendre à des espaces de paramètres plus grands
  4. Intégrer davantage de types d'applications HPC

Évaluation Approfondie

Points Forts

  1. Innovation Forte: Première application de MAB à l'autoréglage HPC sur les appareils edge, comblant un vide de recherche
  2. Valeur Pratique Élevée: La conception légère convient réellement aux appareils edge aux ressources limitées
  3. Expériences Complètes: Quatre types différents d'applications HPC valident l'universalité de la méthode
  4. Fondations Théoriques Solides: Basée sur la théorie MAB mature, fournit une analyse de limite de regret
  5. Convivialité: La conception des paramètres α et β permet aux utilisateurs de personnaliser les objectifs d'optimisation

Insuffisances

  1. Expériences de Comparaison Limitées: Comparaison principalement avec BLISS et la configuration par défaut, manque de comparaison avec d'autres méthodes légères
  2. Analyse Théorique Insuffisante: Bien que fournissant une limite de regret, manque d'analyse théorique détaillée de la convergence
  3. Vérification Insuffisante des Appareils Hétérogènes: Les expériences sont principalement menées sur un seul appareil edge, manquant de vérification de la coopération multi-appareils
  4. Analyse de Sensibilité des Paramètres: L'analyse de sensibilité des paramètres α et β est relativement simple

Impact

  1. Contribution Académique: Fournit une nouvelle direction de recherche pour la combinaison de l'informatique edge et HPC
  2. Valeur Pratique: La méthode possède une bonne reproductibilité et un potentiel de déploiement pratique
  3. Promotion Technologique: La nature légère la rend facile à appliquer dans les systèmes réels

Scénarios Applicables

  1. Environnements aux Ressources Limitées: Particulièrement adapté aux appareils edge avec des ressources informatiques et de stockage limitées
  2. Environnements Dynamiques: Adapté aux scénarios où les conditions réseau et les charges de travail changent fréquemment
  3. Optimisation Multi-Objectifs: Scénarios d'applications nécessitant d'équilibrer la performance et la consommation d'énergie
  4. Autoréglage en Temps Réel: Déploiement d'applications HPC nécessitant une adaptation en ligne

Références

L'article cite 48 références connexes, couvrant plusieurs domaines importants tels que l'informatique edge, l'autoréglage HPC et les bandits multi-bras, fournissant une base théorique solide pour la recherche.


Évaluation Globale: Ceci est un article de recherche de haute qualité proposant une solution innovante dans le domaine interdisciplinaire de l'informatique edge et HPC. L'algorithme LASP est bien conçu, la vérification expérimentale est complète et possède une bonne valeur pratique et des perspectives de promotion. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et d'expériences de comparaison, la contribution globale est significative et fournit une référence précieuse pour la recherche dans les domaines connexes.