2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.
The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.
academic

Autoajuste de Parámetros de Aplicaciones HPC en Dispositivos Edge: Un Enfoque de Aprendizaje Bandido

Información Básica

  • ID del Artículo: 2501.01057
  • Título: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
  • Autores: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
  • Instituciones: ¹Universidad de Toledo, ²Universidad Estatal de Nuevo México, ³Universidad de Texas en Arlington, ⁴Laboratorio Nacional Lawrence Livermore
  • Clasificación: cs.PF cs.LG cs.SY eess.SY
  • Fecha de Publicación: 2 de enero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.01057

Resumen

Con la creciente demanda de mayor capacidad de procesamiento en dispositivos edge, este artículo desarrolla métodos mejorados para optimizar aplicaciones de computación de alto rendimiento (HPC). Se presenta LASP (Lightweight Autotuning of Scientific Application Parameters), una estrategia novedosa diseñada específicamente para abordar los desafíos del espacio de búsqueda de parámetros en dispositivos edge. La estrategia utiliza técnicas de máquinas tragaperras multibrazo (MAB), enfocándose en exploración y explotación en línea. LASP adopta un enfoque dinámico capaz de adaptarse sin problemas a entornos cambiantes. Los autores prueban LASP con cuatro aplicaciones HPC (Lulesh, Kripke, Clomp e Hypre). Su naturaleza ligera la hace particularmente adecuada para dispositivos edge con recursos limitados. Al adoptar el marco MAB para navegar eficientemente el espacio de búsqueda, se logran mejoras significativas de rendimiento mientras se respetan las estrictas limitaciones computacionales de los dispositivos edge.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es realizar autoajuste eficiente de parámetros de aplicaciones HPC en dispositivos edge con recursos limitados. Los métodos tradicionales de ajuste de parámetros fueron diseñados principalmente para sistemas HPC convencionales, que en sí mismos requieren abundantes recursos computacionales, lo que los hace inadecuados para entornos con restricciones de dispositivos edge.

Importancia del Problema

  1. Rápido desarrollo de la computación edge: Según informes, se espera que el mercado de aplicaciones de procesamiento edge de datos crezca un 75% para 2026
  2. Complejidad de aplicaciones HPC: Las aplicaciones HPC implican configuraciones de parámetros complejas que impactan significativamente el rendimiento, pudiendo incluso causar fallos de ejecución
  3. Desafíos de restricciones de recursos: La capacidad computacional limitada de los dispositivos edge y los recursos distribuidos heterogéneos presentan desafíos únicos para la ejecución de HPC

Limitaciones de Métodos Existentes

  1. Métodos tradicionales: El ajuste manual basado en conocimiento experto consume tiempo y no es escalable; los métodos basados en heurísticas carecen de flexibilidad y tienden a quedar atrapados en óptimos locales
  2. Métodos de aprendizaje automático: Aunque efectivos, introducen sobrecarga adicional inadecuada para dispositivos edge
  3. Optimización bayesiana: Desempeño deficiente en relaciones complejas, requiere muchas iteraciones, carece de aprovechamiento del conocimiento histórico

Motivación de la Investigación

Proponer un método innovador que aproveche dispositivos edge para ejecutar aplicaciones HPC en baja fidelidad (LF) a fin de determinar parámetros óptimos a nivel de aplicación, luego transferir estos parámetros a plataformas HPC convencionales para ejecución de alta fidelidad (HF), reduciendo significativamente el tiempo y el consumo energético del ajuste de parámetros en sistemas HPC tradicionales.

Contribuciones Principales

  1. Primer algoritmo LASP propuesto: Método de autoajuste ligero de parámetros HPC específicamente diseñado para dispositivos edge
  2. Aplicación innovadora de técnica MAB: Primera aplicación de máquinas tragaperras multibrazo al autoajuste en dispositivos edge
  3. Capacidad de adaptación dinámica: El algoritmo puede adaptarse en tiempo real a cambios ambientales, adecuado para entornos edge volátiles
  4. Optimización multiobjetivo: Optimiza simultáneamente tiempo de ejecución y consumo de potencia, proporcionando equilibrio de optimización personalizable por el usuario
  5. Portabilidad entre plataformas: El enfoque de parámetros a nivel de aplicación basado en técnicas estocásticas es portable entre diversas plataformas edge y HPC

Explicación Detallada del Método

Definición de la Tarea

Dado un espacio de configuración de parámetros χ = {1, ..., x} de una aplicación HPC, seleccionar la configuración óptima en T rondas de iteración para maximizar la función de recompensa ponderada:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

donde τx es el tiempo de ejecución normalizado, ρx es el consumo de potencia normalizado, y α y β son parámetros de peso definidos por el usuario.

Arquitectura del Modelo

Marco de Máquinas Tragaperras Multibrazo

LASP se basa en el modelo estocástico de máquinas tragaperras multibrazo, asumiendo K acciones (configuraciones) ejecutadas en T rondas. Cada configuración x corresponde a una distribución de recompensa Dx, inicialmente desconocida.

Algoritmo de Límite de Confianza Superior (UCB)

La estrategia de selección central se basa en el algoritmo UCB:

UCB(x,t) = Rx + √(2ln t / Nx)

donde:

  • Rx = freward(x) es la recompensa ponderada de la configuración x
  • Nx es el número de veces que se ha seleccionado la configuración x
  • t es el número de iteración actual

Estrategia de Selección de Configuración

En cada ronda se selecciona la configuración con el valor UCB más alto:

x*t = argmax_x UCB(x,t)

La salida final es la configuración seleccionada más frecuentemente:

xopt = argmax_x Nx

Puntos de Innovación Técnica

  1. Diseño ligero: El consumo de CPU y memoria de LASP es significativamente menor en comparación con métodos ML tradicionales
  2. Aprendizaje en línea: Se adapta en tiempo real a cambios ambientales sin necesidad de preentrenamiento
  3. Método de múltiples fidelidades: Aprovecha la ejecución de dispositivos edge de baja fidelidad para identificar parámetros óptimos para sistemas HPC de alta fidelidad
  4. Participación del usuario: Permite a los usuarios personalizar objetivos de optimización mediante parámetros α y β

Configuración Experimental

Plataformas Experimentales

  • Dispositivo Edge: NVIDIA Jetson Nano (GPU Maxwell de 128 núcleos, CPU ARM A57 de cuatro núcleos@1.43GHz, 4GB LPDDR4)
  • Sistema HPC: Intel Core i7-14700 vPro (20 núcleos, 28 hilos, 64GB DDR5, Ubuntu 24.04)
  • Sistema Operativo: Ubuntu 20.04
  • Modos de Potencia: MAXN (10W) y 5W

Aplicaciones de Prueba

AplicaciónDescripciónTamaño del Espacio de ParámetrosParámetros Principales
HypreBiblioteca de resolución de sistemas lineales92,160Malla de procesadores, parámetros AMG, etc.
KripkeCódigo de transporte de partículas 3D216Diseño de datos, configuración de grupos de energía, etc.
LuleshAplicación proxy de dinámica de fluidos de choque128Número de zonas, número de elementos de malla
ClompPrueba de rendimiento OpenMP125Bloques de trabajo de hilos, parámetros de zona, etc.

Métricas de Evaluación

  1. Ganancia de rendimiento: PGbest = (fdefault - fbest)/fdefault × 100%
  2. Arrepentimiento acumulado: RT = Tμ* - Σμj(t)
  3. Distancia a configuración Oracle: (tiempo de ejecución/tiempo de ejecución Oracle - 1) × 100%

Métodos de Comparación

Comparación principal con BLISS (método SOTA basado en optimización bayesiana) y configuración predeterminada.

Resultados Experimentales

Resultados Principales

Análisis de Ganancia de Rendimiento

Ganancia de rendimiento en diferentes aplicaciones:

  • Clomp: Optimización de potencia del 10%, optimización significativa de tiempo de ejecución
  • Lulesh: Optimización de potencia del 14%
  • Hypre: Optimización de potencia del 9%
  • Kripke: Optimización de potencia del 6%

Eficiencia de Convergencia

  • Las aplicaciones con espacio de parámetros pequeño (Lulesh, Kripke, Clomp) convergen efectivamente dentro de 500 iteraciones
  • Las aplicaciones con espacio de parámetros grande (Hypre) requieren 1000 iteraciones, pero aún alcanzan dentro del 12% de la configuración Oracle

Utilización de Recursos

En comparación con BLISS, LASP muestra un uso significativamente menor de CPU y memoria:

  • Reducción de aproximadamente 50% en el uso de CPU en modo MAXN
  • Reducción de aproximadamente 60% en el consumo de memoria

Experimentos de Ablación

Efectividad de Múltiples Fidelidades

Los experimentos muestran una superposición significativa entre configuraciones óptimas en configuraciones de baja y alta fidelidad:

  • Las primeras 20 configuraciones tienen rendimiento dentro del 25% de Oracle en configuración de alta fidelidad
  • Existe una intersección considerable entre los conjuntos de configuración óptima de baja y alta fidelidad

Impacto de Parámetros del Usuario

Se verifica la efectividad de objetivos de optimización personalizados por el usuario ajustando el parámetro α (0.2 a 0.8):

  • α=0.2 se enfoca en optimización de potencia
  • α=0.8 se enfoca en optimización de tiempo de ejecución

Análisis de Robustez

LASP mantiene buen rendimiento bajo errores sintéticos del 5%, 10% y 15%, demostrando su capacidad de adaptación a problemas del mundo real como fluctuaciones de red.

Análisis de Arrepentimiento

El arrepentimiento acumulado de todas las aplicaciones se satura después de cierto número de iteraciones, demostrando la convergencia efectiva del algoritmo. El efecto de optimización del tiempo de ejecución es superior al de optimización de potencia, debido a las características de saturación de potencia en aplicaciones HPC intensivas en computación.

Trabajo Relacionado

Ajuste de Parámetros HPC

Los métodos tradicionales incluyen métodos basados en búsqueda (como optimización bayesiana) y métodos de aprendizaje automático. La ventaja de este trabajo sobre trabajos existentes radica en su diseño ligero específicamente para dispositivos edge y su capacidad de adaptación en línea.

HPC en Computación Edge

Los proyectos relacionados incluyen la plataforma de sensores Waggle y Sage Continuum, siendo este el primer trabajo específicamente dedicado al ajuste de parámetros HPC en dispositivos edge.

Aplicación de Máquinas Tragaperras Multibrazo

La técnica MAB tiene aplicaciones en ajuste de hiperparámetros, pero este es el primer trabajo que la aplica al escenario de ajuste HPC en dispositivos edge.

Conclusiones y Discusión

Conclusiones Principales

  1. LASP logra exitosamente autoajuste ligero de parámetros HPC en dispositivos edge
  2. El marco MAB es adecuado para las necesidades de aprendizaje en línea en entornos edge dinámicos
  3. El método de múltiples fidelidades reduce efectivamente los costos de ajuste
  4. El algoritmo logra mejoras significativas de rendimiento en diversas aplicaciones HPC

Limitaciones

  1. Limitaciones de escalabilidad: A medida que aumenta el número de configuraciones, el algoritmo UCB necesita explorar muchas opciones, volviéndose ineficiente en dispositivos con recursos limitados
  2. Problemas de coordinación de red: La comunicación de bajo ancho de banda entre múltiples dispositivos edge volátiles afecta la eficiencia del sistema
  3. Desafíos de dispositivos heterogéneos: Manejar dispositivos con diferentes capacidades computacionales requiere diseño de algoritmos adaptativos
  4. Efecto de optimización de potencia: La optimización de potencia es más limitada en comparación con la optimización de tiempo de ejecución

Direcciones Futuras

  1. Explorar diseño de algoritmos paralelos multinivel y conscientes de recursos
  2. Mejorar la adaptabilidad del algoritmo en entornos heterogéneos
  3. Extender a espacios de parámetros más grandes
  4. Integrar más tipos de aplicaciones HPC

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Primera aplicación de MAB al ajuste HPC en dispositivos edge, llenando un vacío de investigación
  2. Alto valor práctico: El diseño ligero es realmente adecuado para dispositivos edge con recursos limitados
  3. Experimentos suficientes: Cuatro tipos diferentes de aplicaciones HPC validan la generalidad del método
  4. Base teórica sólida: Basado en teoría MAB madura, proporciona análisis de límite de arrepentimiento
  5. Amigable con el usuario: El diseño de parámetros α y β permite a los usuarios personalizar objetivos de optimización

Insuficiencias

  1. Experimentos de comparación limitados: Comparación principal con BLISS y configuración predeterminada, carece de comparación con otros métodos ligeros
  2. Análisis teórico insuficiente: Aunque proporciona límite de arrepentimiento, carece de análisis teórico detallado de convergencia
  3. Verificación insuficiente de dispositivos heterogéneos: Los experimentos se realizan principalmente en un único dispositivo edge, careciendo de verificación de coordinación multidevice
  4. Análisis de sensibilidad de parámetros: El análisis de sensibilidad de parámetros α y β es relativamente simple

Impacto

  1. Contribución académica: Proporciona una nueva dirección de investigación para la combinación de computación edge y HPC
  2. Valor práctico: El método tiene buena reproducibilidad y potencial de despliegue práctico
  3. Promoción tecnológica: Su naturaleza ligera facilita la aplicación en sistemas reales

Escenarios Aplicables

  1. Entornos con recursos limitados: Particularmente adecuado para dispositivos edge con recursos computacionales y de almacenamiento limitados
  2. Entornos dinámicos: Adecuado para escenarios donde las condiciones de red y cargas de trabajo cambian frecuentemente
  3. Optimización multiobjetivo: Escenarios de aplicaciones que requieren equilibrar rendimiento y potencia
  4. Ajuste en tiempo real: Despliegue de aplicaciones HPC que requieren adaptación en línea

Referencias

El artículo cita 48 referencias relacionadas, cubriendo múltiples campos incluyendo computación edge, ajuste de parámetros HPC y máquinas tragaperras multibrazo, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora en el campo de intersección de computación edge y HPC. El algoritmo LASP está bien diseñado, la verificación experimental es suficiente y tiene buen valor práctico y perspectivas de promoción. Aunque hay espacio para mejora en profundidad teórica y experimentos de comparación, la contribución general es significativa y proporciona referencias valiosas para investigación relacionada.