2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

基本信息

论文ID: 2501.01057
标题: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
作者: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
机构: ¹University of Toledo, ²New Mexico State University, ³University of Texas at Arlington, ⁴Lawrence Livermore National Laboratory
分类: cs.PF cs.LG cs.SY eess.SY
发表时间: 2025年1月2日
论文链接: https://arxiv.org/abs/2501.01057

摘要

随着边缘设备处理能力增强的需求不断增长，本文开发了改进高性能计算(HPC)应用的有效方法。文章介绍了LASP(Lightweight Autotuning of Scientific Application Parameters)，这是一种专为解决边缘设备参数搜索空间挑战而设计的新颖策略。该策略采用多臂老虎机(MAB)技术，专注于在线探索和利用。LASP采用动态方法，能够无缝适应变化的环境。作者使用四个HPC应用(Lulesh、Kripke、Clomp和Hypre)对LASP进行了测试。其轻量级特性使其特别适合资源受限的边缘设备。通过采用MAB框架高效导航搜索空间，在遵守边缘设备严格计算限制的同时实现了显著的性能改进。

研究背景与动机

问题定义

本研究要解决的核心问题是在资源受限的边缘设备上高效地进行HPC应用参数自动调优。传统的参数调优方法主要针对传统HPC系统设计，这些方法本身就需要大量计算资源，不适用于边缘设备的限制环境。

问题重要性

边缘计算快速发展: 根据报告，边缘处理应用数据的市场预计到2026年将增长75%
HPC应用复杂性: HPC应用涉及复杂的参数配置，显著影响性能，甚至可能导致执行故障
资源约束挑战: 边缘设备的有限计算能力和异构分布式资源为HPC执行带来独特挑战

现有方法局限性

传统方法: 基于专家知识的手动调优耗时且不可扩展；基于启发式的方法缺乏灵活性，容易陷入局部最优
机器学习方法: 虽然有效，但带来额外开销，不适合边缘设备
贝叶斯优化: 在复杂关系中表现不佳，需要大量迭代，缺乏历史知识利用

研究动机

提出创新方法，利用边缘设备在低保真度(LF)下运行HPC应用以确定最优应用级参数，然后将这些参数转移到传统HPC平台进行高保真度(HF)执行，显著减少传统HPC系统上参数调优的时间和能耗。

核心贡献

首次提出LASP算法: 专门针对边缘设备的轻量级HPC参数自动调优方法
创新应用MAB技术: 首次将多臂老虎机应用于边缘设备上的自动调优
动态适应能力: 算法能够实时适应环境变化，适合易变的边缘环境
多目标优化: 同时优化执行时间和功耗，提供用户自定义的优化平衡
跨平台可移植性: 基于随机技术的应用级参数方法可在各种边缘和HPC平台间移植

方法详解

任务定义

给定HPC应用的参数配置空间χ = {1, ..., x}，在T轮迭代中选择最优配置，使得加权奖励函数最大化：

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

其中τx为标准化执行时间，ρx为标准化功耗，α和β为用户定义的权重参数。

模型架构

多臂老虎机框架

LASP基于随机多臂老虎机模型，假设K个动作(配置)在T轮中执行。每个配置x对应一个奖励分布Dx，初始未知。

上置信界(UCB)算法

核心选择策略基于UCB算法：

UCB(x,t) = Rx + √(2ln t / Nx)

其中：

Rx = freward(x)为配置x的加权奖励
Nx为配置x被选择的次数
t为当前迭代次数

配置选择策略

每轮选择UCB值最高的配置：

x*t = argmax_x UCB(x,t)

最终输出被选择次数最多的配置：

xopt = argmax_x Nx

技术创新点

轻量级设计: 相比传统ML方法，LASP的CPU和内存占用显著更低
在线学习: 实时适应环境变化，无需预训练
多保真度方法: 利用低保真度边缘设备运行识别高保真度HPC系统的最优参数
用户参与: 通过α和β参数允许用户自定义优化目标

实验设置

实验平台

边缘设备: NVIDIA Jetson Nano (128核Maxwell GPU, 四核ARM A57 CPU@1.43GHz, 4GB LPDDR4)
HPC系统: Intel Core i7-14700 vPro (20核28线程, 64GB DDR5, Ubuntu 24.04)
操作系统: Ubuntu 20.04
功耗模式: MAXN(10W)和5W两种模式

测试应用

应用	描述	参数空间大小	主要参数
Hypre	线性系统求解库	92,160	处理器网格、AMG参数等
Kripke	3D粒子输运代码	216	数据布局、能量组设置等
Lulesh	冲击流体力学代理应用	128	区域数、网格元素数
Clomp	OpenMP性能基准测试	125	线程工作块、区域参数等