2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.
The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.
academic

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

基本信息

  • 论文ID: 2501.01057
  • 标题: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
  • 作者: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
  • 机构: ¹University of Toledo, ²New Mexico State University, ³University of Texas at Arlington, ⁴Lawrence Livermore National Laboratory
  • 分类: cs.PF cs.LG cs.SY eess.SY
  • 发表时间: 2025年1月2日
  • 论文链接: https://arxiv.org/abs/2501.01057

摘要

随着边缘设备处理能力增强的需求不断增长,本文开发了改进高性能计算(HPC)应用的有效方法。文章介绍了LASP(Lightweight Autotuning of Scientific Application Parameters),这是一种专为解决边缘设备参数搜索空间挑战而设计的新颖策略。该策略采用多臂老虎机(MAB)技术,专注于在线探索和利用。LASP采用动态方法,能够无缝适应变化的环境。作者使用四个HPC应用(Lulesh、Kripke、Clomp和Hypre)对LASP进行了测试。其轻量级特性使其特别适合资源受限的边缘设备。通过采用MAB框架高效导航搜索空间,在遵守边缘设备严格计算限制的同时实现了显著的性能改进。

研究背景与动机

问题定义

本研究要解决的核心问题是在资源受限的边缘设备上高效地进行HPC应用参数自动调优。传统的参数调优方法主要针对传统HPC系统设计,这些方法本身就需要大量计算资源,不适用于边缘设备的限制环境。

问题重要性

  1. 边缘计算快速发展: 根据报告,边缘处理应用数据的市场预计到2026年将增长75%
  2. HPC应用复杂性: HPC应用涉及复杂的参数配置,显著影响性能,甚至可能导致执行故障
  3. 资源约束挑战: 边缘设备的有限计算能力和异构分布式资源为HPC执行带来独特挑战

现有方法局限性

  1. 传统方法: 基于专家知识的手动调优耗时且不可扩展;基于启发式的方法缺乏灵活性,容易陷入局部最优
  2. 机器学习方法: 虽然有效,但带来额外开销,不适合边缘设备
  3. 贝叶斯优化: 在复杂关系中表现不佳,需要大量迭代,缺乏历史知识利用

研究动机

提出创新方法,利用边缘设备在低保真度(LF)下运行HPC应用以确定最优应用级参数,然后将这些参数转移到传统HPC平台进行高保真度(HF)执行,显著减少传统HPC系统上参数调优的时间和能耗。

核心贡献

  1. 首次提出LASP算法: 专门针对边缘设备的轻量级HPC参数自动调优方法
  2. 创新应用MAB技术: 首次将多臂老虎机应用于边缘设备上的自动调优
  3. 动态适应能力: 算法能够实时适应环境变化,适合易变的边缘环境
  4. 多目标优化: 同时优化执行时间和功耗,提供用户自定义的优化平衡
  5. 跨平台可移植性: 基于随机技术的应用级参数方法可在各种边缘和HPC平台间移植

方法详解

任务定义

给定HPC应用的参数配置空间χ = {1, ..., x},在T轮迭代中选择最优配置,使得加权奖励函数最大化:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

其中τx为标准化执行时间,ρx为标准化功耗,α和β为用户定义的权重参数。

模型架构

多臂老虎机框架

LASP基于随机多臂老虎机模型,假设K个动作(配置)在T轮中执行。每个配置x对应一个奖励分布Dx,初始未知。

上置信界(UCB)算法

核心选择策略基于UCB算法:

UCB(x,t) = Rx + √(2ln t / Nx)

其中:

  • Rx = freward(x)为配置x的加权奖励
  • Nx为配置x被选择的次数
  • t为当前迭代次数

配置选择策略

每轮选择UCB值最高的配置:

x*t = argmax_x UCB(x,t)

最终输出被选择次数最多的配置:

xopt = argmax_x Nx

技术创新点

  1. 轻量级设计: 相比传统ML方法,LASP的CPU和内存占用显著更低
  2. 在线学习: 实时适应环境变化,无需预训练
  3. 多保真度方法: 利用低保真度边缘设备运行识别高保真度HPC系统的最优参数
  4. 用户参与: 通过α和β参数允许用户自定义优化目标

实验设置

实验平台

  • 边缘设备: NVIDIA Jetson Nano (128核Maxwell GPU, 四核ARM A57 CPU@1.43GHz, 4GB LPDDR4)
  • HPC系统: Intel Core i7-14700 vPro (20核28线程, 64GB DDR5, Ubuntu 24.04)
  • 操作系统: Ubuntu 20.04
  • 功耗模式: MAXN(10W)和5W两种模式

测试应用

应用描述参数空间大小主要参数
Hypre线性系统求解库92,160处理器网格、AMG参数等
Kripke3D粒子输运代码216数据布局、能量组设置等
Lulesh冲击流体力学代理应用128区域数、网格元素数
ClompOpenMP性能基准测试125线程工作块、区域参数等

评价指标

  1. 性能增益: PGbest = (fdefault - fbest)/fdefault × 100%
  2. 累积遗憾: RT = Tμ* - Σμj(t)
  3. 距离Oracle配置: (执行时间/Oracle执行时间 - 1) × 100%

对比方法

主要与BLISS(基于贝叶斯优化的SOTA方法)和默认配置进行比较。

实验结果

主要结果

性能增益分析

在不同应用上的性能增益:

  • Clomp: 功耗优化10%,执行时间优化显著
  • Lulesh: 功耗优化14%
  • Hypre: 功耗优化9%
  • Kripke: 功耗优化6%

收敛效率

  • 小参数空间应用(Lulesh、Kripke、Clomp)在500次迭代内有效收敛
  • 大参数空间应用(Hypre)需要1000次迭代,但仍能达到Oracle配置12%以内

资源利用率

相比BLISS,LASP在CPU和内存使用上显著更低:

  • 在MAXN模式下CPU使用率降低约50%
  • 内存占用减少约60%

消融实验

多保真度有效性

实验显示低保真度和高保真度设置下的最优配置有显著重叠:

  • 前20个配置在高保真度设置下性能在Oracle的25%以内
  • 低保真度和高保真度的最优配置集合有较大交集

用户参数影响

通过调节α参数(0.2到0.8)验证了用户自定义优化目标的有效性:

  • α=0.2时专注功耗优化
  • α=0.8时专注执行时间优化

鲁棒性分析

在5%、10%、15%的合成误差下,LASP仍能保持良好性能,证明其对网络波动等现实问题的适应能力。

遗憾分析

所有应用的累积遗憾在一定迭代次数后趋于饱和,证明算法的有效收敛性。执行时间优化的效果优于功耗优化,这是由于功耗在计算密集型HPC应用中的饱和特性。

相关工作

HPC参数调优

传统方法包括基于搜索的方法(如贝叶斯优化)和机器学习方法。本文相比现有工作的优势在于专门针对边缘设备的轻量级设计和在线适应能力。

边缘计算中的HPC

相关项目包括Waggle传感器平台、Sage Continuum等,本文是首个专门针对边缘设备HPC参数调优的工作。

多臂老虎机应用

MAB技术在超参数调优中有应用,但本文首次将其应用于边缘设备的HPC调优场景。

结论与讨论

主要结论

  1. LASP成功实现了边缘设备上的轻量级HPC参数自动调优
  2. MAB框架适合动态边缘环境的在线学习需求
  3. 多保真度方法有效降低了调优成本
  4. 算法在各种HPC应用上都取得了显著性能改进

局限性

  1. 可扩展性限制: 随着配置数量增加,UCB算法需要探索大量选项,在资源受限设备上变得低效
  2. 网络协调问题: 多个易变边缘设备间的低带宽通信影响系统效率
  3. 异构设备挑战: 处理不同计算能力的设备需要自适应算法设计
  4. 功耗优化效果: 相比执行时间优化,功耗优化效果较为有限

未来方向

  1. 探索多级并行和资源感知算法设计
  2. 改进异构环境下的算法适应性
  3. 扩展到更大规模的参数空间
  4. 集成更多类型的HPC应用

深度评价

优点

  1. 创新性强: 首次将MAB应用于边缘设备HPC调优,填补了研究空白
  2. 实用价值高: 轻量级设计确实适合资源受限的边缘设备
  3. 实验充分: 四个不同类型的HPC应用验证了方法的通用性
  4. 理论基础扎实: 基于成熟的MAB理论,提供了遗憾界分析
  5. 用户友好: 允许用户自定义优化目标的α、β参数设计

不足

  1. 对比实验有限: 主要与BLISS和默认配置比较,缺乏与其他轻量级方法的对比
  2. 理论分析不够深入: 虽然提供了遗憾界,但缺乏收敛性的详细理论分析
  3. 异构设备验证不足: 实验主要在单一边缘设备上进行,缺乏多设备协同的验证
  4. 参数敏感性分析: 对α、β参数的敏感性分析较为简单

影响力

  1. 学术贡献: 为边缘计算与HPC结合提供了新的研究方向
  2. 实用价值: 方法具有良好的可复现性和实际部署潜力
  3. 技术推广: 轻量级特性使其容易在实际系统中应用

适用场景

  1. 资源受限环境: 特别适合计算和存储资源有限的边缘设备
  2. 动态环境: 适合网络条件和工作负载经常变化的场景
  3. 多目标优化: 需要平衡性能和功耗的应用场景
  4. 实时调优: 需要在线适应的HPC应用部署

参考文献

论文引用了48篇相关文献,涵盖了边缘计算、HPC调优、多臂老虎机等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的研究论文,在边缘计算与HPC交叉领域提出了创新性解决方案。LASP算法设计合理,实验验证充分,具有良好的实用价值和推广前景。虽然在理论深度和对比实验方面还有改进空间,但整体贡献显著,为相关领域研究提供了有价值的参考。