2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

HPC アプリケーションパラメータ自動調整エッジデバイス上での実装：バンディット学習アプローチ

基本情報

論文ID: 2501.01057
タイトル: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
著者: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
所属機関: ¹トレド大学, ²ニューメキシコ州立大学, ³テキサス大学アーリントン校, ⁴ローレンスリバモア国立研究所
分類: cs.PF cs.LG cs.SY eess.SY
発表日: 2025年1月2日
論文リンク: https://arxiv.org/abs/2501.01057

概要

エッジデバイスの処理能力強化の需要の高まりに伴い、本論文は高性能計算(HPC)アプリケーションの効率化方法を開発した。LASP(Lightweight Autotuning of Scientific Application Parameters)という、エッジデバイスのパラメータ探索空間の課題解決に特化した新規戦略を提案している。本戦略は多腕バンディット(MAB)技術を採用し、オンライン探索と活用に焦点を当てている。LASPは動的アプローチを採用しており、変化する環境にシームレスに適応できる。著者らは4つのHPCアプリケーション(Lulesh、Kripke、Clomp、Hypre)を用いてLASPを検証した。その軽量な特性により、リソース制約のあるエッジデバイスに特に適している。MABフレームワークを採用して探索空間を効率的に操作することで、エッジデバイスの厳格な計算制限を遵守しながら、顕著なパフォーマンス改善を実現した。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、リソース制約のあるエッジデバイス上でHPCアプリケーションのパラメータを効率的に自動調整することである。従来のパラメータ調整方法は従来型HPCシステム向けに設計されており、これらの方法自体が大量の計算リソースを必要とするため、エッジデバイスの制限環境には適さない。

問題の重要性

エッジコンピューティングの急速な発展: 報告によれば、エッジ処理によるデータ処理市場は2026年までに75%の成長が予想されている
HPCアプリケーションの複雑性: HPCアプリケーションは複雑なパラメータ設定を含み、パフォーマンスに大きな影響を与え、実行失敗につながる可能性もある
リソース制約の課題: エッジデバイスの限定的な計算能力と異種分散リソースは、HPC実行に独特の課題をもたらす

既存手法の限界

従来型手法: 専門知識に基づく手動調整は時間がかかり、スケーラビリティに欠ける。ヒューリスティックベースの手法は柔軟性に欠け、局所最適解に陥りやすい
機械学習手法: 有効ではあるが、追加のオーバーヘッドをもたらし、エッジデバイスには不適切である
ベイズ最適化: 複雑な関係では性能が低く、多くの反復が必要であり、履歴知識の活用に欠ける

研究動機

エッジデバイスで低忠実度(LF)でHPCアプリケーションを実行して最適なアプリケーションレベルパラメータを決定し、その後これらのパラメータを従来型HPCプラットフォームに転送して高忠実度(HF)実行を行うという革新的なアプローチを提案する。これにより、従来型HPCシステム上でのパラメータ調整の時間とエネルギー消費を大幅に削減できる。

中核的貢献

LASP アルゴリズムの初提案: エッジデバイス向けの軽量HPCパラメータ自動調整方法
MAB技術の革新的応用: エッジデバイス上の自動調整にマルチアームバンディットを初めて適用
動的適応能力: アルゴリズムがリアルタイムで環境変化に適応でき、変動しやすいエッジ環境に適している
多目的最適化: 実行時間と電力消費を同時に最適化し、ユーザーがカスタマイズ可能な最適化バランスを提供
クロスプラットフォーム移植性: 確率的技術に基づくアプリケーションレベルパラメータ手法は、様々なエッジおよびHPCプラットフォーム間で移植可能

方法論の詳細

タスク定義

HPCアプリケーションのパラメータ設定空間χ = {1, ..., x}が与えられたとき、T回のイテレーション中に最適な設定を選択し、加重報酬関数を最大化する:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

ここで、τxは正規化実行時間、ρxは正規化電力消費、αとβはユーザー定義の重み付けパラメータである。

モデルアーキテクチャ

マルチアームバンディットフレームワーク

LASPは確率的マルチアームバンディットモデルに基づいており、T回のラウンド中にK個のアクション(設定)が実行されると仮定する。各設定xは報酬分布Dxに対応し、初期状態では未知である。

上信頼限界(UCB)アルゴリズム

中核的な選択戦略はUCBアルゴリズムに基づいている:

UCB(x,t) = Rx + √(2ln t / Nx)

ここで:

Rx = freward(x)は設定xの加重報酬
Nxは設定xが選択された回数
tは現在のイテレーション回数

設定選択戦略

各ラウンドでUCB値が最も高い設定を選択する:

x*t = argmax_x UCB(x,t)

最終的に選択回数が最も多い設定を出力する:

xopt = argmax_x Nx

技術的革新点

軽量設計: 従来型ML手法と比較して、LASPのCPUとメモリ使用量は著しく低い
オンライン学習: リアルタイムで環境変化に適応し、事前学習が不要
マルチ忠実度手法: 低忠実度エッジデバイス実行を活用して、高忠実度HPCシステムの最適パラメータを特定
ユーザー参加: αおよびβパラメータを通じて、ユーザーが最適化目標をカスタマイズ可能

実験設定

実験プラットフォーム

エッジデバイス: NVIDIA Jetson Nano (128コアMaxwell GPU、4コアARM A57 CPU@1.43GHz、4GB LPDDR4)
HPCシステム: Intel Core i7-14700 vPro (20コア28スレッド、64GB DDR5、Ubuntu 24.04)
オペレーティングシステム: Ubuntu 20.04
電力モード: MAXN(10W)および5W の2つのモード

テストアプリケーション

アプリケーション	説明	パラメータ空間サイズ	主要パラメータ
Hypre	線形システムソルバーライブラリ	92,160	プロセッサグリッド、AMGパラメータなど
Kripke	3D粒子輸送コード	216	データレイアウト、エネルギーグループ設定など
Lulesh	衝撃流体力学プロキシアプリケーション	128	ゾーン数、メッシュ要素数
Clomp	OpenMPパフォーマンスベンチマーク	125	スレッド作業ブロック、ゾーンパラメータなど

評価指標

パフォーマンス向上: PGbest = (fdefault - fbest)/fdefault × 100%
累積後悔: RT = Tμ* - Σμj(t)
Oracle設定からの距離: (実行時間/Oracle実行時間 - 1) × 100%

比較手法

主にBLISS(ベイズ最適化ベースのSOTA手法)とデフォルト設定と比較する。

実験結果

主要結果

パフォーマンス向上分析

異なるアプリケーション上でのパフォーマンス向上:

Clomp: 電力消費最適化10%、実行時間最適化が顕著
Lulesh: 電力消費最適化14%
Hypre: 電力消費最適化9%
Kripke: 電力消費最適化6%

収束効率

小規模パラメータ空間アプリケーション(Lulesh、Kripke、Clomp)は500イテレーション以内に効果的に収束
大規模パラメータ空間アプリケーション(Hypre)は1000イテレーション必要だが、Oracle設定の12%以内に到達可能

リソース利用率

BLISSと比較して、LASPはCPUとメモリ使用量で著しく低い:

MAXNモード下でのCPU使用率は約50%低下
メモリ使用量は約60%削減

アブレーション実験

マルチ忠実度の有効性

実験は低忠実度と高忠実度設定下での最適設定に顕著な重複があることを示している:

上位20設定は高忠実度設定下でOracleの25%以内のパフォーマンスを達成
低忠実度と高忠実度の最適設定集合には大きな交集合がある

ユーザーパラメータの影響

αパラメータ(0.2～0.8)を調整することで、ユーザーカスタマイズ最適化目標の有効性を検証:

α=0.2の場合は電力消費最適化に焦点
α=0.8の場合は実行時間最適化に焦点

ロバスト性分析

5%、10%、15%の合成誤差下でも、LASPは良好なパフォーマンスを維持し、ネットワーク変動などの現実的な問題への適応能力を証明している。

後悔分析

すべてのアプリケーションの累積後悔は一定のイテレーション回数後に飽和傾向を示し、アルゴリズムの効果的な収束を証明している。実行時間最適化の効果は電力消費最適化より優れており、これは計算集約型HPCアプリケーションにおける電力消費の飽和特性による。

結論と考察

主要結論

LASPはエッジデバイス上での軽量HPCパラメータ自動調整の実現に成功した
MABフレームワークは動的エッジ環境のオンライン学習要件に適している
マルチ忠実度手法は調整コストを効果的に削減する
アルゴリズムは様々なHPCアプリケーション上で顕著なパフォーマンス改善を達成した

限界

スケーラビリティの制限: 設定数の増加に伴い、UCBアルゴリズムは多くのオプションを探索する必要があり、リソース制約デバイス上では非効率になる
ネットワーク調整の問題: 複数の変動しやすいエッジデバイス間の低帯域幅通信がシステム効率に影響する
異種デバイスの課題: 異なる計算能力を持つデバイスの処理には、自適応アルゴリズム設計が必要
電力消費最適化の効果: 実行時間最適化と比較して、電力消費最適化の効果は限定的である

今後の方向性

マルチレベル並列化とリソース認識アルゴリズム設計の探索
異種環境下でのアルゴリズム適応性の改善
より大規模なパラメータ空間への拡張
より多くの種類のHPCアプリケーションへの統合

深層評価

利点

革新性が高い: MABをエッジデバイスHPC調整に初めて適用し、研究ギャップを埋めた
実用価値が高い: 軽量設計はリソース制約のあるエッジデバイスに確実に適している
実験が充分: 4つの異なるタイプのHPCアプリケーションが方法の汎用性を検証している
理論基盤が堅実: 成熟したMAB理論に基づき、後悔限界分析を提供している
ユーザーフレンドリー: ユーザーがカスタマイズ可能なαおよびβパラメータ設計により最適化目標を定義可能

不足点

比較実験が限定的: 主にBLISSとデフォルト設定との比較であり、他の軽量手法との比較が不足している
理論分析が不十分: 後悔限界は提供されているが、収束性の詳細な理論分析に欠ける
異種デバイス検証が不足: 実験は主に単一のエッジデバイス上で実施され、複数デバイス協調の検証が不足している
パラメータ感度分析: αおよびβパラメータの感度分析は比較的単純である

影響力

学術的貢献: エッジコンピューティングとHPCの結合に新しい研究方向を提供した
実用価値: 方法は優れた再現性と実際のシステム展開の可能性を持つ
技術推進: 軽量特性により、実際のシステムでの応用が容易

適用シナリオ

リソース制約環境: 計算およびストレージリソースが限定的なエッジデバイスに特に適している
動的環境: ネットワーク条件とワークロードが頻繁に変化するシナリオに適している
多目的最適化: パフォーマンスと電力消費のバランスが必要なアプリケーションシナリオ
リアルタイム調整: オンライン適応が必要なHPCアプリケーション展開

参考文献

論文は48の関連文献を引用しており、エッジコンピューティング、HPC調整、マルチアームバンディットなど複数の分野の重要な研究をカバーし、研究に堅実な理論基盤を提供している。

総合評価: これは高品質の研究論文であり、エッジコンピューティングとHPCの交差領域で革新的なソリューションを提案している。LASPアルゴリズムは合理的に設計され、実験検証は充分であり、優れた実用価値と推進見通しを持つ。理論的深さと比較実験の面でまだ改善の余地があるが、全体的な貢献は顕著であり、関連分野の研究に価値のある参考を提供している。

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

HPC アプリケーション パラメータ自動調整エッジデバイス上での実装：バンディット学習アプローチ

HPC アプリケーションパラメータ自動調整エッジデバイス上での実装：バンディット学習アプローチ