2025-11-21T03:58:15.402421

HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach

Hossain, Badawy, Islam et al.

The growing necessity for enhanced processing capabilities in edge devices with limited resources has led us to develop effective methods for improving high-performance computing (HPC) applications. In this paper, we introduce LASP (Lightweight Autotuning of Scientific Application Parameters), a novel strategy designed to address the parameter search space challenge in edge devices. Our strategy employs a multi-armed bandit (MAB) technique focused on online exploration and exploitation. Notably, LASP takes a dynamic approach, adapting seamlessly to changing environments. We tested LASP with four HPC applications: Lulesh, Kripke, Clomp, and Hypre. Its lightweight nature makes it particularly well-suited for resource-constrained edge devices. By employing the MAB framework to efficiently navigate the search space, we achieved significant performance improvements while adhering to the stringent computational limits of edge devices. Our experimental results demonstrate the effectiveness of LASP in optimizing parameter search on edge devices.

academic

HPC 애플리케이션 매개변수 자동 조정 엣지 디바이스: 밴딧 학습 접근법

기본 정보

논문 ID: 2501.01057
제목: HPC Application Parameter Autotuning on Edge Devices: A Bandit Learning Approach
저자: Abrar Hossain¹, Abdel-Hameed A. Badawy², Mohammad A. Islam³, Tapasya Patki⁴, Kishwar Ahmed¹
기관: ¹University of Toledo, ²New Mexico State University, ³University of Texas at Arlington, ⁴Lawrence Livermore National Laboratory
분류: cs.PF cs.LG cs.SY eess.SY
발표 시간: 2025년 1월 2일
논문 링크: https://arxiv.org/abs/2501.01057

초록

엣지 디바이스의 처리 능력 향상 필요성이 증가함에 따라, 본 논문은 고성능 컴퓨팅(HPC) 애플리케이션의 효율성을 개선하는 방법을 개발했습니다. 본 논문에서는 엣지 디바이스의 매개변수 탐색 공간 문제를 해결하기 위해 설계된 새로운 전략인 LASP(Lightweight Autotuning of Scientific Application Parameters)를 소개합니다. 이 전략은 다중 팔 밴딧(MAB) 기술을 채택하여 온라인 탐색과 활용에 중점을 둡니다. LASP는 변화하는 환경에 무결하게 적응할 수 있는 동적 접근 방식을 채택합니다. 저자들은 네 가지 HPC 애플리케이션(Lulesh, Kripke, Clomp, Hypre)을 사용하여 LASP를 테스트했습니다. 그 경량 특성으로 인해 리소스가 제한된 엣지 디바이스에 특히 적합합니다. MAB 프레임워크를 채택하여 탐색 공간을 효율적으로 탐색함으로써 엣지 디바이스의 엄격한 계산 제약을 준수하면서도 상당한 성능 개선을 달성했습니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 리소스가 제한된 엣지 디바이스에서 HPC 애플리케이션 매개변수를 효율적으로 자동 조정하는 것입니다. 기존의 매개변수 조정 방법은 주로 기존 HPC 시스템을 위해 설계되었으며, 이러한 방법 자체가 많은 계산 리소스를 필요로 하므로 엣지 디바이스의 제한된 환경에는 적합하지 않습니다.

문제의 중요성

엣지 컴퓨팅의 빠른 발전: 보고서에 따르면 엣지 처리 애플리케이션 데이터 시장은 2026년까지 75% 성장할 것으로 예상됩니다.
HPC 애플리케이션의 복잡성: HPC 애플리케이션은 복잡한 매개변수 구성을 포함하며, 성능에 상당한 영향을 미치거나 실행 오류를 초래할 수 있습니다.
리소스 제약 과제: 엣지 디바이스의 제한된 계산 능력과 이질적 분산 리소스는 HPC 실행에 고유한 과제를 제시합니다.

기존 방법의 한계

기존 방법: 전문가 지식 기반의 수동 조정은 시간이 많이 걸리고 확장성이 없습니다. 휴리스틱 기반 방법은 유연성이 부족하고 국소 최적값에 빠지기 쉽습니다.
머신러닝 방법: 효과적이지만 추가 오버헤드를 야기하며 엣지 디바이스에는 적합하지 않습니다.
베이지안 최적화: 복잡한 관계에서 성능이 좋지 않으며, 많은 반복이 필요하고 과거 지식 활용이 부족합니다.

연구 동기

엣지 디바이스에서 저충실도(LF) 환경에서 HPC 애플리케이션을 실행하여 최적의 애플리케이션 수준 매개변수를 결정한 후, 이러한 매개변수를 기존 HPC 플랫폼으로 전송하여 고충실도(HF) 실행을 수행하는 혁신적인 방법을 제안합니다. 이는 기존 HPC 시스템에서 매개변수 조정의 시간과 에너지 소비를 크게 줄입니다.

핵심 기여

LASP 알고리즘 최초 제안: 엣지 디바이스를 위한 경량 HPC 매개변수 자동 조정 방법
MAB 기술의 혁신적 적용: 엣지 디바이스의 자동 조정에 다중 팔 밴딧을 최초로 적용
동적 적응 능력: 알고리즘이 실시간으로 환경 변화에 적응하여 변화하기 쉬운 엣지 환경에 적합
다중 목표 최적화: 실행 시간과 전력 소비를 동시에 최적화하며 사용자 정의 최적화 균형 제공
크로스 플랫폼 이식성: 확률적 기술 기반의 애플리케이션 수준 매개변수 방법은 다양한 엣지 및 HPC 플랫폼 간에 이식 가능

방법론 상세 설명

작업 정의

HPC 애플리케이션의 매개변수 구성 공간 χ = {1, ..., x}가 주어졌을 때, T 라운드 반복에서 최적 구성을 선택하여 가중 보상 함수를 최대화합니다:

freward(x) = α × (1/μ(τx)) + β × (1/μ(ρx))

여기서 τx는 정규화된 실행 시간, ρx는 정규화된 전력 소비, α와 β는 사용자 정의 가중치 매개변수입니다.

모델 아키텍처

다중 팔 밴딧 프레임워크

LASP는 확률적 다중 팔 밴딧 모델을 기반으로 하며, K개의 동작(구성)이 T 라운드에서 실행된다고 가정합니다. 각 구성 x는 초기에 알려지지 않은 보상 분포 Dx에 해당합니다.

상한 신뢰도(UCB) 알고리즘

핵심 선택 전략은 UCB 알고리즘을 기반으로 합니다:

UCB(x,t) = Rx + √(2ln t / Nx)

여기서:

Rx = freward(x)는 구성 x의 가중 보상
Nx는 구성 x가 선택된 횟수
t는 현재 반복 횟수

구성 선택 전략

각 라운드에서 UCB 값이 가장 높은 구성을 선택합니다:

x*t = argmax_x UCB(x,t)

최종적으로 선택된 횟수가 가장 많은 구성을 출력합니다:

xopt = argmax_x Nx

기술 혁신 포인트

경량 설계: 기존 ML 방법과 비교하여 LASP의 CPU 및 메모리 점유율이 현저히 낮습니다.
온라인 학습: 실시간으로 환경 변화에 적응하며 사전 학습이 필요하지 않습니다.
다중 충실도 방법: 저충실도 엣지 디바이스 실행을 활용하여 고충실도 HPC 시스템의 최적 매개변수를 식별합니다.
사용자 참여: α 및 β 매개변수를 통해 사용자가 최적화 목표를 사용자 정의할 수 있습니다.

실험 설정

실험 플랫폼

엣지 디바이스: NVIDIA Jetson Nano (128코어 Maxwell GPU, 4코어 ARM A57 CPU@1.43GHz, 4GB LPDDR4)
HPC 시스템: Intel Core i7-14700 vPro (20코어 28스레드, 64GB DDR5, Ubuntu 24.04)
운영 체제: Ubuntu 20.04
전력 모드: MAXN(10W) 및 5W 두 가지 모드

테스트 애플리케이션

애플리케이션	설명	매개변수 공간 크기	주요 매개변수
Hypre	선형 시스템 솔버 라이브러리	92,160	프로세서 그리드, AMG 매개변수 등
Kripke	3D 입자 수송 코드	216	데이터 레이아웃, 에너지 그룹 설정 등
Lulesh	충격 유체 역학 프록시 애플리케이션	128	영역 수, 메시 요소 수
Clomp	OpenMP 성능 벤치마크	125	스레드 작업 블록, 영역 매개변수 등

평가 지표

성능 향상: PGbest = (fdefault - fbest)/fdefault × 100%
누적 후회: RT = Tμ* - Σμj(t)
Oracle 구성까지의 거리: (실행 시간/Oracle 실행 시간 - 1) × 100%

비교 방법

주로 BLISS(베이지안 최적화 기반 최신 방법)와 기본 구성과 비교합니다.

실험 결과

주요 결과

성능 향상 분석

다양한 애플리케이션에서의 성능 향상:

Clomp: 전력 소비 10% 최적화, 실행 시간 상당히 최적화
Lulesh: 전력 소비 14% 최적화
Hypre: 전력 소비 9% 최적화
Kripke: 전력 소비 6% 최적화

수렴 효율성

작은 매개변수 공간 애플리케이션(Lulesh, Kripke, Clomp)은 500회 반복 내에 효과적으로 수렴
큰 매개변수 공간 애플리케이션(Hypre)은 1000회 반복이 필요하지만 여전히 Oracle 구성의 12% 이내 달성

리소스 활용률

BLISS와 비교하여 LASP는 CPU 및 메모리 사용에서 현저히 낮습니다:

MAXN 모드에서 CPU 사용률 약 50% 감소
메모리 점유율 약 60% 감소

제거 실험

다중 충실도 유효성

실험은 저충실도 및 고충실도 설정에서 최적 구성의 상당한 중복을 보여줍니다:

상위 20개 구성은 고충실도 설정에서 Oracle의 25% 이내 성능
저충실도 및 고충실도의 최적 구성 집합 간 상당한 교집합

사용자 매개변수 영향

α 매개변수(0.2~0.8)를 조정하여 사용자 정의 최적화 목표의 유효성 검증:

α=0.2일 때 전력 소비 최적화에 중점
α=0.8일 때 실행 시간 최적화에 중점

견고성 분석

5%, 10%, 15%의 합성 오류 하에서 LASP는 여전히 좋은 성능을 유지하여 네트워크 변동 등 실제 문제에 대한 적응 능력을 증명합니다.

후회 분석

모든 애플리케이션의 누적 후회는 일정 반복 횟수 후 포화되어 알고리즘의 효과적인 수렴을 증명합니다. 실행 시간 최적화의 효과가 전력 소비 최적화보다 우수한데, 이는 계산 집약적 HPC 애플리케이션에서 전력 소비의 포화 특성 때문입니다.

결론 및 토론

주요 결론

LASP는 엣지 디바이스에서 경량 HPC 매개변수 자동 조정을 성공적으로 구현했습니다.
MAB 프레임워크는 동적 엣지 환경의 온라인 학습 요구에 적합합니다.
다중 충실도 방법은 조정 비용을 효과적으로 감소시킵니다.
알고리즘은 다양한 HPC 애플리케이션에서 상당한 성능 개선을 달성합니다.

한계

확장성 제한: 구성 수가 증가함에 따라 UCB 알고리즘은 많은 옵션을 탐색해야 하며, 리소스 제한 디바이스에서 비효율적이 됩니다.
네트워크 조정 문제: 여러 변화하기 쉬운 엣지 디바이스 간의 저대역폭 통신은 시스템 효율성에 영향을 미칩니다.
이질적 디바이스 과제: 다양한 계산 능력을 가진 디바이스 처리는 자적응 알고리즘 설계가 필요합니다.
전력 소비 최적화 효과: 실행 시간 최적화와 비교하여 전력 소비 최적화 효과는 제한적입니다.

향후 방향

다중 수준 병렬화 및 리소스 인식 알고리즘 설계 탐색
이질적 환경에서 알고리즘 적응성 개선
더 큰 규모의 매개변수 공간으로 확장
더 많은 유형의 HPC 애플리케이션 통합

심층 평가

장점

높은 혁신성: MAB를 엣지 디바이스 HPC 조정에 최초로 적용하여 연구 공백을 채웁니다.
높은 실용 가치: 경량 설계는 리소스가 제한된 엣지 디바이스에 실제로 적합합니다.
충분한 실험: 네 가지 다양한 유형의 HPC 애플리케이션이 방법의 범용성을 검증합니다.
견고한 이론 기초: 성숙한 MAB 이론을 기반으로 하며 후회 경계 분석을 제공합니다.
사용자 친화적: α, β 매개변수 설계를 통해 사용자가 최적화 목표를 사용자 정의할 수 있습니다.

부족한 점

제한된 비교 실험: 주로 BLISS 및 기본 구성과 비교하며 다른 경량 방법과의 비교가 부족합니다.
불충분한 이론 분석: 후회 경계는 제공하지만 수렴성에 대한 상세한 이론 분석이 부족합니다.
불충분한 이질적 디바이스 검증: 실험은 주로 단일 엣지 디바이스에서 수행되며 다중 디바이스 협력 검증이 부족합니다.
매개변수 민감성 분석: α, β 매개변수에 대한 민감성 분석이 비교적 단순합니다.

영향력

학술 기여: 엣지 컴퓨팅과 HPC 결합을 위한 새로운 연구 방향을 제공합니다.
실용 가치: 방법은 좋은 재현성과 실제 배포 잠재력을 가집니다.
기술 홍보: 경량 특성으로 인해 실제 시스템에서 쉽게 적용할 수 있습니다.

적용 시나리오

리소스 제한 환경: 특히 계산 및 저장 리소스가 제한된 엣지 디바이스에 적합합니다.
동적 환경: 네트워크 조건 및 작업 부하가 자주 변하는 시나리오에 적합합니다.
다중 목표 최적화: 성능과 전력 소비의 균형이 필요한 애플리케이션 시나리오
실시간 조정: 온라인 적응이 필요한 HPC 애플리케이션 배포

참고 문헌

논문은 엣지 컴퓨팅, HPC 조정, 다중 팔 밴딧 등 여러 분야의 중요한 작업을 포함하는 48개의 관련 참고 문헌을 인용하여 연구에 견고한 이론 기초를 제공합니다.

전체 평가: 이것은 엣지 컴퓨팅과 HPC 교차 분야에서 혁신적인 솔루션을 제안하는 고품질 연구 논문입니다. LASP 알고리즘은 합리적으로 설계되었으며 실험 검증이 충분하고 좋은 실용 가치와 홍보 전망을 가집니다. 이론적 깊이와 비교 실험 측면에서 개선의 여지가 있지만, 전체적인 기여는 상당하며 관련 분야 연구에 가치 있는 참고 자료를 제공합니다.