Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic
이질적 기회주의적 GPU 클러스터에서 광범위한 컨텍스트 관리를 통한 고처리량 경량 LLM 추론 애플리케이션의 효율적 실행
생성형 AI의 부상으로 경량 LLM을 전통적 고처리량 애플리케이션과 통합하여 과학 발견을 가속화하는 새로운 HPC 워크로드 클래스가 도입되었다. 그러나 현재 HPC 클러스터의 설계는 이러한 새로운 워크로드를 충분히 지원하지 못하며, 정적 배치 큐에서 긴 대기 시간을 야기하거나 리소스 선점 시 반복적으로 비용이 많이 드는 LLM 시작 비용을 초래한다. 긴 큐와 높은 시작 비용을 회피하기 위해, 본 논문은 LLM 초기화 컨텍스트를 실제 LLM 추론에서 "분리"하고 더 이상 필요하지 않을 때까지 GPU에 컨텍스트를 유지하는 기술을 제안한다. 이 기술을 "광범위한 컨텍스트 관리"(Pervasive Context Management)라고 한다. 사실 검증 애플리케이션의 개조를 통해, 이 기술은 실행 시간을 72.1% 감소시키고(3시간에서 48분으로), 클러스터 32.8%의 GPU에서 기회주의적으로 확장할 수 있으며, 실행 시간을 추가로 13분으로 단축한다.
대규모 언어 모델(LLM) 기술의 빠른 발전에 따라, 경량 LLM 추론(일반적으로 수십억 개의 매개변수를 가짐)을 전통적인 고처리량 애플리케이션에 통합하는 새로운 HPC 워크로드 클래스가 부상하고 있다. 이러한 애플리케이션은 단백질 폴딩, 분산 AI 기반 과학 계산 등의 분야에서 거대한 잠재력을 보여준다.
정적 할당 모델의 한계: 전통적인 정적 GPU 할당 모델은 고정 크기의 GPU 배치를 독점해야 하므로, 심각한 큐 대기 시간과 클러스터 리소스 활용률 부족을 초래한다
기회주의적 할당의 시작 비용: 기회주의적 리소스 할당은 동적으로 사용 가능한 GPU 리소스를 활용할 수 있지만, LLM의 시작 프로세스(분산 파일 시스템에서 수십억 개의 매개변수 모델을 로컬 디스크, 호스트 메모리, 최종적으로 GPU 메모리로 로드)는 I/O 집약적이며 수 분이 소요될 수 있다
리소스 선점의 대가: 작업이 선점될 때, 전체 비용이 많이 드는 시작 프로세스를 새로운 리소스에서 다시 실행해야 하며, 종종 시작 비용이 실제 계산 시간을 초과한다
본 연구는 고처리량 경량 LLM 추론 애플리케이션, 특히 이질적 기회주의적 GPU 클러스터에서 실행해야 하는 많은 독립적 추론 작업이 필요한 시나리오를 대상으로 한다. 입력은 많은 추론 요청이고, 출력은 추론 결과이며, 제약 조건에는 GPU 리소스의 동적 가용성과 예측 불가능한 선점이 포함된다.
# 전통적 방식 (컨텍스트 무관)
@python_app
def infer(model_path, claims):
model = AutoModel.from_pretrained(model_path).to('gpu')
verdicts = [model.generate(claim) for claim in claims]
return verdicts
# 개선된 방식 (컨텍스트 인식)
def load_model(model_path):
model = AutoModel.from_pretrained(model_path).to('gpu')
return {'model': model}
@python_app
def infer_model(claims, parsl_spec):
model = load_variable_from_serverless('model')
verdicts = [model.generate(claim) for claim in claims]
return verdicts
논문은 LLM 기술, HPC 스케줄링, 워크플로우 시스템 등 여러 분야의 중요한 작업을 포함하는 61개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 HPC 환경의 신흥 AI 워크로드를 대상으로 한 고품질 연구 논문이다. 저자들은 실제 문제를 정확히 식별하고 혁신적인 솔루션을 제안했으며, 포괄적인 실험을 통해 방법의 효과성을 검증했다. 적용 범위 및 이론적 분석 측면에서 일정한 한계가 있지만, 관련 분야의 연구 및 실무에 가치 있는 기여를 제공한다.