2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain

The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.

academic

이질적 기회주의적 GPU 클러스터에서 광범위한 컨텍스트 관리를 통한 고처리량 경량 LLM 추론 애플리케이션의 효율적 실행

기본 정보

논문 ID: 2510.14024
제목: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
저자: Thanh Son Phung, Douglas Thain (University of Notre Dame)
분류: cs.DC (분산 컴퓨팅)
발표 시간: 2025년 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.14024

초록

생성형 AI의 부상으로 경량 LLM을 전통적 고처리량 애플리케이션과 통합하여 과학 발견을 가속화하는 새로운 HPC 워크로드 클래스가 도입되었다. 그러나 현재 HPC 클러스터의 설계는 이러한 새로운 워크로드를 충분히 지원하지 못하며, 정적 배치 큐에서 긴 대기 시간을 야기하거나 리소스 선점 시 반복적으로 비용이 많이 드는 LLM 시작 비용을 초래한다. 긴 큐와 높은 시작 비용을 회피하기 위해, 본 논문은 LLM 초기화 컨텍스트를 실제 LLM 추론에서 "분리"하고 더 이상 필요하지 않을 때까지 GPU에 컨텍스트를 유지하는 기술을 제안한다. 이 기술을 "광범위한 컨텍스트 관리"(Pervasive Context Management)라고 한다. 사실 검증 애플리케이션의 개조를 통해, 이 기술은 실행 시간을 72.1% 감소시키고(3시간에서 48분으로), 클러스터 32.8%의 GPU에서 기회주의적으로 확장할 수 있으며, 실행 시간을 추가로 13분으로 단축한다.

연구 배경 및 동기

문제 정의

대규모 언어 모델(LLM) 기술의 빠른 발전에 따라, 경량 LLM 추론(일반적으로 수십억 개의 매개변수를 가짐)을 전통적인 고처리량 애플리케이션에 통합하는 새로운 HPC 워크로드 클래스가 부상하고 있다. 이러한 애플리케이션은 단백질 폴딩, 분산 AI 기반 과학 계산 등의 분야에서 거대한 잠재력을 보여준다.

핵심 과제

정적 할당 모델의 한계: 전통적인 정적 GPU 할당 모델은 고정 크기의 GPU 배치를 독점해야 하므로, 심각한 큐 대기 시간과 클러스터 리소스 활용률 부족을 초래한다
기회주의적 할당의 시작 비용: 기회주의적 리소스 할당은 동적으로 사용 가능한 GPU 리소스를 활용할 수 있지만, LLM의 시작 프로세스(분산 파일 시스템에서 수십억 개의 매개변수 모델을 로컬 디스크, 호스트 메모리, 최종적으로 GPU 메모리로 로드)는 I/O 집약적이며 수 분이 소요될 수 있다
리소스 선점의 대가: 작업이 선점될 때, 전체 비용이 많이 드는 시작 프로세스를 새로운 리소스에서 다시 실행해야 하며, 종종 시작 비용이 실제 계산 시간을 초과한다

기존 방법의 부족함

자동 확장/축소 프레임워크: 능동적 원칙에 기반하여 설계되어 수동적인 기회주의적 HPC 환경에 적합하지 않다
전통적 내결함성 기술: 체크포인트 메커니즘과 같은 기술은 계산 진행 상황만 보호할 수 있으며, 모델 로딩 비용 문제를 해결할 수 없다

핵심 기여

광범위한 컨텍스트 관리 기술 제안: LLM 초기화 컨텍스트를 클러스터의 일급 지속적 엔티티로 승격시켜 여러 작업 간 재사용 가능하게 함
Parsl-TaskVine 프레임워크 기반 고처리량 사실 검증 애플리케이션 구현: 분산 데이터 집약적 프레임워크에서 경량 LLM의 애플리케이션을 시연
빠른 애플리케이션 변환 방법 설계: 간단한 코드 리팩토링을 통해 애플리케이션이 컨텍스트 인식을 지원하도록 함
현저한 성능 향상 검증: 동일한 GPU 수에서 실행 시간 72.1% 감소, 클러스터 32.8%의 GPU로 기회주의적 확장 가능

방법 상세 설명

작업 정의

본 연구는 고처리량 경량 LLM 추론 애플리케이션, 특히 이질적 기회주의적 GPU 클러스터에서 실행해야 하는 많은 독립적 추론 작업이 필요한 시나리오를 대상으로 한다. 입력은 많은 추론 요청이고, 출력은 추론 결과이며, 제약 조건에는 GPU 리소스의 동적 가용성과 예측 불가능한 선점이 포함된다.

핵심 아키텍처: 광범위한 컨텍스트 관리

1. 전체 설계 개념

광범위한 컨텍스트 관리의 핵심 아이디어는 비용이 많이 드는 LLM 컨텍스트 초기화를 실제 추론 실행에서 분리하여, 컨텍스트를 클러스터 노드 간에 지속화되고 재사용될 수 있는 일급 엔티티로 만드는 것이다.

2. 기술 구현 프레임워크

Parsl-TaskVine 통합 프레임워크 기반:

Parsl: Python 원본 병렬 라이브러리를 제공하여 사용자가 일반 Python 함수를 통해 계산 요구사항을 표현할 수 있게 함
TaskVine: 작업 간 관계 및 스케줄링 최적화를 처리하는 저수준 데이터 집약적 워크플로우 실행 엔진

3. 컨텍스트 관리 메커니즘

# 전통적 방식 (컨텍스트 무관)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# 개선된 방식 (컨텍스트 인식)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. 워크플로우

컨텍스트 분석: 스케줄러가 함수 F의 컨텍스트 요구사항을 분석
컨텍스트 생성: 워커 노드에서 Library 프로세스를 생성하여 컨텍스트의 물리화 및 호스팅을 담당
컨텍스트 재사용: 후속 작업이 이미 초기화된 컨텍스트를 직접 사용하여 추론 실행
컨텍스트 전송: 피어 투 피어 전송을 통해 노드 간 컨텍스트 템플릿 공유

기술 혁신 포인트

컨텍스트와 계산의 분리: 모델 로딩과 추론 실행을 분리하여 컨텍스트를 작업 간 재사용 가능하게 함
분산 컨텍스트 캐시: GPU 노드에 LLM 컨텍스트를 지속화하여 반복적 초기화 회피
지능형 스케줄링 전략: 해당 컨텍스트가 이미 있는 노드로 작업을 우선적으로 스케줄
피어 투 피어 컨텍스트 전송: 새로 추가된 GPU는 다른 노드에서 직접 컨텍스트 템플릿을 획득 가능

실험 설정

애플리케이션 시나리오

사실 검증 애플리케이션(Prompt for Fact, PfF):

목표: 주어진 LLM에 대한 최적 프롬프트 템플릿을 찾아 임의의 주장의 정확성을 검증하는 사실 검증기로 사용
데이터셋: FEVER 훈련 데이터, 145,449개의 주장 포함, SUPPORTED, REFUTED 또는 NOT ENOUGH INFO로 레이블됨
모델: SmolLM2 (17억 매개변수)

실험 환경

로컬 클러스터 구성:

총 567개 GPU, 18가지 서로 다른 모델
리소스 관리자: Altair Grid Engine (AGE) + HTCondor
스토리지: Panasas ActiveStor 16 공유 파일 시스템
네트워크: 84 Gbs/s 읽기 대역폭 및 94k 읽기 IOPS 지원

프레임워크 구성:

각 작업: 2 코어, 10GB 메모리, 20GB 디스크, 1 GPU
각 워커 노드: 2 코어, 10GB 메모리, 70GB 디스크, 1 GPU
모델 크기: 3.7GB 디스크 공간, 7.4GB 메모리
소프트웨어 의존성: 308개 패키지, 총 10.5GB

실험 버전 설계

Context-agnostic: 각 작업이 공유 파일 시스템에서 모든 데이터 및 모델을 다시 로드
Partial-context: 입력 데이터를 로컬 디스크에 캐시하지만 여전히 GPU 모델 상태를 다시 생성해야 함
Full-context: 광범위한 컨텍스트 관리를 완전히 활성화하여 GPU에 모델 상태 캐시

실험 결과

주요 성능 향상

RQ1: 정적 리소스의 애플리케이션 성능

20개 GPU(10개 NVIDIA A10 + 10개 NVIDIA TITAN X Pascal)에서의 실험 결과:

Context-agnostic: 10,400초
Partial-context: 5,300초 (49.1% 향상)
Full-context: 2,900초 (72.1% 향상)

RQ2: 추론 배치 크기 민감도 분석

Full-context 버전은 다양한 배치 크기에서 실행 시간 변화 범위가 13.6%에 불과한 반면, Partial-context 버전은 배치 크기가 1일 때 실행 시간이 141,100초로 급증하여 극도의 민감성을 보여준다.

RQ3: 공격적 리소스 선점 시나리오

분당 1개 GPU 선점의 공격적 시나리오에서:

Partial-context: 46,000회 추론 완료
Full-context: 62,900회 추론 완료 (16,900회 추가, 36.7% 향상)

RQ4: 기회주의적 리소스 확장

저용량 시나리오: 4개 GPU에서 20개 GPU로 확장, 5000초 내 완료
고용량 시나리오: 186개 GPU로 확장(클러스터 32.8%), 783초 내 완료(13분 상당)

주요 발견

시작 비용의 현저한 영향: 전통적 방법에서 모델 로딩 시간이 실제 계산 시간을 초과하는 경우가 많음
컨텍스트 재사용의 가치: 한 번의 초기화가 여러 추론 작업을 서비스할 수 있어 효율성을 대폭 향상
이질적 환경의 적응성: 8가지 주요 GPU 모델을 포함하는 이질적 클러스터에서 우수한 성능 발휘
확장성 검증: 186개 GPU에서 성공적으로 동시 실행, 우수한 확장성 시연

결론 및 논의

주요 결론

광범위한 컨텍스트 관리 기술이 기회주의적 GPU 클러스터에서 경량 LLM 애플리케이션의 효율성 문제를 성공적으로 해결
컨텍스트와 계산의 분리를 통해 72.1%의 실행 시간 감소 달성
이 방법은 배치 크기 선택의 복잡성을 현저히 감소시키고 시스템의 견고성을 향상

한계

모델 규모 제한: 단일 노드 리소스 범위 내의 경량 LLM에만 적용 가능
관리 오버헤드: 컨텍스트 복사 및 캐싱으로 인한 추가 관리 비용 발생
의존성 요구사항: 효과는 관리 오버헤드가 콜드 스타트 비용보다 현저히 낮은지 여부에 따라 달라짐

향후 방향

더 큰 규모의 다중 노드 LLM 배포 지원
컨텍스트 전송 및 캐싱 전략 최적화
다른 유형의 딥러닝 애플리케이션으로 확장

심층 평가

장점

문제 식별의 정확성: HPC 환경에서 LLM 애플리케이션의 핵심 병목을 정확히 식별
솔루션의 혁신성: 컨텍스트 관리 개념이 참신하고 실용적
실험 설계의 포괄성: 정적 리소스에서 동적 선점까지 다양한 실제 시나리오 포함
성능 향상의 현저함: 72.1%의 실행 시간 감소 및 클러스터 GPU 32.8%의 기회주의적 활용

부족함

애플리케이션 범위 제한: 경량 LLM에만 적용 가능하며 대규모 모델 지원 제한적
이론적 분석 부족: 최적 배치 크기 및 컨텍스트 관리 전략에 대한 이론적 분석 부재
일반성 검증 부족: 사실 검증 애플리케이션에서만 검증되었으며 다른 애플리케이션의 적용 가능성 추가 검증 필요

영향력

학술적 가치: HPC 환경의 AI 워크로드 관리에 새로운 관점 제공
실용적 가치: 현재 과학 계산 시나리오에 직접 적용 가능
재현성: 오픈소스 프레임워크 기반 구현으로 재현 및 확장 용이

적용 시나리오

많은 독립적 LLM 추론이 필요한 과학 애플리케이션
리소스가 동적으로 변하는 HPC 환경
시작 지연에 민감한 고처리량 애플리케이션

참고문헌

논문은 LLM 기술, HPC 스케줄링, 워크플로우 시스템 등 여러 분야의 중요한 작업을 포함하는 61개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공한다.

종합 평가: 이는 HPC 환경의 신흥 AI 워크로드를 대상으로 한 고품질 연구 논문이다. 저자들은 실제 문제를 정확히 식별하고 혁신적인 솔루션을 제안했으며, 포괄적인 실험을 통해 방법의 효과성을 검증했다. 적용 범위 및 이론적 분석 측면에서 일정한 한계가 있지만, 관련 분야의 연구 및 실무에 가치 있는 기여를 제공한다.