2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

基本信息

  • 论文ID: 2510.14024
  • 标题: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
  • 作者: Thanh Son Phung, Douglas Thain (University of Notre Dame)
  • 分类: cs.DC (Distributed Computing)
  • 发表时间: 2025年 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14024

摘要

生成式AI的兴起引入了一类新的HPC工作负载,将轻量级LLM与传统高吞吐量应用集成以加速科学发现。然而,当前HPC集群的设计无法充分支持这类新工作负载,要么在静态批处理队列中产生长等待时间,要么在资源抢占时反复承担昂贵的LLM启动成本。为了规避长队列和高启动成本,本文提出将LLM初始化上下文从实际LLM推理中"解耦",并在GPU中保留上下文直到不再需要,这一技术被称为"普遍上下文管理"(Pervasive Context Management)。通过对事实验证应用的改造,该技术使执行时间减少了72.1%(从3小时减少到48分钟),并能在集群32.8%的GPU上机会性扩展,进一步将执行时间减少到13分钟。

研究背景与动机

问题定义

随着大语言模型(LLM)技术的快速发展,一类新的HPC工作负载正在兴起,它将轻量级LLM推理(通常具有数十亿参数)集成到传统的高吞吐量应用中。这类应用在蛋白质折叠、分布式AI驱动的科学计算等领域展现出巨大潜力。

核心挑战

  1. 静态分配模型的局限性:传统的静态GPU分配模型需要独占固定大小的GPU批次,导致严重的队列等待时间和集群资源利用率不足
  2. 机会性分配的启动成本:虽然机会性资源分配可以利用动态可用的GPU资源,但LLM的启动过程(加载数十亿参数模型从分布式文件系统到本地磁盘、主机内存,最终到GPU内存)是I/O密集型的,可能需要数分钟时间
  3. 资源抢占的代价:当任务被抢占时,整个昂贵的启动过程必须在新资源上重新执行,经常导致启动成本超过实际计算时间

现有方法的不足

  • 自动扩缩容框架:基于主动原则设计,不适合被动的机会性HPC环境
  • 传统容错技术:如检查点机制只能保护计算进度,无法解决模型加载成本问题

核心贡献

  1. 提出了普遍上下文管理技术:将LLM初始化上下文提升为集群中的一等持久实体,实现跨多个任务的重用
  2. 实现了基于Parsl-TaskVine框架的高吞吐量事实验证应用:展示了轻量级LLM在分布式数据密集型框架中的应用
  3. 设计了快速应用转换方法:通过简单的代码重构使应用支持上下文感知
  4. 验证了显著的性能提升:在相同GPU数量下执行时间减少72.1%,并能机会性扩展到集群32.8%的GPU

方法详解

任务定义

本研究针对高吞吐量轻量级LLM推理应用,特别是需要在异构机会性GPU集群上执行大量独立推理任务的场景。输入为大量推理请求,输出为推理结果,约束条件包括GPU资源的动态可用性和不可预测的抢占。

核心架构:普遍上下文管理

1. 整体设计理念

普遍上下文管理的核心思想是将昂贵的LLM上下文初始化从实际推理执行中解耦,使上下文成为可在集群节点间持久化和重用的一等实体。

2. 技术实现框架

基于Parsl-TaskVine集成框架:

  • Parsl:提供Python原生并行库,允许用户通过通用Python函数表达计算需求
  • TaskVine:低级数据密集型工作流执行引擎,处理任务间关系和调度优化

3. 上下文管理机制

# 传统方式(上下文无关)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# 改进方式(上下文感知)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. 工作流程

  1. 上下文分析:调度器分析函数F的上下文需求
  2. 上下文创建:在工作节点上创建Library进程,负责上下文的物化和托管
  3. 上下文重用:后续任务直接使用已初始化的上下文执行推理
  4. 上下文传输:通过点对点传输在节点间共享上下文模板

技术创新点

  1. 上下文与计算的解耦:将模型加载和推理执行分离,使上下文可以跨任务重用
  2. 分布式上下文缓存:在GPU节点上持久化LLM上下文,避免重复初始化
  3. 智能调度策略:优先将任务调度到已有相应上下文的节点上
  4. 点对点上下文传输:新加入的GPU可以从其他节点直接获取上下文模板

实验设置

应用场景

事实验证应用(Prompt for Fact, PfF)

  • 目标:为给定LLM找到最优提示模板,用作事实验证器检查任意声明的正确性
  • 数据集:FEVER训练数据,包含145,449个声明,标签为SUPPORTED、REFUTED或NOT ENOUGH INFO
  • 模型:SmolLM2(17亿参数)

实验环境

本地集群配置

  • 总计567个GPU,18种不同型号
  • 资源管理器:Altair Grid Engine (AGE) + HTCondor
  • 存储:Panasas ActiveStor 16共享文件系统
  • 网络:支持84 Gbs/s读带宽和94k读IOPS

框架配置

  • 每个任务:2核心、10GB内存、20GB磁盘、1GPU
  • 每个工作节点:2核心、10GB内存、70GB磁盘、1GPU
  • 模型大小:3.7GB磁盘空间,7.4GB内存
  • 软件依赖:308个包,总计10.5GB

实验版本设计

  1. Context-agnostic:每个任务从共享文件系统重新加载所有数据和模型
  2. Partial-context:缓存输入数据到本地磁盘,但仍需重新创建GPU模型状态
  3. Full-context:完全启用普遍上下文管理,在GPU中缓存模型状态

实验结果

主要性能提升

RQ1: 静态资源上的应用性能

在20个GPU(10个NVIDIA A10 + 10个NVIDIA TITAN X Pascal)上的实验结果:

  • Context-agnostic: 10,400秒
  • Partial-context: 5,300秒(提升49.1%)
  • Full-context: 2,900秒(提升72.1%)

RQ2: 推理批次大小敏感性分析

Full-context版本在不同批次大小下的执行时间变化范围仅为13.6%,而Partial-context版本在批次大小为1时执行时间激增至141,100秒,显示出极高的敏感性。

RQ3: 激进资源抢占场景

在每分钟抢占1个GPU的激进场景下:

  • Partial-context: 完成46,000次推理
  • Full-context: 完成62,900次推理(多16,900次,提升36.7%)

RQ4: 机会性资源扩展

  • 低容量场景:从4个GPU扩展到20个GPU,5000秒内完成
  • 高容量场景:扩展到186个GPU(占集群32.8%),783秒内完成(相当于13分钟)

关键发现

  1. 启动成本的显著影响:传统方法中模型加载时间往往超过实际计算时间
  2. 上下文重用的价值:一次初始化可服务多个推理任务,大幅提升效率
  3. 异构环境的适应性:该方法在包含8种主要GPU型号的异构集群中表现良好
  4. 扩展性验证:成功在186个GPU上并发执行,展现出色的可扩展性

相关工作

Spot实例研究

云计算中的Spot实例提供类似的机会性计算模式,但通常提供30-120秒的抢占预警时间,而HPC环境中的抢占往往是瞬时的,传统状态保存机制无效。

LLM推理优化

现有研究主要集中在:

  • 推测解码:使用小模型预测tokens加速大模型推理
  • KV缓存管理:优化注意力机制的内存使用
  • 云端部署:利用本地存储缓存模型检查点

工作流系统

从传统资源管理器演进到现代Python原生工作流系统,本文的Parsl-TaskVine集成代表了支持计算上下文共享的新方向。

结论与讨论

主要结论

  1. 普遍上下文管理技术成功解决了轻量级LLM应用在机会性GPU集群上的效率问题
  2. 通过上下文与计算的解耦,实现了72.1%的执行时间减少
  3. 该方法显著降低了批次大小选择的复杂性,提高了系统的鲁棒性

局限性

  1. 模型规模限制:仅适用于单节点资源范围内的轻量级LLM
  2. 管理开销:上下文复制和缓存引入额外的管理成本
  3. 依赖性要求:效果依赖于管理开销显著低于冷启动成本

未来方向

  1. 支持更大规模的多节点LLM部署
  2. 优化上下文传输和缓存策略
  3. 扩展到其他类型的深度学习应用

深度评价

优点

  1. 问题识别准确:准确识别了LLM应用在HPC环境中的核心瓶颈
  2. 解决方案创新:上下文管理的概念新颖且实用
  3. 实验设计全面:从静态资源到动态抢占,覆盖多种实际场景
  4. 性能提升显著:72.1%的执行时间减少和32.8%集群GPU的机会性利用

不足

  1. 应用范围受限:仅适用于轻量级LLM,对大规模模型支持有限
  2. 理论分析不足:缺乏对最优批次大小和上下文管理策略的理论分析
  3. 通用性验证:仅在事实验证应用上验证,其他应用的适用性需要进一步验证

影响力

  1. 学术价值:为HPC环境中的AI工作负载管理提供了新思路
  2. 实用价值:直接适用于当前的科学计算场景
  3. 可复现性:基于开源框架实现,便于复现和扩展

适用场景

  1. 需要大量独立LLM推理的科学应用
  2. 资源动态变化的HPC环境
  3. 对启动延迟敏感的高吞吐量应用

参考文献

论文引用了61篇相关文献,涵盖了LLM技术、HPC调度、工作流系统等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇针对HPC环境中新兴AI工作负载的高质量研究论文。作者准确识别了实际问题,提出了创新的解决方案,并通过全面的实验验证了方法的有效性。虽然在适用范围和理论分析方面存在一定局限性,但为相关领域的研究和实践提供了有价值的贡献。