2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain

The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.

academic

異種機会的GPUクラスタ上での軽量LLM推論アプリケーションの高スループット実行：普遍的コンテキスト管理による効率化

基本情報

論文ID: 2510.14024
タイトル: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
著者: Thanh Son Phung, Douglas Thain (ノートルダム大学)
分類: cs.DC (分散コンピューティング)
発表時期: 2025年 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.14024

概要

生成型AIの台頭により、軽量LLMと従来の高スループットアプリケーションを統合して科学発見を加速する新しいHPCワークロードが出現している。しかし、現在のHPCクラスタ設計は、静的バッチ処理キューにおける長い待機時間、またはリソース抢奪時の高額なLLM起動コストの繰り返しという問題を十分に解決できていない。長いキューと高い起動コストを回避するため、本論文ではLLM初期化コンテキストを実際のLLM推論から「分離」し、不要になるまでGPUにコンテキストを保持する技術を提案する。この技術は「普遍的コンテキスト管理」(Pervasive Context Management)と呼ばれている。事実検証アプリケーションの改造を通じて、この技術は実行時間を72.1%削減（3時間から48分に短縮）し、クラスタの32.8%のGPUで機会的スケーリングが可能になり、実行時間をさらに13分に短縮できることを示した。

研究背景と動機

問題定義

大規模言語モデル(LLM)技術の急速な発展に伴い、軽量LLM推論（通常は数十億パラメータ）を従来の高スループットアプリケーションに統合する新しいHPCワークロードが出現している。このようなアプリケーションはタンパク質折り畳み、分散AI駆動型科学計算などの分野で大きな可能性を示している。

中核的課題

静的割り当てモデルの限界：従来の静的GPU割り当てモデルは固定サイズのGPUバッチの独占を必要とし、深刻なキュー待機時間とクラスタリソース利用率の不足を招く
機会的割り当ての起動コスト：機会的リソース割り当てはGPUリソースの動的可用性を活用できるが、LLMの起動プロセス（数十億パラメータモデルを分散ファイルシステムからローカルディスク、ホストメモリを経由してGPUメモリへ読み込む）はI/O集約的であり、数分間を要する可能性がある
リソース抢奪のコスト：タスクが抢奪されると、昂い起動プロセス全体を新しいリソース上で再実行する必要があり、起動コストが実際の計算時間を超えることが多い

既存手法の不足

自動スケーリングフレームワーク：能動的原則に基づいて設計されており、受動的な機会的HPC環境には適さない
従来のフォールトトレランス技術：チェックポイント機構などは計算進捗のみを保護でき、モデル読み込みコストの問題は解決できない

中核的貢献

普遍的コンテキスト管理技術の提案：LLM初期化コンテキストをクラスタ内の第一級の永続実体として昇格させ、複数のタスク間での再利用を実現
Parsl-TaskVineフレームワークに基づく高スループット事実検証アプリケーションの実装：分散データ集約型フレームワークにおける軽量LLMの応用を実証
高速アプリケーション変換方法の設計：簡単なコード再構成を通じてアプリケーションがコンテキスト認識に対応
顕著なパフォーマンス向上の検証：同じGPU数で実行時間を72.1%削減し、クラスタの32.8%のGPUへの機会的スケーリングが可能

方法の詳細

タスク定義

本研究は、異種機会的GPUクラスタ上で実行する必要がある大量の独立推論タスクを対象とした高スループット軽量LLM推論アプリケーションに焦点を当てている。入力は大量の推論リクエスト、出力は推論結果であり、制約条件にはGPUリソースの動的可用性と予測不可能な抢奪が含まれる。

中核アーキテクチャ：普遍的コンテキスト管理

1. 全体的設計理念

普遍的コンテキスト管理の中核的思想は、昂い LLMコンテキスト初期化を実際の推論実行から分離し、コンテキストをクラスタノード間で永続化および再利用可能な第一級実体にすることである。

2. 技術実装フレームワーク

Parsl-TaskVine統合フレームワークに基づく：

Parsl：Python原生並列ライブラリを提供し、ユーザーが通用的なPython関数を通じて計算要件を表現可能
TaskVine：低レベルデータ集約型ワークフロー実行エンジン、タスク間関係とスケジューリング最適化を処理

3. コンテキスト管理機構

# 従来の方法（コンテキスト非依存）
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# 改善方法（コンテキスト認識）
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. ワークフロー

コンテキスト分析：スケジューラが関数Fのコンテキスト要件を分析
コンテキスト作成：ワーカーノード上にLibraryプロセスを作成し、コンテキストの物質化とホスティングを担当
コンテキスト再利用：後続タスクは初期化済みコンテキストを直接使用して推論を実行
コンテキスト転送：ピアツーピア転送を通じてノード間でコンテキストテンプレートを共有

技術的革新点

コンテキストと計算の分離：モデル読み込みと推論実行を分離し、コンテキストをタスク間で再利用可能に
分散コンテキストキャッシュ：GPUノード上にLLMコンテキストを永続化し、重複初期化を回避
インテリジェントスケジューリング戦略：対応するコンテキストを持つノードへのタスク割り当てを優先化
ピアツーピアコンテキスト転送：新しく追加されたGPUは他のノードからコンテキストテンプレートを直接取得可能

実験設定

アプリケーションシナリオ

事実検証アプリケーション（Prompt for Fact, PfF）：

目的：与えられたLLMの最適プロンプトテンプレートを見つけ、任意の主張の正確性を検証するファクトチェッカーとして使用
データセット：FEVER訓練データ、145,449個の主張を含み、SUPPORTED、REFUTED、またはNOT ENOUGH INFOでラベル付け
モデル：SmolLM2（17億パラメータ）

実験環境

ローカルクラスタ構成：

合計567個のGPU、18種類の異なるモデル
リソース管理器：Altair Grid Engine (AGE) + HTCondor
ストレージ：Panasas ActiveStor 16共有ファイルシステム
ネットワーク：84 Gbs/s読み取り帯域幅と94k読み取りIOPSをサポート

フレームワーク構成：

各タスク：2コア、10GBメモリ、20GBディスク、1GPU
各ワーカーノード：2コア、10GBメモリ、70GBディスク、1GPU
モデルサイズ：3.7GBディスク空間、7.4GBメモリ
ソフトウェア依存関係：308パッケージ、合計10.5GB

実験バージョン設計

Context-agnostic：各タスクが共有ファイルシステムからすべてのデータとモデルを再読み込み
Partial-context：入力データをローカルディスクにキャッシュするが、GPUモデル状態の再作成が必要
Full-context：普遍的コンテキスト管理を完全に有効化し、GPUにモデル状態をキャッシュ

実験結果

主要なパフォーマンス向上

RQ1: 静的リソース上のアプリケーションパフォーマンス

20個のGPU（10個のNVIDIA A10 + 10個のNVIDIA TITAN X Pascal）上の実験結果：

Context-agnostic: 10,400秒
Partial-context: 5,300秒（49.1%改善）
Full-context: 2,900秒（72.1%改善）

RQ2: 推論バッチサイズ感度分析

Full-contextバージョンは異なるバッチサイズ下での実行時間変化が13.6%の範囲内に留まるのに対し、Partial-contextバージョンはバッチサイズが1の場合に実行時間が141,100秒に急増し、極めて高い感度を示す。

RQ3: 積極的リソース抢奪シナリオ

1分ごとに1個のGPUを抢奪する積極的シナリオ下：

Partial-context: 46,000回の推論を完了
Full-context: 62,900回の推論を完了（16,900回多く、36.7%改善）

RQ4: 機会的リソーススケーリング

低容量シナリオ：4個のGPUから20個のGPUへスケーリング、5000秒以内に完了
高容量シナリオ：186個のGPU（クラスタの32.8%）へスケーリング、783秒以内に完了（13分相当）

主要な発見

起動コストの顕著な影響：従来の方法ではモデル読み込み時間がしばしば実際の計算時間を超える
コンテキスト再利用の価値：1回の初期化が複数の推論タスクにサービスを提供でき、効率を大幅に向上
異種環境への適応性：この方法は8種類の主要GPUモデルを含む異種クラスタで良好に動作
スケーラビリティの検証：186個のGPU上での並行実行に成功し、優れたスケーラビリティを実証

結論と考察

主要な結論

普遍的コンテキスト管理技術は、機会的GPUクラスタ上の軽量LLMアプリケーションの効率問題を成功裏に解決
コンテキストと計算の分離を通じて、72.1%の実行時間削減を実現
この方法はバッチサイズ選択の複雑性を大幅に低減し、システムのロバスト性を向上

限界

モデルスケール制限：単一ノードリソース範囲内の軽量LLMのみに適用可能
管理オーバーヘッド：コンテキスト複製とキャッシュは追加の管理コストを導入
依存性要件：効果は管理オーバーヘッドがコールドスタートコストを大幅に下回ることに依存

将来の方向性

より大規模なマルチノードLLM展開のサポート
コンテキスト転送とキャッシュ戦略の最適化
他の種類の深層学習アプリケーションへの拡張

深層評価

利点

問題識別の正確性：HPC環境におけるLLMアプリケーションの中核的ボトルネックを正確に識別
ソリューションの革新性：コンテキスト管理の概念は新規かつ実用的
実験設計の包括性：静的リソースから動的抢奪まで、複数の実際のシナリオをカバー
パフォーマンス向上の顕著性：72.1%の実行時間削減とクラスタGPUの32.8%の機会的利用

不足

アプリケーション範囲の制限：軽量LLMのみに適用可能で、大規模モデルへのサポートは限定的
理論分析の不足：最適バッチサイズとコンテキスト管理戦略に関する理論分析が不足
汎用性検証の不足：事実検証アプリケーションのみで検証され、他のアプリケーションの適用可能性は要検証

影響力

学術的価値：HPC環境におけるAIワークロード管理に新しい視点を提供
実用的価値：現在の科学計算シナリオに直接適用可能
再現性：オープンソースフレームワークに基づいて実装され、再現と拡張が容易

適用シナリオ

大量の独立LLM推論が必要な科学アプリケーション
リソースが動的に変化するHPC環境
起動遅延に敏感な高スループットアプリケーション

参考文献

論文は61篇の関連文献を引用しており、LLM技術、HPCスケジューリング、ワークフローシステムなど複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供している。

総合評価：これはHPC環境における新興AIワークロードに対応した高品質な研究論文である。著者は実際の問題を正確に識別し、革新的なソリューションを提案し、包括的な実験を通じて方法の有効性を検証している。適用範囲と理論分析の面で一定の限界があるものの、関連分野の研究と実践に価値のある貢献を提供している。