2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic

Эффективное выполнение высокопроизводительных приложений легковесного вывода LLM на гетерогенных оппортунистических GPU-кластерах с всеобъемлющим управлением контекстом

Основная информация

  • ID статьи: 2510.14024
  • Название: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
  • Авторы: Thanh Son Phung, Douglas Thain (Университет Нотр-Дама)
  • Категория: cs.DC (Распределённые вычисления)
  • Дата публикации: 2025 (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.14024

Аннотация

Развитие генеративного ИИ привело к появлению нового класса HPC-рабочих нагрузок, интегрирующих легковесные LLM с традиционными высокопроизводительными приложениями для ускорения научных открытий. Однако текущая архитектура HPC-кластеров неадекватно поддерживает такие рабочие нагрузки, приводя либо к длительному времени ожидания в статических очередях пакетной обработки, либо к повторяющимся дорогостоящим затратам на запуск LLM при перехвате ресурсов. Для преодоления этих проблем в работе предлагается "развязать" инициализацию контекста LLM от фактического вывода LLM и сохранять контекст на GPU до момента, когда он больше не требуется. Эта техника называется "всеобъемлющее управление контекстом" (Pervasive Context Management). На примере приложения проверки фактов эта техника сокращает время выполнения на 72,1% (с 3 часов до 48 минут) и позволяет оппортунистически масштабироваться на 32,8% GPU кластера, дополнительно сокращая время выполнения до 13 минут.

Исследовательский контекст и мотивация

Определение проблемы

С быстрым развитием технологии больших языковых моделей (LLM) возникает новый класс HPC-рабочих нагрузок, интегрирующих легковесный вывод LLM (обычно с миллиардами параметров) в традиционные высокопроизводительные приложения. Такие приложения демонстрируют огромный потенциал в областях предсказания структуры белков, распределённых AI-ориентированных научных вычислений и других.

Основные вызовы

  1. Ограничения статической модели распределения: Традиционная модель статического распределения GPU требует исключительного владения фиксированным размером GPU-батча, что приводит к серьёзному времени ожидания в очереди и недостаточной утилизации ресурсов кластера
  2. Стоимость запуска при оппортунистическом распределении: Хотя оппортунистическое распределение ресурсов может использовать динамически доступные GPU-ресурсы, процесс запуска LLM (загрузка модели с миллиардами параметров из распределённой файловой системы на локальный диск, оперативную память хоста и, наконец, на GPU-память) является I/O-интенсивным и может занимать несколько минут
  3. Стоимость перехвата ресурсов: Когда задача перехватывается, весь дорогостоящий процесс запуска должен быть переповторён на новых ресурсах, что часто приводит к тому, что стоимость запуска превышает время фактических вычислений

Недостатки существующих подходов

  • Фреймворки автоматического масштабирования: Разработаны на основе активных принципов, не подходят для пассивной оппортунистической HPC-среды
  • Традиционные техники отказоустойчивости: Такие как механизмы контрольных точек, могут защитить только прогресс вычислений, но не решают проблему стоимости загрузки модели

Основные вклады

  1. Предложена техника всеобъемлющего управления контекстом: Повышение инициализации контекста LLM до статуса первоклассной постоянной сущности в кластере, обеспечивающей переиспользование между несколькими задачами
  2. Реализовано высокопроизводительное приложение проверки фактов на основе фреймворка Parsl-TaskVine: Демонстрация применения легковесных LLM в распределённых фреймворках, интенсивных по данным
  3. Разработан метод быстрого преобразования приложений: Простая рефакторизация кода для поддержки контекстной осведомлённости приложениями
  4. Подтверждено значительное повышение производительности: Сокращение времени выполнения на 72,1% при том же количестве GPU и оппортунистическое масштабирование на 32,8% GPU кластера

Подробное описание методологии

Определение задачи

Данное исследование сосредоточено на высокопроизводительных приложениях легковесного вывода LLM, особенно на сценариях, требующих выполнения большого количества независимых задач вывода на гетерогенных оппортунистических GPU-кластерах. Входные данные представляют собой большое количество запросов вывода, выходные данные — результаты вывода, ограничения включают динамическую доступность GPU-ресурсов и непредсказуемый перехват.

Основная архитектура: всеобъемлющее управление контекстом

1. Общая концепция проектирования

Основная идея всеобъемлющего управления контекстом заключается в развязывании дорогостоящей инициализации контекста LLM от фактического выполнения вывода, превращая контекст в первоклассную сущность, которая может быть сохранена и переиспользована между узлами кластера.

2. Фреймворк технической реализации

На основе интеграции Parsl-TaskVine:

  • Parsl: Предоставляет нативную для Python параллельную библиотеку, позволяющую пользователям выражать вычислительные требования через обычные функции Python
  • TaskVine: Низкоуровневый механизм выполнения рабочих процессов, интенсивных по данным, обрабатывающий отношения между задачами и оптимизацию планирования

3. Механизм управления контекстом

# Традиционный подход (контекст-независимый)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# Улучшенный подход (контекст-осведомлённый)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. Рабочий процесс

  1. Анализ контекста: Планировщик анализирует требования контекста функции F
  2. Создание контекста: На рабочем узле создаётся процесс Library, отвечающий за материализацию и управление контекстом
  3. Переиспользование контекста: Последующие задачи напрямую используют инициализированный контекст для выполнения вывода
  4. Передача контекста: Контекст совместно используется между узлами посредством точка-в-точка передачи

Технические инновации

  1. Развязывание контекста и вычислений: Разделение загрузки модели и выполнения вывода, позволяющее переиспользование контекста между задачами
  2. Распределённое кэширование контекста: Сохранение контекста LLM на GPU-узлах, избегая повторной инициализации
  3. Интеллектуальная стратегия планирования: Приоритизация планирования задач на узлы с соответствующим контекстом
  4. Точка-в-точка передача контекста: Вновь присоединяющиеся GPU могут получить шаблон контекста непосредственно от других узлов

Экспериментальная установка

Сценарий приложения

Приложение проверки фактов (Prompt for Fact, PfF):

  • Цель: Найти оптимальный шаблон подсказки для заданного LLM, используемый в качестве верификатора фактов для проверки правильности произвольных утверждений
  • Набор данных: Тренировочные данные FEVER, содержащие 145 449 утверждений с метками SUPPORTED, REFUTED или NOT ENOUGH INFO
  • Модель: SmolLM2 (1,7 миллиарда параметров)

Экспериментальная среда

Конфигурация локального кластера:

  • Всего 567 GPU, 18 различных моделей
  • Менеджер ресурсов: Altair Grid Engine (AGE) + HTCondor
  • Хранилище: Panasas ActiveStor 16 общей файловой системы
  • Сеть: Поддержка пропускной способности чтения 84 Гбит/с и 94k операций чтения в секунду

Конфигурация фреймворка:

  • Каждая задача: 2 ядра, 10 ГБ памяти, 20 ГБ диска, 1 GPU
  • Каждый рабочий узел: 2 ядра, 10 ГБ памяти, 70 ГБ диска, 1 GPU
  • Размер модели: 3,7 ГБ дискового пространства, 7,4 ГБ памяти
  • Программные зависимости: 308 пакетов, всего 10,5 ГБ

Дизайн экспериментальных версий

  1. Context-agnostic: Каждая задача перезагружает все данные и модель из общей файловой системы
  2. Partial-context: Кэширует входные данные на локальный диск, но всё ещё требует пересоздания состояния модели на GPU
  3. Full-context: Полностью включает всеобъемлющее управление контекстом, кэшируя состояние модели на GPU

Результаты экспериментов

Основные улучшения производительности

RQ1: Производительность приложения на статических ресурсах

Результаты экспериментов на 20 GPU (10 NVIDIA A10 + 10 NVIDIA TITAN X Pascal):

  • Context-agnostic: 10 400 секунд
  • Partial-context: 5 300 секунд (улучшение на 49,1%)
  • Full-context: 2 900 секунд (улучшение на 72,1%)

RQ2: Анализ чувствительности к размеру пакета вывода

Версия Full-context показывает изменение времени выполнения только на 13,6% при различных размерах пакета, тогда как версия Partial-context при размере пакета 1 показывает скачок времени выполнения до 141 100 секунд, демонстрируя экстремальную чувствительность.

RQ3: Сценарий агрессивного перехвата ресурсов

При агрессивном сценарии с перехватом 1 GPU в минуту:

  • Partial-context: Завершено 46 000 операций вывода
  • Full-context: Завершено 62 900 операций вывода (на 16 900 больше, улучшение на 36,7%)

RQ4: Оппортунистическое масштабирование ресурсов

  • Сценарий низкой ёмкости: Масштабирование с 4 GPU на 20 GPU, завершение за 5 000 секунд
  • Сценарий высокой ёмкости: Масштабирование на 186 GPU (32,8% кластера), завершение за 783 секунды (эквивалентно 13 минутам)

Ключевые выводы

  1. Значительное влияние стоимости запуска: В традиционных методах время загрузки модели часто превышает время фактических вычислений
  2. Ценность переиспользования контекста: Одна инициализация может обслуживать несколько задач вывода, значительно повышая эффективность
  3. Адаптивность к гетерогенной среде: Метод хорошо работает в гетерогенном кластере, содержащем 8 основных типов GPU
  4. Проверка масштабируемости: Успешное одновременное выполнение на 186 GPU, демонстрирующее отличную масштабируемость

Связанные работы

Исследования Spot-экземпляров

Spot-экземпляры облачных вычислений предоставляют аналогичный оппортунистический режим вычислений, но обычно обеспечивают 30-120 секунд предупреждения о перехвате, тогда как перехват в HPC-среде часто происходит мгновенно, делая традиционные механизмы сохранения состояния неэффективными.

Оптимизация вывода LLM

Существующие исследования сосредоточены на:

  • Спекулятивном декодировании: Использование малых моделей для предсказания токенов с целью ускорения вывода больших моделей
  • Управлении KV-кэшем: Оптимизация использования памяти для механизма внимания
  • Облачном развёртывании: Использование локального хранилища для кэширования контрольных точек модели

Системы рабочих процессов

Эволюция от традиционных менеджеров ресурсов к современным нативным для Python системам рабочих процессов, интеграция Parsl-TaskVine в данной работе представляет новое направление в поддержке совместного использования вычислительного контекста.

Заключение и обсуждение

Основные выводы

  1. Техника всеобъемлющего управления контекстом успешно решает проблему эффективности приложений легковесного LLM на оппортунистических GPU-кластерах
  2. Посредством развязывания контекста и вычислений достигается сокращение времени выполнения на 72,1%
  3. Метод значительно снижает сложность выбора размера пакета, повышая надёжность системы

Ограничения

  1. Ограничения по размеру модели: Применимо только к легковесным LLM в пределах ресурсов одного узла
  2. Управленческие издержки: Копирование и кэширование контекста вводят дополнительные управленческие затраты
  3. Требования зависимостей: Эффективность зависит от того, что управленческие издержки значительно ниже стоимости холодного запуска

Направления будущих исследований

  1. Поддержка развёртывания LLM большего масштаба на нескольких узлах
  2. Оптимизация стратегий передачи и кэширования контекста
  3. Расширение на другие типы приложений глубокого обучения

Глубокая оценка

Преимущества

  1. Точное выявление проблемы: Точное определение основного узкого места приложений LLM в HPC-среде
  2. Инновационное решение: Концепция управления контекстом новаторская и практичная
  3. Комплексный дизайн экспериментов: Охватывает множество реальных сценариев от статических ресурсов до динамического перехвата
  4. Значительное повышение производительности: Сокращение времени выполнения на 72,1% и оппортунистическое использование 32,8% GPU кластера

Недостатки

  1. Ограниченный диапазон приложений: Применимо только к легковесным LLM, поддержка крупномасштабных моделей ограничена
  2. Недостаточный теоретический анализ: Отсутствует теоретический анализ оптимального размера пакета и стратегий управления контекстом
  3. Ограниченная проверка универсальности: Проверено только на приложении проверки фактов, применимость к другим приложениям требует дальнейшей проверки

Влияние

  1. Академическая ценность: Предоставляет новый подход к управлению AI-рабочими нагрузками в HPC-среде
  2. Практическая ценность: Непосредственно применимо к текущим сценариям научных вычислений
  3. Воспроизводимость: Реализовано на основе открытого исходного кода, удобно для воспроизведения и расширения

Применимые сценарии

  1. Научные приложения, требующие большого количества независимых операций вывода LLM
  2. HPC-среды с динамически изменяющимися ресурсами
  3. Высокопроизводительные приложения, чувствительные к задержкам запуска

Библиография

Статья цитирует 61 связанную работу, охватывающую важные исследования в нескольких областях, включая технологию LLM, планирование HPC и системы рабочих процессов, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная исследовательская работа, адресующая новые AI-рабочие нагрузки в HPC-среде. Авторы точно выявили практическую проблему, предложили инновационное решение и подтвердили эффективность метода посредством комплексных экспериментов. Хотя существуют определённые ограничения в диапазоне применения и теоретическом анализе, работа предоставляет ценный вклад в исследования и практику в соответствующих областях.