2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain

The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.

academic

Exécution efficace d'applications d'inférence LLM légères à haut débit sur des grappes GPU hétérogènes opportunistes avec gestion contextuelle omniprésente

Informations fondamentales

ID de l'article: 2510.14024
Titre: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Auteurs: Thanh Son Phung, Douglas Thain (Université de Notre Dame)
Classification: cs.DC (Informatique distribuée)
Date de publication: 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.14024

Résumé

L'émergence de l'IA générative a introduit une nouvelle classe de charges de travail HPC intégrant des modèles de langage légers (LLM) avec des applications traditionnelles à haut débit pour accélérer la découverte scientifique. Cependant, la conception actuelle des grappes HPC ne soutient pas adéquatement ces nouvelles charges de travail, produisant soit des temps d'attente prolongés dans les files d'attente de traitement par lots statiques, soit des coûts de démarrage LLM répétés et coûteux lors de la préemption des ressources. Pour éviter les longues files d'attente et les coûts de démarrage élevés, cet article propose de « découpler » le contexte d'initialisation LLM de l'inférence LLM réelle et de conserver le contexte dans le GPU jusqu'à ce qu'il ne soit plus nécessaire, une technique appelée « gestion contextuelle omniprésente » (Pervasive Context Management). Grâce à la refonte d'une application de vérification des faits, cette technique réduit le temps d'exécution de 72,1% (de 3 heures à 48 minutes) et peut s'étendre opportunément sur 32,8% des GPU de la grappe, réduisant davantage le temps d'exécution à 13 minutes.

Contexte et motivation de la recherche

Définition du problème

Avec le développement rapide de la technologie des modèles de langage de grande taille (LLM), une nouvelle classe de charges de travail HPC émerge, intégrant l'inférence LLM légère (généralement avec des milliards de paramètres) dans des applications traditionnelles à haut débit. Ces applications montrent un potentiel énorme dans des domaines tels que le repliement des protéines et le calcul scientifique distribué piloté par l'IA.

Défis fondamentaux

Limitations du modèle d'allocation statique: Le modèle traditionnel d'allocation statique de GPU nécessite l'occupation exclusive de lots de GPU de taille fixe, entraînant des temps d'attente en file d'attente graves et une utilisation insuffisante des ressources de la grappe
Coûts de démarrage de l'allocation opportuniste: Bien que l'allocation de ressources opportuniste puisse exploiter les ressources GPU dynamiquement disponibles, le processus de démarrage LLM (chargement de modèles avec des milliards de paramètres depuis le système de fichiers distribué vers le disque local, la mémoire hôte, et finalement la mémoire GPU) est intensif en E/S et peut nécessiter plusieurs minutes
Coût de la préemption des ressources: Lorsqu'une tâche est préemptée, l'ensemble du processus de démarrage coûteux doit être réexécuté sur les nouvelles ressources, entraînant souvent un coût de démarrage dépassant le temps de calcul réel

Insuffisances des approches existantes

Cadres d'auto-mise à l'échelle: Conçus selon des principes proactifs, inadaptés aux environnements HPC opportunistes passifs
Techniques de tolérance aux pannes traditionnelles: Les mécanismes de points de contrôle ne peuvent protéger que la progression du calcul, sans résoudre le problème du coût de chargement du modèle

Contributions principales

Proposition de la technique de gestion contextuelle omniprésente: Élévation du contexte d'initialisation LLM en entité persistante de première classe dans la grappe, permettant la réutilisation entre plusieurs tâches
Implémentation d'une application de vérification des faits à haut débit basée sur le cadre Parsl-TaskVine: Démonstration de l'application des LLM légers dans les cadres distribués intensifs en données
Conception d'une méthode de transformation d'application rapide: Refonte de code simple permettant aux applications de supporter la conscience contextuelle
Validation d'améliorations de performance significatives: Réduction du temps d'exécution de 72,1% avec le même nombre de GPU, avec extension opportuniste à 32,8% des GPU de la grappe

Explication détaillée de la méthode

Définition des tâches

Cette recherche cible les applications d'inférence LLM légères à haut débit, particulièrement les scénarios nécessitant l'exécution d'un grand nombre de tâches d'inférence indépendantes sur des grappes GPU hétérogènes opportunistes. L'entrée comprend un grand nombre de demandes d'inférence, la sortie les résultats d'inférence, avec des contraintes incluant la disponibilité dynamique des ressources GPU et la préemption imprévisible.

Architecture centrale: Gestion contextuelle omniprésente

1. Philosophie de conception globale

L'idée centrale de la gestion contextuelle omniprésente est de découpler l'initialisation contextuelle LLM coûteuse de l'exécution d'inférence réelle, rendant le contexte une entité de première classe pouvant être persistée et réutilisée entre les nœuds de la grappe.

2. Cadre de mise en œuvre technique

Basé sur l'intégration Parsl-TaskVine:

Parsl: Fournit une bibliothèque parallèle native Python, permettant aux utilisateurs d'exprimer les besoins de calcul via des fonctions Python génériques
TaskVine: Moteur d'exécution de flux de travail intensif en données de bas niveau, gérant les relations entre tâches et l'optimisation de la planification

3. Mécanisme de gestion contextuelle

# Approche traditionnelle (sans conscience contextuelle)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# Approche améliorée (avec conscience contextuelle)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. Flux de travail

Analyse contextuelle: Le planificateur analyse les besoins contextuels de la fonction F
Création contextuelle: Création d'un processus Library sur le nœud de travail, responsable de la matérialisation et de l'hébergement du contexte
Réutilisation contextuelle: Les tâches ultérieures exécutent directement l'inférence en utilisant le contexte déjà initialisé
Transfert contextuel: Partage du contexte entre nœuds via transmission point à point

Points d'innovation technique

Découplage entre contexte et calcul: Séparation du chargement du modèle et de l'exécution d'inférence, permettant la réutilisation contextuelle entre tâches
Cache contextuel distribué: Persistance du contexte LLM sur les nœuds GPU, évitant l'initialisation répétée
Stratégie de planification intelligente: Priorisation de la planification des tâches sur les nœuds disposant déjà du contexte correspondant
Transfert contextuel point à point: Les GPU nouvellement ajoutés peuvent acquérir directement le modèle contextuel d'autres nœuds

Configuration expérimentale

Scénario d'application

Application de vérification des faits (Prompt for Fact, PfF):

Objectif: Trouver le modèle d'invite optimal pour un LLM donné, utilisé comme vérificateur de faits pour vérifier l'exactitude de déclarations arbitraires
Ensemble de données: Données d'entraînement FEVER, contenant 145 449 déclarations étiquetées comme SUPPORTED, REFUTED ou NOT ENOUGH INFO
Modèle: SmolLM2 (1,7 milliard de paramètres)

Environnement expérimental

Configuration de grappe locale:

Total: 567 GPU, 18 modèles différents
Gestionnaire de ressources: Altair Grid Engine (AGE) + HTCondor
Stockage: Système de fichiers partagé Panasas ActiveStor 16
Réseau: Support de 84 Gbs/s de bande passante de lecture et 94k d'IOPS de lecture

Configuration du cadre:

Par tâche: 2 cœurs, 10 Go de mémoire, 20 Go de disque, 1 GPU
Par nœud de travail: 2 cœurs, 10 Go de mémoire, 70 Go de disque, 1 GPU
Taille du modèle: 3,7 Go d'espace disque, 7,4 Go de mémoire
Dépendances logicielles: 308 paquets, total 10,5 Go

Conception des versions expérimentales

Context-agnostic: Chaque tâche recharge toutes les données et le modèle depuis le système de fichiers partagé
Partial-context: Cache les données d'entrée sur le disque local, mais nécessite toujours la recréation de l'état du modèle GPU
Full-context: Activation complète de la gestion contextuelle omniprésente, cache l'état du modèle dans le GPU

Résultats expérimentaux

Améliorations de performance principales

RQ1: Performance des applications sur ressources statiques

Résultats expérimentaux sur 20 GPU (10 NVIDIA A10 + 10 NVIDIA TITAN X Pascal):

Context-agnostic: 10 400 secondes
Partial-context: 5 300 secondes (amélioration de 49,1%)
Full-context: 2 900 secondes (amélioration de 72,1%)

RQ2: Analyse de sensibilité à la taille des lots d'inférence

La version Full-context montre une variation du temps d'exécution de seulement 13,6% pour différentes tailles de lots, tandis que la version Partial-context voit le temps d'exécution augmenter à 141 100 secondes avec une taille de lot de 1, démontrant une sensibilité extrême.

RQ3: Scénario de préemption agressive des ressources

Sous un scénario agressif de préemption d'1 GPU par minute:

Partial-context: Complète 46 000 inférences
Full-context: Complète 62 900 inférences (16 900 de plus, amélioration de 36,7%)

RQ4: Extension des ressources opportunistes

Scénario de faible capacité: Extension de 4 à 20 GPU, achèvement en 5 000 secondes
Scénario de haute capacité: Extension à 186 GPU (32,8% de la grappe), achèvement en 783 secondes (équivalent à 13 minutes)

Découvertes clés

Impact significatif du coût de démarrage: Dans les méthodes traditionnelles, le temps de chargement du modèle dépasse souvent le temps de calcul réel
Valeur de la réutilisation contextuelle: Une seule initialisation peut servir plusieurs tâches d'inférence, améliorant considérablement l'efficacité
Adaptabilité à l'environnement hétérogène: La méthode fonctionne bien dans une grappe hétérogène contenant 8 principaux types de GPU
Vérification de l'extensibilité: Exécution concurrente réussie sur 186 GPU, démontrant une excellente scalabilité

Travaux connexes

Recherche sur les instances Spot

Les instances Spot du cloud computing offrent un modèle de calcul opportuniste similaire, mais fournissent généralement 30-120 secondes d'avertissement de préemption, tandis que la préemption dans les environnements HPC est souvent instantanée, rendant les mécanismes de sauvegarde d'état traditionnels inefficaces.

Optimisation de l'inférence LLM

La recherche existante se concentre principalement sur:

Décodage spéculatif: Utilisation de petits modèles pour prédire les tokens et accélérer l'inférence des grands modèles
Gestion du cache KV: Optimisation de l'utilisation de la mémoire du mécanisme d'attention
Déploiement cloud: Utilisation du cache de stockage local pour les points de contrôle du modèle

Systèmes de flux de travail

Évolution des gestionnaires de ressources traditionnels vers les systèmes de flux de travail modernes natifs Python, l'intégration Parsl-TaskVine de cet article représente une nouvelle direction supportant le partage de contexte de calcul.

Conclusion et discussion

Conclusions principales

La technique de gestion contextuelle omniprésente résout avec succès le problème d'efficacité des applications LLM légères sur les grappes GPU opportunistes
Grâce au découplage entre contexte et calcul, une réduction du temps d'exécution de 72,1% est réalisée
La méthode réduit considérablement la complexité de la sélection de la taille des lots et améliore la robustesse du système

Limitations

Limitation de la taille du modèle: Applicable uniquement aux LLM légers dans la portée des ressources d'un seul nœud
Surcharge de gestion: La réplication et la mise en cache du contexte introduisent une surcharge de gestion supplémentaire
Exigences de dépendance: L'efficacité dépend de la surcharge de gestion étant significativement inférieure au coût du démarrage à froid

Directions futures

Support des déploiements LLM multi-nœuds à plus grande échelle
Optimisation des stratégies de transfert et de mise en cache du contexte
Extension à d'autres types d'applications d'apprentissage profond

Évaluation approfondie

Avantages

Identification précise du problème: Identification précise du goulot d'étranglement fondamental des applications LLM dans les environnements HPC
Solution innovante: Le concept de gestion contextuelle est novateur et pratique
Conception expérimentale complète: Couverture de multiples scénarios réels, des ressources statiques à la préemption dynamique
Amélioration de performance significative: Réduction du temps d'exécution de 72,1% et utilisation opportuniste de 32,8% des GPU de la grappe

Insuffisances

Portée d'application limitée: Applicable uniquement aux LLM légers, support limité pour les modèles à grande échelle
Analyse théorique insuffisante: Manque d'analyse théorique sur la taille optimale des lots et les stratégies de gestion contextuelle
Vérification de la généralité: Vérification uniquement sur l'application de vérification des faits, l'applicabilité à d'autres applications nécessite une vérification supplémentaire

Impact

Valeur académique: Fournit une nouvelle perspective pour la gestion des charges de travail IA dans les environnements HPC
Valeur pratique: Directement applicable aux scénarios de calcul scientifique actuels
Reproductibilité: Implémentation basée sur des cadres open-source, facilitant la reproduction et l'extension

Scénarios applicables

Applications scientifiques nécessitant un grand nombre d'inférences LLM indépendantes
Environnements HPC avec ressources dynamiquement variables
Applications à haut débit sensibles aux délais de démarrage

Références

L'article cite 61 références connexes, couvrant plusieurs domaines incluant la technologie LLM, la planification HPC et les systèmes de flux de travail, fournissant une base théorique solide pour la recherche.

Évaluation globale: Ceci est un article de recherche de haute qualité ciblant les charges de travail IA émergentes dans les environnements HPC. Les auteurs identifient précisément les problèmes pratiques, proposent une solution innovante et valident l'efficacité de la méthode par des expériences complètes. Bien qu'il existe certaines limitations dans la portée d'application et l'analyse théorique, l'article fournit des contributions précieuses à la recherche et à la pratique dans les domaines connexes.