Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic
Exécution efficace d'applications d'inférence LLM légères à haut débit sur des grappes GPU hétérogènes opportunistes avec gestion contextuelle omniprésente
L'émergence de l'IA générative a introduit une nouvelle classe de charges de travail HPC intégrant des modèles de langage légers (LLM) avec des applications traditionnelles à haut débit pour accélérer la découverte scientifique. Cependant, la conception actuelle des grappes HPC ne soutient pas adéquatement ces nouvelles charges de travail, produisant soit des temps d'attente prolongés dans les files d'attente de traitement par lots statiques, soit des coûts de démarrage LLM répétés et coûteux lors de la préemption des ressources. Pour éviter les longues files d'attente et les coûts de démarrage élevés, cet article propose de « découpler » le contexte d'initialisation LLM de l'inférence LLM réelle et de conserver le contexte dans le GPU jusqu'à ce qu'il ne soit plus nécessaire, une technique appelée « gestion contextuelle omniprésente » (Pervasive Context Management). Grâce à la refonte d'une application de vérification des faits, cette technique réduit le temps d'exécution de 72,1% (de 3 heures à 48 minutes) et peut s'étendre opportunément sur 32,8% des GPU de la grappe, réduisant davantage le temps d'exécution à 13 minutes.
Avec le développement rapide de la technologie des modèles de langage de grande taille (LLM), une nouvelle classe de charges de travail HPC émerge, intégrant l'inférence LLM légère (généralement avec des milliards de paramètres) dans des applications traditionnelles à haut débit. Ces applications montrent un potentiel énorme dans des domaines tels que le repliement des protéines et le calcul scientifique distribué piloté par l'IA.
Limitations du modèle d'allocation statique: Le modèle traditionnel d'allocation statique de GPU nécessite l'occupation exclusive de lots de GPU de taille fixe, entraînant des temps d'attente en file d'attente graves et une utilisation insuffisante des ressources de la grappe
Coûts de démarrage de l'allocation opportuniste: Bien que l'allocation de ressources opportuniste puisse exploiter les ressources GPU dynamiquement disponibles, le processus de démarrage LLM (chargement de modèles avec des milliards de paramètres depuis le système de fichiers distribué vers le disque local, la mémoire hôte, et finalement la mémoire GPU) est intensif en E/S et peut nécessiter plusieurs minutes
Coût de la préemption des ressources: Lorsqu'une tâche est préemptée, l'ensemble du processus de démarrage coûteux doit être réexécuté sur les nouvelles ressources, entraînant souvent un coût de démarrage dépassant le temps de calcul réel
Cadres d'auto-mise à l'échelle: Conçus selon des principes proactifs, inadaptés aux environnements HPC opportunistes passifs
Techniques de tolérance aux pannes traditionnelles: Les mécanismes de points de contrôle ne peuvent protéger que la progression du calcul, sans résoudre le problème du coût de chargement du modèle
Proposition de la technique de gestion contextuelle omniprésente: Élévation du contexte d'initialisation LLM en entité persistante de première classe dans la grappe, permettant la réutilisation entre plusieurs tâches
Implémentation d'une application de vérification des faits à haut débit basée sur le cadre Parsl-TaskVine: Démonstration de l'application des LLM légers dans les cadres distribués intensifs en données
Conception d'une méthode de transformation d'application rapide: Refonte de code simple permettant aux applications de supporter la conscience contextuelle
Validation d'améliorations de performance significatives: Réduction du temps d'exécution de 72,1% avec le même nombre de GPU, avec extension opportuniste à 32,8% des GPU de la grappe
Cette recherche cible les applications d'inférence LLM légères à haut débit, particulièrement les scénarios nécessitant l'exécution d'un grand nombre de tâches d'inférence indépendantes sur des grappes GPU hétérogènes opportunistes. L'entrée comprend un grand nombre de demandes d'inférence, la sortie les résultats d'inférence, avec des contraintes incluant la disponibilité dynamique des ressources GPU et la préemption imprévisible.
L'idée centrale de la gestion contextuelle omniprésente est de découpler l'initialisation contextuelle LLM coûteuse de l'exécution d'inférence réelle, rendant le contexte une entité de première classe pouvant être persistée et réutilisée entre les nœuds de la grappe.
Parsl: Fournit une bibliothèque parallèle native Python, permettant aux utilisateurs d'exprimer les besoins de calcul via des fonctions Python génériques
TaskVine: Moteur d'exécution de flux de travail intensif en données de bas niveau, gérant les relations entre tâches et l'optimisation de la planification
Découplage entre contexte et calcul: Séparation du chargement du modèle et de l'exécution d'inférence, permettant la réutilisation contextuelle entre tâches
Cache contextuel distribué: Persistance du contexte LLM sur les nœuds GPU, évitant l'initialisation répétée
Stratégie de planification intelligente: Priorisation de la planification des tâches sur les nœuds disposant déjà du contexte correspondant
Transfert contextuel point à point: Les GPU nouvellement ajoutés peuvent acquérir directement le modèle contextuel d'autres nœuds
Application de vérification des faits (Prompt for Fact, PfF):
Objectif: Trouver le modèle d'invite optimal pour un LLM donné, utilisé comme vérificateur de faits pour vérifier l'exactitude de déclarations arbitraires
Ensemble de données: Données d'entraînement FEVER, contenant 145 449 déclarations étiquetées comme SUPPORTED, REFUTED ou NOT ENOUGH INFO
La version Full-context montre une variation du temps d'exécution de seulement 13,6% pour différentes tailles de lots, tandis que la version Partial-context voit le temps d'exécution augmenter à 141 100 secondes avec une taille de lot de 1, démontrant une sensibilité extrême.
Les instances Spot du cloud computing offrent un modèle de calcul opportuniste similaire, mais fournissent généralement 30-120 secondes d'avertissement de préemption, tandis que la préemption dans les environnements HPC est souvent instantanée, rendant les mécanismes de sauvegarde d'état traditionnels inefficaces.
Évolution des gestionnaires de ressources traditionnels vers les systèmes de flux de travail modernes natifs Python, l'intégration Parsl-TaskVine de cet article représente une nouvelle direction supportant le partage de contexte de calcul.
La technique de gestion contextuelle omniprésente résout avec succès le problème d'efficacité des applications LLM légères sur les grappes GPU opportunistes
Grâce au découplage entre contexte et calcul, une réduction du temps d'exécution de 72,1% est réalisée
La méthode réduit considérablement la complexité de la sélection de la taille des lots et améliore la robustesse du système
Portée d'application limitée: Applicable uniquement aux LLM légers, support limité pour les modèles à grande échelle
Analyse théorique insuffisante: Manque d'analyse théorique sur la taille optimale des lots et les stratégies de gestion contextuelle
Vérification de la généralité: Vérification uniquement sur l'application de vérification des faits, l'applicabilité à d'autres applications nécessite une vérification supplémentaire
L'article cite 61 références connexes, couvrant plusieurs domaines incluant la technologie LLM, la planification HPC et les systèmes de flux de travail, fournissant une base théorique solide pour la recherche.
Évaluation globale: Ceci est un article de recherche de haute qualité ciblant les charges de travail IA émergentes dans les environnements HPC. Les auteurs identifient précisément les problèmes pratiques, proposent une solution innovante et valident l'efficacité de la méthode par des expériences complètes. Bien qu'il existe certaines limitations dans la portée d'application et l'analyse théorique, l'article fournit des contributions précieuses à la recherche et à la pratique dans les domaines connexes.