Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic
Effiziente Ausführung von hochdurchsatzfähigen leichtgewichtigen LLM-Inferenzanwendungen auf heterogenen opportunistischen GPU-Clustern mit durchdringender Kontextmanagement
Der Aufstieg generativer KI hat eine neue Klasse von HPC-Workloads eingeführt, die leichtgewichtige LLMs mit traditionellen hochdurchsatzfähigen Anwendungen integrieren, um wissenschaftliche Entdeckungen zu beschleunigen. Allerdings sind die aktuellen HPC-Cluster-Designs nicht ausreichend für diese neuen Workloads ausgelegt und führen entweder zu langen Wartezeiten in statischen Batch-Warteschlangen oder zu wiederholten kostspieligen LLM-Startkosten bei Ressourcenraub. Um lange Warteschlangen und hohe Startkosten zu vermeiden, wird in diesem Papier die Entkopplung der LLM-Initialisierungskontexte vom eigentlichen LLM-Inferenzprozess vorgeschlagen und der Kontext in der GPU beibehalten, bis er nicht mehr benötigt wird – eine Technik namens „Pervasive Context Management" (durchdringendes Kontextmanagement). Durch die Umgestaltung einer Faktencheckanwendung reduziert diese Technik die Ausführungszeit um 72,1% (von 3 Stunden auf 48 Minuten) und ermöglicht opportunistische Skalierung auf 32,8% der GPUs des Clusters, wodurch die Ausführungszeit weiter auf 13 Minuten reduziert wird.
Mit der rasanten Entwicklung der Large Language Model (LLM)-Technologie entsteht eine neue Klasse von HPC-Workloads, die leichtgewichtige LLM-Inferenz (typischerweise mit Milliarden von Parametern) in traditionelle hochdurchsatzfähige Anwendungen integriert. Solche Anwendungen zeigen großes Potenzial in Bereichen wie Proteinstrukturvorhersage und verteilter KI-gestützter wissenschaftlicher Berechnung.
Einschränkungen des statischen Allokationsmodells: Das traditionelle statische GPU-Allokationsmodell erfordert exklusive Zuordnung von GPU-Batches fester Größe, was zu erheblichen Warteschlangenverzögerungen und unzureichender Clusterressourcennutzung führt
Startkosten bei opportunistischer Allokation: Obwohl opportunistische Ressourcenallokation dynamisch verfügbare GPU-Ressourcen nutzen kann, ist der LLM-Startprozess (Laden von Milliarden-Parameter-Modellen vom verteilten Dateisystem auf lokale Festplatte, Host-Speicher und schließlich GPU-Speicher) I/O-intensiv und kann mehrere Minuten dauern
Kosten der Ressourcenraub: Wenn eine Aufgabe unterbrochen wird, muss der gesamte teure Startprozess auf neuen Ressourcen erneut ausgeführt werden, was häufig zu Startkosten führt, die die tatsächliche Rechenzeit übersteigen
Vorschlag der Pervasive Context Management-Technik: Erhebung der LLM-Initialisierungskontexte zu erstklassigen persistenten Entitäten im Cluster, die über mehrere Aufgaben hinweg wiederverwendet werden können
Implementierung einer hochdurchsatzfähigen Faktencheckanwendung basierend auf dem Parsl-TaskVine-Framework: Demonstration der Anwendung leichtgewichtiger LLMs in verteilten datenintensiven Frameworks
Entwurf einer schnellen Anwendungstransformationsmethode: Ermöglichung der Kontextbewusstseinsunterstützung durch einfache Code-Umstrukturierung
Validierung signifikanter Leistungsverbesserungen: 72,1% Reduktion der Ausführungszeit bei gleicher GPU-Anzahl und opportunistische Skalierung auf 32,8% der Cluster-GPUs
Diese Forschung zielt auf hochdurchsatzfähige leichtgewichtige LLM-Inferenzanwendungen ab, insbesondere Szenarien, in denen eine große Anzahl unabhängiger Inferenzaufgaben auf heterogenen opportunistischen GPU-Clustern ausgeführt werden muss. Die Eingabe besteht aus einer großen Anzahl von Inferenzanfragen, die Ausgabe aus Inferenzergebnissen, mit Einschränkungen wie dynamischer GPU-Ressourcenverfügbarkeit und unvorhersehbarem Ressourcenraub.
Die Kernidee des Pervasive Context Management besteht darin, die teure LLM-Kontextinitialisierung vom eigentlichen Inferenzausführungsprozess zu entkoppeln, wodurch der Kontext zu einer erstklassigen Entität wird, die über Cluster-Knoten hinweg persistiert und wiederverwendet werden kann.
Entkopplung von Kontext und Berechnung: Trennung von Modellladung und Inferenzausführung, wodurch der Kontext über Aufgaben hinweg wiederverwendet werden kann
Verteilter Kontext-Cache: Persistierung von LLM-Kontexten auf GPU-Knoten, Vermeidung wiederholter Initialisierung
Intelligente Planungsstrategie: Priorisierung der Aufgabenplanung auf Knoten mit bereits vorhandenem entsprechenden Kontext
Punkt-zu-Punkt-Kontextübertragung: Neu hinzugefügte GPUs können Kontextvorlagen direkt von anderen Knoten abrufen
Die Full-context-Version zeigt nur eine Variationsbreite von 13,6% bei verschiedenen Batch-Größen, während die Partial-context-Version bei Batch-Größe 1 zu einer Ausführungszeitexplosion auf 141.100 Sekunden führt, was extreme Sensitivität zeigt.
Spot-Instanzen in Cloud-Computing bieten ähnliche opportunistische Rechenmodi, bieten aber typischerweise 30-120 Sekunden Raub-Vorwarnzeit, während Raub in HPC-Umgebungen oft augenblicklich erfolgt und traditionelle Zustandssicherungsmechanismen unwirksam sind.
Entwicklung von traditionellen Ressourcen-Managern zu modernen Python-nativen Workflow-Systemen; die Parsl-TaskVine-Integration in diesem Papier stellt eine neue Richtung dar, die die Kontextfreigabe zwischen Berechnungen unterstützt.
Das Papier zitiert 61 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie LLM-Technologie, HPC-Planung und Workflow-Systemen abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sich mit neu entstehenden KI-Workloads in HPC-Umgebungen befasst. Die Autoren identifizieren das praktische Problem genau, schlagen eine innovative Lösung vor und validieren die Wirksamkeit der Methode durch umfassende Experimente. Obwohl es in Bezug auf Anwendungsbereich und theoretische Analyse gewisse Einschränkungen gibt, leistet es wertvolle Beiträge zu Forschung und Praxis in verwandten Bereichen.