2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain

The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.

academic

Effiziente Ausführung von hochdurchsatzfähigen leichtgewichtigen LLM-Inferenzanwendungen auf heterogenen opportunistischen GPU-Clustern mit durchdringender Kontextmanagement

Grundinformationen

Papier-ID: 2510.14024
Titel: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Autoren: Thanh Son Phung, Douglas Thain (University of Notre Dame)
Klassifikation: cs.DC (Verteiltes Rechnen)
Veröffentlichungsdatum: 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.14024

Zusammenfassung

Der Aufstieg generativer KI hat eine neue Klasse von HPC-Workloads eingeführt, die leichtgewichtige LLMs mit traditionellen hochdurchsatzfähigen Anwendungen integrieren, um wissenschaftliche Entdeckungen zu beschleunigen. Allerdings sind die aktuellen HPC-Cluster-Designs nicht ausreichend für diese neuen Workloads ausgelegt und führen entweder zu langen Wartezeiten in statischen Batch-Warteschlangen oder zu wiederholten kostspieligen LLM-Startkosten bei Ressourcenraub. Um lange Warteschlangen und hohe Startkosten zu vermeiden, wird in diesem Papier die Entkopplung der LLM-Initialisierungskontexte vom eigentlichen LLM-Inferenzprozess vorgeschlagen und der Kontext in der GPU beibehalten, bis er nicht mehr benötigt wird – eine Technik namens „Pervasive Context Management" (durchdringendes Kontextmanagement). Durch die Umgestaltung einer Faktencheckanwendung reduziert diese Technik die Ausführungszeit um 72,1% (von 3 Stunden auf 48 Minuten) und ermöglicht opportunistische Skalierung auf 32,8% der GPUs des Clusters, wodurch die Ausführungszeit weiter auf 13 Minuten reduziert wird.

Forschungshintergrund und Motivation

Problemdefinition

Mit der rasanten Entwicklung der Large Language Model (LLM)-Technologie entsteht eine neue Klasse von HPC-Workloads, die leichtgewichtige LLM-Inferenz (typischerweise mit Milliarden von Parametern) in traditionelle hochdurchsatzfähige Anwendungen integriert. Solche Anwendungen zeigen großes Potenzial in Bereichen wie Proteinstrukturvorhersage und verteilter KI-gestützter wissenschaftlicher Berechnung.

Kernherausforderungen

Einschränkungen des statischen Allokationsmodells: Das traditionelle statische GPU-Allokationsmodell erfordert exklusive Zuordnung von GPU-Batches fester Größe, was zu erheblichen Warteschlangenverzögerungen und unzureichender Clusterressourcennutzung führt
Startkosten bei opportunistischer Allokation: Obwohl opportunistische Ressourcenallokation dynamisch verfügbare GPU-Ressourcen nutzen kann, ist der LLM-Startprozess (Laden von Milliarden-Parameter-Modellen vom verteilten Dateisystem auf lokale Festplatte, Host-Speicher und schließlich GPU-Speicher) I/O-intensiv und kann mehrere Minuten dauern
Kosten der Ressourcenraub: Wenn eine Aufgabe unterbrochen wird, muss der gesamte teure Startprozess auf neuen Ressourcen erneut ausgeführt werden, was häufig zu Startkosten führt, die die tatsächliche Rechenzeit übersteigen

Unzulänglichkeiten bestehender Ansätze

Automatische Skalierungsframeworks: Basierend auf proaktiven Prinzipien konzipiert, nicht geeignet für passive opportunistische HPC-Umgebungen
Traditionelle Fehlertoleranzverfahren: Wie Checkpoint-Mechanismen können nur Rechenfortschritt schützen, nicht aber Modellladungskosten lösen

Kernbeiträge

Vorschlag der Pervasive Context Management-Technik: Erhebung der LLM-Initialisierungskontexte zu erstklassigen persistenten Entitäten im Cluster, die über mehrere Aufgaben hinweg wiederverwendet werden können
Implementierung einer hochdurchsatzfähigen Faktencheckanwendung basierend auf dem Parsl-TaskVine-Framework: Demonstration der Anwendung leichtgewichtiger LLMs in verteilten datenintensiven Frameworks
Entwurf einer schnellen Anwendungstransformationsmethode: Ermöglichung der Kontextbewusstseinsunterstützung durch einfache Code-Umstrukturierung
Validierung signifikanter Leistungsverbesserungen: 72,1% Reduktion der Ausführungszeit bei gleicher GPU-Anzahl und opportunistische Skalierung auf 32,8% der Cluster-GPUs

Methodische Details

Aufgabendefinition

Diese Forschung zielt auf hochdurchsatzfähige leichtgewichtige LLM-Inferenzanwendungen ab, insbesondere Szenarien, in denen eine große Anzahl unabhängiger Inferenzaufgaben auf heterogenen opportunistischen GPU-Clustern ausgeführt werden muss. Die Eingabe besteht aus einer großen Anzahl von Inferenzanfragen, die Ausgabe aus Inferenzergebnissen, mit Einschränkungen wie dynamischer GPU-Ressourcenverfügbarkeit und unvorhersehbarem Ressourcenraub.

Kernarchitektur: Pervasive Context Management

1. Gesamtdesignkonzept

Die Kernidee des Pervasive Context Management besteht darin, die teure LLM-Kontextinitialisierung vom eigentlichen Inferenzausführungsprozess zu entkoppeln, wodurch der Kontext zu einer erstklassigen Entität wird, die über Cluster-Knoten hinweg persistiert und wiederverwendet werden kann.

2. Technisches Implementierungs-Framework

Basierend auf der Parsl-TaskVine-Integrations-Framework:

Parsl: Bietet Python-native Parallelbibliotheken, die es Benutzern ermöglichen, Rechenanforderungen durch allgemeine Python-Funktionen auszudrücken
TaskVine: Low-Level-Datenintensives Workflow-Ausführungsmodul, das Aufgabenbeziehungen und Planungsoptimierungen verwaltet

3. Kontextmanagement-Mechanismus

# Traditionelle Methode (kontextunabhängig)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# Verbesserte Methode (kontextbewusst)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. Arbeitsablauf

Kontextanalyse: Der Scheduler analysiert die Kontextanforderungen der Funktion F
Kontexterstellung: Ein Library-Prozess wird auf dem Arbeitsknoten erstellt, der für die Kontextmaterialisierung und das Hosting verantwortlich ist
Kontextwiederverwendung: Nachfolgende Aufgaben führen die Inferenz direkt mit dem bereits initialisierten Kontext aus
Kontextübertragung: Kontextvorlagen werden durch Punkt-zu-Punkt-Übertragung zwischen Knoten gemeinsam genutzt

Technische Innovationen

Entkopplung von Kontext und Berechnung: Trennung von Modellladung und Inferenzausführung, wodurch der Kontext über Aufgaben hinweg wiederverwendet werden kann
Verteilter Kontext-Cache: Persistierung von LLM-Kontexten auf GPU-Knoten, Vermeidung wiederholter Initialisierung
Intelligente Planungsstrategie: Priorisierung der Aufgabenplanung auf Knoten mit bereits vorhandenem entsprechenden Kontext
Punkt-zu-Punkt-Kontextübertragung: Neu hinzugefügte GPUs können Kontextvorlagen direkt von anderen Knoten abrufen

Experimentelle Einrichtung

Anwendungsszenario

Faktencheckanwendung (Prompt for Fact, PfF):

Ziel: Optimale Prompt-Vorlage für ein gegebenes LLM finden, die als Faktenchecker zur Überprüfung beliebiger Aussagen verwendet wird
Datensatz: FEVER-Trainingsdaten mit 145.449 Aussagen, gekennzeichnet als SUPPORTED, REFUTED oder NOT ENOUGH INFO
Modell: SmolLM2 (1,7 Milliarden Parameter)

Experimentelle Umgebung

Lokale Cluster-Konfiguration:

Insgesamt 567 GPUs, 18 verschiedene Modelle
Ressourcen-Manager: Altair Grid Engine (AGE) + HTCondor
Speicher: Panasas ActiveStor 16 gemeinsames Dateisystem
Netzwerk: Unterstützt 84 Gbs/s Lesebandbreite und 94k Lese-IOPS

Framework-Konfiguration:

Pro Aufgabe: 2 Kerne, 10 GB Speicher, 20 GB Festplatte, 1 GPU
Pro Arbeitsknoten: 2 Kerne, 10 GB Speicher, 70 GB Festplatte, 1 GPU
Modellgröße: 3,7 GB Festplattenspeicher, 7,4 GB Speicher
Software-Abhängigkeiten: 308 Pakete, insgesamt 10,5 GB

Experimentelle Versionsgestaltung

Context-agnostic: Jede Aufgabe lädt alle Daten und Modelle neu vom gemeinsamen Dateisystem
Partial-context: Caching von Eingabedaten auf lokale Festplatte, aber GPU-Modellzustand muss noch neu erstellt werden
Full-context: Vollständige Aktivierung des Pervasive Context Management mit Modellzustand-Caching in der GPU

Experimentelle Ergebnisse

Hauptleistungsverbesserungen

RQ1: Anwendungsleistung auf statischen Ressourcen

Experimentelle Ergebnisse auf 20 GPUs (10 NVIDIA A10 + 10 NVIDIA TITAN X Pascal):

Context-agnostic: 10.400 Sekunden
Partial-context: 5.300 Sekunden (49,1% Verbesserung)
Full-context: 2.900 Sekunden (72,1% Verbesserung)

RQ2: Sensitivitätsanalyse der Inferenz-Batch-Größe

Die Full-context-Version zeigt nur eine Variationsbreite von 13,6% bei verschiedenen Batch-Größen, während die Partial-context-Version bei Batch-Größe 1 zu einer Ausführungszeitexplosion auf 141.100 Sekunden führt, was extreme Sensitivität zeigt.

RQ3: Aggressives Ressourcenraub-Szenario

Bei aggressivem Szenario mit 1 GPU-Raub pro Minute:

Partial-context: 46.000 Inferenzen abgeschlossen
Full-context: 62.900 Inferenzen abgeschlossen (16.900 mehr, 36,7% Verbesserung)

RQ4: Opportunistische Ressourcenskalierung

Niedriges Kapazitätsszenario: Skalierung von 4 auf 20 GPUs, innerhalb von 5000 Sekunden abgeschlossen
Hohes Kapazitätsszenario: Skalierung auf 186 GPUs (32,8% des Clusters), innerhalb von 783 Sekunden abgeschlossen (entspricht 13 Minuten)

Wichtigste Erkenntnisse

Signifikanter Einfluss der Startkosten: In traditionellen Methoden übersteigt die Modellladungszeit häufig die tatsächliche Rechenzeit
Wert der Kontextwiederverwendung: Eine einmalige Initialisierung kann mehrere Inferenzaufgaben bedienen und die Effizienz erheblich verbessern
Anpassungsfähigkeit an heterogene Umgebungen: Die Methode funktioniert gut in heterogenen Clustern mit 8 Haupt-GPU-Typen
Skalierungsvalidierung: Erfolgreiche gleichzeitige Ausführung auf 186 GPUs mit ausgezeichneter Skalierbarkeit

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Die Pervasive Context Management-Technik löst erfolgreich das Effizienzproblem leichtgewichtiger LLM-Anwendungen auf opportunistischen GPU-Clustern
Durch die Entkopplung von Kontext und Berechnung wird eine 72,1%ige Reduktion der Ausführungszeit erreicht
Die Methode reduziert erheblich die Komplexität der Batch-Größenauswahl und erhöht die Systemrobustheit

Einschränkungen

Modellgrößenbeschränkungen: Nur für leichtgewichtige LLMs im Bereich von Einzelknotenressourcen geeignet
Verwaltungsaufwand: Kontext-Replikation und Caching führen zusätzliche Verwaltungskosten ein
Abhängigkeitsanforderungen: Die Wirksamkeit hängt davon ab, dass der Verwaltungsaufwand deutlich unter den Kaltstart-Kosten liegt

Zukünftige Richtungen

Unterstützung für größere Multi-Knoten-LLM-Bereitstellungen
Optimierung von Kontextübertragungs- und Cache-Strategien
Erweiterung auf andere Arten von Deep-Learning-Anwendungen

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Präzise Identifikation des Kernengpasses von LLM-Anwendungen in HPC-Umgebungen
Innovative Lösung: Das Konzept des Kontextmanagements ist neuartig und praktisch
Umfassende Experimentgestaltung: Abdeckung mehrerer realistischer Szenarien von statischen Ressourcen bis zu dynamischem Raub
Signifikante Leistungsverbesserung: 72,1% Ausführungszeitreduktion und opportunistische Nutzung von 32,8% der Cluster-GPUs

Schwächen

Begrenzte Anwendungsreichweite: Nur für leichtgewichtige LLMs geeignet, begrenzte Unterstützung für großflächige Modelle
Unzureichende theoretische Analyse: Mangel an theoretischer Analyse optimaler Batch-Größen und Kontextmanagement-Strategien
Begrenzte Universalitätsvalidierung: Validierung nur bei Faktencheckanwendung, Anwendbarkeit auf andere Anwendungen erfordert weitere Verifikation

Auswirkungen

Akademischer Wert: Bietet neue Perspektiven für das Management von KI-Workloads in HPC-Umgebungen
Praktischer Wert: Direkt anwendbar auf aktuelle wissenschaftliche Rechenszenarios
Reproduzierbarkeit: Implementiert auf Basis von Open-Source-Frameworks, leicht zu reproduzieren und zu erweitern

Anwendbare Szenarien

Wissenschaftliche Anwendungen, die große Mengen unabhängiger LLM-Inferenzen erfordern
HPC-Umgebungen mit dynamisch wechselnden Ressourcen
Hochdurchsatzanwendungen, die empfindlich auf Startverzögerungen reagieren

Referenzen

Das Papier zitiert 61 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie LLM-Technologie, HPC-Planung und Workflow-Systemen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sich mit neu entstehenden KI-Workloads in HPC-Umgebungen befasst. Die Autoren identifizieren das praktische Problem genau, schlagen eine innovative Lösung vor und validieren die Wirksamkeit der Methode durch umfassende Experimente. Obwohl es in Bezug auf Anwendungsbereich und theoretische Analyse gewisse Einschränkungen gibt, leistet es wertvolle Beiträge zu Forschung und Praxis in verwandten Bereichen.