2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic

Effiziente Ausführung von hochdurchsatzfähigen leichtgewichtigen LLM-Inferenzanwendungen auf heterogenen opportunistischen GPU-Clustern mit durchdringender Kontextmanagement

Grundinformationen

  • Papier-ID: 2510.14024
  • Titel: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
  • Autoren: Thanh Son Phung, Douglas Thain (University of Notre Dame)
  • Klassifikation: cs.DC (Verteiltes Rechnen)
  • Veröffentlichungsdatum: 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.14024

Zusammenfassung

Der Aufstieg generativer KI hat eine neue Klasse von HPC-Workloads eingeführt, die leichtgewichtige LLMs mit traditionellen hochdurchsatzfähigen Anwendungen integrieren, um wissenschaftliche Entdeckungen zu beschleunigen. Allerdings sind die aktuellen HPC-Cluster-Designs nicht ausreichend für diese neuen Workloads ausgelegt und führen entweder zu langen Wartezeiten in statischen Batch-Warteschlangen oder zu wiederholten kostspieligen LLM-Startkosten bei Ressourcenraub. Um lange Warteschlangen und hohe Startkosten zu vermeiden, wird in diesem Papier die Entkopplung der LLM-Initialisierungskontexte vom eigentlichen LLM-Inferenzprozess vorgeschlagen und der Kontext in der GPU beibehalten, bis er nicht mehr benötigt wird – eine Technik namens „Pervasive Context Management" (durchdringendes Kontextmanagement). Durch die Umgestaltung einer Faktencheckanwendung reduziert diese Technik die Ausführungszeit um 72,1% (von 3 Stunden auf 48 Minuten) und ermöglicht opportunistische Skalierung auf 32,8% der GPUs des Clusters, wodurch die Ausführungszeit weiter auf 13 Minuten reduziert wird.

Forschungshintergrund und Motivation

Problemdefinition

Mit der rasanten Entwicklung der Large Language Model (LLM)-Technologie entsteht eine neue Klasse von HPC-Workloads, die leichtgewichtige LLM-Inferenz (typischerweise mit Milliarden von Parametern) in traditionelle hochdurchsatzfähige Anwendungen integriert. Solche Anwendungen zeigen großes Potenzial in Bereichen wie Proteinstrukturvorhersage und verteilter KI-gestützter wissenschaftlicher Berechnung.

Kernherausforderungen

  1. Einschränkungen des statischen Allokationsmodells: Das traditionelle statische GPU-Allokationsmodell erfordert exklusive Zuordnung von GPU-Batches fester Größe, was zu erheblichen Warteschlangenverzögerungen und unzureichender Clusterressourcennutzung führt
  2. Startkosten bei opportunistischer Allokation: Obwohl opportunistische Ressourcenallokation dynamisch verfügbare GPU-Ressourcen nutzen kann, ist der LLM-Startprozess (Laden von Milliarden-Parameter-Modellen vom verteilten Dateisystem auf lokale Festplatte, Host-Speicher und schließlich GPU-Speicher) I/O-intensiv und kann mehrere Minuten dauern
  3. Kosten der Ressourcenraub: Wenn eine Aufgabe unterbrochen wird, muss der gesamte teure Startprozess auf neuen Ressourcen erneut ausgeführt werden, was häufig zu Startkosten führt, die die tatsächliche Rechenzeit übersteigen

Unzulänglichkeiten bestehender Ansätze

  • Automatische Skalierungsframeworks: Basierend auf proaktiven Prinzipien konzipiert, nicht geeignet für passive opportunistische HPC-Umgebungen
  • Traditionelle Fehlertoleranzverfahren: Wie Checkpoint-Mechanismen können nur Rechenfortschritt schützen, nicht aber Modellladungskosten lösen

Kernbeiträge

  1. Vorschlag der Pervasive Context Management-Technik: Erhebung der LLM-Initialisierungskontexte zu erstklassigen persistenten Entitäten im Cluster, die über mehrere Aufgaben hinweg wiederverwendet werden können
  2. Implementierung einer hochdurchsatzfähigen Faktencheckanwendung basierend auf dem Parsl-TaskVine-Framework: Demonstration der Anwendung leichtgewichtiger LLMs in verteilten datenintensiven Frameworks
  3. Entwurf einer schnellen Anwendungstransformationsmethode: Ermöglichung der Kontextbewusstseinsunterstützung durch einfache Code-Umstrukturierung
  4. Validierung signifikanter Leistungsverbesserungen: 72,1% Reduktion der Ausführungszeit bei gleicher GPU-Anzahl und opportunistische Skalierung auf 32,8% der Cluster-GPUs

Methodische Details

Aufgabendefinition

Diese Forschung zielt auf hochdurchsatzfähige leichtgewichtige LLM-Inferenzanwendungen ab, insbesondere Szenarien, in denen eine große Anzahl unabhängiger Inferenzaufgaben auf heterogenen opportunistischen GPU-Clustern ausgeführt werden muss. Die Eingabe besteht aus einer großen Anzahl von Inferenzanfragen, die Ausgabe aus Inferenzergebnissen, mit Einschränkungen wie dynamischer GPU-Ressourcenverfügbarkeit und unvorhersehbarem Ressourcenraub.

Kernarchitektur: Pervasive Context Management

1. Gesamtdesignkonzept

Die Kernidee des Pervasive Context Management besteht darin, die teure LLM-Kontextinitialisierung vom eigentlichen Inferenzausführungsprozess zu entkoppeln, wodurch der Kontext zu einer erstklassigen Entität wird, die über Cluster-Knoten hinweg persistiert und wiederverwendet werden kann.

2. Technisches Implementierungs-Framework

Basierend auf der Parsl-TaskVine-Integrations-Framework:

  • Parsl: Bietet Python-native Parallelbibliotheken, die es Benutzern ermöglichen, Rechenanforderungen durch allgemeine Python-Funktionen auszudrücken
  • TaskVine: Low-Level-Datenintensives Workflow-Ausführungsmodul, das Aufgabenbeziehungen und Planungsoptimierungen verwaltet

3. Kontextmanagement-Mechanismus

# Traditionelle Methode (kontextunabhängig)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# Verbesserte Methode (kontextbewusst)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. Arbeitsablauf

  1. Kontextanalyse: Der Scheduler analysiert die Kontextanforderungen der Funktion F
  2. Kontexterstellung: Ein Library-Prozess wird auf dem Arbeitsknoten erstellt, der für die Kontextmaterialisierung und das Hosting verantwortlich ist
  3. Kontextwiederverwendung: Nachfolgende Aufgaben führen die Inferenz direkt mit dem bereits initialisierten Kontext aus
  4. Kontextübertragung: Kontextvorlagen werden durch Punkt-zu-Punkt-Übertragung zwischen Knoten gemeinsam genutzt

Technische Innovationen

  1. Entkopplung von Kontext und Berechnung: Trennung von Modellladung und Inferenzausführung, wodurch der Kontext über Aufgaben hinweg wiederverwendet werden kann
  2. Verteilter Kontext-Cache: Persistierung von LLM-Kontexten auf GPU-Knoten, Vermeidung wiederholter Initialisierung
  3. Intelligente Planungsstrategie: Priorisierung der Aufgabenplanung auf Knoten mit bereits vorhandenem entsprechenden Kontext
  4. Punkt-zu-Punkt-Kontextübertragung: Neu hinzugefügte GPUs können Kontextvorlagen direkt von anderen Knoten abrufen

Experimentelle Einrichtung

Anwendungsszenario

Faktencheckanwendung (Prompt for Fact, PfF):

  • Ziel: Optimale Prompt-Vorlage für ein gegebenes LLM finden, die als Faktenchecker zur Überprüfung beliebiger Aussagen verwendet wird
  • Datensatz: FEVER-Trainingsdaten mit 145.449 Aussagen, gekennzeichnet als SUPPORTED, REFUTED oder NOT ENOUGH INFO
  • Modell: SmolLM2 (1,7 Milliarden Parameter)

Experimentelle Umgebung

Lokale Cluster-Konfiguration:

  • Insgesamt 567 GPUs, 18 verschiedene Modelle
  • Ressourcen-Manager: Altair Grid Engine (AGE) + HTCondor
  • Speicher: Panasas ActiveStor 16 gemeinsames Dateisystem
  • Netzwerk: Unterstützt 84 Gbs/s Lesebandbreite und 94k Lese-IOPS

Framework-Konfiguration:

  • Pro Aufgabe: 2 Kerne, 10 GB Speicher, 20 GB Festplatte, 1 GPU
  • Pro Arbeitsknoten: 2 Kerne, 10 GB Speicher, 70 GB Festplatte, 1 GPU
  • Modellgröße: 3,7 GB Festplattenspeicher, 7,4 GB Speicher
  • Software-Abhängigkeiten: 308 Pakete, insgesamt 10,5 GB

Experimentelle Versionsgestaltung

  1. Context-agnostic: Jede Aufgabe lädt alle Daten und Modelle neu vom gemeinsamen Dateisystem
  2. Partial-context: Caching von Eingabedaten auf lokale Festplatte, aber GPU-Modellzustand muss noch neu erstellt werden
  3. Full-context: Vollständige Aktivierung des Pervasive Context Management mit Modellzustand-Caching in der GPU

Experimentelle Ergebnisse

Hauptleistungsverbesserungen

RQ1: Anwendungsleistung auf statischen Ressourcen

Experimentelle Ergebnisse auf 20 GPUs (10 NVIDIA A10 + 10 NVIDIA TITAN X Pascal):

  • Context-agnostic: 10.400 Sekunden
  • Partial-context: 5.300 Sekunden (49,1% Verbesserung)
  • Full-context: 2.900 Sekunden (72,1% Verbesserung)

RQ2: Sensitivitätsanalyse der Inferenz-Batch-Größe

Die Full-context-Version zeigt nur eine Variationsbreite von 13,6% bei verschiedenen Batch-Größen, während die Partial-context-Version bei Batch-Größe 1 zu einer Ausführungszeitexplosion auf 141.100 Sekunden führt, was extreme Sensitivität zeigt.

RQ3: Aggressives Ressourcenraub-Szenario

Bei aggressivem Szenario mit 1 GPU-Raub pro Minute:

  • Partial-context: 46.000 Inferenzen abgeschlossen
  • Full-context: 62.900 Inferenzen abgeschlossen (16.900 mehr, 36,7% Verbesserung)

RQ4: Opportunistische Ressourcenskalierung

  • Niedriges Kapazitätsszenario: Skalierung von 4 auf 20 GPUs, innerhalb von 5000 Sekunden abgeschlossen
  • Hohes Kapazitätsszenario: Skalierung auf 186 GPUs (32,8% des Clusters), innerhalb von 783 Sekunden abgeschlossen (entspricht 13 Minuten)

Wichtigste Erkenntnisse

  1. Signifikanter Einfluss der Startkosten: In traditionellen Methoden übersteigt die Modellladungszeit häufig die tatsächliche Rechenzeit
  2. Wert der Kontextwiederverwendung: Eine einmalige Initialisierung kann mehrere Inferenzaufgaben bedienen und die Effizienz erheblich verbessern
  3. Anpassungsfähigkeit an heterogene Umgebungen: Die Methode funktioniert gut in heterogenen Clustern mit 8 Haupt-GPU-Typen
  4. Skalierungsvalidierung: Erfolgreiche gleichzeitige Ausführung auf 186 GPUs mit ausgezeichneter Skalierbarkeit

Verwandte Arbeiten

Spot-Instanz-Forschung

Spot-Instanzen in Cloud-Computing bieten ähnliche opportunistische Rechenmodi, bieten aber typischerweise 30-120 Sekunden Raub-Vorwarnzeit, während Raub in HPC-Umgebungen oft augenblicklich erfolgt und traditionelle Zustandssicherungsmechanismen unwirksam sind.

LLM-Inferenz-Optimierung

Bestehende Forschung konzentriert sich hauptsächlich auf:

  • Spekulative Dekodierung: Verwendung kleiner Modelle zur Token-Vorhersage zur Beschleunigung großer Modell-Inferenz
  • KV-Cache-Verwaltung: Optimierung der Speichernutzung des Aufmerksamkeitsmechanismus
  • Cloud-Bereitstellung: Nutzung lokaler Speicher zum Caching von Modell-Checkpoints

Workflow-Systeme

Entwicklung von traditionellen Ressourcen-Managern zu modernen Python-nativen Workflow-Systemen; die Parsl-TaskVine-Integration in diesem Papier stellt eine neue Richtung dar, die die Kontextfreigabe zwischen Berechnungen unterstützt.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Die Pervasive Context Management-Technik löst erfolgreich das Effizienzproblem leichtgewichtiger LLM-Anwendungen auf opportunistischen GPU-Clustern
  2. Durch die Entkopplung von Kontext und Berechnung wird eine 72,1%ige Reduktion der Ausführungszeit erreicht
  3. Die Methode reduziert erheblich die Komplexität der Batch-Größenauswahl und erhöht die Systemrobustheit

Einschränkungen

  1. Modellgrößenbeschränkungen: Nur für leichtgewichtige LLMs im Bereich von Einzelknotenressourcen geeignet
  2. Verwaltungsaufwand: Kontext-Replikation und Caching führen zusätzliche Verwaltungskosten ein
  3. Abhängigkeitsanforderungen: Die Wirksamkeit hängt davon ab, dass der Verwaltungsaufwand deutlich unter den Kaltstart-Kosten liegt

Zukünftige Richtungen

  1. Unterstützung für größere Multi-Knoten-LLM-Bereitstellungen
  2. Optimierung von Kontextübertragungs- und Cache-Strategien
  3. Erweiterung auf andere Arten von Deep-Learning-Anwendungen

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemidentifikation: Präzise Identifikation des Kernengpasses von LLM-Anwendungen in HPC-Umgebungen
  2. Innovative Lösung: Das Konzept des Kontextmanagements ist neuartig und praktisch
  3. Umfassende Experimentgestaltung: Abdeckung mehrerer realistischer Szenarien von statischen Ressourcen bis zu dynamischem Raub
  4. Signifikante Leistungsverbesserung: 72,1% Ausführungszeitreduktion und opportunistische Nutzung von 32,8% der Cluster-GPUs

Schwächen

  1. Begrenzte Anwendungsreichweite: Nur für leichtgewichtige LLMs geeignet, begrenzte Unterstützung für großflächige Modelle
  2. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse optimaler Batch-Größen und Kontextmanagement-Strategien
  3. Begrenzte Universalitätsvalidierung: Validierung nur bei Faktencheckanwendung, Anwendbarkeit auf andere Anwendungen erfordert weitere Verifikation

Auswirkungen

  1. Akademischer Wert: Bietet neue Perspektiven für das Management von KI-Workloads in HPC-Umgebungen
  2. Praktischer Wert: Direkt anwendbar auf aktuelle wissenschaftliche Rechenszenarios
  3. Reproduzierbarkeit: Implementiert auf Basis von Open-Source-Frameworks, leicht zu reproduzieren und zu erweitern

Anwendbare Szenarien

  1. Wissenschaftliche Anwendungen, die große Mengen unabhängiger LLM-Inferenzen erfordern
  2. HPC-Umgebungen mit dynamisch wechselnden Ressourcen
  3. Hochdurchsatzanwendungen, die empfindlich auf Startverzögerungen reagieren

Referenzen

Das Papier zitiert 61 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie LLM-Technologie, HPC-Planung und Workflow-Systemen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das sich mit neu entstehenden KI-Workloads in HPC-Umgebungen befasst. Die Autoren identifizieren das praktische Problem genau, schlagen eine innovative Lösung vor und validieren die Wirksamkeit der Methode durch umfassende Experimente. Obwohl es in Bezug auf Anwendungsbereich und theoretische Analyse gewisse Einschränkungen gibt, leistet es wertvolle Beiträge zu Forschung und Praxis in verwandten Bereichen.