Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Phung, Thain
The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.
academic
Esecuzione Efficiente di Applicazioni di Inferenza LLM Leggere ad Alto Throughput su Cluster GPU Eterogenei Opportunistici con Gestione Pervasiva del Contesto
L'ascesa dell'IA generativa ha introdotto una nuova classe di carichi di lavoro HPC che integrano LLM leggeri con applicazioni tradizionali ad alto throughput per accelerare la scoperta scientifica. Tuttavia, il design attuale dei cluster HPC non supporta adeguatamente questi nuovi carichi di lavoro, producendo lunghi tempi di attesa nelle code di elaborazione statica o sostenendo ripetutamente costosi oneri di avvio dell'LLM durante la preemption delle risorse. Per evitare code lunghe e costi di avvio elevati, questo articolo propone di "disaccoppiare" l'inizializzazione del contesto dell'LLM dall'effettiva inferenza dell'LLM, mantenendo il contesto nella GPU fino a quando non è più necessario, una tecnica denominata "Gestione Pervasiva del Contesto" (Pervasive Context Management). Attraverso la rielaborazione di un'applicazione di verifica dei fatti, questa tecnica riduce il tempo di esecuzione del 72,1% (da 3 ore a 48 minuti) e consente l'espansione opportunistica su GPU del 32,8% del cluster, riducendo ulteriormente il tempo di esecuzione a 13 minuti.
Con il rapido sviluppo della tecnologia dei modelli di linguaggio di grandi dimensioni (LLM), sta emergendo una nuova classe di carichi di lavoro HPC che integra l'inferenza leggera dell'LLM (tipicamente con miliardi di parametri) in applicazioni tradizionali ad alto throughput. Queste applicazioni mostrano un enorme potenziale in campi come il folding delle proteine e il calcolo scientifico distribuito guidato dall'IA.
Limitazioni del modello di allocazione statica: Il modello tradizionale di allocazione statica della GPU richiede l'uso esclusivo di batch di GPU di dimensioni fisse, causando gravi tempi di attesa in coda e sottoutilizzo delle risorse del cluster
Costi di avvio dell'allocazione opportunistica: Sebbene l'allocazione opportunistica delle risorse possa sfruttare le risorse GPU dinamicamente disponibili, il processo di avvio dell'LLM (caricamento di modelli con miliardi di parametri dal file system distribuito al disco locale, alla memoria dell'host, infine alla memoria della GPU) è intensivo di I/O e può richiedere diversi minuti
Costo della preemption delle risorse: Quando un'attività viene preempted, l'intero costoso processo di avvio deve essere rieseguito sulle nuove risorse, spesso causando costi di avvio che superano il tempo di calcolo effettivo
Framework di auto-scaling: Progettati secondo principi proattivi, non adatti agli ambienti HPC opportunistici passivi
Tecniche tradizionali di tolleranza ai guasti: Come i meccanismi di checkpoint, possono proteggere solo il progresso del calcolo, non risolvono il problema del costo di caricamento del modello
Proposta della tecnica di Gestione Pervasiva del Contesto: Elevazione dell'inizializzazione del contesto dell'LLM a entità persistente di prima classe nel cluster, abilitando il riutilizzo tra più attività
Implementazione di un'applicazione di verifica dei fatti ad alto throughput basata sul framework Parsl-TaskVine: Dimostrazione dell'applicazione dell'LLM leggero in framework distribuiti data-intensive
Progettazione di metodi di trasformazione rapida dell'applicazione: Abilitazione del supporto context-aware dell'applicazione attraverso semplice refactoring del codice
Verifica di miglioramenti significativi delle prestazioni: Riduzione del tempo di esecuzione del 72,1% con lo stesso numero di GPU, con capacità di espansione opportunistica al 32,8% delle GPU del cluster
Questa ricerca affronta applicazioni di inferenza LLM leggere ad alto throughput, in particolare scenari che richiedono l'esecuzione di un gran numero di attività di inferenza indipendenti su cluster GPU eterogenei opportunistici. L'input consiste in un gran numero di richieste di inferenza, l'output in risultati di inferenza, con vincoli che includono la disponibilità dinamica delle risorse GPU e la preemption imprevedibile.
L'idea fondamentale della Gestione Pervasiva del Contesto è disaccoppiare l'inizializzazione costosa del contesto dell'LLM dall'esecuzione effettiva dell'inferenza, rendendo il contesto un'entità di prima classe che può essere persistita e riutilizzata tra i nodi del cluster.
Basato sull'integrazione del framework Parsl-TaskVine:
Parsl: Fornisce una libreria parallela nativa Python, consentendo agli utenti di esprimere i requisiti computazionali attraverso funzioni Python comuni
TaskVine: Motore di esecuzione del workflow data-intensive di basso livello, gestisce le relazioni tra attività e l'ottimizzazione della pianificazione
Disaccoppiamento tra Contesto e Calcolo: Separazione del caricamento del modello dall'esecuzione dell'inferenza, abilitando il riutilizzo del contesto tra attività
Cache del Contesto Distribuito: Persistenza del contesto dell'LLM sui nodi GPU, evitando l'inizializzazione ripetuta
Strategia di Pianificazione Intelligente: Priorità nella pianificazione delle attività sui nodi che già possiedono il contesto corrispondente
Trasferimento del Contesto Punto-a-Punto: Le GPU appena aggiunte possono acquisire il template di contesto direttamente da altri nodi
Applicazione di Verifica dei Fatti (Prompt for Fact, PfF):
Obiettivo: Trovare il template di prompt ottimale per un dato LLM, utilizzato come verificatore di fatti per controllare la correttezza di affermazioni arbitrarie
Dataset: Dati di addestramento FEVER, contenenti 145.449 affermazioni, etichettate come SUPPORTED, REFUTED o NOT ENOUGH INFO
La versione Full-context mostra una variazione del tempo di esecuzione di soli il 13,6% con diverse dimensioni di batch, mentre la versione Partial-context con dimensione di batch pari a 1 vede il tempo di esecuzione aumentare a 141.100 secondi, dimostrando un'estrema sensibilità.
Impatto Significativo del Costo di Avvio: Nei metodi tradizionali, il tempo di caricamento del modello spesso supera il tempo di calcolo effettivo
Valore del Riutilizzo del Contesto: Una singola inizializzazione può servire molteplici attività di inferenza, migliorando significativamente l'efficienza
Adattabilità all'Ambiente Eterogeneo: Il metodo funziona bene in cluster eterogenei contenenti 8 principali tipi di GPU
Verifica della Scalabilità: Esecuzione concorrente riuscita su 186 GPU, dimostrando eccellente scalabilità
Le istanze Spot nel cloud computing forniscono un modello di calcolo opportunistico simile, ma tipicamente offrono 30-120 secondi di preavviso di preemption, mentre negli ambienti HPC la preemption è spesso istantanea, rendendo inefficaci i meccanismi tradizionali di salvataggio dello stato.
Evoluzione dai gestori di risorse tradizionali ai moderni sistemi di workflow nativi Python, l'integrazione Parsl-TaskVine di questo articolo rappresenta una nuova direzione che supporta la condivisione del contesto computazionale.
La tecnica di Gestione Pervasiva del Contesto risolve con successo il problema dell'efficienza delle applicazioni LLM leggere su cluster GPU opportunistici
Attraverso il disaccoppiamento tra contesto e calcolo, si realizza una riduzione del tempo di esecuzione del 72,1%
Il metodo riduce significativamente la complessità della scelta della dimensione del batch, migliorando la robustezza del sistema
L'articolo cita 61 lavori correlati, coprendo molteplici campi inclusi tecnologia LLM, scheduling HPC e sistemi di workflow, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta i nuovi carichi di lavoro AI emergenti negli ambienti HPC. Gli autori identificano accuratamente i problemi pratici, propongono soluzioni innovative e verificano l'efficacia del metodo attraverso esperimenti completi. Sebbene esistano alcune limitazioni nell'ambito di applicazione e nell'analisi teorica, fornisce contributi preziosi per la ricerca e la pratica nel campo correlato.