2025-11-24T10:40:17.913420

Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management

Phung, Thain

The rise of Generative AI introduces a new class of HPC workloads that integrates lightweight LLMs with traditional high-throughput applications to accelerate scientific discovery. The current design of HPC clusters is inadequate to support this new class however, either incurring long wait times on static batch queues or repeatedly paying expensive LLM startup costs upon resource preemption. To circumvent both the long queues and high startup costs, we propose to "decouple" the LLM initialization context from the actual LLM inferences, and retain the context in GPUs until it is no longer needed, a technique we term "Pervasive Context Management". We transform a fact verification application to enable this technique, allowing it to reduce its execution time by 72.1% (from 3 hours to 48 minutes) using the same amount of GPUs, and scale opportunistically on 32.8% of all GPUs in the cluster and further reduce the execution time to 13 minutes.

academic

Esecuzione Efficiente di Applicazioni di Inferenza LLM Leggere ad Alto Throughput su Cluster GPU Eterogenei Opportunistici con Gestione Pervasiva del Contesto

Informazioni Fondamentali

ID Articolo: 2510.14024
Titolo: Efficiently Executing High-throughput Lightweight LLM Inference Applications on Heterogeneous Opportunistic GPU Clusters with Pervasive Context Management
Autori: Thanh Son Phung, Douglas Thain (University of Notre Dame)
Classificazione: cs.DC (Distributed Computing)
Data di Pubblicazione: 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14024

Riassunto

L'ascesa dell'IA generativa ha introdotto una nuova classe di carichi di lavoro HPC che integrano LLM leggeri con applicazioni tradizionali ad alto throughput per accelerare la scoperta scientifica. Tuttavia, il design attuale dei cluster HPC non supporta adeguatamente questi nuovi carichi di lavoro, producendo lunghi tempi di attesa nelle code di elaborazione statica o sostenendo ripetutamente costosi oneri di avvio dell'LLM durante la preemption delle risorse. Per evitare code lunghe e costi di avvio elevati, questo articolo propone di "disaccoppiare" l'inizializzazione del contesto dell'LLM dall'effettiva inferenza dell'LLM, mantenendo il contesto nella GPU fino a quando non è più necessario, una tecnica denominata "Gestione Pervasiva del Contesto" (Pervasive Context Management). Attraverso la rielaborazione di un'applicazione di verifica dei fatti, questa tecnica riduce il tempo di esecuzione del 72,1% (da 3 ore a 48 minuti) e consente l'espansione opportunistica su GPU del 32,8% del cluster, riducendo ulteriormente il tempo di esecuzione a 13 minuti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con il rapido sviluppo della tecnologia dei modelli di linguaggio di grandi dimensioni (LLM), sta emergendo una nuova classe di carichi di lavoro HPC che integra l'inferenza leggera dell'LLM (tipicamente con miliardi di parametri) in applicazioni tradizionali ad alto throughput. Queste applicazioni mostrano un enorme potenziale in campi come il folding delle proteine e il calcolo scientifico distribuito guidato dall'IA.

Sfide Fondamentali

Limitazioni del modello di allocazione statica: Il modello tradizionale di allocazione statica della GPU richiede l'uso esclusivo di batch di GPU di dimensioni fisse, causando gravi tempi di attesa in coda e sottoutilizzo delle risorse del cluster
Costi di avvio dell'allocazione opportunistica: Sebbene l'allocazione opportunistica delle risorse possa sfruttare le risorse GPU dinamicamente disponibili, il processo di avvio dell'LLM (caricamento di modelli con miliardi di parametri dal file system distribuito al disco locale, alla memoria dell'host, infine alla memoria della GPU) è intensivo di I/O e può richiedere diversi minuti
Costo della preemption delle risorse: Quando un'attività viene preempted, l'intero costoso processo di avvio deve essere rieseguito sulle nuove risorse, spesso causando costi di avvio che superano il tempo di calcolo effettivo

Insufficienze degli Approcci Esistenti

Framework di auto-scaling: Progettati secondo principi proattivi, non adatti agli ambienti HPC opportunistici passivi
Tecniche tradizionali di tolleranza ai guasti: Come i meccanismi di checkpoint, possono proteggere solo il progresso del calcolo, non risolvono il problema del costo di caricamento del modello

Contributi Fondamentali

Proposta della tecnica di Gestione Pervasiva del Contesto: Elevazione dell'inizializzazione del contesto dell'LLM a entità persistente di prima classe nel cluster, abilitando il riutilizzo tra più attività
Implementazione di un'applicazione di verifica dei fatti ad alto throughput basata sul framework Parsl-TaskVine: Dimostrazione dell'applicazione dell'LLM leggero in framework distribuiti data-intensive
Progettazione di metodi di trasformazione rapida dell'applicazione: Abilitazione del supporto context-aware dell'applicazione attraverso semplice refactoring del codice
Verifica di miglioramenti significativi delle prestazioni: Riduzione del tempo di esecuzione del 72,1% con lo stesso numero di GPU, con capacità di espansione opportunistica al 32,8% delle GPU del cluster

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questa ricerca affronta applicazioni di inferenza LLM leggere ad alto throughput, in particolare scenari che richiedono l'esecuzione di un gran numero di attività di inferenza indipendenti su cluster GPU eterogenei opportunistici. L'input consiste in un gran numero di richieste di inferenza, l'output in risultati di inferenza, con vincoli che includono la disponibilità dinamica delle risorse GPU e la preemption imprevedibile.

Architettura Fondamentale: Gestione Pervasiva del Contesto

1. Filosofia di Progettazione Complessiva

L'idea fondamentale della Gestione Pervasiva del Contesto è disaccoppiare l'inizializzazione costosa del contesto dell'LLM dall'esecuzione effettiva dell'inferenza, rendendo il contesto un'entità di prima classe che può essere persistita e riutilizzata tra i nodi del cluster.

2. Framework di Implementazione Tecnica

Basato sull'integrazione del framework Parsl-TaskVine:

Parsl: Fornisce una libreria parallela nativa Python, consentendo agli utenti di esprimere i requisiti computazionali attraverso funzioni Python comuni
TaskVine: Motore di esecuzione del workflow data-intensive di basso livello, gestisce le relazioni tra attività e l'ottimizzazione della pianificazione

3. Meccanismo di Gestione del Contesto

# Modo tradizionale (context-agnostic)
@python_app
def infer(model_path, claims):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

# Modo migliorato (context-aware)
def load_model(model_path):
    model = AutoModel.from_pretrained(model_path).to('gpu')
    return {'model': model}

@python_app
def infer_model(claims, parsl_spec):
    model = load_variable_from_serverless('model')
    verdicts = [model.generate(claim) for claim in claims]
    return verdicts

4. Flusso di Lavoro

Analisi del Contesto: Lo scheduler analizza i requisiti di contesto della funzione F
Creazione del Contesto: Creazione di un processo Library sul nodo di lavoro, responsabile della materializzazione e dell'hosting del contesto
Riutilizzo del Contesto: Le attività successive eseguono direttamente l'inferenza utilizzando il contesto già inizializzato
Trasferimento del Contesto: Condivisione del template di contesto tra i nodi attraverso trasferimento punto-a-punto

Punti di Innovazione Tecnica

Disaccoppiamento tra Contesto e Calcolo: Separazione del caricamento del modello dall'esecuzione dell'inferenza, abilitando il riutilizzo del contesto tra attività
Cache del Contesto Distribuito: Persistenza del contesto dell'LLM sui nodi GPU, evitando l'inizializzazione ripetuta
Strategia di Pianificazione Intelligente: Priorità nella pianificazione delle attività sui nodi che già possiedono il contesto corrispondente
Trasferimento del Contesto Punto-a-Punto: Le GPU appena aggiunte possono acquisire il template di contesto direttamente da altri nodi

Configurazione Sperimentale

Scenario di Applicazione

Applicazione di Verifica dei Fatti (Prompt for Fact, PfF):

Obiettivo: Trovare il template di prompt ottimale per un dato LLM, utilizzato come verificatore di fatti per controllare la correttezza di affermazioni arbitrarie
Dataset: Dati di addestramento FEVER, contenenti 145.449 affermazioni, etichettate come SUPPORTED, REFUTED o NOT ENOUGH INFO
Modello: SmolLM2 (1,7 miliardi di parametri)

Ambiente Sperimentale

Configurazione del Cluster Locale:

Totale 567 GPU, 18 diversi modelli
Gestore delle risorse: Altair Grid Engine (AGE) + HTCondor
Storage: File system condiviso Panasas ActiveStor 16
Rete: Supporta larghezza di banda di lettura di 84 Gbs/s e 94k IOPS di lettura

Configurazione del Framework:

Per ogni attività: 2 core, 10GB memoria, 20GB disco, 1 GPU
Per ogni nodo di lavoro: 2 core, 10GB memoria, 70GB disco, 1 GPU
Dimensione del modello: 3,7GB spazio disco, 7,4GB memoria
Dipendenze software: 308 pacchetti, totale 10,5GB

Progettazione delle Versioni Sperimentali

Context-agnostic: Ogni attività ricarica tutti i dati e il modello dal file system condiviso
Partial-context: Cache dei dati di input su disco locale, ma richiede ancora la ricreazione dello stato del modello GPU
Full-context: Abilitazione completa della Gestione Pervasiva del Contesto, cache dello stato del modello nella GPU

Risultati Sperimentali

Miglioramenti Principali delle Prestazioni

RQ1: Prestazioni dell'Applicazione su Risorse Statiche

Risultati sperimentali su 20 GPU (10 NVIDIA A10 + 10 NVIDIA TITAN X Pascal):

Context-agnostic: 10.400 secondi
Partial-context: 5.300 secondi (miglioramento 49,1%)
Full-context: 2.900 secondi (miglioramento 72,1%)

RQ2: Analisi di Sensibilità della Dimensione del Batch di Inferenza

La versione Full-context mostra una variazione del tempo di esecuzione di soli il 13,6% con diverse dimensioni di batch, mentre la versione Partial-context con dimensione di batch pari a 1 vede il tempo di esecuzione aumentare a 141.100 secondi, dimostrando un'estrema sensibilità.

RQ3: Scenario di Preemption Aggressiva delle Risorse

In uno scenario aggressivo con preemption di 1 GPU al minuto:

Partial-context: Completa 46.000 inferenze
Full-context: Completa 62.900 inferenze (16.900 in più, miglioramento 36,7%)

RQ4: Espansione Opportunistica delle Risorse

Scenario a bassa capacità: Espansione da 4 a 20 GPU, completamento in 5000 secondi
Scenario ad alta capacità: Espansione a 186 GPU (32,8% del cluster), completamento in 783 secondi (equivalente a 13 minuti)

Scoperte Chiave

Impatto Significativo del Costo di Avvio: Nei metodi tradizionali, il tempo di caricamento del modello spesso supera il tempo di calcolo effettivo
Valore del Riutilizzo del Contesto: Una singola inizializzazione può servire molteplici attività di inferenza, migliorando significativamente l'efficienza
Adattabilità all'Ambiente Eterogeneo: Il metodo funziona bene in cluster eterogenei contenenti 8 principali tipi di GPU
Verifica della Scalabilità: Esecuzione concorrente riuscita su 186 GPU, dimostrando eccellente scalabilità

Lavori Correlati

Ricerca su Istanze Spot

Le istanze Spot nel cloud computing forniscono un modello di calcolo opportunistico simile, ma tipicamente offrono 30-120 secondi di preavviso di preemption, mentre negli ambienti HPC la preemption è spesso istantanea, rendendo inefficaci i meccanismi tradizionali di salvataggio dello stato.

Ottimizzazione dell'Inferenza dell'LLM

La ricerca esistente si concentra principalmente su:

Decodifica speculativa: Utilizzo di modelli piccoli per predire token e accelerare l'inferenza di modelli grandi
Gestione della cache KV: Ottimizzazione dell'utilizzo della memoria del meccanismo di attenzione
Distribuzione nel cloud: Utilizzo della cache di archiviazione locale per i checkpoint del modello

Sistemi di Workflow

Evoluzione dai gestori di risorse tradizionali ai moderni sistemi di workflow nativi Python, l'integrazione Parsl-TaskVine di questo articolo rappresenta una nuova direzione che supporta la condivisione del contesto computazionale.

Conclusioni e Discussione

Conclusioni Principali

La tecnica di Gestione Pervasiva del Contesto risolve con successo il problema dell'efficienza delle applicazioni LLM leggere su cluster GPU opportunistici
Attraverso il disaccoppiamento tra contesto e calcolo, si realizza una riduzione del tempo di esecuzione del 72,1%
Il metodo riduce significativamente la complessità della scelta della dimensione del batch, migliorando la robustezza del sistema

Limitazioni

Limitazioni sulla Scala del Modello: Applicabile solo agli LLM leggeri nell'ambito delle risorse di un singolo nodo
Overhead di Gestione: La copia e la cache del contesto introducono costi di gestione aggiuntivi
Requisiti di Dipendenza: L'efficacia dipende dall'overhead di gestione significativamente inferiore al costo di avvio a freddo

Direzioni Future

Supporto per distribuzioni LLM multi-nodo su scala più ampia
Ottimizzazione delle strategie di trasferimento e cache del contesto
Estensione ad altri tipi di applicazioni di deep learning

Valutazione Approfondita

Punti di Forza

Identificazione Accurata del Problema: Identificazione precisa del collo di bottiglia fondamentale delle applicazioni LLM nell'ambiente HPC
Soluzione Innovativa: Il concetto di gestione del contesto è innovativo e pratico
Progettazione Sperimentale Completa: Copertura di molteplici scenari reali dalle risorse statiche alla preemption dinamica
Miglioramento Significativo delle Prestazioni: Riduzione del tempo di esecuzione del 72,1% e utilizzo opportunistico del 32,8% delle GPU del cluster

Insufficienze

Ambito di Applicazione Limitato: Applicabile solo agli LLM leggeri, supporto limitato per modelli su larga scala
Analisi Teorica Insufficiente: Mancanza di analisi teorica sulla dimensione ottimale del batch e sulle strategie di gestione del contesto
Verifica della Generalità: Verifica solo su applicazioni di verifica dei fatti, l'applicabilità ad altre applicazioni richiede ulteriore verifica

Impatto

Valore Accademico: Fornisce nuove prospettive per la gestione dei carichi di lavoro AI negli ambienti HPC
Valore Pratico: Direttamente applicabile agli scenari di calcolo scientifico attuali
Riproducibilità: Implementato basato su framework open source, facilitando la riproduzione e l'estensione

Scenari Applicabili

Applicazioni scientifiche che richiedono un gran numero di inferenze LLM indipendenti
Ambienti HPC con risorse dinamicamente variabili
Applicazioni ad alto throughput sensibili alla latenza di avvio

Bibliografia

L'articolo cita 61 lavori correlati, coprendo molteplici campi inclusi tecnologia LLM, scheduling HPC e sistemi di workflow, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta i nuovi carichi di lavoro AI emergenti negli ambienti HPC. Gli autori identificano accuratamente i problemi pratici, propongono soluzioni innovative e verificano l'efficacia del metodo attraverso esperimenti completi. Sebbene esistano alcune limitazioni nell'ambito di applicazione e nell'analisi teorica, fornisce contributi preziosi per la ricerca e la pratica nel campo correlato.