2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.

We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."

academic

Cortex: Resource Pooling e Scheduling Consapevoli del Flusso di Lavoro per Agentic Serving

Informazioni Fondamentali

ID Articolo: 2510.14126
Titolo: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
Autori: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
Classificazione: cs.DC (Distributed, Parallel, and Cluster Computing)
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14126

Riassunto

Questo articolo presenta Cortex, un prototipo di piattaforma di servizio consapevole del flusso di lavoro progettato per carichi di lavoro agentici. Il principio fondamentale di Cortex è l'isolamento delle fasi: fornire pool di risorse dedicati per ogni fase distinta del flusso di lavoro agentitico. Questa strategia semplice ma potente mitiga l'interferenza tra fasi nel calcolo e nella memoria, realizzando un migliore utilizzo della cache KV, una maggiore velocità di elaborazione e prestazioni più prevedibili. Personalizzando l'allocazione delle risorse e la pianificazione all'interno di ogni fase distinta del flusso di lavoro agentitico, Cortex getta le basi per paradigmi di servizio agentitico più avanzati, inclusa la gestione delle risorse plastica, l'esecuzione speculativa dei rami del flusso di lavoro e la cache multilivello condivisa per lo "stato agentitico".

Contesto di Ricerca e Motivazione

Definizione del Problema

I flussi di lavoro agentici combinano l'inferenza dei modelli di linguaggio di grandi dimensioni (LLM) con l'uso iterativo di strumenti: il modello osserva i risultati intermedi, riflette, invoca un altro strumento e ripete fino a quando l'attività non viene risolta o il budget esaurito. Questo modello a ciclo chiuso sta diventando sempre più importante nelle applicazioni di livello produttivo, come gli agenti da linguaggio naturale a SQL (NL2SQL).

Limitazioni degli Approcci Esistenti

Le attuali piattaforme di servizio LLM presentano i seguenti problemi:

Insensibilità al flusso di lavoro: i framework di servizio LLM popolari (come vLLM) trattano ogni fase come una chiamata LLM indipendente, adottando la pianificazione FCFS (First Come First Served)
Mancanza di consapevolezza della struttura: le piattaforme di servizio agentitico esistenti (come Autellix) utilizzano strategie di priorità complesse ma non comprendono la struttura interna del flusso di lavoro
Opportunità di cache sprecate: cinque tentativi di miglioramento dello stesso modello producono cinque costruzioni di prompt identiche e cinque esecuzioni SQL con cache calda identiche
Cecità nella pianificazione: la pianificazione delle chiamate LLM senza consapevolezza del flusso di lavoro rimanente, ignorando i costi a valle

Motivazione della Ricerca

Gli autori osservano che un singolo pool di motori LLM "generici" condivisi non è adatto per flussi di lavoro agentici contenenti fasi eterogenee. Ogni fase (generazione SQL, esecuzione, correzione degli errori) ha profili di latenza diversi, requisiti di memoria e opportunità di cache.

Contributi Principali

Propone l'architettura Cortex: la prima piattaforma di servizio consapevole del flusso di lavoro basata sull'isolamento delle fasi, fornendo pool di motori dedicati per ogni fase del flusso di lavoro
Implementa ottimizzazioni significative della cache KV: riduce significativamente l'utilizzo della memoria della cache KV attraverso l'isolamento delle fasi, migliorando l'utilizzo della memoria GPU
Elimina l'interferenza tra fasi: ripristina modelli di latenza stabili a livello locale della fase, migliorando la prevedibilità delle prestazioni
Progetta un framework di servizio agentitico nativo: getta le basi per flussi di lavoro plastici, esecuzione speculativa e gestione dello stato agentitico

Spiegazione Dettagliata del Metodo

Definizione del Compito

Utilizzando il flusso di lavoro NL2SQL come esempio, l'input è una query in linguaggio naturale (ad esempio, "Quali sono le vendite del trimestre scorso in Europa?"), e l'output è il risultato di una query SQL eseguita con successo. Il flusso di lavoro include:

Recupero dello schema di destinazione
Generazione autoregressiva di query candidate
Esecuzione della query
Convalida del set di risultati
Se la query non riesce, correzione e nuovo tentativo

Progettazione dell'Architettura Principale

Principio di Isolamento delle Fasi

Cortex fornisce pool di motori dedicati per ogni fase del flusso di lavoro. Un pool di motori è un insieme di worker omogenei (come GPU per la decodifica LLM o esecutori CPU per SQL), gestiti da uno scheduler locale della fase con la propria coda, cache e strategia di scalabilità.

Componenti del Sistema

Orchestratore (Orchestrator):
- Consapevole del flusso di lavoro, traccia la posizione di ogni richiesta nel grafo
- Prevede il prossimo insieme di operatori idonei
- Allega chiavi di priorità basate sulla lassità SLO, sulla selettività della fase e sul tempo di servizio previsto
Livello di Allocazione dei Motori (Engine Allocation Layer):
- Instrada le sottochiamate ai pool concreti che massimizzano la località
- Bilancia il carico tra le repliche
- Riordina le richieste in base alla priorità
- Esegue il controllo di ammissione quando una fase diventa un collo di bottiglia
Meccanismo di Prestito di Risorse: Quando il carico e la pressione della memoria sono sufficientemente bassi, l'orchestratore può opportunisticamente consentire alle fasi compatibili di prendere in prestito motori inattivi per ridurre la frammentazione e migliorare l'utilizzo.

Punti di Innovazione Tecnica

Ottimizzazione della Cache KV

Attraverso l'isolamento delle fasi, ogni motore mantiene solo il contesto specifico della sua fase, mentre i motori condivisi devono mantenere la cache calda del contesto di due fasi su ogni replica, raddoppiando effettivamente l'utilizzo della memoria della cache KV. La memoria GPU recuperata aumenta la dimensione effettiva del batch, traducendosi direttamente in una maggiore velocità di elaborazione e latenze di coda più strette.

Prevedibilità delle Prestazioni

L'isolamento delle fasi elimina l'interferenza tra fasi che compromette la prevedibilità. Quando le chiamate eterogenee condividono un motore, i batch accoppiano i loro tempi di esecuzione, ritardando l'emissione di token, rendendo la latenza delle chiamate LLM dipendente dai partner del batch.

Scalabilità Indipendente

Abilita la scalabilità e la configurazione indipendenti: un monitor veloce scala solo i pool che minacciano l'SLO, consentendo una configurazione leggera per le fasi di esecuzione una tantum, mentre alloca più peso ai pool del percorso critico.

Configurazione Sperimentale

Scenari Sperimentali

L'articolo utilizza il flusso di lavoro NL2SQL come scenario sperimentale principale, contenente due fasi LLM:

Generatore SQL
Correttore di errori SQL
Esecutore SQL (fase non-LLM)

Metriche di Valutazione

Utilizzo della memoria della cache KV
Occupazione totale della memoria
Velocità di elaborazione del sistema
Latenza di coda

Benchmark di Confronto

Soluzione pool di motori condivisi: tutte le fasi condividono lo stesso insieme di motori LLM
Soluzione Cortex con isolamento delle fasi: ogni fase utilizza un pool di motori dedicato

Risultati Sperimentali

Risultati Principali

Effetto dell'Ottimizzazione della Cache KV

I risultati sperimentali mostrano che quando si eseguono le fasi LLM del flusso di lavoro NL2SQL in Cortex, l'occupazione totale di KV si riduce significativamente. Quando ogni fase viene eseguita nel suo pool Cortex dedicato, l'impronta KV totale è notevolmente inferiore: ogni motore mantiene solo il contesto specifico della sua fase.

Miglioramento delle Prestazioni

Efficienza della memoria: attraverso l'isolamento delle fasi, evita la duplicazione della cache KV, liberando preziosa memoria GPU
Aumento della velocità di elaborazione: la memoria GPU recuperata si traduce direttamente in una dimensione di batch effettiva più elevata
Miglioramento della latenza: latenze di coda più strette e prestazioni più prevedibili

Verifica dei Vantaggi del Sistema

L'esperimento verifica i tre principali vantaggi di Cortex:

Utilizzo migliorato della cache KV: riduzione significativa dell'occupazione della memoria
Eliminazione dell'interferenza tra fasi: ripristino di modelli di latenza stabili a livello locale della fase
Capacità di scalabilità indipendente: supporto della gestione delle risorse a grana fine

Lavori Correlati

Framework di Servizio LLM

vLLM: servizio efficiente di modelli di linguaggio di grandi dimensioni, che utilizza PagedAttention per la gestione della memoria
SGLang: esecuzione efficiente di programmi di modelli di linguaggio strutturati

Piattaforme di Servizio Agentitico

Autellix: motore di servizio efficiente per agenti LLM, che utilizza strategie di priorità complesse
HEXGEN-TEXT2SQL: pianificazione delle richieste del flusso di lavoro NL2SQL basata sulla lassità della scadenza rimanente e sul tempo di esecuzione stimato

Differenze Tecniche

Le piattaforme esistenti mancano di consapevolezza della struttura interna del flusso di lavoro; Cortex colma questo vuoto attraverso l'isolamento delle fasi.

Conclusioni e Discussione

Conclusioni Principali

Cortex migliora significativamente le prestazioni di servizio dei carichi di lavoro agentici attraverso una semplice ma efficace strategia di isolamento delle fasi. Questo approccio non solo migliora l'efficienza dell'utilizzo delle risorse, ma getta anche le basi per paradigmi di servizio agentitico nativo più avanzati.

Direzioni Future

Flussi di Lavoro Plastici e Risorse

Adattabilità computazionale: sostituire modelli pesanti con varianti leggere quando la latenza si avvicina al limite SLO
Elasticità delle risorse: utilizzare motori più potenti nei modelli a ventaglio per accelerare i ritardatari

Esecuzione Speculativa

Speculazione sui rami più probabili del flusso di lavoro
Preriscaldamento dei motori correlati o pre-esecuzione del passo successivo
Generazione e valutazione parallela di più query candidate

Gestione dello Stato Agentitico

"Stato agentitico" multilivello come cittadino di prima classe dei dati intermedi
Livello condiviso a livello di flusso di lavoro come struttura publish/subscribe
Trasformazione di chiamate ripetute di strumenti e LLM in hit a costo zero

Limitazioni

Fase di prototipo: attualmente ancora una prova di concetto, richiede implementazione e valutazione più complete
Limitazioni dello scenario: principalmente basato su NL2SQL, necessita di validazione su più flussi di lavoro agentici
Gestione della complessità: come progettare interfacce per consentire ai flussi di lavoro di dichiarare la loro plasticità rimane una sfida aperta

Valutazione Approfondita

Punti di Forza

Forte innovatività: primo a proporre un'architettura di servizio agentitico consapevole del flusso di lavoro
Posizionamento accurato del problema: identifica accuratamente i problemi chiave delle attuali piattaforme di servizio LLM
Soluzione semplice ed efficace: la strategia di isolamento delle fasi è semplice ma produce effetti significativi
Forte prospettiva futura: fornisce un percorso di sviluppo chiaro per il servizio agentitico nativo futuro

Insufficienze

Validazione sperimentale limitata: principalmente basata su uno scenario NL2SQL, mancano esperimenti su larga scala e diversificati
Risultati quantitativi insufficienti: i grafici mostrano tendenze ma mancano valori specifici di miglioramento delle prestazioni
Dettagli di implementazione insufficienti: la descrizione dell'implementazione specifica degli algoritmi di pianificazione e delle strategie di allocazione delle risorse è scarsa
Esperimenti di confronto insufficienti: principalmente confrontati con il semplice schema di pool condiviso, mancano confronti con altri metodi avanzati

Impatto

Valore accademico: fornisce una nuova direzione di ricerca nel campo del servizio agentitico
Valore pratico: risolve importanti problemi negli ambienti di produzione effettivi
Ispirazione: fornisce idee preziose per la ricerca correlata successiva

Scenari Applicabili

Flussi di lavoro agentici multifase: particolarmente adatto per applicazioni agentiche con chiare divisioni di fase
Ambienti sensibili alle risorse: effetti significativi in ambienti con risorse limitate come la memoria GPU
Scenari con requisiti di alte prestazioni: ambienti di produzione con requisiti rigorosi di latenza e velocità di elaborazione

Riferimenti Bibliografici

L'articolo cita i seguenti riferimenti chiave:

vLLM: meccanismo di gestione della memoria PagedAttention
SGLang: esecuzione di programmi di modelli di linguaggio strutturati
Autellix: motore di servizio agentitico LLM
HEXGEN-TEXT2SQL: pianificazione del flusso di lavoro agentitico
Letteratura correlata su NL2SQL e servizi cloud

Valutazione Complessiva: Questo è un articolo innovativo e lungimirante che identifica importanti problemi nel campo del servizio agentitico e fornisce soluzioni efficaci. Sebbene attualmente sia ancora in fase di prototipo, fornisce una direzione chiara per lo sviluppo del settore e ha un importante valore accademico e pratico.