2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.

We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."

academic

Cortex: Agrupación de Recursos Consciente del Flujo de Trabajo y Programación para Servicio de Agentes

Información Básica

ID del Artículo: 2510.14126
Título: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
Autores: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
Clasificación: cs.DC (Computación Distribuida, Paralela y de Clústeres)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14126

Resumen

Este artículo presenta Cortex, un prototipo de plataforma de servicio consciente del flujo de trabajo diseñado para cargas de trabajo de agentes. El principio fundamental de Cortex es el aislamiento de fases: proporcionar grupos de recursos dedicados para cada fase distinta del flujo de trabajo del agente. Esta estrategia simple pero poderosa mitiga la interferencia entre fases en computación y memoria, logrando una mejor utilización de caché KV, mayor rendimiento y un desempeño más predecible. Al personalizar la asignación de recursos y la programación dentro de cada fase distinta del flujo de trabajo del agente, Cortex sienta las bases para paradigmas de servicio más avanzados nativos de agentes, incluyendo gestión de recursos plástica, ejecución especulativa de ramificaciones de flujo de trabajo y caché multinivel compartido para "estado de agente".

Contexto de Investigación y Motivación

Definición del Problema

Los flujos de trabajo de agentes combinan la inferencia de modelos de lenguaje grande (LLM) con el uso iterativo de herramientas: el modelo observa resultados intermedios, reflexiona, invoca otra herramienta y repite hasta que se resuelve la tarea o se agota el presupuesto. Este modo de bucle cerrado es cada vez más importante en aplicaciones de nivel de producción, como agentes de lenguaje natural a SQL (NL2SQL).

Limitaciones de Métodos Existentes

Las plataformas actuales de servicio de LLM presentan los siguientes problemas:

Insensibilidad al flujo de trabajo: Los marcos populares de servicio de LLM (como vLLM) tratan cada fase como una llamada de LLM independiente, empleando programación de primero en llegar, primero en ser servido (FCFS)
Falta de conciencia estructural: Las plataformas existentes de servicio de agentes (como Autellix) utilizan estrategias de prioridad complejas pero no comprenden la estructura interna del flujo de trabajo
Oportunidades de caché desperdiciadas: Cinco intentos de mejora en el mismo patrón generan cinco construcciones de indicaciones idénticas y cinco ejecuciones de caché caliente SQL idénticas
Ceguera en la programación: Programar llamadas de LLM sin conocimiento del flujo de trabajo restante, ignorando costos posteriores

Motivación de la Investigación

Los autores observan que un único grupo compartido de motor LLM "genérico" no es adecuado para flujos de trabajo de agentes que contienen fases heterogéneas. Cada fase (generación de SQL, ejecución, corrección de errores) tiene diferentes perfiles de latencia, requisitos de memoria y oportunidades de caché distintos.

Contribuciones Principales

Propone la arquitectura Cortex: Primera plataforma de servicio consciente del flujo de trabajo basada en aislamiento de fases, proporcionando grupos de motores dedicados para cada fase del flujo de trabajo
Implementa optimizaciones significativas de caché KV: Reduce sustancialmente el uso de memoria de caché KV mediante aislamiento de fases, mejorando la utilización de memoria GPU
Elimina interferencia entre fases: Restaura modelos de latencia estables locales a la fase, mejorando la previsibilidad del desempeño
Diseña un marco de servicio nativo de agentes: Sienta las bases para flujos de trabajo plásticos, ejecución especulativa y gestión de estado de agente

Explicación Detallada del Método

Definición de Tareas

Tomando el flujo de trabajo NL2SQL como ejemplo, la entrada es una consulta en lenguaje natural (como "¿Cuáles fueron las ventas del trimestre pasado en Europa?"), y la salida es un resultado de consulta SQL ejecutado exitosamente. El flujo de trabajo incluye:

Recuperar el esquema objetivo
Generación autorregresiva de consultas candidatas
Ejecutar la consulta
Validar el conjunto de resultados
Si la consulta falla, corregir e intentar nuevamente

Diseño de Arquitectura Principal

Principio de Aislamiento de Fases

Cortex proporciona un grupo de motores dedicado para cada fase del flujo de trabajo. Un grupo de motores es un conjunto de trabajadores homogéneos (como GPU para decodificación de LLM o ejecutores de CPU para SQL), gestionados por un programador local de fase con su propia cola, caché y estrategia de escalado.

Componentes del Sistema

Orquestador (Orchestrator):
- Consciente del flujo de trabajo, rastrea la ubicación de cada solicitud en el gráfico
- Predice el siguiente conjunto de operadores elegibles
- Adjunta claves de prioridad basadas en holgura de SLO, selectividad de fase y tiempo de servicio esperado
Capa de Asignación de Motores (Engine Allocation Layer):
- Enruta subcalls a instancias de grupo concretas que maximizan la localidad
- Equilibra carga entre réplicas
- Reordena solicitudes basadas en prioridad
- Ejecuta control de admisión cuando una fase se convierte en cuello de botella
Mecanismo de Préstamo de Recursos: Cuando la carga y la presión de memoria son suficientemente bajas, el orquestador puede permitir oportunistamente que fases compatibles tomen prestados motores inactivos para reducir fragmentación y mejorar la utilización.

Puntos de Innovación Técnica

Optimización de Caché KV

Mediante aislamiento de fases, cada motor mantiene solo el contexto específico de su fase, mientras que los motores compartidos deben mantener el caché caliente de contexto de dos fases en cada réplica, duplicando efectivamente el uso de memoria de caché KV. La memoria GPU recuperada mejora el tamaño de lote efectivo, traduciéndose directamente en mayor rendimiento y latencias de cola más ajustadas.

Previsibilidad del Desempeño

El aislamiento de fases elimina la interferencia entre fases que compromete la previsibilidad. Cuando llamadas heterogéneas comparten un motor, los lotes acoplan sus tiempos de ejecución, retrasando la emisión de tokens, haciendo que la latencia de las llamadas de LLM dependa de sus compañeros de lote.

Escalado Independiente

Habilita escalado y configuración independientes: un monitor rápido solo escala grupos que amenazan el SLO, permitiendo configuración ligera de fases de ejecución única, mientras asigna más peso a grupos de ruta crítica.

Configuración Experimental

Escenarios Experimentales

El artículo utiliza el flujo de trabajo NL2SQL como escenario experimental principal, que contiene dos fases de LLM:

Generador de SQL
Corrector de errores de SQL
Ejecutor de SQL (fase no-LLM)

Métricas de Evaluación

Uso de memoria de caché KV
Ocupación de memoria total
Rendimiento del sistema
Latencia de cola

Puntos de Referencia de Comparación

Esquema de grupo de motores compartidos: todas las fases comparten el mismo conjunto de motores de LLM
Esquema de aislamiento de fases Cortex: cada fase utiliza un grupo de motores dedicado

Resultados Experimentales

Resultados Principales

Efectos de Optimización de Caché KV

Los resultados experimentales muestran que al ejecutar fases de LLM del flujo de trabajo NL2SQL en Cortex, la ocupación total de KV se reduce significativamente. Cuando cada fase se ejecuta en su propio grupo Cortex, la huella total de KV es notablemente menor: cada motor mantiene solo el contexto específico de su fase.

Mejoras de Desempeño

Eficiencia de Memoria: Mediante aislamiento de fases, se evita la duplicación de caché KV, liberando memoria GPU valiosa
Aumento de Rendimiento: La memoria GPU recuperada se traduce directamente en un tamaño de lote efectivo más alto
Mejora de Latencia: Latencias de cola más ajustadas y desempeño más predecible

Validación de Ventajas del Sistema

Los experimentos validan las tres ventajas principales de Cortex:

Utilización mejorada de caché KV: Reducción significativa de ocupación de memoria
Eliminación de interferencia entre fases: Restauración de modelos de latencia estables locales a la fase
Capacidad de escalado independiente: Soporte para gestión de recursos de grano fino

Trabajo Relacionado

Marcos de Servicio de LLM

vLLM: Servicio eficiente de modelos de lenguaje grande, empleando PagedAttention para gestión de memoria
SGLang: Ejecución eficiente de programas de lenguaje estructurado

Plataformas de Servicio de Agentes

Autellix: Motor de servicio eficiente para agentes de LLM, utilizando estrategias de prioridad complejas
HEXGEN-TEXT2SQL: Programación de solicitudes de flujo de trabajo NL2SQL basada en holgura de plazo restante y tiempo de ejecución estimado

Diferencias Técnicas

Las plataformas existentes carecen de conciencia de la estructura interna del flujo de trabajo; Cortex llena este vacío mediante aislamiento de fases.

Conclusiones y Discusión

Conclusiones Principales

Cortex mejora significativamente el desempeño de servicio de cargas de trabajo de agentes mediante una estrategia simple pero efectiva de aislamiento de fases. Este enfoque no solo mejora la eficiencia de utilización de recursos, sino que también sienta las bases para paradigmas de servicio más avanzados nativos de agentes.

Direcciones Futuras

Flujos de Trabajo Plásticos y Recursos

Adaptabilidad Computacional: Reemplazar modelos pesados con variantes ligeras cuando la latencia se acerca al límite de SLO
Elasticidad de Recursos: Utilizar motores más potentes en patrones de abanico para acelerar rezagados

Ejecución Especulativa

Especular sobre ramas más probables en el flujo de trabajo
Precalentar motores relevantes o pre-ejecutar el siguiente paso
Generar y evaluar en paralelo múltiples consultas candidatas

Gestión de Estado de Agente

"Estado de agente" multinivel como ciudadanos de primera clase
Alcance de flujo de trabajo compartido como estructura de publicación/suscripción
Transformar llamadas repetidas de herramientas y LLM en aciertos de costo cero

Limitaciones

Fase de Prototipo: Actualmente sigue siendo una prueba de concepto, requiriendo implementación y evaluación más completas
Restricciones de Escenario: Principalmente ejemplificado por NL2SQL, requiriendo validación en más flujos de trabajo de agentes
Gestión de Complejidad: Cómo diseñar interfaces para que flujos de trabajo declaren su plasticidad sigue siendo un desafío abierto

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera arquitectura de servicio de agentes consciente del flujo de trabajo propuesta
Identificación Precisa del Problema: Identifica con precisión problemas clave en plataformas actuales de servicio de LLM
Solución Simple y Efectiva: La estrategia de aislamiento de fases es simple pero produce resultados significativos
Perspectiva Prospectiva: Proporciona una trayectoria de desarrollo clara para servicio futuro nativo de agentes

Insuficiencias

Validación Experimental Limitada: Principalmente basada en un escenario NL2SQL, carece de experimentos amplios y diversificados
Resultados Cuantitativos Insuficientes: Los gráficos muestran tendencias pero carecen de valores numéricos específicos de mejora de desempeño
Detalles de Implementación Incompletos: Descripción menos detallada de la implementación específica de algoritmos de programación y estrategias de asignación de recursos
Experimentos de Comparación Insuficientes: Principalmente comparado con esquema de grupo compartido simple, carece de comparación con otros métodos avanzados

Impacto

Valor Académico: Proporciona nuevas direcciones de investigación para el campo de servicio de agentes
Valor Práctico: Resuelve problemas importantes en entornos de producción real
Inspiración: Proporciona ideas valiosas para investigación relacionada posterior

Escenarios Aplicables

Flujos de Trabajo de Agentes Multifase: Particularmente adecuado para aplicaciones de agentes con divisiones de fase claras
Entornos Sensibles a Recursos: Efectos significativos en entornos donde recursos como memoria GPU son limitados
Escenarios de Requisitos de Alto Desempeño: Entornos de producción con requisitos estrictos de latencia y rendimiento

Referencias

El artículo cita la siguiente literatura clave:

vLLM: Mecanismo de gestión de memoria PagedAttention
SGLang: Ejecución de programas de lenguaje estructurado
Autellix: Motor de servicio de agentes de LLM
HEXGEN-TEXT2SQL: Programación de flujo de trabajo de agentes
Literatura relacionada de NL2SQL y servicios en la nube

Evaluación General: Este es un artículo innovador y prospectivo que plantea problemas importantes en el campo de servicio de agentes y proporciona soluciones efectivas. Aunque actualmente se encuentra en fase de prototipo, marca la dirección para el desarrollo del campo y posee valor académico y práctico significativo.