We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
- ID del Artículo: 2510.14126
- Título: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
- Autores: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
- Clasificación: cs.DC (Computación Distribuida, Paralela y de Clústeres)
- Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.14126
Este artículo presenta Cortex, un prototipo de plataforma de servicio consciente del flujo de trabajo diseñado para cargas de trabajo de agentes. El principio fundamental de Cortex es el aislamiento de fases: proporcionar grupos de recursos dedicados para cada fase distinta del flujo de trabajo del agente. Esta estrategia simple pero poderosa mitiga la interferencia entre fases en computación y memoria, logrando una mejor utilización de caché KV, mayor rendimiento y un desempeño más predecible. Al personalizar la asignación de recursos y la programación dentro de cada fase distinta del flujo de trabajo del agente, Cortex sienta las bases para paradigmas de servicio más avanzados nativos de agentes, incluyendo gestión de recursos plástica, ejecución especulativa de ramificaciones de flujo de trabajo y caché multinivel compartido para "estado de agente".
Los flujos de trabajo de agentes combinan la inferencia de modelos de lenguaje grande (LLM) con el uso iterativo de herramientas: el modelo observa resultados intermedios, reflexiona, invoca otra herramienta y repite hasta que se resuelve la tarea o se agota el presupuesto. Este modo de bucle cerrado es cada vez más importante en aplicaciones de nivel de producción, como agentes de lenguaje natural a SQL (NL2SQL).
Las plataformas actuales de servicio de LLM presentan los siguientes problemas:
- Insensibilidad al flujo de trabajo: Los marcos populares de servicio de LLM (como vLLM) tratan cada fase como una llamada de LLM independiente, empleando programación de primero en llegar, primero en ser servido (FCFS)
- Falta de conciencia estructural: Las plataformas existentes de servicio de agentes (como Autellix) utilizan estrategias de prioridad complejas pero no comprenden la estructura interna del flujo de trabajo
- Oportunidades de caché desperdiciadas: Cinco intentos de mejora en el mismo patrón generan cinco construcciones de indicaciones idénticas y cinco ejecuciones de caché caliente SQL idénticas
- Ceguera en la programación: Programar llamadas de LLM sin conocimiento del flujo de trabajo restante, ignorando costos posteriores
Los autores observan que un único grupo compartido de motor LLM "genérico" no es adecuado para flujos de trabajo de agentes que contienen fases heterogéneas. Cada fase (generación de SQL, ejecución, corrección de errores) tiene diferentes perfiles de latencia, requisitos de memoria y oportunidades de caché distintos.
- Propone la arquitectura Cortex: Primera plataforma de servicio consciente del flujo de trabajo basada en aislamiento de fases, proporcionando grupos de motores dedicados para cada fase del flujo de trabajo
- Implementa optimizaciones significativas de caché KV: Reduce sustancialmente el uso de memoria de caché KV mediante aislamiento de fases, mejorando la utilización de memoria GPU
- Elimina interferencia entre fases: Restaura modelos de latencia estables locales a la fase, mejorando la previsibilidad del desempeño
- Diseña un marco de servicio nativo de agentes: Sienta las bases para flujos de trabajo plásticos, ejecución especulativa y gestión de estado de agente
Tomando el flujo de trabajo NL2SQL como ejemplo, la entrada es una consulta en lenguaje natural (como "¿Cuáles fueron las ventas del trimestre pasado en Europa?"), y la salida es un resultado de consulta SQL ejecutado exitosamente. El flujo de trabajo incluye:
- Recuperar el esquema objetivo
- Generación autorregresiva de consultas candidatas
- Ejecutar la consulta
- Validar el conjunto de resultados
- Si la consulta falla, corregir e intentar nuevamente
Cortex proporciona un grupo de motores dedicado para cada fase del flujo de trabajo. Un grupo de motores es un conjunto de trabajadores homogéneos (como GPU para decodificación de LLM o ejecutores de CPU para SQL), gestionados por un programador local de fase con su propia cola, caché y estrategia de escalado.
- Orquestador (Orchestrator):
- Consciente del flujo de trabajo, rastrea la ubicación de cada solicitud en el gráfico
- Predice el siguiente conjunto de operadores elegibles
- Adjunta claves de prioridad basadas en holgura de SLO, selectividad de fase y tiempo de servicio esperado
- Capa de Asignación de Motores (Engine Allocation Layer):
- Enruta subcalls a instancias de grupo concretas que maximizan la localidad
- Equilibra carga entre réplicas
- Reordena solicitudes basadas en prioridad
- Ejecuta control de admisión cuando una fase se convierte en cuello de botella
- Mecanismo de Préstamo de Recursos:
Cuando la carga y la presión de memoria son suficientemente bajas, el orquestador puede permitir oportunistamente que fases compatibles tomen prestados motores inactivos para reducir fragmentación y mejorar la utilización.
Mediante aislamiento de fases, cada motor mantiene solo el contexto específico de su fase, mientras que los motores compartidos deben mantener el caché caliente de contexto de dos fases en cada réplica, duplicando efectivamente el uso de memoria de caché KV. La memoria GPU recuperada mejora el tamaño de lote efectivo, traduciéndose directamente en mayor rendimiento y latencias de cola más ajustadas.
El aislamiento de fases elimina la interferencia entre fases que compromete la previsibilidad. Cuando llamadas heterogéneas comparten un motor, los lotes acoplan sus tiempos de ejecución, retrasando la emisión de tokens, haciendo que la latencia de las llamadas de LLM dependa de sus compañeros de lote.
Habilita escalado y configuración independientes: un monitor rápido solo escala grupos que amenazan el SLO, permitiendo configuración ligera de fases de ejecución única, mientras asigna más peso a grupos de ruta crítica.
El artículo utiliza el flujo de trabajo NL2SQL como escenario experimental principal, que contiene dos fases de LLM:
- Generador de SQL
- Corrector de errores de SQL
- Ejecutor de SQL (fase no-LLM)
- Uso de memoria de caché KV
- Ocupación de memoria total
- Rendimiento del sistema
- Latencia de cola
- Esquema de grupo de motores compartidos: todas las fases comparten el mismo conjunto de motores de LLM
- Esquema de aislamiento de fases Cortex: cada fase utiliza un grupo de motores dedicado
Los resultados experimentales muestran que al ejecutar fases de LLM del flujo de trabajo NL2SQL en Cortex, la ocupación total de KV se reduce significativamente. Cuando cada fase se ejecuta en su propio grupo Cortex, la huella total de KV es notablemente menor: cada motor mantiene solo el contexto específico de su fase.
- Eficiencia de Memoria: Mediante aislamiento de fases, se evita la duplicación de caché KV, liberando memoria GPU valiosa
- Aumento de Rendimiento: La memoria GPU recuperada se traduce directamente en un tamaño de lote efectivo más alto
- Mejora de Latencia: Latencias de cola más ajustadas y desempeño más predecible
Los experimentos validan las tres ventajas principales de Cortex:
- Utilización mejorada de caché KV: Reducción significativa de ocupación de memoria
- Eliminación de interferencia entre fases: Restauración de modelos de latencia estables locales a la fase
- Capacidad de escalado independiente: Soporte para gestión de recursos de grano fino
- vLLM: Servicio eficiente de modelos de lenguaje grande, empleando PagedAttention para gestión de memoria
- SGLang: Ejecución eficiente de programas de lenguaje estructurado
- Autellix: Motor de servicio eficiente para agentes de LLM, utilizando estrategias de prioridad complejas
- HEXGEN-TEXT2SQL: Programación de solicitudes de flujo de trabajo NL2SQL basada en holgura de plazo restante y tiempo de ejecución estimado
Las plataformas existentes carecen de conciencia de la estructura interna del flujo de trabajo; Cortex llena este vacío mediante aislamiento de fases.
Cortex mejora significativamente el desempeño de servicio de cargas de trabajo de agentes mediante una estrategia simple pero efectiva de aislamiento de fases. Este enfoque no solo mejora la eficiencia de utilización de recursos, sino que también sienta las bases para paradigmas de servicio más avanzados nativos de agentes.
- Adaptabilidad Computacional: Reemplazar modelos pesados con variantes ligeras cuando la latencia se acerca al límite de SLO
- Elasticidad de Recursos: Utilizar motores más potentes en patrones de abanico para acelerar rezagados
- Especular sobre ramas más probables en el flujo de trabajo
- Precalentar motores relevantes o pre-ejecutar el siguiente paso
- Generar y evaluar en paralelo múltiples consultas candidatas
- "Estado de agente" multinivel como ciudadanos de primera clase
- Alcance de flujo de trabajo compartido como estructura de publicación/suscripción
- Transformar llamadas repetidas de herramientas y LLM en aciertos de costo cero
- Fase de Prototipo: Actualmente sigue siendo una prueba de concepto, requiriendo implementación y evaluación más completas
- Restricciones de Escenario: Principalmente ejemplificado por NL2SQL, requiriendo validación en más flujos de trabajo de agentes
- Gestión de Complejidad: Cómo diseñar interfaces para que flujos de trabajo declaren su plasticidad sigue siendo un desafío abierto
- Innovación Fuerte: Primera arquitectura de servicio de agentes consciente del flujo de trabajo propuesta
- Identificación Precisa del Problema: Identifica con precisión problemas clave en plataformas actuales de servicio de LLM
- Solución Simple y Efectiva: La estrategia de aislamiento de fases es simple pero produce resultados significativos
- Perspectiva Prospectiva: Proporciona una trayectoria de desarrollo clara para servicio futuro nativo de agentes
- Validación Experimental Limitada: Principalmente basada en un escenario NL2SQL, carece de experimentos amplios y diversificados
- Resultados Cuantitativos Insuficientes: Los gráficos muestran tendencias pero carecen de valores numéricos específicos de mejora de desempeño
- Detalles de Implementación Incompletos: Descripción menos detallada de la implementación específica de algoritmos de programación y estrategias de asignación de recursos
- Experimentos de Comparación Insuficientes: Principalmente comparado con esquema de grupo compartido simple, carece de comparación con otros métodos avanzados
- Valor Académico: Proporciona nuevas direcciones de investigación para el campo de servicio de agentes
- Valor Práctico: Resuelve problemas importantes en entornos de producción real
- Inspiración: Proporciona ideas valiosas para investigación relacionada posterior
- Flujos de Trabajo de Agentes Multifase: Particularmente adecuado para aplicaciones de agentes con divisiones de fase claras
- Entornos Sensibles a Recursos: Efectos significativos en entornos donde recursos como memoria GPU son limitados
- Escenarios de Requisitos de Alto Desempeño: Entornos de producción con requisitos estrictos de latencia y rendimiento
El artículo cita la siguiente literatura clave:
- vLLM: Mecanismo de gestión de memoria PagedAttention
- SGLang: Ejecución de programas de lenguaje estructurado
- Autellix: Motor de servicio de agentes de LLM
- HEXGEN-TEXT2SQL: Programación de flujo de trabajo de agentes
- Literatura relacionada de NL2SQL y servicios en la nube
Evaluación General: Este es un artículo innovador y prospectivo que plantea problemas importantes en el campo de servicio de agentes y proporciona soluciones efectivas. Aunque actualmente se encuentra en fase de prototipo, marca la dirección para el desarrollo del campo y posee valor académico y práctico significativo.