2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.

We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."

academic

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

基本信息

论文ID: 2510.14126
标题: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
作者: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
分类: cs.DC (Distributed, Parallel, and Cluster Computing)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14126

摘要

本文介绍了Cortex，这是一个为智能体工作负载设计的工作流感知服务平台原型。Cortex的核心原理是阶段隔离：为智能体工作流的每个不同阶段提供专用资源池。这一简单而强大的策略缓解了计算和内存中的阶段间干扰，从而实现更好的KV缓存利用率、更高的吞吐量和更可预测的性能。通过在智能体工作流的每个不同阶段内定制资源分配和调度，Cortex为更先进的智能体原生服务范式奠定了基础，包括可塑性资源管理、工作流分支的推测执行以及用于"智能体状态"的共享多层缓存。

研究背景与动机

问题定义

智能体工作流将大语言模型(LLM)的推理与迭代工具使用相结合：模型观察中间结果，思考，调用另一个工具，并重复直到任务解决或预算耗尽。这种闭环模式在生产级应用中越来越重要，如自然语言转SQL(NL2SQL)智能体。

现有方法的局限性

当前的LLM服务平台存在以下问题：

工作流不敏感性：流行的LLM服务框架(如vLLM)将每个阶段视为独立的LLM调用，采用先来先服务(FCFS)调度
缺乏结构感知：现有智能体服务平台(如Autellix)使用复杂的优先级策略但不了解内部工作流结构
缓存机会浪费：五次针对同一模式的改进尝试会产生五次相同的提示构建和五次相同的热缓存SQL执行
调度盲目性：在不了解剩余工作流的情况下调度LLM调用，忽略下游成本

研究动机

作者观察到单一共享的"通用"LLM引擎池不适合包含异构阶段的智能体工作流。每个阶段(SQL生成、执行、错误修复)具有不同的延迟配置文件、内存需求和缓存机会。

核心贡献

提出了Cortex架构：首个基于阶段隔离的工作流感知服务平台，为每个工作流阶段提供专用引擎池
实现了显著的KV缓存优化：通过阶段隔离显著降低KV缓存内存使用，提高GPU内存利用率
消除了跨阶段干扰：恢复稳定的阶段本地延迟模型，提高性能可预测性
设计了智能体原生服务框架：为可塑性工作流、推测执行和智能体状态管理奠定基础

方法详解

任务定义

以NL2SQL工作流为例，输入是自然语言查询（如"欧洲上季度的销售额是多少？"），输出是成功执行的SQL查询结果。工作流包括：

检索目标模式
自回归生成候选查询
执行查询
验证结果集
如果查询失败，修复并重试

核心架构设计

阶段隔离原理

Cortex为每个工作流阶段提供专用引擎池。引擎池是一组同质工作器(如用于LLM解码的GPU或用于SQL的CPU执行器)，由具有自己队列、缓存和扩展策略的阶段本地调度器管理。

系统组件

编排器(Orchestrator)：
- 工作流感知，跟踪每个请求在图中的位置
- 预测下一组符合条件的操作符
- 基于SLO松弛度、阶段选择性和预期服务时间附加优先级键
引擎分配层(Engine Allocation Layer)：
- 将子调用路由到最大化局部性的具体池实例
- 在副本间平衡负载
- 基于优先级重新排序请求
- 当阶段成为瓶颈时执行准入控制
资源借用机制：当负载和内存压力足够低时，编排器可以机会性地让兼容阶段借用空闲引擎以减少碎片化并提高利用率。