2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.
We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
academic

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

基本信息

  • 论文ID: 2510.14126
  • 标题: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
  • 作者: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
  • 分类: cs.DC (Distributed, Parallel, and Cluster Computing)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14126

摘要

本文介绍了Cortex,这是一个为智能体工作负载设计的工作流感知服务平台原型。Cortex的核心原理是阶段隔离:为智能体工作流的每个不同阶段提供专用资源池。这一简单而强大的策略缓解了计算和内存中的阶段间干扰,从而实现更好的KV缓存利用率、更高的吞吐量和更可预测的性能。通过在智能体工作流的每个不同阶段内定制资源分配和调度,Cortex为更先进的智能体原生服务范式奠定了基础,包括可塑性资源管理、工作流分支的推测执行以及用于"智能体状态"的共享多层缓存。

研究背景与动机

问题定义

智能体工作流将大语言模型(LLM)的推理与迭代工具使用相结合:模型观察中间结果,思考,调用另一个工具,并重复直到任务解决或预算耗尽。这种闭环模式在生产级应用中越来越重要,如自然语言转SQL(NL2SQL)智能体。

现有方法的局限性

当前的LLM服务平台存在以下问题:

  1. 工作流不敏感性:流行的LLM服务框架(如vLLM)将每个阶段视为独立的LLM调用,采用先来先服务(FCFS)调度
  2. 缺乏结构感知:现有智能体服务平台(如Autellix)使用复杂的优先级策略但不了解内部工作流结构
  3. 缓存机会浪费:五次针对同一模式的改进尝试会产生五次相同的提示构建和五次相同的热缓存SQL执行
  4. 调度盲目性:在不了解剩余工作流的情况下调度LLM调用,忽略下游成本

研究动机

作者观察到单一共享的"通用"LLM引擎池不适合包含异构阶段的智能体工作流。每个阶段(SQL生成、执行、错误修复)具有不同的延迟配置文件、内存需求和缓存机会。

核心贡献

  1. 提出了Cortex架构:首个基于阶段隔离的工作流感知服务平台,为每个工作流阶段提供专用引擎池
  2. 实现了显著的KV缓存优化:通过阶段隔离显著降低KV缓存内存使用,提高GPU内存利用率
  3. 消除了跨阶段干扰:恢复稳定的阶段本地延迟模型,提高性能可预测性
  4. 设计了智能体原生服务框架:为可塑性工作流、推测执行和智能体状态管理奠定基础

方法详解

任务定义

以NL2SQL工作流为例,输入是自然语言查询(如"欧洲上季度的销售额是多少?"),输出是成功执行的SQL查询结果。工作流包括:

  1. 检索目标模式
  2. 自回归生成候选查询
  3. 执行查询
  4. 验证结果集
  5. 如果查询失败,修复并重试

核心架构设计

阶段隔离原理

Cortex为每个工作流阶段提供专用引擎池。引擎池是一组同质工作器(如用于LLM解码的GPU或用于SQL的CPU执行器),由具有自己队列、缓存和扩展策略的阶段本地调度器管理。

系统组件

  1. 编排器(Orchestrator)
    • 工作流感知,跟踪每个请求在图中的位置
    • 预测下一组符合条件的操作符
    • 基于SLO松弛度、阶段选择性和预期服务时间附加优先级键
  2. 引擎分配层(Engine Allocation Layer)
    • 将子调用路由到最大化局部性的具体池实例
    • 在副本间平衡负载
    • 基于优先级重新排序请求
    • 当阶段成为瓶颈时执行准入控制
  3. 资源借用机制: 当负载和内存压力足够低时,编排器可以机会性地让兼容阶段借用空闲引擎以减少碎片化并提高利用率。

技术创新点

KV缓存优化

通过阶段隔离,每个引擎只保持其阶段特定的上下文,而共享引擎必须在每个副本上保持两个阶段的上下文热缓存,有效地重复KV缓存内存使用。回收的GPU内存提高了有效批处理大小,直接转化为更高的吞吐量和更紧的尾部延迟。

性能可预测性

阶段隔离消除了破坏可预测性的跨阶段干扰。当异构调用共享引擎时,批处理会耦合它们的运行时间,延迟令牌发射,使LLM调用的延迟依赖于其批处理伙伴。

独立扩展

启用独立扩展和配置:快速监视器仅扩展威胁SLO的池,允许轻量配置一次性运行阶段,同时为关键路径池分配更多权重。

实验设置

实验场景

论文以NL2SQL工作流为主要实验场景,包含两个LLM阶段:

  • SQL生成器
  • SQL错误修复器
  • SQL执行器(非LLM阶段)

评价指标

  • KV缓存内存使用量
  • 总内存占用
  • 系统吞吐量
  • 尾部延迟

对比基准

  • 共享引擎池方案:所有阶段共享同一组LLM引擎
  • Cortex阶段隔离方案:每个阶段使用专用引擎池

实验结果

主要结果

KV缓存优化效果

实验结果显示,在Cortex中运行NL2SQL工作流的LLM阶段时,总KV占用显著降低。当每个阶段在其自己的Cortex池中运行时,总KV足迹明显更低:每个引擎仅保持其阶段特定的上下文。

性能提升

  1. 内存效率:通过阶段隔离,避免了KV缓存的重复,释放了宝贵的GPU内存
  2. 吞吐量提升:回收的GPU内存直接转化为更高的有效批处理大小
  3. 延迟改善:更紧的尾部延迟和更可预测的性能

系统优势验证

实验验证了Cortex的三个主要优势:

  1. 改善的KV缓存利用率:显著减少内存占用
  2. 消除跨阶段干扰:恢复稳定的阶段本地延迟模型
  3. 独立扩展能力:支持细粒度的资源管理

相关工作

LLM服务框架

  • vLLM:高效的大语言模型服务,采用PagedAttention进行内存管理
  • SGLang:结构化语言模型程序的高效执行

智能体服务平台

  • Autellix:LLM智能体的高效服务引擎,使用复杂的优先级策略
  • HEXGEN-TEXT2SQL:基于剩余截止时间松弛度和估计执行时间的NL2SQL工作流请求调度

技术差异

现有平台缺乏对内部工作流结构的感知,Cortex通过阶段隔离填补了这一空白。

结论与讨论

主要结论

Cortex通过简单而有效的阶段隔离策略,显著改善了智能体工作负载的服务性能。该方法不仅提高了资源利用效率,还为更高级的智能体原生服务范式奠定了基础。

未来方向

可塑性工作流与资源

  1. 计算适应性:当延迟接近SLO边界时,用轻量级变体替换重量级模型
  2. 资源弹性:在扇出模式中使用更强大的引擎提升落后者

推测执行

  • 对工作流中最可能的分支进行推测
  • 预热相关引擎或预执行下一步
  • 并行生成和评估多个候选查询

智能体状态管理

  • 将中间数据作为一等公民的多层"智能体状态"
  • 工作流范围的共享层作为发布/订阅结构
  • 将重复的工具和LLM调用转化为零成本命中

局限性

  1. 原型阶段:当前仍是概念验证,需要更全面的实现和评估
  2. 场景限制:主要以NL2SQL为例,需要在更多智能体工作流上验证
  3. 复杂性管理:如何设计接口让工作流声明其可塑性仍是开放挑战

深度评价

优点

  1. 创新性强:首次提出工作流感知的智能体服务架构
  2. 问题定位准确:准确识别了现有LLM服务平台的关键问题
  3. 解决方案简洁有效:阶段隔离策略简单但效果显著
  4. 前瞻性强:为未来智能体原生服务提供了清晰的发展路径

不足

  1. 实验验证有限:主要基于一个NL2SQL场景,缺乏大规模多样化实验
  2. 量化结果不足:图表显示了趋势但缺乏具体的性能提升数值
  3. 实现细节不够详细:对调度算法和资源分配策略的具体实现描述较少
  4. 对比实验不充分:主要与简单的共享池方案对比,缺乏与其他先进方法的比较

影响力

  1. 学术价值:为智能体服务领域提供了新的研究方向
  2. 实用价值:解决了实际生产环境中的重要问题
  3. 启发性:为后续相关研究提供了有价值的思路

适用场景

  1. 多阶段智能体工作流:特别适合具有清晰阶段划分的智能体应用
  2. 资源敏感环境:在GPU内存等资源受限的环境中效果显著
  3. 高性能要求场景:对延迟和吞吐量有严格要求的生产环境

参考文献

论文引用了以下关键文献:

  1. vLLM: PagedAttention内存管理机制
  2. SGLang: 结构化语言模型程序执行
  3. Autellix: LLM智能体服务引擎
  4. HEXGEN-TEXT2SQL: 智能体工作流调度
  5. 相关NL2SQL和云服务文献

总体评价:这是一篇具有创新性和前瞻性的论文,提出了智能体服务领域的重要问题并给出了有效的解决方案。虽然当前仍处于原型阶段,但为该领域的发展指明了方向,具有重要的学术和实用价值。