2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.

We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."

academic

Cortex: ワークフロー認識型リソースプーリングおよびエージェント型サービング向けスケジューリング

基本情報

論文ID: 2510.14126
タイトル: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
著者: Nikos Pagonas (コロンビア大学)、Yeounoh Chung (Google)、Kostis Kaffes (コロンビア大学)、Arvind Krishnamurthy (Google & ワシントン大学)
分類: cs.DC (分散・並列・クラスタコンピューティング)
発表日: 2025年10月15日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.14126

概要

本論文ではCortexを紹介する。これはエージェント型ワークロード向けに設計されたワークフロー認識型サービングプラットフォームのプロトタイプである。Cortexの中核原理は段階隔離である：エージェント型ワークフローの各段階に専用リソースプールを提供する。この単純かつ強力な戦略は、計算とメモリにおける段階間干渉を軽減し、より優れたKVキャッシュ利用率、より高いスループット、およびより予測可能なパフォーマンスを実現する。エージェント型ワークフローの各段階内でリソース割り当てとスケジューリングをカスタマイズすることにより、Cortexはより高度なエージェント型ネイティブサービングパラダイムの基礎を確立する。これには、可塑的リソース管理、ワークフロー分岐の推測実行、および「エージェント状態」用の共有多層キャッシュが含まれる。

研究背景と動機

問題定義

エージェント型ワークフローは大規模言語モデル(LLM)の推論と反復的なツール使用を組み合わせる：モデルは中間結果を観察し、思考し、別のツールを呼び出し、タスクが解決されるか予算が尽きるまで繰り返す。このクローズドループモードは、自然言語からSQL(NL2SQL)エージェントなど、本番レベルのアプリケーションでますます重要になっている。

既存手法の制限

現在のLLMサービングプラットフォームには以下の問題がある：

ワークフロー非認識性: 一般的なLLMサービングフレームワーク(vLLMなど)は各段階を独立したLLM呼び出しとして扱い、先着順(FCFS)スケジューリングを採用している
構造認識の欠如: 既存のエージェント型サービングプラットフォーム(Autellixなど)は複雑な優先度戦略を使用するが、内部ワークフロー構造を理解していない
キャッシュ機会の浪費: 同じパターンに対する5回の改善試行は、5回の同一プロンプト構築と5回の同一のホットキャッシュSQL実行を生成する
スケジューリングの盲目性: 残りのワークフローを理解せずにLLM呼び出しをスケジュールし、下流コストを無視する

研究動機

著者らは、異種段階を含むエージェント型ワークフローには、単一の共有「汎用」LLMエンジンプールが適切でないことを観察した。各段階(SQL生成、実行、エラー修正)は異なるレイテンシプロファイル、メモリ要件、およびキャッシュ機会を持つ。

主要な貢献

Cortexアーキテクチャの提案: 段階隔離に基づく最初のワークフロー認識型サービングプラットフォーム。各ワークフロー段階に専用エンジンプールを提供する
顕著なKVキャッシュ最適化の実現: 段階隔離を通じてKVキャッシュメモリ使用量を大幅に削減し、GPU メモリ利用率を向上させる
段階間干渉の排除: 安定した段階ローカルレイテンシモデルを復元し、パフォーマンス予測可能性を向上させる
エージェント型ネイティブサービングフレームワークの設計: 可塑的ワークフロー、推測実行、およびエージェント状態管理の基礎を確立する

方法論の詳細

タスク定義

NL2SQLワークフローを例として、入力は自然言語クエリ(例：「ヨーロッパの前四半期の売上はいくらですか？」)であり、出力は正常に実行されたSQLクエリ結果である。ワークフローには以下が含まれる：

ターゲットスキーマの取得
候補クエリの自己回帰生成
クエリの実行
結果セットの検証
クエリが失敗した場合、修正と再試行

コアアーキテクチャ設計

段階隔離の原理

Cortexは各ワークフロー段階に専用エンジンプールを提供する。エンジンプールは同質なワーカーのグループ(例：LLMデコード用のGPUまたはSQL実行用のCPUエグゼキューター)であり、独自のキュー、キャッシュ、およびスケーリング戦略を持つ段階ローカルスケジューラーによって管理される。

システムコンポーネント

オーケストレーター(Orchestrator):
- ワークフロー認識で、各リクエストがグラフ内のどこにあるかを追跡する
- 次の適格オペレーターセットを予測する
- SLOスラック、段階選択性、および予想サービス時間に基づいて優先度キーを付加する
エンジン割り当て層(Engine Allocation Layer):
- サブコールをローカリティを最大化する具体的なプールインスタンスにルーティングする
- レプリカ間で負荷を均衡させる
- 優先度に基づいてリクエストを並べ替える
- 段階がボトルネックになった場合、アドミッション制御を実行する
リソース借用メカニズム: 負荷とメモリ圧力が十分に低い場合、オーケストレーターは互換性のある段階が断片化を減らし利用率を向上させるために、アイドルエンジンを借用することを機会的に許可できる。

技術的革新

KVキャッシュ最適化

段階隔離を通じて、各エンジンはその段階特定のコンテキストのみを保持する。一方、共有エンジンは各レプリカで2つの段階のコンテキストをホットキャッシュで保持する必要があり、事実上KVキャッシュメモリ使用量を重複させる。回収されたGPUメモリは有効バッチサイズを向上させ、より高いスループットとより厳しいテール遅延に直結する。