We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
- 論文ID: 2510.14126
- タイトル: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
- 著者: Nikos Pagonas (コロンビア大学)、Yeounoh Chung (Google)、Kostis Kaffes (コロンビア大学)、Arvind Krishnamurthy (Google & ワシントン大学)
- 分類: cs.DC (分散・並列・クラスタコンピューティング)
- 発表日: 2025年10月15日 (arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2510.14126
本論文ではCortexを紹介する。これはエージェント型ワークロード向けに設計されたワークフロー認識型サービングプラットフォームのプロトタイプである。Cortexの中核原理は段階隔離である:エージェント型ワークフローの各段階に専用リソースプールを提供する。この単純かつ強力な戦略は、計算とメモリにおける段階間干渉を軽減し、より優れたKVキャッシュ利用率、より高いスループット、およびより予測可能なパフォーマンスを実現する。エージェント型ワークフローの各段階内でリソース割り当てとスケジューリングをカスタマイズすることにより、Cortexはより高度なエージェント型ネイティブサービングパラダイムの基礎を確立する。これには、可塑的リソース管理、ワークフロー分岐の推測実行、および「エージェント状態」用の共有多層キャッシュが含まれる。
エージェント型ワークフローは大規模言語モデル(LLM)の推論と反復的なツール使用を組み合わせる:モデルは中間結果を観察し、思考し、別のツールを呼び出し、タスクが解決されるか予算が尽きるまで繰り返す。このクローズドループモード は、自然言語からSQL(NL2SQL)エージェントなど、本番レベルのアプリケーションでますます重要になっている。
現在のLLMサービングプラットフォームには以下の問題がある:
- ワークフロー非認識性: 一般的なLLMサービングフレームワーク(vLLMなど)は各段階を独立したLLM呼び出しとして扱い、先着順(FCFS)スケジューリングを採用している
- 構造認識の欠如: 既存のエージェント型サービングプラットフォーム(Autellixなど)は複雑な優先度戦略を使用するが、内部ワークフロー構造を理解していない
- キャッシュ機会の浪費: 同じパターンに対する5回の改善試行は、5回の同一プロンプト構築と5回の同一のホットキャッシュSQL実行を生成する
- スケジューリングの盲目性: 残りのワークフローを理解せずにLLM呼び出しをスケジュールし、下流コストを無視する
著者らは、異種段階を含むエージェント型ワークフローには、単一の共有「汎用」LLMエンジンプールが適切でないことを観察した。各段階(SQL生成、実行、エラー修正)は異なるレイテンシプロファイル、メモリ要件、およびキャッシュ機会を持つ。
- Cortexアーキテクチャの提案: 段階隔離に基づく最初のワークフロー認識型サービングプラットフォーム。各ワークフロー段階に専用エンジンプールを提供する
- 顕著なKVキャッシュ最適化の実現: 段階隔離を通じてKVキャッシュメモリ使用量を大幅に削減し、GPU メモリ利用率を向上させる
- 段階間干渉の排除: 安定した段階ローカルレイテンシモデルを復元し、パフォーマンス予測可能性を向上させる
- エージェント型ネイティブサービングフレームワークの設計: 可塑的ワークフロー、推測実行、およびエージェント状態管理の基礎を確立する
NL2SQLワークフローを例として、入力は自然言語クエリ(例:「ヨーロッパの前四半期の売上はいくらですか?」)であり、出力は正常に実行されたSQLクエリ結果である。ワークフローには以下が含まれる:
- ターゲットスキーマの取得
- 候補クエリの自己回帰生成
- クエリの実行
- 結果セットの検証
- クエリが失敗した場合、修正と再試行
Cortexは各ワークフロー段階に専用エンジンプールを提供する。エンジンプールは同質なワーカーのグループ(例:LLMデコード用のGPUまたはSQL実行用のCPUエグゼキューター)であり、独自のキュー、キャッシュ、およびスケーリング戦略を持つ段階ローカルスケジューラーによって管理される。
- オーケストレーター(Orchestrator):
- ワークフロー認識で、各リクエストがグラフ内のどこにあるかを追跡する
- 次の適格オペレーターセットを予測する
- SLOスラック、段階選択性、および予想サービス時間に基づいて優先度キーを付加する
- エンジン割り当て層(Engine Allocation Layer):
- サブコールをローカリティを最大化する具体的なプールインスタンスにルーティングする
- レプリカ間で負荷を均衡させる
- 優先度に基づいてリクエストを並べ替える
- 段階がボトルネックになった場合、アドミッション制御を実行する
- リソース借用メカニズム:
負荷とメモリ圧力が十分に低い場合、オーケストレーターは互換性のある段階が断片化を減らし利用率を向上させるために、アイドルエンジンを借用することを機会的に許可できる。
段階隔離を通じて、各エンジンはその段階特定のコンテキストのみを保持する。一方、共有エンジンは各レプリカで2つの段階のコンテキストをホットキャッシュで保持する必要があり、事実上KVキャッシュメモリ使用量を重複させる。回収されたGPUメモリは有効バッチサイズを向上させ、より高いスループットとより厳しいテール遅延に直結する。
段階隔離は予測可能性を損なう段階間干渉を排除する。異種呼び出しがエンジンを共有する場合、バッチはそれらの実行時間を結合し、トークン発行を遅延させ、LLM呼び出しのレイテンシをそのバッチパートナーに依存させる。
独立したスケーリングと構成を可能にする:高速モニターはSLOを脅かすプールのみをスケールし、軽量構成をワンショット実行段階に許可しながら、重要パス プールにより多くの重みを割り当てる。
論文は主要な実験シナリオとしてNL2SQLワークフローを使用し、2つのLLM段階を含む:
- SQLジェネレーター
- SQLエラー修正器
- SQLエグゼキューター(非LLM段階)
- KVキャッシュメモリ使用量
- 総メモリフットプリント
- システムスループット
- テール遅延
- 共有エンジンプール方式:すべての段階が同じLLMエンジンセットを共有
- Cortex段階隔離方式:各段階が専用エンジンプールを使用
実験結果は、CortexでNL2SQLワークフローのLLM段階を実行する場合、総KV占有が大幅に削減されることを示している。各段階が独自のCortexプールで実行される場合、総KVフットプリントは明らかに低い:各エンジンはその段階特定のコンテキストのみを保持する。
- メモリ効率: 段階隔離を通じて、KVキャッシュの重複を回避し、貴重なGPUメモリを解放する
- スループット向上: 回収されたGPUメモリは、より高い有効バッチサイズに直結する
- 遅延改善: より厳しいテール遅延とより予測可能なパフォーマンス
実験はCortexの3つの主要な利点を検証した:
- 改善されたKVキャッシュ利用率: メモリ占有の大幅な削減
- 段階間干渉の排除: 安定した段階ローカルレイテンシモデルの復元
- 独立スケーリング能力: 細粒度リソース管理のサポート
- vLLM: 効率的な大規模言語モデルサービング。PagedAttentionによるメモリ管理
- SGLang: 構造化言語モデルプログラムの効率的な実行
- Autellix: LLMエージェント向けの効率的なサービングエンジン。複雑な優先度戦略を使用
- HEXGEN-TEXT2SQL: 残りの期限スラックと推定実行時間に基づくNL2SQLワークフロー要求スケジューリング
既存プラットフォームは内部ワークフロー構造の認識を欠いており、Cortexはこのギャップを段階隔離で埋める。
Cortexは単純かつ効果的な段階隔離戦略を通じて、エージェント型ワークロードのサービングパフォーマンスを大幅に改善する。このアプローチは、リソース利用効率を向上させるだけでなく、より高度なエージェント型ネイティブサービングパラダイムの基礎を確立する。
- 計算適応性: レイテンシがSLO境界に近づいた場合、重量級モデルを軽量バリアントで置き換える
- リソース弾性: ファンアウトパターンでより強力なエンジンを使用して遅延者を支援する
- ワークフロー内の最も可能性の高い分岐に対する推測
- 関連エンジンのプリウォーミングまたは次のステップの事前実行
- 複数の候補クエリの並列生成と評価
- 中間データを一等市民として多層「エージェント状態」
- ワークフロー範囲の共有層をパブリッシュ/サブスクライブ構造として
- 反復的なツールおよびLLM呼び出しをゼロコストヒットに変換する
- プロトタイプ段階: 現在は概念実証のままであり、より包括的な実装と評価が必要
- シナリオ制限: 主にNL2SQLを例としており、より多くのエージェント型ワークフロー上での検証が必要
- 複雑性管理: ワークフローがその可塑性を宣言できるようなインターフェースの設計方法は依然として未解決の課題
- 革新性が高い: ワークフロー認識型エージェント型サービングアーキテクチャを初めて提案
- 問題の位置付けが正確: 既存LLMサービングプラットフォームの重要な問題を正確に特定
- ソリューションが簡潔かつ効果的: 段階隔離戦略は単純だが効果は顕著
- 先見性が強い: 将来のエージェント型ネイティブサービングの明確な発展経路を提供
- 実験検証が限定的: 主にNL2SQLシナリオに基づいており、大規模で多様な実験が不足
- 定量的結果が不十分: グラフはトレンドを示すが、具体的なパフォーマンス向上値が不足
- 実装詳細が不十分: スケジューリングアルゴリズムとリソース割り当て戦略の具体的な実装説明が少ない
- 比較実験が不十分: 主に単純な共有プール方式との比較であり、他の先進的手法との比較が不足
- 学術的価値: エージェント型サービング分野に新しい研究方向を提供
- 実用的価値: 実際の本番環境における重要な問題を解決
- 啓発性: 後続の関連研究に有価値な洞察を提供
- 多段階エージェント型ワークフロー: 特に明確な段階区分を持つエージェント型アプリケーションに適している
- リソース制約環境: GPU メモリなどのリソースが限定された環境で顕著な効果
- 高パフォーマンス要件シナリオ: レイテンシとスループットに厳格な要件がある本番環境
論文は以下の主要文献を引用している:
- vLLM: PagedAttentionメモリ管理メカニズム
- SGLang: 構造化言語モデルプログラム実行
- Autellix: LLMエージェントサービングエンジン
- HEXGEN-TEXT2SQL: エージェント型ワークフロースケジューリング
- 関連するNL2SQLおよびクラウドサービス文献
総合評価: これはエージェント型サービング分野における重要な問題を提案し、効果的なソリューションを提供する、革新性と先見性に富んだ論文である。現在はプロトタイプ段階にあるが、この分野の発展に方向性を示しており、学術的および実用的価値が高い。