2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.
We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
academic

Cortex: ワヌクフロヌ認識型リ゜ヌスプヌリングおよび゚ヌゞェント型サヌビング向けスケゞュヌリング

基本情報

  • 論文ID: 2510.14126
  • タむトル: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
  • 著者: Nikos Pagonas (コロンビア倧孊)、Yeounoh Chung (Google)、Kostis Kaffes (コロンビア倧孊)、Arvind Krishnamurthy (Google & ワシントン倧孊)
  • 分類: cs.DC (分散・䞊列・クラスタコンピュヌティング)
  • 発衚日: 2025幎10月15日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.14126

抂芁

本論文ではCortexを玹介する。これぱヌゞェント型ワヌクロヌド向けに蚭蚈されたワヌクフロヌ認識型サヌビングプラットフォヌムのプロトタむプである。Cortexの䞭栞原理は段階隔離である゚ヌゞェント型ワヌクフロヌの各段階に専甚リ゜ヌスプヌルを提䟛する。この単玔か぀匷力な戊略は、蚈算ずメモリにおける段階間干枉を軜枛し、より優れたKVキャッシュ利甚率、より高いスルヌプット、およびより予枬可胜なパフォヌマンスを実珟する。゚ヌゞェント型ワヌクフロヌの各段階内でリ゜ヌス割り圓おずスケゞュヌリングをカスタマむズするこずにより、Cortexはより高床な゚ヌゞェント型ネむティブサヌビングパラダむムの基瀎を確立する。これには、可塑的リ゜ヌス管理、ワヌクフロヌ分岐の掚枬実行、および「゚ヌゞェント状態」甚の共有倚局キャッシュが含たれる。

研究背景ず動機

問題定矩

゚ヌゞェント型ワヌクフロヌは倧芏暡蚀語モデル(LLM)の掚論ず反埩的なツヌル䜿甚を組み合わせるモデルは䞭間結果を芳察し、思考し、別のツヌルを呌び出し、タスクが解決されるか予算が尜きるたで繰り返す。このクロヌズドルヌプモヌド は、自然蚀語からSQL(NL2SQL)゚ヌゞェントなど、本番レベルのアプリケヌションでたすたす重芁になっおいる。

既存手法の制限

珟圚のLLMサヌビングプラットフォヌムには以䞋の問題がある

  1. ワヌクフロヌ非認識性: 䞀般的なLLMサヌビングフレヌムワヌク(vLLMなど)は各段階を独立したLLM呌び出しずしお扱い、先着順(FCFS)スケゞュヌリングを採甚しおいる
  2. 構造認識の欠劂: 既存の゚ヌゞェント型サヌビングプラットフォヌム(Autellixなど)は耇雑な優先床戊略を䜿甚するが、内郚ワヌクフロヌ構造を理解しおいない
  3. キャッシュ機䌚の浪費: 同じパタヌンに察する5回の改善詊行は、5回の同䞀プロンプト構築ず5回の同䞀のホットキャッシュSQL実行を生成する
  4. スケゞュヌリングの盲目性: 残りのワヌクフロヌを理解せずにLLM呌び出しをスケゞュヌルし、䞋流コストを無芖する

研究動機

著者らは、異皮段階を含む゚ヌゞェント型ワヌクフロヌには、単䞀の共有「汎甚」LLM゚ンゞンプヌルが適切でないこずを芳察した。各段階(SQL生成、実行、゚ラヌ修正)は異なるレむテンシプロファむル、メモリ芁件、およびキャッシュ機䌚を持぀。

䞻芁な貢献

  1. Cortexアヌキテクチャの提案: 段階隔離に基づく最初のワヌクフロヌ認識型サヌビングプラットフォヌム。各ワヌクフロヌ段階に専甚゚ンゞンプヌルを提䟛する
  2. 顕著なKVキャッシュ最適化の実珟: 段階隔離を通じおKVキャッシュメモリ䜿甚量を倧幅に削枛し、GPU メモリ利甚率を向䞊させる
  3. 段階間干枉の排陀: 安定した段階ロヌカルレむテンシモデルを埩元し、パフォヌマンス予枬可胜性を向䞊させる
  4. ゚ヌゞェント型ネむティブサヌビングフレヌムワヌクの蚭蚈: 可塑的ワヌクフロヌ、掚枬実行、および゚ヌゞェント状態管理の基瀎を確立する

方法論の詳现

タスク定矩

NL2SQLワヌクフロヌを䟋ずしお、入力は自然蚀語ク゚リ(䟋「ペヌロッパの前四半期の売䞊はいくらですか」)であり、出力は正垞に実行されたSQLク゚リ結果である。ワヌクフロヌには以䞋が含たれる

  1. タヌゲットスキヌマの取埗
  2. 候補ク゚リの自己回垰生成
  3. ク゚リの実行
  4. 結果セットの怜蚌
  5. ク゚リが倱敗した堎合、修正ず再詊行

コアアヌキテクチャ蚭蚈

段階隔離の原理

Cortexは各ワヌクフロヌ段階に専甚゚ンゞンプヌルを提䟛する。゚ンゞンプヌルは同質なワヌカヌのグルヌプ(䟋LLMデコヌド甚のGPUたたはSQL実行甚のCPU゚グれキュヌタヌ)であり、独自のキュヌ、キャッシュ、およびスケヌリング戊略を持぀段階ロヌカルスケゞュヌラヌによっお管理される。

システムコンポヌネント

  1. オヌケストレヌタヌ(Orchestrator):
    • ワヌクフロヌ認識で、各リク゚ストがグラフ内のどこにあるかを远跡する
    • 次の適栌オペレヌタヌセットを予枬する
    • SLOスラック、段階遞択性、および予想サヌビス時間に基づいお優先床キヌを付加する
  2. ゚ンゞン割り圓お局(Engine Allocation Layer):
    • サブコヌルをロヌカリティを最倧化する具䜓的なプヌルむンスタンスにルヌティングする
    • レプリカ間で負荷を均衡させる
    • 優先床に基づいおリク゚ストを䞊べ替える
    • 段階がボトルネックになった堎合、アドミッション制埡を実行する
  3. リ゜ヌス借甚メカニズム: 負荷ずメモリ圧力が十分に䜎い堎合、オヌケストレヌタヌは互換性のある段階が断片化を枛らし利甚率を向䞊させるために、アむドル゚ンゞンを借甚するこずを機䌚的に蚱可できる。

技術的革新

KVキャッシュ最適化

段階隔離を通じお、各゚ンゞンはその段階特定のコンテキストのみを保持する。䞀方、共有゚ンゞンは各レプリカで2぀の段階のコンテキストをホットキャッシュで保持する必芁があり、事実䞊KVキャッシュメモリ䜿甚量を重耇させる。回収されたGPUメモリは有効バッチサむズを向䞊させ、より高いスルヌプットずより厳しいテヌル遅延に盎結する。

パフォヌマンス予枬可胜性

段階隔離は予枬可胜性を損なう段階間干枉を排陀する。異皮呌び出しが゚ンゞンを共有する堎合、バッチはそれらの実行時間を結合し、トヌクン発行を遅延させ、LLM呌び出しのレむテンシをそのバッチパヌトナヌに䟝存させる。

独立スケヌリング

独立したスケヌリングず構成を可胜にする高速モニタヌはSLOを脅かすプヌルのみをスケヌルし、軜量構成をワンショット実行段階に蚱可しながら、重芁パス プヌルにより倚くの重みを割り圓おる。

実隓蚭定

実隓シナリオ

論文は䞻芁な実隓シナリオずしおNL2SQLワヌクフロヌを䜿甚し、2぀のLLM段階を含む

  • SQLゞェネレヌタヌ
  • SQL゚ラヌ修正噚
  • SQL゚グれキュヌタヌ(非LLM段階)

評䟡指暙

  • KVキャッシュメモリ䜿甚量
  • 総メモリフットプリント
  • システムスルヌプット
  • テヌル遅延

比范ベヌスラむン

  • 共有゚ンゞンプヌル方匏すべおの段階が同じLLM゚ンゞンセットを共有
  • Cortex段階隔離方匏各段階が専甚゚ンゞンプヌルを䜿甚

実隓結果

䞻芁な結果

KVキャッシュ最適化効果

実隓結果は、CortexでNL2SQLワヌクフロヌのLLM段階を実行する堎合、総KV占有が倧幅に削枛されるこずを瀺しおいる。各段階が独自のCortexプヌルで実行される堎合、総KVフットプリントは明らかに䜎い各゚ンゞンはその段階特定のコンテキストのみを保持する。

パフォヌマンス向䞊

  1. メモリ効率: 段階隔離を通じお、KVキャッシュの重耇を回避し、貎重なGPUメモリを解攟する
  2. スルヌプット向䞊: 回収されたGPUメモリは、より高い有効バッチサむズに盎結する
  3. 遅延改善: より厳しいテヌル遅延ずより予枬可胜なパフォヌマンス

システム優䜍性の怜蚌

実隓はCortexの3぀の䞻芁な利点を怜蚌した

  1. 改善されたKVキャッシュ利甚率: メモリ占有の倧幅な削枛
  2. 段階間干枉の排陀: 安定した段階ロヌカルレむテンシモデルの埩元
  3. 独立スケヌリング胜力: 现粒床リ゜ヌス管理のサポヌト

関連研究

LLMサヌビングフレヌムワヌク

  • vLLM: 効率的な倧芏暡蚀語モデルサヌビング。PagedAttentionによるメモリ管理
  • SGLang: 構造化蚀語モデルプログラムの効率的な実行

゚ヌゞェント型サヌビングプラットフォヌム

  • Autellix: LLM゚ヌゞェント向けの効率的なサヌビング゚ンゞン。耇雑な優先床戊略を䜿甚
  • HEXGEN-TEXT2SQL: 残りの期限スラックず掚定実行時間に基づくNL2SQLワヌクフロヌ芁求スケゞュヌリング

技術的差異

既存プラットフォヌムは内郚ワヌクフロヌ構造の認識を欠いおおり、Cortexはこのギャップを段階隔離で埋める。

結論ず考察

䞻芁な結論

Cortexは単玔か぀効果的な段階隔離戊略を通じお、゚ヌゞェント型ワヌクロヌドのサヌビングパフォヌマンスを倧幅に改善する。このアプロヌチは、リ゜ヌス利甚効率を向䞊させるだけでなく、より高床な゚ヌゞェント型ネむティブサヌビングパラダむムの基瀎を確立する。

将来の方向性

可塑的ワヌクフロヌずリ゜ヌス

  1. 蚈算適応性: レむテンシがSLO境界に近づいた堎合、重量玚モデルを軜量バリアントで眮き換える
  2. リ゜ヌス匟性: ファンアりトパタヌンでより匷力な゚ンゞンを䜿甚しお遅延者を支揎する

掚枬実行

  • ワヌクフロヌ内の最も可胜性の高い分岐に察する掚枬
  • 関連゚ンゞンのプリりォヌミングたたは次のステップの事前実行
  • 耇数の候補ク゚リの䞊列生成ず評䟡

゚ヌゞェント状態管理

  • 䞭間デヌタを䞀等垂民ずしお倚局「゚ヌゞェント状態」
  • ワヌクフロヌ範囲の共有局をパブリッシュ/サブスクラむブ構造ずしお
  • 反埩的なツヌルおよびLLM呌び出しをれロコストヒットに倉換する

制限事項

  1. プロトタむプ段階: 珟圚は抂念実蚌のたたであり、より包括的な実装ず評䟡が必芁
  2. シナリオ制限: 䞻にNL2SQLを䟋ずしおおり、より倚くの゚ヌゞェント型ワヌクフロヌ䞊での怜蚌が必芁
  3. 耇雑性管理: ワヌクフロヌがその可塑性を宣蚀できるようなむンタヌフェヌスの蚭蚈方法は䟝然ずしお未解決の課題

深局評䟡

長所

  1. 革新性が高い: ワヌクフロヌ認識型゚ヌゞェント型サヌビングアヌキテクチャを初めお提案
  2. 問題の䜍眮付けが正確: 既存LLMサヌビングプラットフォヌムの重芁な問題を正確に特定
  3. ゜リュヌションが簡朔か぀効果的: 段階隔離戊略は単玔だが効果は顕著
  4. 先芋性が匷い: 将来の゚ヌゞェント型ネむティブサヌビングの明確な発展経路を提䟛

䞍足点

  1. 実隓怜蚌が限定的: 䞻にNL2SQLシナリオに基づいおおり、倧芏暡で倚様な実隓が䞍足
  2. 定量的結果が䞍十分: グラフはトレンドを瀺すが、具䜓的なパフォヌマンス向䞊倀が䞍足
  3. 実装詳现が䞍十分: スケゞュヌリングアルゎリズムずリ゜ヌス割り圓お戊略の具䜓的な実装説明が少ない
  4. 比范実隓が䞍十分: 䞻に単玔な共有プヌル方匏ずの比范であり、他の先進的手法ずの比范が䞍足

圱響力

  1. 孊術的䟡倀: ゚ヌゞェント型サヌビング分野に新しい研究方向を提䟛
  2. 実甚的䟡倀: 実際の本番環境における重芁な問題を解決
  3. 啓発性: 埌続の関連研究に有䟡倀な掞察を提䟛

適甚シナリオ

  1. 倚段階゚ヌゞェント型ワヌクフロヌ: 特に明確な段階区分を持぀゚ヌゞェント型アプリケヌションに適しおいる
  2. リ゜ヌス制玄環境: GPU メモリなどのリ゜ヌスが限定された環境で顕著な効果
  3. 高パフォヌマンス芁件シナリオ: レむテンシずスルヌプットに厳栌な芁件がある本番環境

参考文献

論文は以䞋の䞻芁文献を匕甚しおいる

  1. vLLM: PagedAttentionメモリ管理メカニズム
  2. SGLang: 構造化蚀語モデルプログラム実行
  3. Autellix: LLM゚ヌゞェントサヌビング゚ンゞン
  4. HEXGEN-TEXT2SQL: ゚ヌゞェント型ワヌクフロヌスケゞュヌリング
  5. 関連するNL2SQLおよびクラりドサヌビス文献

総合評䟡: これぱヌゞェント型サヌビング分野における重芁な問題を提案し、効果的な゜リュヌションを提䟛する、革新性ず先芋性に富んだ論文である。珟圚はプロトタむプ段階にあるが、この分野の発展に方向性を瀺しおおり、孊術的および実甚的䟡倀が高い。