2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.

We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."

academic

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Grundinformationen

Paper-ID: 2510.14126
Titel: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
Autoren: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
Klassifizierung: cs.DC (Distributed, Parallel, and Cluster Computing)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.14126

Zusammenfassung

Dieser Artikel stellt Cortex vor, einen Workflow-bewussten Serving-Plattform-Prototyp für Agent-Workloads. Das Kernprinzip von Cortex ist die Phasenisolation: Bereitstellung dedizierter Ressourcenpools für jede unterschiedliche Phase eines Agent-Workflows. Diese einfache, aber leistungsstarke Strategie mindert phasenübergreifende Interferenzen bei Berechnung und Speicher, was zu besserer KV-Cache-Auslastung, höherem Durchsatz und vorhersagbarerer Leistung führt. Durch die Anpassung der Ressourcenallokation und Planung innerhalb jeder unterschiedlichen Phase des Agent-Workflows legt Cortex den Grundstein für fortgeschrittenere Agent-native Serving-Paradigmen, einschließlich plastischer Ressourcenverwaltung, spekulativer Ausführung von Workflow-Verzweigungen und gemeinsamen mehrschichtigen Caches für „Agent-Status".

Forschungshintergrund und Motivation

Problemdefinition

Agent-Workflows kombinieren die Inferenz großer Sprachmodelle (LLMs) mit iterativer Werkzeugnutzung: Das Modell beobachtet Zwischenergebnisse, denkt nach, ruft ein anderes Werkzeug auf und wiederholt dies, bis die Aufgabe gelöst oder das Budget aufgebraucht ist. Dieses geschlossene Schleifenmuster wird in produktiven Anwendungen zunehmend wichtig, wie beispielsweise Natural Language to SQL (NL2SQL) Agenten.

Einschränkungen bestehender Ansätze

Aktuelle LLM-Serving-Plattformen weisen folgende Probleme auf:

Workflow-Unempfindlichkeit: Beliebte LLM-Serving-Frameworks (wie vLLM) behandeln jede Phase als unabhängigen LLM-Aufruf mit First-Come-First-Served (FCFS)-Planung
Fehlende Strukturbewusstsein: Bestehende Agent-Serving-Plattformen (wie Autellix) verwenden komplexe Prioritätsstrategien, verstehen aber nicht die interne Workflow-Struktur
Verschwendete Cache-Möglichkeiten: Fünf Verbesserungsversuche für dasselbe Muster erzeugen fünf identische Prompt-Konstruktionen und fünf identische Hot-Cache-SQL-Ausführungen
Blinde Planung: Planung von LLM-Aufrufen ohne Kenntnis des verbleibenden Workflows, Ignorieren von Downstream-Kosten

Forschungsmotivation

Die Autoren beobachten, dass ein einzelner gemeinsamer „universeller" LLM-Engine-Pool nicht für Agent-Workflows mit heterogenen Phasen geeignet ist. Jede Phase (SQL-Generierung, Ausführung, Fehlerkorrektur) hat unterschiedliche Latenzprofile, Speicheranforderungen und Cache-Möglichkeiten.

Kernbeiträge

Vorschlag der Cortex-Architektur: Erste Workflow-bewusste Serving-Plattform basierend auf Phasenisolation mit dedizierten Engine-Pools für jede Workflow-Phase
Realisierung erheblicher KV-Cache-Optimierungen: Signifikante Reduzierung des KV-Cache-Speicherverbrauchs durch Phasenisolation und verbesserte GPU-Speicherauslastung
Beseitigung phasenübergreifender Interferenzen: Wiederherstellung stabiler phasenlokal begrenzter Latenzmodelle und verbesserte Leistungsvorhersagbarkeit
Gestaltung eines Agent-nativen Serving-Frameworks: Grundlagen für plastische Workflows, spekulative Ausführung und Agent-Status-Verwaltung

Methodische Details

Aufgabendefinition

Am Beispiel eines NL2SQL-Workflows ist die Eingabe eine natürlichsprachige Abfrage (z. B. „Wie hoch waren die Verkäufe in Europa im letzten Quartal?"), die Ausgabe ist ein erfolgreich ausgeführtes SQL-Abfrageergebnis. Der Workflow umfasst:

Abruf des Zielschemas
Autoregressive Generierung von Kandidatenabfragen
Abfrageausführung
Validierung des Ergebnissatzes
Bei Abfragefehler: Korrektur und Wiederholung

Zentrale Architektur-Gestaltung

Phasenisolationsprinzip

Cortex stellt für jede Workflow-Phase einen dedizierten Engine-Pool bereit. Ein Engine-Pool ist eine Gruppe homogener Worker (z. B. GPUs für LLM-Dekodierung oder CPU-Executoren für SQL), verwaltet durch einen phasenlokal begrenzten Scheduler mit eigener Warteschlange, Cache und Skalierungsstrategie.

Systemkomponenten

Orchestrator:
- Workflow-bewusst, verfolgt die Position jeder Anfrage im Graphen
- Prognostiziert die nächste Gruppe berechtigter Operatoren
- Fügt Prioritätsschlüssel basierend auf SLO-Spielraum, Phasenselektivität und erwarteter Servicezeit an
Engine-Allokationsschicht:
- Leitet Unteraufrufe zu konkreten Pool-Instanzen weiter, die Lokalität maximieren
- Balanciert Last zwischen Replikationen
- Ordnet Anfragen basierend auf Priorität neu
- Führt Zulassungskontrolle durch, wenn eine Phase zum Engpass wird
Ressourcen-Borrowing-Mechanismus: Wenn Last und Speicherdruck ausreichend niedrig sind, kann der Orchestrator opportunistisch kompatible Phasen ermöglichen, untätige Engines zu borgen, um Fragmentierung zu reduzieren und Auslastung zu verbessern.

Technische Innovationen

KV-Cache-Optimierung

Durch Phasenisolation behält jede Engine nur ihren phasenspezifischen Kontext, während gemeinsame Engines zwei Phasen-Kontexte auf jedem Replikat im Hot-Cache halten müssen, was den KV-Cache-Speicherverbrauch effektiv verdoppelt. Der zurückgewonnene GPU-Speicher erhöht die effektive Batch-Größe, was sich direkt in höherem Durchsatz und strafferer Tail-Latenz übersetzt.

Leistungsvorhersagbarkeit

Phasenisolation beseitigt phasenübergreifende Interferenzen, die Vorhersagbarkeit beeinträchtigen. Wenn heterogene Aufrufe Engines teilen, koppeln Batches ihre Laufzeiten, verzögern Token-Emission und machen die Latenz von LLM-Aufrufen von ihren Batch-Partnern abhängig.

Unabhängige Skalierung

Ermöglicht unabhängige Skalierung und Konfiguration: Schnelle Monitore skalieren nur Pools, die SLOs gefährden, ermöglichen leichte Konfiguration für einmalige Laufzeit-Phasen, während kritische Pfad-Pools mehr Gewicht erhalten.

Experimentelle Einrichtung

Experimentelle Szenarien

Das Paper verwendet hauptsächlich NL2SQL-Workflows als primäres Experimentalszenario mit zwei LLM-Phasen:

SQL-Generator
SQL-Fehlerkorrektur
SQL-Executor (nicht-LLM-Phase)

Bewertungsmetriken

KV-Cache-Speicherverbrauch
Gesamter Speicherverbrauch
System-Durchsatz
Tail-Latenz

Vergleichsmaßstäbe

Gemeinsamer Engine-Pool-Ansatz: Alle Phasen teilen denselben LLM-Engine-Satz
Cortex-Phasenisolations-Ansatz: Jede Phase verwendet einen dedizierten Engine-Pool

Experimentelle Ergebnisse

Hauptergebnisse

KV-Cache-Optimierungseffekte

Experimentelle Ergebnisse zeigen, dass der gesamte KV-Speicherverbrauch beim Ausführen von NL2SQL-Workflow-LLM-Phasen in Cortex signifikant reduziert wird. Wenn jede Phase in ihrem eigenen Cortex-Pool läuft, ist der gesamte KV-Fußabdruck deutlich niedriger: Jede Engine behält nur ihren phasenspezifischen Kontext.

Leistungssteigerung

Speichereffizienz: Durch Phasenisolation wird KV-Cache-Verdopplung vermieden und wertvollen GPU-Speicher freigegeben
Durchsatzsteigerung: Zurückgewonnener GPU-Speicher übersetzt sich direkt in höhere effektive Batch-Größen
Latenzverbesserung: Straffere Tail-Latenz und vorhersagbarere Leistung

Systemvorteil-Validierung

Experimente validieren drei Hauptvorteile von Cortex:

Verbesserte KV-Cache-Auslastung: Signifikante Speicherreduktion
Beseitigung phasenübergreifender Interferenzen: Wiederherstellung stabiler phasenlokal begrenzter Latenzmodelle
Unabhängige Skalierungsfähigkeit: Unterstützung feingranularer Ressourcenverwaltung

Fazit und Diskussion

Hauptschlussfolgerungen

Cortex verbessert die Serving-Leistung von Agent-Workloads durch eine einfache, aber effektive Phasenisolations-Strategie erheblich. Der Ansatz verbessert nicht nur die Ressourcennutzungseffizienz, sondern legt auch den Grundstein für fortgeschrittenere Agent-native Serving-Paradigmen.

Zukünftige Richtungen

Plastische Workflows und Ressourcen

Rechnerische Adaptivität: Ersetzen schwerer Modelle durch leichte Varianten, wenn Latenz sich SLO-Grenzen nähert
Ressourcen-Elastizität: Verwendung stärkerer Engines zur Beschleunigung von Nachzüglern in Fan-Out-Mustern

Spekulative Ausführung

Spekulation über wahrscheinlichste Workflow-Verzweigungen
Vorwärmung relevanter Engines oder Vorausführung nächster Schritte
Parallele Generierung und Bewertung mehrerer Kandidatenabfragen

Agent-Status-Verwaltung

Mehrschichtige „Agent-Status"-Caches mit Zwischendaten als First-Class-Citizen
Workflow-umfassende gemeinsame Schichten als Publish/Subscribe-Struktur
Umwandlung wiederholter Werkzeug- und LLM-Aufrufe in Zero-Cost-Hits

Einschränkungen

Prototyp-Phase: Derzeit noch Proof-of-Concept, benötigt umfassendere Implementierung und Bewertung
Szenario-Beschränkung: Hauptsächlich NL2SQL-Beispiel, Validierung auf mehr Agent-Workflows erforderlich
Komplexitätsverwaltung: Wie man Schnittstellen entwirft, damit Workflows ihre Plastizität deklarieren können, bleibt eine offene Frage

Tiefgehende Bewertung

Stärken

Hohe Innovativität: Erste Vorschlag einer Workflow-bewussten Agent-Serving-Architektur
Präzise Problemidentifikation: Genaue Erkennung kritischer Probleme bestehender LLM-Serving-Plattformen
Einfache und effektive Lösung: Phasenisolations-Strategie ist einfach, aber wirkungsvoll
Zukunftsorientiert: Bietet klare Entwicklungspfade für zukünftige Agent-native Serving

Schwächen

Begrenzte experimentelle Validierung: Hauptsächlich auf ein NL2SQL-Szenario basiert, fehlen großflächig diversifizierte Experimente
Unzureichende quantitative Ergebnisse: Diagramme zeigen Trends, aber konkrete Leistungssteigerungszahlen fehlen
Unzureichende Implementierungsdetails: Weniger detaillierte Beschreibung spezifischer Implementierung von Planungsalgorithmen und Ressourcenallokationsstrategien
Unzureichende Vergleichsexperimente: Hauptsächlich Vergleich mit einfachen gemeinsamen Pool-Ansätzen, fehlt Vergleich mit anderen fortgeschrittenen Methoden

Auswirkungen

Akademischer Wert: Bietet neue Forschungsrichtung für Agent-Serving-Bereich
Praktischer Wert: Löst wichtige Probleme in realen Produktionsumgebungen
Inspirationswert: Bietet wertvolle Ideen für nachfolgende verwandte Forschung

Anwendungsszenarien

Mehrstufige Agent-Workflows: Besonders geeignet für Agent-Anwendungen mit klarer Phasenunterteilung
Ressourcen-sensitive Umgebungen: Signifikante Effekte in Umgebungen mit begrenzten Ressourcen wie GPU-Speicher
Hochleistungs-Anforderungsszenarien: Produktionsumgebungen mit strengeren Anforderungen an Latenz und Durchsatz

Literaturverzeichnis

Das Paper zitiert folgende Schlüsselliteratur:

vLLM: PagedAttention-Speicherverwaltungsmechanismus
SGLang: Strukturierte Sprachmodell-Programm-Ausführung
Autellix: LLM-Agent-Serving-Engine
HEXGEN-TEXT2SQL: Agent-Workflow-Planung
Verwandte NL2SQL- und Cloud-Service-Literatur

Gesamtbewertung: Dies ist ein innovatives und zukunftsorientiertes Paper, das wichtige Probleme im Agent-Serving-Bereich aufwirft und effektive Lösungen bietet. Obwohl es sich derzeit noch in der Prototyp-Phase befindet, zeigt es die Entwicklungsrichtung des Bereichs auf und hat wichtigen akademischen und praktischen Wert.