We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
- Paper-ID: 2510.14126
- Titel: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
- Autoren: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
- Klassifizierung: cs.DC (Distributed, Parallel, and Cluster Computing)
- Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.14126
Dieser Artikel stellt Cortex vor, einen Workflow-bewussten Serving-Plattform-Prototyp für Agent-Workloads. Das Kernprinzip von Cortex ist die Phasenisolation: Bereitstellung dedizierter Ressourcenpools für jede unterschiedliche Phase eines Agent-Workflows. Diese einfache, aber leistungsstarke Strategie mindert phasenübergreifende Interferenzen bei Berechnung und Speicher, was zu besserer KV-Cache-Auslastung, höherem Durchsatz und vorhersagbarerer Leistung führt. Durch die Anpassung der Ressourcenallokation und Planung innerhalb jeder unterschiedlichen Phase des Agent-Workflows legt Cortex den Grundstein für fortgeschrittenere Agent-native Serving-Paradigmen, einschließlich plastischer Ressourcenverwaltung, spekulativer Ausführung von Workflow-Verzweigungen und gemeinsamen mehrschichtigen Caches für „Agent-Status".
Agent-Workflows kombinieren die Inferenz großer Sprachmodelle (LLMs) mit iterativer Werkzeugnutzung: Das Modell beobachtet Zwischenergebnisse, denkt nach, ruft ein anderes Werkzeug auf und wiederholt dies, bis die Aufgabe gelöst oder das Budget aufgebraucht ist. Dieses geschlossene Schleifenmuster wird in produktiven Anwendungen zunehmend wichtig, wie beispielsweise Natural Language to SQL (NL2SQL) Agenten.
Aktuelle LLM-Serving-Plattformen weisen folgende Probleme auf:
- Workflow-Unempfindlichkeit: Beliebte LLM-Serving-Frameworks (wie vLLM) behandeln jede Phase als unabhängigen LLM-Aufruf mit First-Come-First-Served (FCFS)-Planung
- Fehlende Strukturbewusstsein: Bestehende Agent-Serving-Plattformen (wie Autellix) verwenden komplexe Prioritätsstrategien, verstehen aber nicht die interne Workflow-Struktur
- Verschwendete Cache-Möglichkeiten: Fünf Verbesserungsversuche für dasselbe Muster erzeugen fünf identische Prompt-Konstruktionen und fünf identische Hot-Cache-SQL-Ausführungen
- Blinde Planung: Planung von LLM-Aufrufen ohne Kenntnis des verbleibenden Workflows, Ignorieren von Downstream-Kosten
Die Autoren beobachten, dass ein einzelner gemeinsamer „universeller" LLM-Engine-Pool nicht für Agent-Workflows mit heterogenen Phasen geeignet ist. Jede Phase (SQL-Generierung, Ausführung, Fehlerkorrektur) hat unterschiedliche Latenzprofile, Speicheranforderungen und Cache-Möglichkeiten.
- Vorschlag der Cortex-Architektur: Erste Workflow-bewusste Serving-Plattform basierend auf Phasenisolation mit dedizierten Engine-Pools für jede Workflow-Phase
- Realisierung erheblicher KV-Cache-Optimierungen: Signifikante Reduzierung des KV-Cache-Speicherverbrauchs durch Phasenisolation und verbesserte GPU-Speicherauslastung
- Beseitigung phasenübergreifender Interferenzen: Wiederherstellung stabiler phasenlokal begrenzter Latenzmodelle und verbesserte Leistungsvorhersagbarkeit
- Gestaltung eines Agent-nativen Serving-Frameworks: Grundlagen für plastische Workflows, spekulative Ausführung und Agent-Status-Verwaltung
Am Beispiel eines NL2SQL-Workflows ist die Eingabe eine natürlichsprachige Abfrage (z. B. „Wie hoch waren die Verkäufe in Europa im letzten Quartal?"), die Ausgabe ist ein erfolgreich ausgeführtes SQL-Abfrageergebnis. Der Workflow umfasst:
- Abruf des Zielschemas
- Autoregressive Generierung von Kandidatenabfragen
- Abfrageausführung
- Validierung des Ergebnissatzes
- Bei Abfragefehler: Korrektur und Wiederholung
Cortex stellt für jede Workflow-Phase einen dedizierten Engine-Pool bereit. Ein Engine-Pool ist eine Gruppe homogener Worker (z. B. GPUs für LLM-Dekodierung oder CPU-Executoren für SQL), verwaltet durch einen phasenlokal begrenzten Scheduler mit eigener Warteschlange, Cache und Skalierungsstrategie.
- Orchestrator:
- Workflow-bewusst, verfolgt die Position jeder Anfrage im Graphen
- Prognostiziert die nächste Gruppe berechtigter Operatoren
- Fügt Prioritätsschlüssel basierend auf SLO-Spielraum, Phasenselektivität und erwarteter Servicezeit an
- Engine-Allokationsschicht:
- Leitet Unteraufrufe zu konkreten Pool-Instanzen weiter, die Lokalität maximieren
- Balanciert Last zwischen Replikationen
- Ordnet Anfragen basierend auf Priorität neu
- Führt Zulassungskontrolle durch, wenn eine Phase zum Engpass wird
- Ressourcen-Borrowing-Mechanismus:
Wenn Last und Speicherdruck ausreichend niedrig sind, kann der Orchestrator opportunistisch kompatible Phasen ermöglichen, untätige Engines zu borgen, um Fragmentierung zu reduzieren und Auslastung zu verbessern.
Durch Phasenisolation behält jede Engine nur ihren phasenspezifischen Kontext, während gemeinsame Engines zwei Phasen-Kontexte auf jedem Replikat im Hot-Cache halten müssen, was den KV-Cache-Speicherverbrauch effektiv verdoppelt. Der zurückgewonnene GPU-Speicher erhöht die effektive Batch-Größe, was sich direkt in höherem Durchsatz und strafferer Tail-Latenz übersetzt.
Phasenisolation beseitigt phasenübergreifende Interferenzen, die Vorhersagbarkeit beeinträchtigen. Wenn heterogene Aufrufe Engines teilen, koppeln Batches ihre Laufzeiten, verzögern Token-Emission und machen die Latenz von LLM-Aufrufen von ihren Batch-Partnern abhängig.
Ermöglicht unabhängige Skalierung und Konfiguration: Schnelle Monitore skalieren nur Pools, die SLOs gefährden, ermöglichen leichte Konfiguration für einmalige Laufzeit-Phasen, während kritische Pfad-Pools mehr Gewicht erhalten.
Das Paper verwendet hauptsächlich NL2SQL-Workflows als primäres Experimentalszenario mit zwei LLM-Phasen:
- SQL-Generator
- SQL-Fehlerkorrektur
- SQL-Executor (nicht-LLM-Phase)
- KV-Cache-Speicherverbrauch
- Gesamter Speicherverbrauch
- System-Durchsatz
- Tail-Latenz
- Gemeinsamer Engine-Pool-Ansatz: Alle Phasen teilen denselben LLM-Engine-Satz
- Cortex-Phasenisolations-Ansatz: Jede Phase verwendet einen dedizierten Engine-Pool
Experimentelle Ergebnisse zeigen, dass der gesamte KV-Speicherverbrauch beim Ausführen von NL2SQL-Workflow-LLM-Phasen in Cortex signifikant reduziert wird. Wenn jede Phase in ihrem eigenen Cortex-Pool läuft, ist der gesamte KV-Fußabdruck deutlich niedriger: Jede Engine behält nur ihren phasenspezifischen Kontext.
- Speichereffizienz: Durch Phasenisolation wird KV-Cache-Verdopplung vermieden und wertvollen GPU-Speicher freigegeben
- Durchsatzsteigerung: Zurückgewonnener GPU-Speicher übersetzt sich direkt in höhere effektive Batch-Größen
- Latenzverbesserung: Straffere Tail-Latenz und vorhersagbarere Leistung
Experimente validieren drei Hauptvorteile von Cortex:
- Verbesserte KV-Cache-Auslastung: Signifikante Speicherreduktion
- Beseitigung phasenübergreifender Interferenzen: Wiederherstellung stabiler phasenlokal begrenzter Latenzmodelle
- Unabhängige Skalierungsfähigkeit: Unterstützung feingranularer Ressourcenverwaltung
- vLLM: Effizientes Large Language Model Serving mit PagedAttention für Speicherverwaltung
- SGLang: Effiziente Ausführung strukturierter Sprachmodell-Programme
- Autellix: Effiziente Serving-Engine für LLM-Agenten mit komplexen Prioritätsstrategien
- HEXGEN-TEXT2SQL: NL2SQL-Workflow-Request-Planung basierend auf verbleibender Deadline-Spielraum und geschätzter Ausführungszeit
Bestehende Plattformen fehlt das Bewusstsein für interne Workflow-Struktur; Cortex schließt diese Lücke durch Phasenisolation.
Cortex verbessert die Serving-Leistung von Agent-Workloads durch eine einfache, aber effektive Phasenisolations-Strategie erheblich. Der Ansatz verbessert nicht nur die Ressourcennutzungseffizienz, sondern legt auch den Grundstein für fortgeschrittenere Agent-native Serving-Paradigmen.
- Rechnerische Adaptivität: Ersetzen schwerer Modelle durch leichte Varianten, wenn Latenz sich SLO-Grenzen nähert
- Ressourcen-Elastizität: Verwendung stärkerer Engines zur Beschleunigung von Nachzüglern in Fan-Out-Mustern
- Spekulation über wahrscheinlichste Workflow-Verzweigungen
- Vorwärmung relevanter Engines oder Vorausführung nächster Schritte
- Parallele Generierung und Bewertung mehrerer Kandidatenabfragen
- Mehrschichtige „Agent-Status"-Caches mit Zwischendaten als First-Class-Citizen
- Workflow-umfassende gemeinsame Schichten als Publish/Subscribe-Struktur
- Umwandlung wiederholter Werkzeug- und LLM-Aufrufe in Zero-Cost-Hits
- Prototyp-Phase: Derzeit noch Proof-of-Concept, benötigt umfassendere Implementierung und Bewertung
- Szenario-Beschränkung: Hauptsächlich NL2SQL-Beispiel, Validierung auf mehr Agent-Workflows erforderlich
- Komplexitätsverwaltung: Wie man Schnittstellen entwirft, damit Workflows ihre Plastizität deklarieren können, bleibt eine offene Frage
- Hohe Innovativität: Erste Vorschlag einer Workflow-bewussten Agent-Serving-Architektur
- Präzise Problemidentifikation: Genaue Erkennung kritischer Probleme bestehender LLM-Serving-Plattformen
- Einfache und effektive Lösung: Phasenisolations-Strategie ist einfach, aber wirkungsvoll
- Zukunftsorientiert: Bietet klare Entwicklungspfade für zukünftige Agent-native Serving
- Begrenzte experimentelle Validierung: Hauptsächlich auf ein NL2SQL-Szenario basiert, fehlen großflächig diversifizierte Experimente
- Unzureichende quantitative Ergebnisse: Diagramme zeigen Trends, aber konkrete Leistungssteigerungszahlen fehlen
- Unzureichende Implementierungsdetails: Weniger detaillierte Beschreibung spezifischer Implementierung von Planungsalgorithmen und Ressourcenallokationsstrategien
- Unzureichende Vergleichsexperimente: Hauptsächlich Vergleich mit einfachen gemeinsamen Pool-Ansätzen, fehlt Vergleich mit anderen fortgeschrittenen Methoden
- Akademischer Wert: Bietet neue Forschungsrichtung für Agent-Serving-Bereich
- Praktischer Wert: Löst wichtige Probleme in realen Produktionsumgebungen
- Inspirationswert: Bietet wertvolle Ideen für nachfolgende verwandte Forschung
- Mehrstufige Agent-Workflows: Besonders geeignet für Agent-Anwendungen mit klarer Phasenunterteilung
- Ressourcen-sensitive Umgebungen: Signifikante Effekte in Umgebungen mit begrenzten Ressourcen wie GPU-Speicher
- Hochleistungs-Anforderungsszenarien: Produktionsumgebungen mit strengeren Anforderungen an Latenz und Durchsatz
Das Paper zitiert folgende Schlüsselliteratur:
- vLLM: PagedAttention-Speicherverwaltungsmechanismus
- SGLang: Strukturierte Sprachmodell-Programm-Ausführung
- Autellix: LLM-Agent-Serving-Engine
- HEXGEN-TEXT2SQL: Agent-Workflow-Planung
- Verwandte NL2SQL- und Cloud-Service-Literatur
Gesamtbewertung: Dies ist ein innovatives und zukunftsorientiertes Paper, das wichtige Probleme im Agent-Serving-Bereich aufwirft und effektive Lösungen bietet. Obwohl es sich derzeit noch in der Prototyp-Phase befindet, zeigt es die Entwicklungsrichtung des Bereichs auf und hat wichtigen akademischen und praktischen Wert.