We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
- ID статьи: 2510.14126
- Название: Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving
- Авторы: Nikos Pagonas (Columbia University), Yeounoh Chung (Google), Kostis Kaffes (Columbia University), Arvind Krishnamurthy (Google & University of Washington)
- Классификация: cs.DC (Распределённые, параллельные и кластерные вычисления)
- Дата публикации: 15 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.14126
В данной работе представлен Cortex — прототип платформы обслуживания с учётом рабочих процессов, разработанный для агентских рабочих нагрузок. Основной принцип Cortex заключается в изоляции этапов: предоставление выделенных пулов ресурсов для каждого отдельного этапа агентского рабочего процесса. Эта простая, но мощная стратегия снижает межэтапные помехи в вычислениях и памяти, обеспечивая лучшее использование KV-кэша, повышенную пропускную способность и более предсказуемую производительность. Путём адаптации распределения ресурсов и планирования для каждого отдельного этапа агентского рабочего процесса Cortex создаёт основу для более продвинутых парадигм обслуживания, ориентированных на агентов, включая пластичное управление ресурсами, спекулятивное выполнение ветвлений рабочих процессов и многоуровневое кэширование для «состояния агента».
Агентские рабочие процессы объединяют логику вывода больших языковых моделей (LLM) с итеративным использованием инструментов: модель наблюдает промежуточные результаты, размышляет, вызывает другой инструмент и повторяет процесс до решения задачи или исчерпания бюджета. Этот замкнутый цикл становится всё более важным в приложениях производственного уровня, таких как агенты преобразования естественного языка в SQL (NL2SQL).
Современные платформы обслуживания LLM имеют следующие проблемы:
- Невосприимчивость к рабочим процессам: популярные фреймворки обслуживания LLM (такие как vLLM) рассматривают каждый этап как независимый вызов LLM с использованием планирования по принципу «первым пришёл — первым обслужен» (FCFS)
- Отсутствие понимания структуры: существующие платформы обслуживания агентов (такие как Autellix) используют сложные стратегии приоритизации, но не понимают внутреннюю структуру рабочего процесса
- Упущенные возможности кэширования: пять итераций улучшения одного и того же паттерна создают пять идентичных построений подсказок и пять идентичных горячих кэшей для выполнения SQL
- Слепое планирование: планирование вызовов LLM без понимания оставшейся части рабочего процесса, игнорирование нисходящих затрат
Авторы наблюдают, что единый общий пул «универсального» двигателя LLM не подходит для агентских рабочих процессов, содержащих разнородные этапы. Каждый этап (генерация SQL, выполнение, исправление ошибок) имеет различные профили задержки, требования к памяти и возможности кэширования.
- Предложена архитектура Cortex: первая платформа обслуживания с учётом рабочих процессов, основанная на изоляции этапов, предоставляющая выделенные пулы двигателей для каждого этапа рабочего процесса
- Реализована значительная оптимизация KV-кэша: изоляция этапов существенно снижает использование памяти KV-кэша и повышает утилизацию памяти GPU
- Устранены межэтапные помехи: восстановлены стабильные локальные модели задержки этапов, повышена предсказуемость производительности
- Разработана фреймворк обслуживания, ориентированный на агентов: создана основа для пластичных рабочих процессов, спекулятивного выполнения и управления состоянием агента
На примере рабочего процесса NL2SQL входными данными является запрос на естественном языке (например, «Каков объём продаж в Европе за последний квартал?»), а выходными данными является успешно выполненный результат SQL-запроса. Рабочий процесс включает:
- Извлечение целевой схемы
- Авторегрессивное генерирование кандидатов запросов
- Выполнение запроса
- Проверка результирующего набора
- При отказе запроса — исправление и повторная попытка
Cortex предоставляет выделенный пул двигателей для каждого этапа рабочего процесса. Пул двигателей представляет собой набор однородных рабочих процессов (например, GPU для декодирования LLM или CPU-исполнители для SQL), управляемых локальным для этапа планировщиком с собственной очередью, кэшем и стратегией масштабирования.
- Оркестратор (Orchestrator):
- Осведомлён о рабочих процессах, отслеживает положение каждого запроса в графе
- Предсказывает следующий набор допустимых операторов
- Присоединяет ключи приоритета на основе люфта SLO, селективности этапа и ожидаемого времени обслуживания
- Уровень распределения двигателей (Engine Allocation Layer):
- Маршрутизирует подвызовы в конкретные экземпляры пула для максимизации локальности
- Балансирует нагрузку между репликами
- Переупорядочивает запросы на основе приоритета
- Выполняет контроль допуска, когда этап становится узким местом
- Механизм заимствования ресурсов:
Когда нагрузка и давление памяти достаточно низки, оркестратор может возможностно позволить совместимым этапам заимствовать неиспользуемые двигатели для снижения фрагментации и повышения утилизации.
Благодаря изоляции этапов каждый двигатель сохраняет только контекст, специфичный для его этапа, тогда как общие двигатели должны сохранять горячий кэш контекста обоих этапов на каждой реплике, эффективно дублируя использование памяти KV-кэша. Восстановленная память GPU повышает эффективный размер пакета, что напрямую преобразуется в более высокую пропускную способность и более плотные задержки хвоста.
Изоляция этапов устраняет межэтапные помехи, нарушающие предсказуемость. Когда разнородные вызовы совместно используют двигатель, пакеты связывают их время выполнения, задерживают выпуск токенов и делают задержку вызовов LLM зависимой от партнёров по пакету.
Обеспечивает независимое масштабирование и конфигурацию: быстрый монитор масштабирует только пулы, угрожающие SLO, позволяя лёгкую конфигурацию одноразовых этапов выполнения, одновременно выделяя больший вес пулам критического пути.
Статья использует рабочий процесс NL2SQL в качестве основного экспериментального сценария, включающий два этапа LLM:
- Генератор SQL
- Исправитель ошибок SQL
- Исполнитель SQL (этап, не связанный с LLM)
- Использование памяти KV-кэша
- Общее использование памяти
- Пропускная способность системы
- Задержка хвоста
- Решение с общим пулом двигателей: все этапы совместно используют один набор двигателей LLM
- Решение Cortex с изоляцией этапов: каждый этап использует выделенный пул двигателей
Результаты экспериментов показывают, что при выполнении этапов LLM рабочего процесса NL2SQL в Cortex общее использование KV значительно снижается. Когда каждый этап выполняется в собственном пуле Cortex, общий объём KV явно ниже: каждый двигатель сохраняет только контекст, специфичный для его этапа.
- Эффективность памяти: благодаря изоляции этапов избегается дублирование KV-кэша, освобождается ценная память GPU
- Увеличение пропускной способности: восстановленная память GPU напрямую преобразуется в более высокий эффективный размер пакета
- Улучшение задержки: более плотные задержки хвоста и более предсказуемая производительность
Эксперименты проверили три основных преимущества Cortex:
- Улучшенное использование KV-кэша: значительное снижение использования памяти
- Устранение межэтапных помех: восстановление стабильных локальных моделей задержки этапов
- Возможность независимого масштабирования: поддержка детального управления ресурсами
- vLLM: эффективное обслуживание больших языковых моделей с использованием PagedAttention для управления памятью
- SGLang: эффективное выполнение программ структурированных языковых моделей
- Autellix: эффективный двигатель обслуживания LLM-агентов, использующий сложные стратегии приоритизации
- HEXGEN-TEXT2SQL: планирование запросов рабочего процесса NL2SQL на основе люфта оставшегося крайнего срока и ожидаемого времени выполнения
Существующие платформы не осведомлены о внутренней структуре рабочего процесса; Cortex заполняет этот пробел благодаря изоляции этапов.
Cortex посредством простой и эффективной стратегии изоляции этапов значительно улучшает производительность обслуживания агентских рабочих нагрузок. Этот подход не только повышает эффективность использования ресурсов, но и создаёт основу для более продвинутых парадигм обслуживания, ориентированных на агентов.
- Адаптивность вычислений: замена тяжёлых моделей облегчёнными вариантами, когда задержка приближается к границе SLO
- Эластичность ресурсов: использование более мощных двигателей для ускорения отстающих в паттернах веерного расширения
- Спекулятивное выполнение наиболее вероятных ветвлений в рабочем процессе
- Предварительный прогрев соответствующих двигателей или предварительное выполнение следующего шага
- Параллельное генерирование и оценка нескольких кандидатов запросов
- Многоуровневое «состояние агента» с промежуточными данными как первоклассными объектами
- Общий уровень в пределах рабочего процесса как структура публикации/подписки
- Преобразование повторяющихся вызовов инструментов и LLM в попадания с нулевой стоимостью
- Этап прототипирования: в настоящее время остаётся доказательством концепции, требует более полной реализации и оценки
- Ограничения сценариев: в основном использует NL2SQL в качестве примера, требует проверки на большем количестве агентских рабочих процессов
- Управление сложностью: как разработать интерфейсы, позволяющие рабочим процессам объявлять их пластичность, остаётся открытым вопросом
- Высокая инновационность: впервые предложена архитектура обслуживания агентов с учётом рабочих процессов
- Точное определение проблемы: точно выявлены ключевые проблемы существующих платформ обслуживания LLM
- Простое и эффективное решение: стратегия изоляции этапов проста, но даёт значительный эффект
- Высокая перспективность: обеспечивает чёткий путь развития для будущего обслуживания, ориентированного на агентов
- Ограниченная экспериментальная проверка: в основном основана на одном сценарии NL2SQL, не хватает крупномасштабных разнообразных экспериментов
- Недостаточно количественных результатов: диаграммы показывают тенденции, но не хватает конкретных числовых значений повышения производительности
- Недостаточная детализация реализации: описание конкретной реализации алгоритмов планирования и стратегий распределения ресурсов недостаточно подробно
- Неполные сравнительные эксперименты: в основном сравнивается с простым решением общего пула, не хватает сравнения с другими продвинутыми методами
- Академическая ценность: предоставляет новое направление исследований для области обслуживания агентов
- Практическая ценность: решает важные проблемы в реальных производственных средах
- Вдохновляющее значение: предоставляет ценные идеи для последующих связанных исследований
- Многоэтапные агентские рабочие процессы: особенно подходит для агентских приложений с чёткой разбивкой по этапам
- Среды с ограниченными ресурсами: значительный эффект в средах с ограниченными ресурсами, такими как память GPU
- Сценарии с высокими требованиями к производительности: производственные среды со строгими требованиями к задержке и пропускной способности
Статья ссылается на следующую ключевую литературу:
- vLLM: механизм управления памятью PagedAttention
- SGLang: выполнение программ структурированных языковых моделей
- Autellix: двигатель обслуживания LLM-агентов
- HEXGEN-TEXT2SQL: планирование агентских рабочих процессов
- Соответствующая литература по NL2SQL и облачным сервисам
Общая оценка: Это инновационная и перспективная статья, которая выявляет важные проблемы в области обслуживания агентов и предлагает эффективные решения. Хотя в настоящее время находится на этапе прототипирования, она указывает направление развития этой области и имеет значительную академическую и практическую ценность.