2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.

We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."

academic

Cortex: تجميع الموارد وجدولة الخدمة الموجهة للسير العملي للوكلاء

المعلومات الأساسية

معرّف الورقة: 2510.14126
العنوان: Cortex: تجميع الموارد وجدولة الخدمة الموجهة للسير العملي للوكلاء
المؤلفون: نيكوس باغونس (جامعة كولومبيا)، يونوه تشونغ (جوجل)، كوستيس كافيس (جامعة كولومبيا)، أرفيند كريشنامورثي (جوجل وجامعة واشنطن)
التصنيف: cs.DC (الحوسبة الموزعة والمتوازية والعنقودية)
تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.14126

الملخص

تقدم هذه الورقة Cortex، وهي نموذج أولي لمنصة خدمة موجهة للسير العملي للوكلاء. يعتمد المبدأ الأساسي لـ Cortex على عزل المراحل: توفير مجموعات موارد مخصصة لكل مرحلة مختلفة من السير العملي للوكيل. تخفف هذه الاستراتيجية البسيطة والقوية من التداخل بين المراحل في الحوسبة والذاكرة، مما يحقق استخدام أفضل لذاكرة التخزين المؤقت KV، وإنتاجية أعلى، وأداء أكثر قابلية للتنبؤ. من خلال تخصيص الموارد والجدولة لكل مرحلة مختلفة من السير العملي للوكيل، يضع Cortex الأساس لنماذج خدمة أصلية للوكلاء أكثر تقدماً، بما في ذلك إدارة الموارد المرنة والتنفيذ المضارب لفروع السير العملي والذاكرة المخزنة مؤقتاً متعددة المستويات المشتركة لـ "حالة الوكيل".

السياق البحثي والدافع

تعريف المشكلة

يجمع السير العملي للوكلاء بين الاستدلال بنماذج اللغة الكبيرة (LLM) والاستخدام التكراري للأدوات: يلاحظ النموذج النتائج الوسيطة، ويفكر، ويستدعي أداة أخرى، ويكرر حتى يتم حل المهمة أو استنزاف الميزانية. يصبح هذا النمط حلقة مغلقة ذا أهمية متزايدة في التطبيقات على مستوى الإنتاج، مثل وكلاء اللغة الطبيعية إلى SQL (NL2SQL).

قيود الطرق الموجودة

تعاني منصات خدمة LLM الحالية من المشاكل التالية:

عدم الوعي بالسير العملي: تستخدم أطر عمل خدمة LLM الشهيرة (مثل vLLM) جدولة FCFS (الأول يأتي أولاً) وتعامل كل مرحلة كاستدعاء LLM مستقل
الافتقار إلى الوعي الهيكلي: تستخدم منصات خدمة الوكلاء الموجودة (مثل Autellix) استراتيجيات أولويات معقدة لكنها لا تفهم البنية الداخلية للسير العملي
هدر فرص التخزين المؤقت: خمس محاولات لتحسين نفس النمط تنتج خمس بنى موجهة متطابقة وخمس عمليات تنفيذ SQL ساخنة متطابقة
عمى الجدولة: جدولة استدعاءات LLM دون معرفة بالسير العملي المتبقي، مما يتجاهل التكاليف النهائية

الدافع البحثي

لاحظ المؤلفون أن مجموعة محرك LLM "عام" واحدة مشتركة غير مناسبة للسير العملي للوكلاء الذي يحتوي على مراحل غير متجانسة. لكل مرحلة (توليد SQL، التنفيذ، إصلاح الأخطاء) ملفات تعريف كمون مختلفة واحتياجات ذاكرة وفرص تخزين مؤقت.

المساهمات الأساسية

اقتراح معمارية Cortex: أول منصة خدمة موجهة للسير العملي تعتمد على عزل المراحل، توفر مجموعات محرك مخصصة لكل مرحلة سير عملي
تحقيق تحسينات كبيرة في ذاكرة التخزين المؤقت KV: تقليل استخدام ذاكرة التخزين المؤقت KV بشكل كبير من خلال عزل المراحل، وتحسين استخدام ذاكرة GPU
القضاء على التداخل بين المراحل: استعادة نماذج الكمون المحلية المستقرة للمرحلة، وتحسين قابلية التنبؤ بالأداء
تصميم إطار عمل أصلي للوكلاء: وضع الأساس للسير العملي المرن والتنفيذ المضارب وإدارة حالة الوكيل

شرح الطريقة

تعريف المهمة

باستخدام سير عملي NL2SQL كمثال، المدخل هو استعلام باللغة الطبيعية (مثل "ما هي مبيعات أوروبا في الربع الماضي؟")، والمخرج هو نتيجة استعلام SQL المنفذة بنجاح. يتضمن السير العملي:

استرجاع المخطط المستهدف
توليد المرشحين بشكل انحداري
تنفيذ الاستعلام
التحقق من مجموعة النتائج
إذا فشل الاستعلام، إصلاحه وإعادة المحاولة

تصميم المعمارية الأساسية

مبدأ عزل المراحل

يوفر Cortex مجموعات محرك مخصصة لكل مرحلة سير عملي. مجموعة المحرك عبارة عن مجموعة من العمال المتجانسين (مثل وحدات معالجة الرسومات لفك تشفير LLM أو منفذي CPU لـ SQL)، يديرها جدولة محلية للمرحلة بها قائمة الانتظار والتخزين المؤقت واستراتيجيات التوسع الخاصة بها.

مكونات النظام

المنسق (Orchestrator):
- وعي بالسير العملي، يتتبع موقع كل طلب في الرسم البياني
- التنبؤ بمجموعة العمليات المؤهلة التالية
- إرفاق مفاتيح الأولويات بناءً على رخاوة SLO واختيارية المرحلة ووقت الخدمة المتوقع
طبقة تخصيص المحرك (Engine Allocation Layer):
- توجيه الاستدعاءات الفرعية إلى مثيلات المجموعة التي تزيد من الموضعية
- موازنة الحمل بين النسخ المتماثلة
- إعادة ترتيب الطلبات بناءً على الأولويات
- تنفيذ التحكم في القبول عندما تصبح المرحلة اختناقاً
آلية استعارة الموارد: عندما يكون الحمل وضغط الذاكرة منخفضين بما يكفي، يمكن للمنسق السماح بشكل انتهازي للمراحل المتوافقة باستعارة محركات خاملة لتقليل التجزئة وتحسين الاستخدام.

نقاط الابتكار التقني

تحسين ذاكرة التخزين المؤقت KV

من خلال عزل المراحل، يحتفظ كل محرك فقط بسياق خاص بمرحلته، بينما يجب على المحرك المشترك الحفاظ على ذاكرة تخزين مؤقت ساخنة لمرحلتين على كل نسخة، مما يكرر فعلياً استخدام ذاكرة التخزين المؤقت KV. تحسن ذاكرة GPU المستردة حجم الدفعة الفعال، مما يترجم مباشرة إلى إنتاجية أعلى وكمون ذيل أكثر إحكاماً.

قابلية التنبؤ بالأداء

يلغي عزل المراحل التداخل بين المراحل الذي يضر بالقابلية للتنبؤ. عندما تشارك الاستدعاءات غير المتجانسة محرك مشترك، تقترن الدفعات أوقات تشغيلها، مما يؤخر إصدار الرموز، مما يجعل كمون استدعاء LLM يعتمد على شركاء الدفعة.

التوسع المستقل

يمكّن التوسع والتكوين المستقل: يقوم المراقب السريع فقط بتوسيع المجموعات التي تهدد SLO، مما يسمح بتكوين خفيف الوزن لمراحل التشغيل لمرة واحدة، مع تخصيص وزن أكبر لمجموعات المسار الحرج.

إعداد التجربة

سيناريوهات التجربة

تستخدم الورقة سير عملي NL2SQL كسيناريو تجربة رئيسي، يتضمن مرحلتي LLM:

مولد SQL
مصحح أخطاء SQL
منفذ SQL (مرحلة غير LLM)

مؤشرات التقييم

استخدام ذاكرة التخزين المؤقت KV
إجمالي استهلاك الذاكرة
إنتاجية النظام
كمون الذيل

المعايير المقارنة

حل مجموعة المحرك المشترك: جميع المراحل تشارك نفس مجموعة محركات LLM
حل عزل مرحلة Cortex: كل مرحلة تستخدم مجموعة محرك مخصصة

نتائج التجربة

النتائج الرئيسية

تأثير تحسين ذاكرة التخزين المؤقت KV

تظهر نتائج التجربة انخفاضاً كبيراً في إجمالي احتلال KV عند تشغيل مراحل LLM لسير عملي NL2SQL في Cortex. عندما تعمل كل مرحلة في مجموعة Cortex الخاصة بها، يكون بصمة KV الإجمالية أقل بشكل ملحوظ: يحتفظ كل محرك فقط بسياق خاص بمرحلته.

تحسينات الأداء

كفاءة الذاكرة: من خلال عزل المراحل، تجنب التكرار في ذاكرة التخزين المؤقت KV، وتحرير ذاكرة GPU الثمينة
زيادة الإنتاجية: تترجم ذاكرة GPU المستردة مباشرة إلى حجم دفعة فعال أعلى
تحسين الكمون: كمون ذيل أكثر إحكاماً وأداء أكثر قابلية للتنبؤ

التحقق من المزايا النظامية

تتحقق التجارب من ثلاث مزايا رئيسية لـ Cortex:

استخدام محسّن لذاكرة التخزين المؤقت KV: تقليل كبير في استهلاك الذاكرة
القضاء على التداخل بين المراحل: استعادة نماذج الكمون المحلية المستقرة للمرحلة
القدرة على التوسع المستقل: دعم إدارة الموارد الدقيقة

الأعمال ذات الصلة

أطر عمل خدمة LLM

vLLM: خدمة نماذج اللغة الكبيرة الفعالة، باستخدام PagedAttention لإدارة الذاكرة
SGLang: التنفيذ الفعال لبرامج نماذج اللغة المنظمة

منصات خدمة الوكلاء

Autellix: محرك خدمة فعال لوكلاء LLM، باستخدام استراتيجيات أولويات معقدة
HEXGEN-TEXT2SQL: جدولة طلبات سير عملي NL2SQL بناءً على رخاوة الموعد النهائي المتبقي ووقت التنفيذ المقدر

الاختلافات التقنية

تفتقر المنصات الموجودة إلى الوعي ببنية السير العملي الداخلية، ويملأ Cortex هذه الفجوة من خلال عزل المراحل.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحسّن Cortex بشكل كبير أداء خدمة أحمال عمل الوكلاء من خلال استراتيجية عزل المراحل البسيطة والفعالة. لا تحسّن هذه الطريقة كفاءة استخدام الموارد فحسب، بل تضع أيضاً الأساس لنماذج خدمة أصلية للوكلاء أكثر تقدماً.

الاتجاهات المستقبلية

السير العملي المرن والموارد

التكيف الحسابي: استبدال النماذج الثقيلة بمتغيرات خفيفة الوزن عندما يقترب الكمون من حدود SLO
مرونة الموارد: استخدام محركات أقوى لرفع المتخلفين في أنماط المروحة

التنفيذ المضارب

المضاربة على الفروع الأكثر احتمالاً في السير العملي
تسخين المحركات ذات الصلة أو التنفيذ المسبق للخطوة التالية
توليد وتقييم عدة استعلامات مرشحة بالتوازي

إدارة حالة الوكيل

"حالة الوكيل" متعددة المستويات كمواطن من الدرجة الأولى
نطاق السير العملي المشترك كهيكل نشر/اشتراك
تحويل استدعاءات الأدوات و LLM المتكررة إلى نقرات بدون تكلفة

القيود

مرحلة النموذج الأولي: لا تزال حالياً إثبات مفهوم، تحتاج إلى تنفيذ وتقييم أكثر شمولاً
قيود السيناريو: تركز بشكل أساسي على NL2SQL، تحتاج إلى التحقق من صحتها على المزيد من سير العمل للوكلاء
إدارة التعقيد: كيفية تصميم الواجهات للسماح للسير العملي بالإعلان عن مرونتها لا تزال مسألة مفتوحة

التقييم المتعمق

المزايا

ابتكار قوي: أول معمارية خدمة موجهة للسير العملي للوكلاء
تحديد دقيق للمشكلة: تحديد دقيق للمشاكل الرئيسية في منصات خدمة LLM الموجودة
حل بسيط وفعال: استراتيجية عزل المراحل بسيطة لكن ذات تأثير كبير
قوة استشرافية: توفير مسار تطور واضح لخدمة أصلية للوكلاء في المستقبل

أوجه القصور

التحقق التجريبي محدود: يعتمد بشكل أساسي على سيناريو NL2SQL واحد، يفتقر إلى تجارب متنوعة واسعة النطاق
نتائج كمية غير كافية: تظهر الرسوم البيانية الاتجاهات لكن تفتقر إلى أرقام تحسين الأداء المحددة
تفاصيل التنفيذ غير كافية: وصف أقل تفصيلاً لتنفيذ خوارزميات الجدولة واستراتيجيات تخصيص الموارد
تجارب المقارنة غير كافية: المقارنة بشكل أساسي مع حل مجموعة مشتركة بسيطة، تفتقر إلى المقارنة مع طرق متقدمة أخرى

التأثير

القيمة الأكاديمية: توفير اتجاه بحثي جديد لمجال خدمة الوكلاء
القيمة العملية: حل مشاكل مهمة في بيئات الإنتاج الفعلية
الإلهام: توفير أفكار قيمة للبحث اللاحق ذي الصلة

السيناريوهات المعمول بها

سير العمل متعدد المراحل للوكلاء: مناسب بشكل خاص للتطبيقات التي لها تقسيم مرحلة واضح
البيئات الحساسة للموارد: تأثير كبير في البيئات التي تكون فيها موارد مثل ذاكرة GPU محدودة
سيناريوهات الأداء العالي: البيئات الإنتاجية ذات المتطلبات الصارمة للكمون والإنتاجية

المراجع

تستشهد الورقة بالمراجع الرئيسية التالية:

vLLM: آلية إدارة الذاكرة PagedAttention
SGLang: تنفيذ برامج نماذج اللغة المنظمة
Autellix: محرك خدمة وكيل LLM
HEXGEN-TEXT2SQL: جدولة سير عملي الوكيل
أدبيات NL2SQL وخدمات السحابة ذات الصلة

التقييم الشامل: هذه ورقة مبتكرة واستشرافية تطرح مشاكل مهمة في مجال خدمة الوكلاء وتقدم حلاً فعالاً. على الرغم من أنها لا تزال في مرحلة النموذج الأولي، إلا أنها توضح الاتجاه لتطور المجال وتتمتع بقيمة أكاديمية وعملية مهمة.