We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
- معرّف الورقة: 2510.14126
- العنوان: Cortex: تجميع الموارد وجدولة الخدمة الموجهة للسير العملي للوكلاء
- المؤلفون: نيكوس باغونس (جامعة كولومبيا)، يونوه تشونغ (جوجل)، كوستيس كافيس (جامعة كولومبيا)، أرفيند كريشنامورثي (جوجل وجامعة واشنطن)
- التصنيف: cs.DC (الحوسبة الموزعة والمتوازية والعنقودية)
- تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv التمهيدية)
- رابط الورقة: https://arxiv.org/abs/2510.14126
تقدم هذه الورقة Cortex، وهي نموذج أولي لمنصة خدمة موجهة للسير العملي للوكلاء. يعتمد المبدأ الأساسي لـ Cortex على عزل المراحل: توفير مجموعات موارد مخصصة لكل مرحلة مختلفة من السير العملي للوكيل. تخفف هذه الاستراتيجية البسيطة والقوية من التداخل بين المراحل في الحوسبة والذاكرة، مما يحقق استخدام أفضل لذاكرة التخزين المؤقت KV، وإنتاجية أعلى، وأداء أكثر قابلية للتنبؤ. من خلال تخصيص الموارد والجدولة لكل مرحلة مختلفة من السير العملي للوكيل، يضع Cortex الأساس لنماذج خدمة أصلية للوكلاء أكثر تقدماً، بما في ذلك إدارة الموارد المرنة والتنفيذ المضارب لفروع السير العملي والذاكرة المخزنة مؤقتاً متعددة المستويات المشتركة لـ "حالة الوكيل".
يجمع السير العملي للوكلاء بين الاستدلال بنماذج اللغة الكبيرة (LLM) والاستخدام التكراري للأدوات: يلاحظ النموذج النتائج الوسيطة، ويفكر، ويستدعي أداة أخرى، ويكرر حتى يتم حل المهمة أو استنزاف الميزانية. يصبح هذا النمط حلقة مغلقة ذا أهمية متزايدة في التطبيقات على مستوى الإنتاج، مثل وكلاء اللغة الطبيعية إلى SQL (NL2SQL).
تعاني منصات خدمة LLM الحالية من المشاكل التالية:
- عدم الوعي بالسير العملي: تستخدم أطر عمل خدمة LLM الشهيرة (مثل vLLM) جدولة FCFS (الأول يأتي أولاً) وتعامل كل مرحلة كاستدعاء LLM مستقل
- الافتقار إلى الوعي الهيكلي: تستخدم منصات خدمة الوكلاء الموجودة (مثل Autellix) استراتيجيات أولويات معقدة لكنها لا تفهم البنية الداخلية للسير العملي
- هدر فرص التخزين المؤقت: خمس محاولات لتحسين نفس النمط تنتج خمس بنى موجهة متطابقة وخمس عمليات تنفيذ SQL ساخنة متطابقة
- عمى الجدولة: جدولة استدعاءات LLM دون معرفة بالسير العملي المتبقي، مما يتجاهل التكاليف النهائية
لاحظ المؤلفون أن مجموعة محرك LLM "عام" واحدة مشتركة غير مناسبة للسير العملي للوكلاء الذي يحتوي على مراحل غير متجانسة. لكل مرحلة (توليد SQL، التنفيذ، إصلاح الأخطاء) ملفات تعريف كمون مختلفة واحتياجات ذاكرة وفرص تخزين مؤقت.
- اقتراح معمارية Cortex: أول منصة خدمة موجهة للسير العملي تعتمد على عزل المراحل، توفر مجموعات محرك مخصصة لكل مرحلة سير عملي
- تحقيق تحسينات كبيرة في ذاكرة التخزين المؤقت KV: تقليل استخدام ذاكرة التخزين المؤقت KV بشكل كبير من خلال عزل المراحل، وتحسين استخدام ذاكرة GPU
- القضاء على التداخل بين المراحل: استعادة نماذج الكمون المحلية المستقرة للمرحلة، وتحسين قابلية التنبؤ بالأداء
- تصميم إطار عمل أصلي للوكلاء: وضع الأساس للسير العملي المرن والتنفيذ المضارب وإدارة حالة الوكيل
باستخدام سير عملي NL2SQL كمثال، المدخل هو استعلام باللغة الطبيعية (مثل "ما هي مبيعات أوروبا في الربع الماضي؟")، والمخرج هو نتيجة استعلام SQL المنفذة بنجاح. يتضمن السير العملي:
- استرجاع المخطط المستهدف
- توليد المرشحين بشكل انحداري
- تنفيذ الاستعلام
- التحقق من مجموعة النتائج
- إذا فشل الاستعلام، إصلاحه وإعادة المحاولة
يوفر Cortex مجموعات محرك مخصصة لكل مرحلة سير عملي. مجموعة المحرك عبارة عن مجموعة من العمال المتجانسين (مثل وحدات معالجة الرسومات لفك تشفير LLM أو منفذي CPU لـ SQL)، يديرها جدولة محلية للمرحلة بها قائمة الانتظار والتخزين المؤقت واستراتيجيات التوسع الخاصة بها.
- المنسق (Orchestrator):
- وعي بالسير العملي، يتتبع موقع كل طلب في الرسم البياني
- التنبؤ بمجموعة العمليات المؤهلة التالية
- إرفاق مفاتيح الأولويات بناءً على رخاوة SLO واختيارية المرحلة ووقت الخدمة المتوقع
- طبقة تخصيص المحرك (Engine Allocation Layer):
- توجيه الاستدعاءات الفرعية إلى مثيلات المجموعة التي تزيد من الموضعية
- موازنة الحمل بين النسخ المتماثلة
- إعادة ترتيب الطلبات بناءً على الأولويات
- تنفيذ التحكم في القبول عندما تصبح المرحلة اختناقاً
- آلية استعارة الموارد:
عندما يكون الحمل وضغط الذاكرة منخفضين بما يكفي، يمكن للمنسق السماح بشكل انتهازي للمراحل المتوافقة باستعارة محركات خاملة لتقليل التجزئة وتحسين الاستخدام.
من خلال عزل المراحل، يحتفظ كل محرك فقط بسياق خاص بمرحلته، بينما يجب على المحرك المشترك الحفاظ على ذاكرة تخزين مؤقت ساخنة لمرحلتين على كل نسخة، مما يكرر فعلياً استخدام ذاكرة التخزين المؤقت KV. تحسن ذاكرة GPU المستردة حجم الدفعة الفعال، مما يترجم مباشرة إلى إنتاجية أعلى وكمون ذيل أكثر إحكاماً.
يلغي عزل المراحل التداخل بين المراحل الذي يضر بالقابلية للتنبؤ. عندما تشارك الاستدعاءات غير المتجانسة محرك مشترك، تقترن الدفعات أوقات تشغيلها، مما يؤخر إصدار الرموز، مما يجعل كمون استدعاء LLM يعتمد على شركاء الدفعة.
يمكّن التوسع والتكوين المستقل: يقوم المراقب السريع فقط بتوسيع المجموعات التي تهدد SLO، مما يسمح بتكوين خفيف الوزن لمراحل التشغيل لمرة واحدة، مع تخصيص وزن أكبر لمجموعات المسار الحرج.
تستخدم الورقة سير عملي NL2SQL كسيناريو تجربة رئيسي، يتضمن مرحلتي LLM:
- مولد SQL
- مصحح أخطاء SQL
- منفذ SQL (مرحلة غير LLM)
- استخدام ذاكرة التخزين المؤقت KV
- إجمالي استهلاك الذاكرة
- إنتاجية النظام
- كمون الذيل
- حل مجموعة المحرك المشترك: جميع المراحل تشارك نفس مجموعة محركات LLM
- حل عزل مرحلة Cortex: كل مرحلة تستخدم مجموعة محرك مخصصة
تظهر نتائج التجربة انخفاضاً كبيراً في إجمالي احتلال KV عند تشغيل مراحل LLM لسير عملي NL2SQL في Cortex. عندما تعمل كل مرحلة في مجموعة Cortex الخاصة بها، يكون بصمة KV الإجمالية أقل بشكل ملحوظ: يحتفظ كل محرك فقط بسياق خاص بمرحلته.
- كفاءة الذاكرة: من خلال عزل المراحل، تجنب التكرار في ذاكرة التخزين المؤقت KV، وتحرير ذاكرة GPU الثمينة
- زيادة الإنتاجية: تترجم ذاكرة GPU المستردة مباشرة إلى حجم دفعة فعال أعلى
- تحسين الكمون: كمون ذيل أكثر إحكاماً وأداء أكثر قابلية للتنبؤ
تتحقق التجارب من ثلاث مزايا رئيسية لـ Cortex:
- استخدام محسّن لذاكرة التخزين المؤقت KV: تقليل كبير في استهلاك الذاكرة
- القضاء على التداخل بين المراحل: استعادة نماذج الكمون المحلية المستقرة للمرحلة
- القدرة على التوسع المستقل: دعم إدارة الموارد الدقيقة
- vLLM: خدمة نماذج اللغة الكبيرة الفعالة، باستخدام PagedAttention لإدارة الذاكرة
- SGLang: التنفيذ الفعال لبرامج نماذج اللغة المنظمة
- Autellix: محرك خدمة فعال لوكلاء LLM، باستخدام استراتيجيات أولويات معقدة
- HEXGEN-TEXT2SQL: جدولة طلبات سير عملي NL2SQL بناءً على رخاوة الموعد النهائي المتبقي ووقت التنفيذ المقدر
تفتقر المنصات الموجودة إلى الوعي ببنية السير العملي الداخلية، ويملأ Cortex هذه الفجوة من خلال عزل المراحل.
يحسّن Cortex بشكل كبير أداء خدمة أحمال عمل الوكلاء من خلال استراتيجية عزل المراحل البسيطة والفعالة. لا تحسّن هذه الطريقة كفاءة استخدام الموارد فحسب، بل تضع أيضاً الأساس لنماذج خدمة أصلية للوكلاء أكثر تقدماً.
- التكيف الحسابي: استبدال النماذج الثقيلة بمتغيرات خفيفة الوزن عندما يقترب الكمون من حدود SLO
- مرونة الموارد: استخدام محركات أقوى لرفع المتخلفين في أنماط المروحة
- المضاربة على الفروع الأكثر احتمالاً في السير العملي
- تسخين المحركات ذات الصلة أو التنفيذ المسبق للخطوة التالية
- توليد وتقييم عدة استعلامات مرشحة بالتوازي
- "حالة الوكيل" متعددة المستويات كمواطن من الدرجة الأولى
- نطاق السير العملي المشترك كهيكل نشر/اشتراك
- تحويل استدعاءات الأدوات و LLM المتكررة إلى نقرات بدون تكلفة
- مرحلة النموذج الأولي: لا تزال حالياً إثبات مفهوم، تحتاج إلى تنفيذ وتقييم أكثر شمولاً
- قيود السيناريو: تركز بشكل أساسي على NL2SQL، تحتاج إلى التحقق من صحتها على المزيد من سير العمل للوكلاء
- إدارة التعقيد: كيفية تصميم الواجهات للسماح للسير العملي بالإعلان عن مرونتها لا تزال مسألة مفتوحة
- ابتكار قوي: أول معمارية خدمة موجهة للسير العملي للوكلاء
- تحديد دقيق للمشكلة: تحديد دقيق للمشاكل الرئيسية في منصات خدمة LLM الموجودة
- حل بسيط وفعال: استراتيجية عزل المراحل بسيطة لكن ذات تأثير كبير
- قوة استشرافية: توفير مسار تطور واضح لخدمة أصلية للوكلاء في المستقبل
- التحقق التجريبي محدود: يعتمد بشكل أساسي على سيناريو NL2SQL واحد، يفتقر إلى تجارب متنوعة واسعة النطاق
- نتائج كمية غير كافية: تظهر الرسوم البيانية الاتجاهات لكن تفتقر إلى أرقام تحسين الأداء المحددة
- تفاصيل التنفيذ غير كافية: وصف أقل تفصيلاً لتنفيذ خوارزميات الجدولة واستراتيجيات تخصيص الموارد
- تجارب المقارنة غير كافية: المقارنة بشكل أساسي مع حل مجموعة مشتركة بسيطة، تفتقر إلى المقارنة مع طرق متقدمة أخرى
- القيمة الأكاديمية: توفير اتجاه بحثي جديد لمجال خدمة الوكلاء
- القيمة العملية: حل مشاكل مهمة في بيئات الإنتاج الفعلية
- الإلهام: توفير أفكار قيمة للبحث اللاحق ذي الصلة
- سير العمل متعدد المراحل للوكلاء: مناسب بشكل خاص للتطبيقات التي لها تقسيم مرحلة واضح
- البيئات الحساسة للموارد: تأثير كبير في البيئات التي تكون فيها موارد مثل ذاكرة GPU محدودة
- سيناريوهات الأداء العالي: البيئات الإنتاجية ذات المتطلبات الصارمة للكمون والإنتاجية
تستشهد الورقة بالمراجع الرئيسية التالية:
- vLLM: آلية إدارة الذاكرة PagedAttention
- SGLang: تنفيذ برامج نماذج اللغة المنظمة
- Autellix: محرك خدمة وكيل LLM
- HEXGEN-TEXT2SQL: جدولة سير عملي الوكيل
- أدبيات NL2SQL وخدمات السحابة ذات الصلة
التقييم الشامل: هذه ورقة مبتكرة واستشرافية تطرح مشاكل مهمة في مجال خدمة الوكلاء وتقدم حلاً فعالاً. على الرغم من أنها لا تزال في مرحلة النموذج الأولي، إلا أنها توضح الاتجاه لتطور المجال وتتمتع بقيمة أكاديمية وعملية مهمة.