2025-11-21T03:37:14.946546

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Pagonas, Chung, Kaffes et al.
We introduce Cortex, a prototype workflow-aware serving platform designed for agentic workloads. The core principle of Cortex is stage isolation: it provisions dedicated resource pools for each distinct stage of an agentic workflow. This simple yet powerful strategy mitigates inter-stage interference in compute and memory, leading to better KV cache utilization, higher throughput, and more predictable performance. By customizing resource allocation and scheduling within each distinct stage of agentic workflows, Cortex lays the groundwork for more advanced, agent-native serving paradigms, including malleable resource management, speculative execution of workflow branches, and a shared, multi-tiered cache for "agentic state."
academic

কর্টেক্স: ওয়ার্কফ্লো-সচেতন সম্পদ পুলিং এবং এজেন্টিক সেবার জন্য সময়সূচী

মৌলিক তথ্য

  • পেপার আইডি: 2510.14126
  • শিরোনাম: কর্টেক্স: ওয়ার্কফ্লো-সচেতন সম্পদ পুলিং এবং এজেন্টিক সেবার জন্য সময়সূচী
  • লেখক: নিকোস প্যাগোনাস (কলাম্বিয়া বিশ্ববিদ্যালয়), ইয়েউনোহ চুং (গুগল), কস্টিস কাফেস (কলাম্বিয়া বিশ্ববিদ্যালয়), অর্বিন্দ কৃষ্ণমূর্তি (গুগল এবং ওয়াশিংটন বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.DC (বিতরণকৃত, সমান্তরাল এবং ক্লাস্টার কম্পিউটিং)
  • প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.14126

সারসংক্ষেপ

এই পেপারটি কর্টেক্স উপস্থাপন করে, যা এজেন্ট কর্মভার সম্পর্কিত একটি ওয়ার্কফ্লো-সচেতন সেবা প্ল্যাটফর্ম প্রোটোটাইপ। কর্টেক্সের মূল নীতি হল পর্যায় বিচ্ছিন্নতা: এজেন্ট ওয়ার্কফ্লোর প্রতিটি ভিন্ন পর্যায়ের জন্য নিবেদিত সম্পদ পুল প্রদান করা। এই সহজ কিন্তু শক্তিশালী কৌশল গণনা এবং মেমোরিতে পর্যায়-মধ্যবর্তী হস্তক্ষেপ প্রশমিত করে, যার ফলে উন্নত কেভি ক্যাশে ব্যবহার, উচ্চতর থ্রুপুট এবং আরও পূর্বাভাসযোগ্য কর্মক্ষমতা অর্জিত হয়। এজেন্ট ওয়ার্কফ্লোর প্রতিটি ভিন্ন পর্যায়ে সম্পদ বরাদ্দ এবং সময়সূচী কাস্টমাইজ করে, কর্টেক্স আরও উন্নত এজেন্ট-নেটিভ সেবা প্যারাডাইমের ভিত্তি স্থাপন করে, যার মধ্যে রয়েছে প্লাস্টিক সম্পদ ব্যবস্থাপনা, ওয়ার্কফ্লো শাখার অনুমানমূলক সম্পাদন এবং "এজেন্ট অবস্থা"র জন্য ভাগ করা বহু-স্তরীয় ক্যাশে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এজেন্ট ওয়ার্কফ্লো বড় ভাষা মডেল (এলএলএম) এর অনুমানকে পুনরাবৃত্তিমূলক সরঞ্জাম ব্যবহারের সাথে একত্রিত করে: মডেল মধ্যবর্তী ফলাফল পর্যবেক্ষণ করে, চিন্তা করে, অন্য একটি সরঞ্জাম আহ্বান করে এবং কাজ সমাধান বা বাজেট শেষ না হওয়া পর্যন্ত পুনরাবৃত্তি করে। এই বন্ধ-লুপ মোড প্রাকৃতিক ভাষা থেকে এসকিউএল (এনএল২এসকিউএল) এজেন্টের মতো উৎপাদন-স্তরের অ্যাপ্লিকেশনে ক্রমবর্ধমান গুরুত্বপূর্ণ।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বর্তমান এলএলএম সেবা প্ল্যাটফর্মগুলিতে নিম্নলিখিত সমস্যা রয়েছে:

  1. ওয়ার্কফ্লো-অসচেতনতা: জনপ্রিয় এলএলএম সেবা কাঠামো (যেমন vLLM) প্রতিটি পর্যায়কে স্বাধীন এলএলএম কল হিসাবে বিবেচনা করে, প্রথম-আসা-প্রথম-সেবা (এফসিএফএস) সময়সূচী গ্রহণ করে
  2. কাঠামো-সচেতনতার অভাব: বিদ্যমান এজেন্ট সেবা প্ল্যাটফর্ম (যেমন অটেলিক্স) জটিল অগ্রাধিকার কৌশল ব্যবহার করে কিন্তু অভ্যন্তরীণ ওয়ার্কফ্লো কাঠামো বোঝে না
  3. ক্যাশে সুযোগ নষ্ট: একই প্যাটার্নে পাঁচটি উন্নতির প্রচেষ্টা পাঁচটি অভিন্ন প্রম্পট নির্মাণ এবং পাঁচটি অভিন্ন উষ্ণ ক্যাশে এসকিউএল সম্পাদন তৈরি করে
  4. সময়সূচী অন্ধত্ব: অবশিষ্ট ওয়ার্কফ্লো বোঝা ছাড়াই এলএলএম কল সময়সূচী করা, ডাউনস্ট্রিম খরচ উপেক্ষা করা

গবেষণা প্রেরণা

লেখকরা পর্যবেক্ষণ করেছেন যে একক ভাগ করা "সর্বজনীন" এলএলএম ইঞ্জিন পুল বিষমজাত পর্যায় সম্পন্ন এজেন্ট ওয়ার্কফ্লোর জন্য উপযুক্ত নয়। প্রতিটি পর্যায় (এসকিউএল প্রজন্ম, সম্পাদন, ত্রুটি মেরামত) ভিন্ন বিলম্ব প্রোফাইল, মেমোরি প্রয়োজনীয়তা এবং ক্যাশে সুযোগ রয়েছে।

মূল অবদান

  1. কর্টেক্স আর্কিটেকচার প্রস্তাব: প্রথম পর্যায় বিচ্ছিন্নতা-ভিত্তিক ওয়ার্কফ্লো-সচেতন সেবা প্ল্যাটফর্ম, প্রতিটি ওয়ার্কফ্লো পর্যায়ের জন্য নিবেদিত ইঞ্জিন পুল প্রদান করে
  2. উল্লেখযোগ্য কেভি ক্যাশে অপ্টিমাইজেশন বাস্তবায়ন: পর্যায় বিচ্ছিন্নতার মাধ্যমে কেভি ক্যাশে মেমোরি ব্যবহার উল্লেখযোগ্যভাবে হ্রাস করা, জিপিইউ মেমোরি ব্যবহার উন্নত করা
  3. ক্রস-পর্যায় হস্তক্ষেপ নির্মূল: স্থিতিশীল পর্যায় স্থানীয় বিলম্ব মডেল পুনরুদ্ধার করা, কর্মক্ষমতা পূর্বাভাসযোগ্যতা উন্নত করা
  4. এজেন্ট-নেটিভ সেবা কাঠামো ডিজাইন: প্লাস্টিক ওয়ার্কফ্লো, অনুমানমূলক সম্পাদন এবং এজেন্ট অবস্থা ব্যবস্থাপনার ভিত্তি স্থাপন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এনএল২এসকিউএল ওয়ার্কফ্লোর উদাহরণ হিসাবে, ইনপুট হল প্রাকৃতিক ভাষার প্রশ্ন (যেমন "ইউরোপের গত ত্রৈমাসিকের বিক্রয় কত?"), আউটপুট হল সফলভাবে সম্পাদিত এসকিউএল প্রশ্নের ফলাফল। ওয়ার্কফ্লোতে অন্তর্ভুক্ত রয়েছে:

  1. লক্ষ্য স্কিমা পুনরুদ্ধার করা
  2. স্বয়ংক্রিয় রিগ্রেসিভ প্রার্থী প্রশ্ন প্রজন্ম
  3. প্রশ্ন সম্পাদন করা
  4. ফলাফল সেট যাচাই করা
  5. যদি প্রশ্ন ব্যর্থ হয়, মেরামত এবং পুনরায় চেষ্টা করা

মূল আর্কিটেকচার ডিজাইন

পর্যায় বিচ্ছিন্নতা নীতি

কর্টেক্স প্রতিটি ওয়ার্কফ্লো পর্যায়ের জন্য নিবেদিত ইঞ্জিন পুল প্রদান করে। ইঞ্জিন পুল হল সমজাত কর্মীদের একটি গ্রুপ (যেমন এলএলএম ডিকোডিংয়ের জন্য জিপিইউ বা এসকিউএলের জন্য সিপিইউ এক্সিকিউটর), যা নিজস্ব কিউ, ক্যাশে এবং স্কেলিং কৌশল সহ পর্যায় স্থানীয় সময়সূচী দ্বারা পরিচালিত হয়।

সিস্টেম উপাদান

  1. অর্কেস্ট্রেটর (Orchestrator):
    • ওয়ার্কফ্লো-সচেতন, গ্রাফে প্রতিটি অনুরোধের অবস্থান ট্র্যাক করে
    • পরবর্তী যোগ্য অপারেটরগুলির সেট পূর্বাভাস দেয়
    • এসএলও শিথিলতা, পর্যায় নির্বাচনযোগ্যতা এবং প্রত্যাশিত সেবা সময়ের উপর ভিত্তি করে অগ্রাধিকার কী সংযুক্ত করে
  2. ইঞ্জিন বরাদ্দ স্তর (Engine Allocation Layer):
    • সাব-কল স্থানীয়তা সর্বাধিক করে এমন নির্দিষ্ট পুল উদাহরণে রুট করে
    • প্রতিলিপি জুড়ে লোড ভারসাম্য করে
    • অগ্রাধিকারের উপর ভিত্তি করে অনুরোধ পুনর্বিন্যাস করে
    • যখন পর্যায় বটলনেক হয়ে ওঠে তখন প্রবেশ নিয়ন্ত্রণ সম্পাদন করে
  3. সম্পদ ধার প্রক্রিয়া: যখন লোড এবং মেমোরি চাপ যথেষ্ট কম থাকে, অর্কেস্ট্রেটর সামঞ্জস্যপূর্ণ পর্যায়গুলিকে খণ্ডন হ্রাস করতে এবং ব্যবহার উন্নত করতে নিষ্ক্রিয় ইঞ্জিন ধার করতে পারে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

কেভি ক্যাশে অপ্টিমাইজেশন

পর্যায় বিচ্ছিন্নতার মাধ্যমে, প্রতিটি ইঞ্জিন শুধুমাত্র তার পর্যায়-নির্দিষ্ট প্রসঙ্গ বজায় রাখে, যখন ভাগ করা ইঞ্জিন অবশ্যই প্রতিটি প্রতিলিপিতে দুটি পর্যায়ের প্রসঙ্গ উষ্ণ ক্যাশে বজায় রাখে, কার্যকরভাবে কেভি ক্যাশে মেমোরি ব্যবহার দ্বিগুণ করে। পুনরুদ্ধারকৃত জিপিইউ মেমোরি কার্যকর ব্যাচ আকার উন্নত করে, সরাসরি উচ্চতর থ্রুপুট এবং আরও কঠোর লেজ বিলম্যে রূপান্তরিত হয়।

কর্মক্ষমতা পূর্বাভাসযোগ্যতা

পর্যায় বিচ্ছিন্নতা পূর্বাভাসযোগ্যতা ভাঙা ক্রস-পর্যায় হস্তক্ষেপ নির্মূল করে। যখন বিষমজাত কল ভাগ করা ইঞ্জিন ভাগ করে, ব্যাচ তাদের রানটাইম সংযুক্ত করে, টোকেন নির্গমন বিলম্ব করে, এলএলএম কলের বিলম্ব তার ব্যাচ সঙ্গীদের উপর নির্ভর করে তোলে।

স্বাধীন স্কেলিং

স্বাধীন স্কেলিং এবং কনফিগারেশন সক্ষম করে: দ্রুত মনিটর শুধুমাত্র এসএলও হুমকির পুল প্রসারিত করে, একক-চালান পর্যায়ের হালকা কনফিগারেশন অনুমতি দেয়, যখন সমালোচনামূলক পথ পুলে আরও ওজন বরাদ্দ করে।

পরীক্ষামূলক সেটআপ

পরীক্ষামূলক পরিস্থিতি

পেপারটি প্রধান পরীক্ষামূলক পরিস্থিতি হিসাবে এনএল२এসকিউএল ওয়ার্কফ্লো ব্যবহার করে, যার মধ্যে দুটি এলএলএম পর্যায় রয়েছে:

  • এসকিউএল জেনারেটর
  • এসকিউএল ত্রুটি মেরামতকারী
  • এসকিউএল এক্সিকিউটর (অ-এলএলএম পর্যায়)

মূল্যায়ন মেট্রিক্স

  • কেভি ক্যাশে মেমোরি ব্যবহার
  • মোট মেমোরি দখল
  • সিস্টেম থ্রুপুট
  • লেজ বিলম্ব

তুলনা মানদণ্ড

  • ভাগ করা ইঞ্জিন পুল স্কিম: সমস্ত পর্যায় একই এলএলএম ইঞ্জিন সেট ভাগ করে
  • কর্টেক্স পর্যায় বিচ্ছিন্নতা স্কিম: প্রতিটি পর্যায় নিবেদিত ইঞ্জিন পুল ব্যবহার করে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কেভি ক্যাশে অপ্টিমাইজেশন প্রভাব

পরীক্ষামূলক ফলাফল দেখায় যে কর্টেক্সে এনএল२এসকিউএল ওয়ার্কফ্লোর এলএলএম পর্যায় চালানোর সময়, মোট কেভি দখল উল্লেখযোগ্যভাবে হ্রাস পায়। যখন প্রতিটি পর্যায় তার নিজস্ব কর্টেক্স পুলে চলে, মোট কেভি পদচিহ্ন স্পষ্টভাবে কম: প্রতিটি ইঞ্জিন শুধুমাত্র তার পর্যায়-নির্দিষ্ট প্রসঙ্গ বজায় রাখে।

কর্মক্ষমতা উন্নতি

  1. মেমোরি দক্ষতা: পর্যায় বিচ্ছিন্নতার মাধ্যমে, কেভি ক্যাশের প্রতিলিপি এড়ানো, মূল্যবান জিপিইউ মেমোরি মুক্ত করা
  2. থ্রুপুট বৃদ্ধি: পুনরুদ্ধারকৃত জিপিইউ মেমোরি সরাসরি উচ্চতর কার্যকর ব্যাচ আকারে রূপান্তরিত হয়
  3. বিলম্ব উন্নতি: আরও কঠোর লেজ বিলম্ব এবং আরও পূর্বাভাসযোগ্য কর্মক্ষমতা

সিস্টেম সুবিধা যাচাইকরণ

পরীক্ষা কর্টেক্সের তিনটি প্রধান সুবিধা যাচাই করেছে:

  1. উন্নত কেভি ক্যাশে ব্যবহার: মেমোরি দখল উল্লেখযোগ্যভাবে হ্রাস
  2. ক্রস-পর্যায় হস্তক্ষেপ নির্মূল: স্থিতিশীল পর্যায় স্থানীয় বিলম্ব মডেল পুনরুদ্ধার
  3. স্বাধীন স্কেলিং ক্ষমতা: সূক্ষ্ম-দানাদার সম্পদ ব্যবস্থাপনা সমর্থন

সম্পর্কিত কাজ

এলএলএম সেবা কাঠামো

  • vLLM: দক্ষ বড় ভাষা মডেল সেবা, পৃষ্ঠাযুক্ত মনোযোগ ব্যবহার করে মেমোরি ব্যবস্থাপনা
  • SGLang: কাঠামোগত ভাষা মডেল প্রোগ্রামের দক্ষ সম্পাদন

এজেন্ট সেবা প্ল্যাটফর্ম

  • অটেলিক্স: এলএলএম এজেন্টের জন্য দক্ষ সেবা ইঞ্জিন, জটিল অগ্রাধিকার কৌশল ব্যবহার করে
  • HEXGEN-TEXT2SQL: অবশিষ্ট সময়সীমা শিথিলতা এবং অনুমানিত সম্পাদন সময়ের উপর ভিত্তি করে এনএল२এসকিউএল ওয়ার্কফ্লো অনুরোধ সময়সূচী

প্রযুক্তিগত পার্থক্য

বিদ্যমান প্ল্যাটফর্ম অভ্যন্তরীণ ওয়ার্কফ্লো কাঠামোর সচেতনতার অভাব, কর্টেক্স পর্যায় বিচ্ছিন্নতার মাধ্যমে এই ফাঁক পূরণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

কর্টেক্স সহজ কিন্তু কার্যকর পর্যায় বিচ্ছিন্নতা কৌশলের মাধ্যমে এজেন্ট কর্মভারের সেবা কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। এই পদ্ধতি শুধুমাত্র সম্পদ ব্যবহার দক্ষতা উন্নত করে না, বরং আরও উন্নত এজেন্ট-নেটিভ সেবা প্যারাডাইমের ভিত্তি স্থাপন করে।

ভবিষ্যত দিকনির্দেশনা

প্লাস্টিক ওয়ার্কফ্লো এবং সম্পদ

  1. গণনা অভিযোজনযোগ্যতা: যখন বিলম্ব এসএলও সীমানার কাছাকাছি থাকে, ভারী মডেলকে হালকা বৈকল্পিক দিয়ে প্রতিস্থাপন করা
  2. সম্পদ স্থিতিস্থাপকতা: ফ্যান-আউট প্যাটার্নে আরও শক্তিশালী ইঞ্জিন ব্যবহার করে পিছিয়ে থাকা উন্নত করা

অনুমানমূলক সম্পাদন

  • ওয়ার্কফ্লোতে সবচেয়ে সম্ভাব্য শাখার অনুমান করা
  • সম্পর্কিত ইঞ্জিন উষ্ণ করা বা পরবর্তী ধাপ প্রাক-সম্পাদন করা
  • একাধিক প্রার্থী প্রশ্ন সমান্তরালভাবে উৎপন্ন এবং মূল্যায়ন করা

এজেন্ট অবস্থা ব্যবস্থাপনা

  • মধ্যবর্তী ডেটা একটি প্রথম-শ্রেণীর নাগরিক হিসাবে বহু-স্তরীয় "এজেন্ট অবস্থা"
  • ওয়ার্কফ্লো-পরিসীমা ভাগ করা স্তর প্রকাশ/সাবস্ক্রাইব কাঠামো হিসাবে
  • পুনরাবৃত্তিমূলক সরঞ্জাম এবং এলএলএম কল শূন্য-খরচ হিট রূপান্তর করা

সীমাবদ্ধতা

  1. প্রোটোটাইপ পর্যায়: বর্তমানে এখনও ধারণা প্রমাণ, আরও ব্যাপক বাস্তবায়ন এবং মূল্যায়ন প্রয়োজন
  2. পরিস্থিতি সীমাবদ্ধতা: প্রধানত এনএল२এসকিউএল উদাহরণ হিসাবে, আরও এজেন্ট ওয়ার্কফ্লোতে যাচাইকরণ প্রয়োজন
  3. জটিলতা ব্যবস্থাপনা: কীভাবে ইন্টারফেস ডিজাইন করতে হয় যাতে ওয়ার্কফ্লো তাদের প্লাস্টিকতা ঘোষণা করে এটি এখনও একটি খোলা চ্যালেঞ্জ

গভীর মূল্যায়ন

শক্তি

  1. শক্তিশালী উদ্ভাবনযোগ্যতা: প্রথমবার ওয়ার্কফ্লো-সচেতন এজেন্ট সেবা আর্কিটেকচার প্রস্তাব করা
  2. নির্ভুল সমস্যা অবস্থান: বিদ্যমান এলএলএম সেবা প্ল্যাটফর্মের মূল সমস্যা সঠিকভাবে চিহ্নিত করা
  3. সমাধান সরলতা এবং কার্যকারিতা: পর্যায় বিচ্ছিন্নতা কৌশল সহজ কিন্তু উল্লেখযোগ্য প্রভাব
  4. দূরদর্শী শক্তি: ভবিষ্যত এজেন্ট-নেটিভ সেবার জন্য স্পষ্ট উন্নয়ন পথ প্রদান করা

অপূর্ণতা

  1. সীমিত পরীক্ষামূলক যাচাইকরণ: প্রধানত একটি এনএল२এসকিউএল পরিস্থিতির উপর ভিত্তি করে, বৃহৎ-আকারের বৈচিত্র্যময় পরীক্ষার অভাব
  2. অপর্যাপ্ত পরিমাণগত ফলাফল: চার্ট প্রবণতা দেখায় কিন্তু নির্দিষ্ট কর্মক্ষমতা উন্নতি সংখ্যার অভাব
  3. অপর্যাপ্ত বাস্তবায়ন বিবরণ: সময়সূচী অ্যালগরিদম এবং সম্পদ বরাদ্দ কৌশলের নির্দিষ্ট বাস্তবায়নের বর্ণনা কম
  4. অপর্যাপ্ত তুলনামূলক পরীক্ষা: প্রধানত সহজ ভাগ করা পুল স্কিমের সাথে তুলনা, অন্যান্য উন্নত পদ্ধতির তুলনার অভাব

প্রভাব

  1. একাডেমিক মূল্য: এজেন্ট সেবা ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করা
  2. ব্যবহারিক মূল্য: প্রকৃত উৎপাদন পরিবেশে গুরুত্বপূর্ণ সমস্যা সমাধান করা
  3. অনুপ্রেরণামূলক: পরবর্তী সম্পর্কিত গবেষণার জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করা

প্রযোজ্য পরিস্থিতি

  1. বহু-পর্যায় এজেন্ট ওয়ার্কফ্লো: বিশেষ করে স্পষ্ট পর্যায় বিভাজন সহ এজেন্ট অ্যাপ্লিকেশনের জন্য উপযুক্ত
  2. সম্পদ-সংবেদনশীল পরিবেশ: জিপিইউ মেমোরির মতো সম্পদ সীমিত পরিবেশে উল্লেখযোগ্য প্রভাব
  3. উচ্চ কর্মক্ষমতা প্রয়োজনীয় পরিস্থিতি: বিলম্ব এবং থ্রুপুটের কঠোর প্রয়োজনীয়তা সহ উৎপাদন পরিবেশ

তথ্যসূত্র

পেপারটি নিম্নলিখিত মূল সাহিত্য উদ্ধৃত করেছে:

  1. vLLM: পৃষ্ঠাযুক্ত মনোযোগ মেমোরি ব্যবস্থাপনা প্রক্রিয়া
  2. SGLang: কাঠামোগত ভাষা মডেল প্রোগ্রাম সম্পাদন
  3. অটেলিক্স: এলএলএম এজেন্ট সেবা ইঞ্জিন
  4. HEXGEN-TEXT2SQL: এজেন্ট ওয়ার্কফ্লো সময়সূচী
  5. সম্পর্কিত এনএল२এসকিউএল এবং ক্লাউড সেবা সাহিত্য

সামগ্রিক মূল্যায়ন: এটি একটি উদ্ভাবনী এবং দূরদর্শী পেপার যা এজেন্ট সেবা ক্ষেত্রে গুরুত্বপূর্ণ সমস্যা উপস্থাপন করে এবং কার্যকর সমাধান প্রদান করে। যদিও বর্তমানে প্রোটোটাইপ পর্যায়ে রয়েছে, এটি এই ক্ষেত্রের উন্নয়নের জন্য দিকনির্দেশনা নির্দেশ করে এবং উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।