Multi-Way Co-Ranking: Index-Space Partitioning of Sorted Sequences Without Merge
Joshi
We present a merge-free algorithm for multi-way co-ranking, the problem of computing cut indices $i_1,\dots,i_m$ that partition each of the $m$ sorted sequences such that all prefix segments together contain exactly $K$ elements. Our method extends two-list co-ranking to arbitrary $m$, maintaining per-sequence bounds that converge to a consistent global frontier without performing any multi-way merge or value-space search. Rather, we apply binary search to \emph{index-space}. The algorithm runs in $O(\log(\sum_t n_t)\,\log m)$ time and $O(m)$ space, independent of $K$. We prove correctness via an exchange argument and discuss applications to distributed fractional knapsack, parallel merge partitioning, and multi-stream joins.
Keywords: Co-ranking \sep partitioning \sep Merge-free algorithms \sep Index-space optimization \sep Selection and merging \sep Data structures
এই পেপারটি একটি মার্জ-মুক্ত মাল্টি-ওয়ে কো-র্যাঙ্কিং অ্যালগরিদম প্রস্তাব করে যা কাটিং ইন্ডেক্স i1,…,im গণনা করে, mটি সর্টেড সিকোয়েন্সকে বিভক্ত করে যাতে সমস্ত প্রিফিক্স সেগমেন্ট মোট ঠিক Kটি উপাদান ধারণ করে। এই পদ্ধতিটি সিবার্ট এবং ট্রাফের দ্বি-তালিকা কো-র্যাঙ্কিংকে যেকোনো m-পথে প্রসারিত করে, প্রতিটি সিকোয়েন্সের সীমানা বজায় রেখে এবং মার্জ বা মূল্য-স্থান অনুসন্ধান ছাড়াই একটি সামঞ্জস্যপূর্ণ বৈশ্বিক সীমানায় সংবেদনশীল হয়। অ্যালগরিদম ইন্ডেক্স স্পেসে বাইনারি সার্চ প্রয়োগ করে, সময় জটিলতা O(log(∑tnt)logm) এবং স্থান জটিলতা O(m) সহ, যা K থেকে স্বাধীন। বিনিময় যুক্তির মাধ্যমে সঠিকতা প্রমাণ করা হয়েছে এবং বিতরণকৃত ভগ্নাংশ ব্যাকপ্যাক, সমান্তরাল মার্জ পার্টিশনিং এবং মাল্টি-স্ট্রিম জয়েনে প্রয়োগ আলোচনা করা হয়েছে।
মাল্টি-ওয়ে কো-র্যাঙ্কিং সমস্যা নিম্নরূপ সংজ্ঞায়িত করা হয়: mটি সিকোয়েন্স L1,…,Lm দেওয়া হয়েছে যা অ-হ্রাসমান ক্রমে সর্টেড (পুনরাবৃত্তি অনুমোদিত), প্রতিটি সিকোয়েন্সের দৈর্ঘ্য nt, এবং বৈশ্বিক লক্ষ্য র্যাঙ্ক K∈{0,…,N} (যেখানে N=∑tnt), কাটিং ইন্ডেক্স i1,…,im খুঁজে বের করতে হবে যাতে:
∑t=1mit=Kএবংmaxtℓt≤mintrt
যেখানে ℓt এবং rt যথাক্রমে বাম সীমানা মান এবং ডান সীমানা মান প্রতিনিধিত্ব করে।
যদি Φ(i)>0, p=argmaxtℓt এবং q=argmintrt সেট করুন। ∑tit=K বজায় রাখে এমন সমস্ত সম্ভাব্য অসীম স্থানান্তরের মধ্যে, (p,q) জোড়া Φ এর সর্বোচ্চ অ-বৃদ্ধিমূলক পরিবর্তন অর্জন করে।
প্রমাণ চিন্তাভাবনা: ip হ্রাস করা ℓp হ্রাস করে (বাম সীমানার স্থানীয় সর্বোচ্চ), iq বৃদ্ধি করা rq বৃদ্ধি করে (ডান সীমানার স্থানীয় ন্যূনতম)। যেহেতু ℓp≥ℓu এবং rq≤rv সমস্ত u,v এর জন্য, চরম জোড়া (p,q) ফাঁক maxℓ−minr এর সবচেয়ে খাড়া হ্রাস উৎপন্ন করে।
Φ হ্রাস করে এমন যেকোনো সম্ভাব্য স্থানান্তর ক্রম পুনর্বিন্যাস করা যায় যাতে সমস্ত চরম (p,q) স্থানান্তর যেকোনো অ-চরম স্থানান্তরের আগে ঘটে, এবং কোনো মধ্যবর্তী পদক্ষেপের Φ খারাপ করে না।
প্রতিটি রাউন্ডে, দাতা বা গ্রহণকারীর সম্ভাব্য দূরত্ব অর্ধেক হ্রাস পায়। প্রতিটি সিকোয়েন্সের দূরত্ব Ub[t]−Lb[t] সর্বাধিক O(lognt) বার হ্রাস পায়। সমস্ত m সিকোয়েন্স একত্রিত করে, মোট রাউন্ড সংখ্যা:
"জল পূরণ" কৌশল ব্যবহার করে সম্ভাব্য সমাধান শুরু করা:
def water_fill_initialization(K, capacities):
i = [0] * len(capacities)
need = K
for t in range(len(capacities)):
take = min(capacities[t], need)
i[t] = take
need -= take
if need == 0:
break
return i
মাল্টি-সোর্স ভগ্নাংশ ব্যাকপ্যাক সমস্যায়, যখন আইটেম ঘনত্ব অনুযায়ী সর্টেড এবং m টি শার্ডে বিতরণ করা হয়, তখন কো-র্যাঙ্কিং ব্যবহার করে বৈশ্বিক K প্রিফিক্স পার্টিশন গণনা করা যায়, উৎস ডেটা মার্জ ছাড়াই।
প্রসেসরগুলিতে অ-সংযুক্ত প্রিফিক্স বরাদ্দ করা, প্রাথমিক মার্জ সম্পাদন ছাড়াই। কো-র্যাঙ্কিং ভেক্টর সঠিক ইন্টারফেস পয়েন্ট নির্ধারণ করে, প্রসেসরগুলি তারপর তাদের পরিসরে শুধুমাত্র স্থানীয় মার্জ সম্পাদন করে।
ডাটাবেস বা স্ট্রিম প্রক্রিয়াকরণ পাইপলাইনে, বৈশ্বিক র্যাঙ্কে জয়েন সীমানা পার্টিশন করা একটি প্রাকৃতিক প্রয়োজন, এই পদ্ধতি বৈশ্বিক প্রিফিক্সের সাথে সামঞ্জস্যপূর্ণ প্রতিটি-স্ট্রিম কার্সর উৎপন্ন করে।
যদিও পেপারটি প্রধানত তাত্ত্বিক বিশ্লেষণে ফোকাস করে, লেখক যাচাইকরণের জন্য বাস্তবায়ন কোড সরবরাহ করেন। অ্যালগরিদমের প্রকৃত কর্মক্ষমতা নিম্নলিখিত দিক দ্বারা মূল্যায়ন করা যায়:
সিবার্ট এবং ট্রাফের কাজ কো-র্যাঙ্কিংয়ের ভিত্তি স্থাপন করে, প্রধানত সমান্তরাল মার্জে কাজ বিতরণের জন্য ব্যবহৃত হয়। এই পেপারটি এটি ২-পথ থেকে যেকোনো m-পথে প্রসারিত করে।
সিবার্ট এবং উলফের সঠিক বিভাজক পদ্ধতি মূল্য-স্থানে কাজ করে, ভারসাম্যপূর্ণ পার্টিশনের মূল থ্রেশহোল্ড অনুসন্ধান করে। এর বিপরীতে, এই পেপার ইন্ডেক্স স্পেসে কাজ করে, সরাসরি কো-র্যাঙ্কিং ভেক্টর আউটপুট করে।
ফ্রেডেরিকসন-জনসনের ক্লাসিক্যাল কাজ কাঠামোগত ইনপুটে (যেমন m সর্টেড তালিকার ইউনিয়ন) নির্বাচন এবং র্যাঙ্কিং অধ্যয়ন করে। এর অ্যালগরিদম মূলত মূল্য-স্থান প্রক্রিয়া, যখন এই পেপার ইন্ডেক্স-স্থান প্রাথমিক প্রদান করে।
4 ক্রিস্টিয়ান সিবার্ট এবং ফেলিক্স উলফ। সঠিক বিভাজন ব্যবহার করে স্কেলেবল সমান্তরাল সর্টিং অ্যালগরিদম। RWTH আচেন বিশ্ববিদ্যালয় প্রযুক্তিগত প্রতিবেদন, 2011।
সামগ্রিক মূল্যায়ন: এটি একটি শক্তিশালী তাত্ত্বিক অ্যালগরিদম পেপার যা মাল্টি-পথ কো-র্যাঙ্কিং এই গুরুত্বপূর্ণ সমস্যা সফলভাবে সমাধান করে। যদিও পরীক্ষামূলক যাচাইকরণের অভাব রয়েছে, তবে তাত্ত্বিক বিশ্লেষণ কঠোর, পদ্ধতি উদ্ভাবনী এবং শক্তিশালী, সম্পর্কিত ক্ষেত্রের জন্য মূল্যবান তাত্ত্বিক সরঞ্জাম প্রদান করে।