Smallest Suffixient Sets as a Repetitiveness Measure
Navarro, Romana, Urbina
A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $Ï$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.
academic
সবচেয়ে ছোট সাফিক্সিয়েন্ট সেট একটি পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে
এই পেপারটি সাফিক্সিয়েন্ট সেট নামক একটি নতুন সংমিশ্রণগত বস্তুকে পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে অধ্যয়ন করে। সাফিক্সিয়েন্ট সেট পুনরাবৃত্তিমূলক স্ট্রিংয়ের অপরিহার্য তথ্য ক্যাপচার করতে পারে এবং র্যান্ডম অ্যাক্সেস প্রক্রিয়া প্রদান করার সময় বিভিন্ন প্যাটার্ন ম্যাচিং সমর্থন করে। পেপারটি সর্বনিম্ন সাফিক্সিয়েন্ট সেটের আকার χ-কে পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে গভীরভাবে অধ্যয়ন করে: এটিকে পরিচিত পরিমাপের মধ্যে অবস্থান করে, বিভিন্ন স্ট্রিং অপারেশনের প্রতি এর সংবেদনশীলতা অধ্যয়ন করে। গবেষণা ফলাফলের একটি পার্শ্বপণ্য হিসাবে, পেপারটি সর্বনিম্ন সাফিক্সিয়েন্ট সেট গণনা করার জন্য একটি সহজ অনলাইন অ্যালগরিদম প্রদান করে।
বৃহৎ আকারের অনুরূপ স্ট্রিং সংগ্রহের উত্থানের সাথে (যেমন মানব জিনোম ডেটা), অত্যন্ত পুনরাবৃত্তিমূলক স্ট্রিংগুলি কীভাবে কার্যকরভাবে প্রতিনিধিত্ব এবং অনুসন্ধান করা যায় তা একটি মূল চ্যালেঞ্জ হয়ে উঠেছে। উদাহরণস্বরূপ, ইউরোপীয় "১+ মিলিয়ন জিনোম" প্রকল্পের লক্ষ্য এক মিলিয়নেরও বেশি মানব জিনোম সিকোয়েন্স করা, যেখানে কাঁচা ডেটার জন্য প্রায় ৭৫০ টেরাবাইট স্টোরেজ স্থান প্রয়োজন, কিন্তু জিনোমগুলির মধ্যে উচ্চ সাদৃশ্য ব্যবহার করে, স্টোরেজ স্থান দুটি পরিমাণের ক্রম দ্বারা সংকুচিত করা যায়।
একাধিক পুনরাবৃত্তিমূলকতা পরিমাপ প্রস্তাব করা হয়েছে, বিমূর্ত নিম্ন সীমা থেকে নির্দিষ্ট পাঠ্য সংকোচকদের সাথে সম্পর্কিত পরিমাপ পর্যন্ত। সম্প্রতি প্রস্তাবিত সাফিক্সিয়েন্ট সেটের আকার χ-এর জন্য, বিদ্যমান গবেষণা শুধুমাত্র জানে:
γ = O(χ) (γ হল সর্বনিম্ন স্ট্রিং অ্যাট্র্যাক্টরের আকার)
১. χ এবং BWT রান সংখ্যা r-এর মধ্যে সরাসরি সম্পর্ক স্থাপন: প্রমাণ করে যে χ = O(r) (পূর্ববর্তী χ = O(r̄)-এর পরিবর্তে), এবং নির্দিষ্ট স্ট্রিং পরিবারে প্রমাণ করে যে χ = o(v) (v হল সর্বনিম্ন অভিধান বিশ্লেষণের আকার), যা χ-কে r-এর চেয়ে কঠোরভাবে ছোট হিসাবে প্রতিষ্ঠিত করে
২. স্ট্রিং অপারেশন সংবেদনশীলতা বিশ্লেষণ:
প্রমাণ করে যে χ একক অক্ষর যোগ/প্রস্তাবনায় শুধুমাত্র O(1) বৃদ্ধি পায়
প্রমাণ করে যে যেকোনো সম্পাদনা অপারেশন বা ঘূর্ণন χ-কে Ω(log n) বৃদ্ধি করতে পারে
প্রমাণ করে যে স্ট্রিং বিপরীতকরণ χ-কে Ω(√n) বৃদ্ধি করতে পারে
३. ফিবোনাচ্চি স্ট্রিংয়ের সম্পূর্ণ চিহ্নিতকরণ: ফিবোনাচ্চি স্ট্রিংয়ের অনন্য ২টি আকার ৪-এর সর্বনিম্ন সাফিক্সিয়েন্ট সেট সম্পূর্ণভাবে চিহ্নিত করে, এবং প্রমাণ করে যে সমস্ত episturmian শব্দের সাবস্ট্রিং χ ≤ σ + ২ সন্তুষ্ট করে
४. কপি-পেস্ট পরিমাপের সাথে অতুলনীয়তা: প্রমাণ করে যে χ বেশিরভাগ কপি-পেস্ট-শ্রেণীর পরিমাপের সাথে অতুলনীয় (z, z_no, z_e, z_end, v, g, g_rl, c) — স্ট্রিং পরিবার বিদ্যমান যেখানে χ কঠোরভাবে ছোট, এবং স্ট্রিং পরিবার বিদ্যমান যেখানে χ কঠোরভাবে বড়
५. সহজ অনলাইন অ্যালগরিদম: একটি অত্যন্ত সহজ অনলাইন অ্যালগরিদম প্রস্তাব করে, Ukkonen প্রত্যয় গাছ নির্মাণ অ্যালগরিদম সংশোধন করে, O(n) স্থান এবং O(n) সর্বনিম্ন ক্ষেত্রে সময়ে সর্বনিম্ন সাফিক্সিয়েন্ট সেট গণনা করতে
१. ডান-সর্বোচ্চ সাবস্ট্রিং: একটি সাবস্ট্রিং x ডান-সর্বোচ্চ, যদি কমপক্ষে দুটি ভিন্ন প্রতীক a, b ∈ Σ বিদ্যমান থাকে যেমন xa এবং xb উভয়ই w-এর সাবস্ট্রিং
२. ডান-সম্প্রসারণ: প্রতিটি ডান-সর্বোচ্চ সাবস্ট্রিং x-এর জন্য, এর ডান-সম্প্রসারণ হল xa-এর মতো সাবস্ট্রিং, E_r(w) দ্বারা চিহ্নিত
३. সুপার-সর্বোচ্চ সম্প্রসারণ: কোনো অন্য ডান-সম্প্রসারণের প্রত্যয় নয় এমন ডান-সম্প্রসারণ, S_r(w) দ্বারা চিহ্নিত, এর আকার sre(w) দ্বারা চিহ্নিত
४. সাফিক্সিয়েন্ট সেট: একটি সেট S ⊆ 1..n হল w-এর সাফিক্সিয়েন্ট সেট, যদি প্রতিটি ডান-সম্প্রসারণ x ∈ E_r(w)-এর জন্য, একটি j ∈ S বিদ্যমান থাকে যেমন x হল w1..j-এর প্রত্যয়
५. সর্বনিম্ন সাফিক্সিয়েন্ট সেট: একটি সাফিক্সিয়েন্ট সেট S সর্বনিম্ন, যদি একটি দ্বিমুখী pos: S_r(w) → S বিদ্যমান থাকে যেমন প্রতিটি x ∈ S_r(w) হল w1..pos(x)-এর প্রত্যয়
६. পরিমাপ χ: w ∈ Σ* এবং ∈/Fw−এরজন্য,χ(w)=∣S∣সংজ্ঞায়িতকরুন,যেখানেSহলw-এর সর্বনিম্ন সাফিক্সিয়েন্ট সেট
প্রমাণের চিন্তাভাবনা: c যোগ করার পরে সম্ভাব্য নতুন ডান-সম্প্রসারণ বিশ্লেষণ করুন:
ক্ষেত্র १: xc ইতিমধ্যে w-তে প্রদর্শিত হয়েছে, বা xa কোনো a≠c-এর জন্য w-তে প্রদর্শিত হয় না → নতুন ডান-সম্প্রসারণ উৎপন্ন করে না
ক্ষেত্র २: একটি a≠b বিদ্যমান যেমন xa এবং xb উভয়ই w-তে আছে, কিন্তু xc নেই → xc একটি নতুন ডান-সম্প্রসারণ
ক্ষেত্র ३: x w-তে সর্বদা a≠c-এর পরে আসে (তাই xa ডান-সম্প্রসারণ নয়) → xa এবং xc উভয়ই নতুন ডান-সম্প্রসারণ
মূল পর্যবেক্ষণ:
ক্ষেত্র १ এবং २ একসাথে সর্বাধিক १টি নতুন সুপার-সর্বোচ্চ ডান-সম্প্রসারণ উৎপন্ন করে
ক্ষেত্র ३-তে, একটি নির্দিষ্ট a-এর জন্য, সমস্ত নতুন ডান-সম্প্রসারণ x₁a, x₂a, ..., x_ta একটি প্রত্যয় শৃঙ্খল গঠন করে, শুধুমাত্র x_ta সুপার-সর্বোচ্চ হতে পারে
তাই সর্বাধিক २টি সুপার-সর্বোচ্চ ডান-সম্প্রসারণ যোগ করা হয়।
Ukkonen-এর প্রত্যয় গাছ অনলাইন নির্মাণ অ্যালগরিদম সংশোধন করুন, প্রতিটি অক্ষর প্রক্রিয়া করার সময় সর্বনিম্ন সাফিক্সিয়েন্ট সেট সমন্বিতভাবে বজায় রাখুন।
প্রমেয় १: একটি অ্যালগরিদম বিদ্যমান যা পাঠ্য T-কে বাম থেকে ডান দিকে প্রক্রিয়া করে, প্রতিটি n-এর জন্য, উপসর্গ T1..n প্রক্রিয়া করার পরে T1..n-এর সর্বনিম্ন সাফিক্সিয়েন্ট সেট নির্ধারণ করে, O(n) স্থান এবং O(n) সর্বনিম্ন ক্ষেত্রে সময় ব্যবহার করে।
নোট: এই পেপারটি একটি তাত্ত্বিক পেপার, যার প্রধান অবদান তাত্ত্বিক ফলাফল এবং অ্যালগরিদম, ঐতিহ্যবাহী অর্থে কোনো পরীক্ষামূলক মূল্যায়ন অংশ নেই। পেপারের "পরীক্ষা" গাণিতিক প্রমাণ এবং গঠনমূলক উদাহরণের মাধ্যমে তাত্ত্বিক ফলাফল যাচাই করার মাধ্যমে।
२७ Navarro, "Indexing highly repetitive string collections", arXiv २०२२
४. সম্পর্কিত পরিমাপ:
१८ Kempa & Prezza, "String attractors", STOC २०१८
३ Burrows & Wheeler, "BWT", १९९४
२० Lempel & Ziv, "LZ complexity", १९७६
२८ Navarro এবং অন্যরা, "Ordered parsings", IEEE TIT २०२१
५. সংবেদনশীলতা গবেষণা:
१ Akagi এবং অন্যরা, "Sensitivity of string compressors", Information and Computation २०२३
१५ Giuliani এবং অন্যরা, "Bit catastrophes for BWT", Theory of Computing Systems २०२५
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের তাত্ত্বিক পেপার যা পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে সাফিক্সিয়েন্ট সেটের গভীর এবং ব্যাপক বিশ্লেষণ প্রদান করে। প্রধান অবদানগুলির মধ্যে রয়েছে χ এবং r-এর মধ্যে সরাসরি সম্পর্ক স্থাপন, সংবেদনশীলতা বিশ্লেষণ, বিশেষ স্ট্রিং পরিবারের সঠিক চিহ্নিতকরণ এবং সংক্ষিপ্ত অনলাইন অ্যালগরিদম। পেপারের তাত্ত্বিক বিশ্লেষণ কঠোর, প্রমাণ বিস্তারিত, লেখা স্পষ্ট। প্রধান অসুবিধা হল পরীক্ষামূলক যাচাইকরণের অনুপস্থিতি এবং অর্জনযোগ্যতা সমস্যা অমীমাংসিত। পেপার সাফিক্সিয়েন্ট সেটের তাত্ত্বিক গবেষণার জন্য একটি দৃঢ় ভিত্তি স্থাপন করে, প্রস্তাবিত খোলা সমস্যা ভবিষ্যত গবেষণা দিকনির্দেশনা দেবে। প্রস্তাবিত পরবর্তী কাজ প্রকৃত ডেটায় কর্মক্ষমতা মূল্যায়ন এবং অর্জনযোগ্যতা সমস্যা সমাধানে ফোকাস করা উচিত।