2025-11-15T06:04:11.942321

Smallest Suffixient Sets as a Repetitiveness Measure

Navarro, Romana, Urbina
A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $χ$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.
academic

সবচেয়ে ছোট সাফিক্সিয়েন্ট সেট একটি পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে

মৌলিক তথ্য

  • পেপার আইডি: 2506.05638
  • শিরোনাম: Smallest Suffixient Sets as a Repetitiveness Measure
  • লেখক: Gonzalo Navarro (চিলির বিশ্ববিদ্যালয়), Giuseppe Romana (পালার্মোর বিশ্ববিদ্যালয়), Cristian Urbina (চিলির বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.FL (ফর্মাল ভাষা), cs.DS (ডেটা কাঠামো), math.CO (সংমিশ্রণবিদ্যা)
  • প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ২৯ (arXiv v2)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2506.05638

সারসংক্ষেপ

এই পেপারটি সাফিক্সিয়েন্ট সেট নামক একটি নতুন সংমিশ্রণগত বস্তুকে পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে অধ্যয়ন করে। সাফিক্সিয়েন্ট সেট পুনরাবৃত্তিমূলক স্ট্রিংয়ের অপরিহার্য তথ্য ক্যাপচার করতে পারে এবং র্যান্ডম অ্যাক্সেস প্রক্রিয়া প্রদান করার সময় বিভিন্ন প্যাটার্ন ম্যাচিং সমর্থন করে। পেপারটি সর্বনিম্ন সাফিক্সিয়েন্ট সেটের আকার χ-কে পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে গভীরভাবে অধ্যয়ন করে: এটিকে পরিচিত পরিমাপের মধ্যে অবস্থান করে, বিভিন্ন স্ট্রিং অপারেশনের প্রতি এর সংবেদনশীলতা অধ্যয়ন করে। গবেষণা ফলাফলের একটি পার্শ্বপণ্য হিসাবে, পেপারটি সর্বনিম্ন সাফিক্সিয়েন্ট সেট গণনা করার জন্য একটি সহজ অনলাইন অ্যালগরিদম প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

১. সমাধান করার সমস্যা

বৃহৎ আকারের অনুরূপ স্ট্রিং সংগ্রহের উত্থানের সাথে (যেমন মানব জিনোম ডেটা), অত্যন্ত পুনরাবৃত্তিমূলক স্ট্রিংগুলি কীভাবে কার্যকরভাবে প্রতিনিধিত্ব এবং অনুসন্ধান করা যায় তা একটি মূল চ্যালেঞ্জ হয়ে উঠেছে। উদাহরণস্বরূপ, ইউরোপীয় "১+ মিলিয়ন জিনোম" প্রকল্পের লক্ষ্য এক মিলিয়নেরও বেশি মানব জিনোম সিকোয়েন্স করা, যেখানে কাঁচা ডেটার জন্য প্রায় ৭৫০ টেরাবাইট স্টোরেজ স্থান প্রয়োজন, কিন্তু জিনোমগুলির মধ্যে উচ্চ সাদৃশ্য ব্যবহার করে, স্টোরেজ স্থান দুটি পরিমাণের ক্রম দ্বারা সংকুচিত করা যায়।

২. সমস্যার গুরুত্ব

পুনরাবৃত্তিমূলকতা পরিমাপ করার পদ্ধতি বোঝা নিম্নলিখিত জন্য গুরুত্বপূর্ণ:

  • অ্যাক্সেস এবং অনুসন্ধান কার্যকারিতা বজায় রেখে সংকুচিত প্রতিনিধিত্ব ডিজাইন করা
  • বিভিন্ন সংকোচন স্কিমের স্থান দক্ষতা মূল্যায়ন করা
  • বিভিন্ন পরিমাপের মধ্যে সম্পর্ক বোঝা, যাতে স্পষ্ট হয় যে কোন স্থান খরচে কোন অনুসন্ধান কার্যকারিতা পাওয়া যায়

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

একাধিক পুনরাবৃত্তিমূলকতা পরিমাপ প্রস্তাব করা হয়েছে, বিমূর্ত নিম্ন সীমা থেকে নির্দিষ্ট পাঠ্য সংকোচকদের সাথে সম্পর্কিত পরিমাপ পর্যন্ত। সম্প্রতি প্রস্তাবিত সাফিক্সিয়েন্ট সেটের আকার χ-এর জন্য, বিদ্যমান গবেষণা শুধুমাত্র জানে:

  • γ = O(χ) (γ হল সর্বনিম্ন স্ট্রিং অ্যাট্র্যাক্টরের আকার)
  • χ = O(r̄) (r̄ হল বিপরীত স্ট্রিং BWT-এর সমান-অক্ষর রান সংখ্যা)

কিন্তু χ-কে পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে আরও গভীর বোঝাপড়া এখনও অনুপস্থিত, বিশেষত:

  • χ এবং অন্যান্য পরিমাপের মধ্যে সঠিক সম্পর্ক
  • স্ট্রিং অপারেশনের প্রতি χ-এর সংবেদনশীলতা
  • χ অর্জনযোগ্য কিনা

৪. গবেষণা প্রেরণা

এই পেপারটির লক্ষ্য χ-কে পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে আরও ভালভাবে চিহ্নিত করা, বিশেষত মনোযোগ দিয়ে:

  • χ-কে পরিচিত পরিমাপ সিস্টেমে অবস্থান করা
  • স্ট্রিং আপডেট অপারেশনের χ-এর উপর প্রভাব অধ্যয়ন করা
  • χ এবং কপি-পেস্ট-শ্রেণীর পরিমাপের তুলনীয়তা অন্বেষণ করা
  • χ গণনার জন্য দক্ষ অ্যালগরিদম প্রদান করা

মূল অবদান

১. χ এবং BWT রান সংখ্যা r-এর মধ্যে সরাসরি সম্পর্ক স্থাপন: প্রমাণ করে যে χ = O(r) (পূর্ববর্তী χ = O(r̄)-এর পরিবর্তে), এবং নির্দিষ্ট স্ট্রিং পরিবারে প্রমাণ করে যে χ = o(v) (v হল সর্বনিম্ন অভিধান বিশ্লেষণের আকার), যা χ-কে r-এর চেয়ে কঠোরভাবে ছোট হিসাবে প্রতিষ্ঠিত করে

২. স্ট্রিং অপারেশন সংবেদনশীলতা বিশ্লেষণ:

  • প্রমাণ করে যে χ একক অক্ষর যোগ/প্রস্তাবনায় শুধুমাত্র O(1) বৃদ্ধি পায়
  • প্রমাণ করে যে যেকোনো সম্পাদনা অপারেশন বা ঘূর্ণন χ-কে Ω(log n) বৃদ্ধি করতে পারে
  • প্রমাণ করে যে স্ট্রিং বিপরীতকরণ χ-কে Ω(√n) বৃদ্ধি করতে পারে

३. ফিবোনাচ্চি স্ট্রিংয়ের সম্পূর্ণ চিহ্নিতকরণ: ফিবোনাচ্চি স্ট্রিংয়ের অনন্য ২টি আকার ৪-এর সর্বনিম্ন সাফিক্সিয়েন্ট সেট সম্পূর্ণভাবে চিহ্নিত করে, এবং প্রমাণ করে যে সমস্ত episturmian শব্দের সাবস্ট্রিং χ ≤ σ + ২ সন্তুষ্ট করে

४. কপি-পেস্ট পরিমাপের সাথে অতুলনীয়তা: প্রমাণ করে যে χ বেশিরভাগ কপি-পেস্ট-শ্রেণীর পরিমাপের সাথে অতুলনীয় (z, z_no, z_e, z_end, v, g, g_rl, c) — স্ট্রিং পরিবার বিদ্যমান যেখানে χ কঠোরভাবে ছোট, এবং স্ট্রিং পরিবার বিদ্যমান যেখানে χ কঠোরভাবে বড়

५. সহজ অনলাইন অ্যালগরিদম: একটি অত্যন্ত সহজ অনলাইন অ্যালগরিদম প্রস্তাব করে, Ukkonen প্রত্যয় গাছ নির্মাণ অ্যালগরিদম সংশোধন করে, O(n) স্থান এবং O(n) সর্বনিম্ন ক্ষেত্রে সময়ে সর্বনিম্ন সাফিক্সিয়েন্ট সেট গণনা করতে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

মূল সংজ্ঞা:

१. ডান-সর্বোচ্চ সাবস্ট্রিং: একটি সাবস্ট্রিং x ডান-সর্বোচ্চ, যদি কমপক্ষে দুটি ভিন্ন প্রতীক a, b ∈ Σ বিদ্যমান থাকে যেমন xa এবং xb উভয়ই w-এর সাবস্ট্রিং

२. ডান-সম্প্রসারণ: প্রতিটি ডান-সর্বোচ্চ সাবস্ট্রিং x-এর জন্য, এর ডান-সম্প্রসারণ হল xa-এর মতো সাবস্ট্রিং, E_r(w) দ্বারা চিহ্নিত

३. সুপার-সর্বোচ্চ সম্প্রসারণ: কোনো অন্য ডান-সম্প্রসারণের প্রত্যয় নয় এমন ডান-সম্প্রসারণ, S_r(w) দ্বারা চিহ্নিত, এর আকার sre(w) দ্বারা চিহ্নিত

४. সাফিক্সিয়েন্ট সেট: একটি সেট S ⊆ 1..n হল w-এর সাফিক্সিয়েন্ট সেট, যদি প্রতিটি ডান-সম্প্রসারণ x ∈ E_r(w)-এর জন্য, একটি j ∈ S বিদ্যমান থাকে যেমন x হল w1..j-এর প্রত্যয়

५. সর্বনিম্ন সাফিক্সিয়েন্ট সেট: একটি সাফিক্সিয়েন্ট সেট S সর্বনিম্ন, যদি একটি দ্বিমুখী pos: S_r(w) → S বিদ্যমান থাকে যেমন প্রতিটি x ∈ S_r(w) হল w1..pos(x)-এর প্রত্যয়

६. পরিমাপ χ: w ∈ Σ* এবং Fwএরজন্য,χ(w)=Sসংজ্ঞায়িতকরুন,যেখানেSহলw ∉ F_w-এর জন্য, χ(w) = |S| সংজ্ঞায়িত করুন, যেখানে S হল w-এর সর্বনিম্ন সাফিক্সিয়েন্ট সেট

তাত্ত্বিক বিশ্লেষণ কাঠামো

१. অক্ষর যোগ করার প্রভাব (মূল লেম্মা)

লেম্মা २: w ∈ Σ*, c ∈ Σ সেট করুন, তারপর:

sre(w) ≤ sre(wc) ≤ sre(w) + 2

প্রমাণের চিন্তাভাবনা: c যোগ করার পরে সম্ভাব্য নতুন ডান-সম্প্রসারণ বিশ্লেষণ করুন:

  • ক্ষেত্র १: xc ইতিমধ্যে w-তে প্রদর্শিত হয়েছে, বা xa কোনো a≠c-এর জন্য w-তে প্রদর্শিত হয় না → নতুন ডান-সম্প্রসারণ উৎপন্ন করে না
  • ক্ষেত্র २: একটি a≠b বিদ্যমান যেমন xa এবং xb উভয়ই w-তে আছে, কিন্তু xc নেই → xc একটি নতুন ডান-সম্প্রসারণ
  • ক্ষেত্র ३: x w-তে সর্বদা a≠c-এর পরে আসে (তাই xa ডান-সম্প্রসারণ নয়) → xa এবং xc উভয়ই নতুন ডান-সম্প্রসারণ

মূল পর্যবেক্ষণ:

  • ক্ষেত্র १ এবং २ একসাথে সর্বাধিক १টি নতুন সুপার-সর্বোচ্চ ডান-সম্প্রসারণ উৎপন্ন করে
  • ক্ষেত্র ३-তে, একটি নির্দিষ্ট a-এর জন্য, সমস্ত নতুন ডান-সম্প্রসারণ x₁a, x₂a, ..., x_ta একটি প্রত্যয় শৃঙ্খল গঠন করে, শুধুমাত্র x_ta সুপার-সর্বোচ্চ হতে পারে

তাই সর্বাধিক २টি সুপার-সর্বোচ্চ ডান-সম্প্রসারণ যোগ করা হয়।

२. BWT রান সংখ্যা r-এর সাথে সম্পর্ক

লেম্মা ९: χ ≤ 2r

প্রমাণের চিন্তাভাবনা:

  • x_i-কে w$-এর i-তম অভিধান ক্রম ঘূর্ণন সেট করুন
  • u_i-কে x_i এবং x_{i+1}-এর দীর্ঘতম সাধারণ উপসর্গ সেট করুন
  • s(i)-কে x_i-কে চক্রাকারভাবে ডান দিকে স্থানান্তরিত করে w$ পেতে প্রয়োজনীয় স্থানান্তর পরিমাণ সংজ্ঞায়িত করুন

সাফিক্সিয়েন্ট সেট নির্মাণ করুন:

S = ∪_{i∈[1..|w|]} {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1}

BWT ম্যাট্রিক্স সম্পত্তি ব্যবহার করুন: যদি BWTi = BWTi+1 = c হয়, তবে একটি j বিদ্যমান যেমন সংশ্লিষ্ট অবস্থান মিলে যায়। তাই:

S = {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1 | BWT[i] ≠ BWT[i+1]}

|S| ≤ 2r (r হল BWT-এর সমান-অক্ষর রান সংখ্যা)।

३. সংবেদনশীলতা বিশ্লেষণ

ডি ব্রুইজন সিকোয়েন্স (নিম্ন সীমার জন্য):

  • k-ক্রম বাইনারি ডি ব্রুইজন সিকোয়েন্স সমস্ত দৈর্ঘ্য-k বাইনারি স্ট্রিং ঠিক একবার ধারণ করে
  • দৈর্ঘ্য n = 2^k + (k-1)
  • লেম্মা ५: sre(w) = 2^k = Ω(n) যেকোনো w ∈ dB(k)-এর জন্য

সম্পাদনা অপারেশনের Ω(log n) নিম্ন সীমা (লেম্মা ६): অভিধান ক্রম সর্বনিম্ন ডি ব্রুইজন সিকোয়েন্স w = a^k b a^{k-2} b x a b^k a^{k-1} ব্যবহার করুন:

  • সন্নিবেশ: sre(w) - sre(w') = 2^k - 2
  • প্রতিস্থাপন: sre(w) - sre(w') = 2^k - 3
  • মুছে ফেলা: sre(w) - sre(w') = 2^k - 4
  • ঘূর্ণন: sre(w) - sre(w') = 2^k - 2

বিপরীতকরণের Ω(√n) নিম্ন সীমা (লেম্মা ७): w_k = ∏_^{k-1} c a^i b a^{k-i-1} #_i a^i b a^{k-i-1} $_i নির্মাণ করুন:

  • sre(w_k) - sre(w_k^R) = k - 1
  • |w_k| = Θ(k²)
  • তাই বৃদ্ধি Ω(√n)

४. Episturmian শব্দের সম্পত্তি

লেম্মা १०: বর্ণমালার আকার σ-এর episturmian শব্দ w-এর জন্য, যেকোনো সাবস্ট্রিং wi..j সন্তুষ্ট করে:

sre(w[i..j]) ≤ σ

প্রমাণের চিন্তাভাবনা:

  • Episturmian শব্দের প্রতিটি দৈর্ঘ্যে সর্বাধিক একটি ডান-সর্বোচ্চ সাবস্ট্রিং
  • a ∈ Σ-এ শেষ হওয়া ডান-সম্প্রসারণ একটি প্রত্যয় শৃঙ্খল গঠন করে
  • মোট σটি এমন প্রত্যয় শৃঙ্খল আছে
  • প্রতিটি শৃঙ্খল সাবস্ট্রিংয়ে সর্বাধিক १টি সুপার-সর্বোচ্চ ডান-সম্প্রসারণ অবদান রাখে

অনুসিদ্ধান্ত ३: যেকোনো episturmian শব্দ w-এর জন্য, χ(wi..j) ≤ σ + 2

ফিবোনাচ্চি স্ট্রিংয়ের সঠিক চিহ্নিতকরণ (লেম্মা ११):

  • F_1 = b, F_2 = a, F_k = F_F_
  • k ≥ 6-এর জন্য, F_k$-এর অনন্য সর্বনিম্ন সাফিক্সিয়েন্ট সেট:
    {f_{k+1}, f_{k-1}, f_{k-1}-1, p}, যেখানে p ∈ {f_{k-2}+1, 2f_{k-2}+1}
    

অনলাইন অ্যালগরিদম ডিজাইন

মূল ধারণা

Ukkonen-এর প্রত্যয় গাছ অনলাইন নির্মাণ অ্যালগরিদম সংশোধন করুন, প্রতিটি অক্ষর প্রক্রিয়া করার সময় সর্বনিম্ন সাফিক্সিয়েন্ট সেট সমন্বিতভাবে বজায় রাখুন।

অ্যালগরিদম মূল পয়েন্ট

প্রত্যয় গাছ বৃদ্ধি: প্রত্যয় গাছ নোডে চিহ্ন যোগ করুন, সুপার-সর্বোচ্চ ডান-সম্প্রসারণের অবস্থান চিহ্নিত করুন।

অক্ষর c যোগ করার তিনটি ক্ষেত্র প্রক্রিয়া করুন:

१. s-এর c লেবেল সহ একটি সন্তান নোড আছে (ক্ষেত্র १):

  • শুধুমাত্র নতুন s-এ নামুন
  • চিহ্ন আপডেট করার প্রয়োজন নেই

२. s-এর ≥२টি সন্তান নোড আছে, c লেবেল নেই (ক্ষেত্র २):

  • s-এর নতুন পাতা নোড তৈরি করুন (লেবেল c)
  • s-এর সন্তান নোড c চিহ্নিত করুন
  • s'-এর সন্তান নোড c-এর চিহ্ন বাতিল করুন (যদি চিহ্নিত হয়)

३. s-এর শুধুমাত্র একটি সন্তান নোড আছে (লেবেল a≠c) (ক্ষেত্র ३):

  • s-এর দুটি সন্তান নোড চিহ্নিত করুন (a এবং c)
  • s'-এর সন্তান নোড c-এর চিহ্ন বাতিল করুন (যদি চিহ্নিত হয়)
  • s''-এর সন্তান নোড a-এর চিহ্ন বাতিল করুন (যদি চিহ্নিত হয়), যেখানে s'' হল প্রত্যয় শৃঙ্খলে প্রথম নোড যার অন্য সন্তান b≠a আছে

জটিলতা:

  • স্থান: O(n)
  • সময়: O(n) (transdichotomous RAM মডেলে, বহুপদী আকারের পূর্ণসংখ্যা বর্ণমালা)

প্রমেয় १: একটি অ্যালগরিদম বিদ্যমান যা পাঠ্য T-কে বাম থেকে ডান দিকে প্রক্রিয়া করে, প্রতিটি n-এর জন্য, উপসর্গ T1..n প্রক্রিয়া করার পরে T1..n-এর সর্বনিম্ন সাফিক্সিয়েন্ট সেট নির্ধারণ করে, O(n) স্থান এবং O(n) সর্বনিম্ন ক্ষেত্রে সময় ব্যবহার করে।

পরীক্ষামূলক সেটআপ

নোট: এই পেপারটি একটি তাত্ত্বিক পেপার, যার প্রধান অবদান তাত্ত্বিক ফলাফল এবং অ্যালগরিদম, ঐতিহ্যবাহী অর্থে কোনো পরীক্ষামূলক মূল্যায়ন অংশ নেই। পেপারের "পরীক্ষা" গাণিতিক প্রমাণ এবং গঠনমূলক উদাহরণের মাধ্যমে তাত্ত্বিক ফলাফল যাচাই করার মাধ্যমে।

তাত্ত্বিক যাচাইকরণ পদ্ধতি

१. গঠনমূলক প্রমাণ: নির্দিষ্ট স্ট্রিং পরিবার (যেমন ডি ব্রুইজন সিকোয়েন্স, ফিবোনাচ্চি স্ট্রিং) নির্মাণ করে সীমার কঠোরতা প্রমাণ করুন

२. প্রতিউদাহরণ নির্মাণ: নির্দিষ্ট উদাহরণের মাধ্যমে (যেমন উদাহরণ १-এ w_3) তাত্ত্বিক ফলাফলের সঠিকতা প্রদর্শন করুন

३. কোড যাচাইকরণ: লেখক স্বীকৃতিতে Cenzato এবং অন্যদের কোড ব্যবহার করা হয়েছে সর্বনিম্ন সাফিক্সিয়েন্ট সেট গণনা করতে, অনুমান প্রস্তাব এবং যাচাই করতে

পরীক্ষামূলক ফলাফল

প্রধান তাত্ত্বিক ফলাফল

१. χ এবং পরিচিত পরিমাপের সম্পর্ক

উপরের সীমা সম্পর্ক:

  • χ ≤ 2r (লেম্মা ९)
  • χ = O(r)

নিম্ন সীমা সম্পর্ক:

  • γ = O(χ) (পরিচিত ফলাফল )
  • δ ≤ χ (পরিচিত ফলাফল )

বিচ্ছেদ ফলাফল:

  • স্ট্রিং পরিবার বিদ্যমান যেখানে χ = o(v) (অনুসিদ্ধান্ত ४, ফিবোনাচ্চি স্ট্রিং)
  • v = O(r) থেকে, এটি মানে χ কঠোরভাবে r-এর চেয়ে ছোট

२. সংবেদনশীলতা ফলাফল সারসংক্ষেপ

অপারেশনযোগ সংবেদনশীলতাগুণ সংবেদনশীলতা
অক্ষর যোগO(1)সম্ভবত অ-একঘেয়ে
অক্ষর প্রস্তাবনাO(1)-
সন্নিবেশΩ(log n)O(max(1, log(n/δ log δ)) log δ)
মুছে ফেলাΩ(log n)O(max(1, log(n/δ log δ)) log δ)
প্রতিস্থাপনΩ(log n)O(max(1, log(n/δ log δ)) log δ)
ঘূর্ণনΩ(log n)O(max(1, log(n/δ log δ)) log δ)
বিপরীতকরণΩ(√n)O(max(1, log(n/δ log δ)) log δ)

३. নির্দিষ্ট স্ট্রিং পরিবারের সঠিক মান

Episturmian শব্দ:

  • χ(wi..j) ≤ σ + 2 (অনুসিদ্ধান্ত ३)

ফিবোনাচ্চি স্ট্রিং (k ≥ 6):

  • χ(F_k) = 4
  • সর্বনিম্ন সাফিক্সিয়েন্ট সেটের সঠিক চিহ্নিতকরণ (লেম্মা १११)

ডি ব্রুইজন সিকোয়েন্স:

  • sre(w) = 2^k = Ω(n) (লেম্মা ५)
  • χ = Ω(n)

४. কপি-পেস্ট পরিমাপের সাথে তুলনা

χ কঠোরভাবে ছোট ক্ষেত্র (ফিবোনাচ্চি স্ট্রিং):

  • χ = O(1)
  • c = Ω(log n)
  • তাই χ = o(µ), সমস্ত µ ∈ {z, z_no, z_e, z_end, v, g, g_rl, c}-এর জন্য

χ কঠোরভাবে বড় ক্ষেত্র (ডি ব্রুইজন সিকোয়েন্স):

  • χ = Ω(n)
  • g = O(n/log n)
  • তাই χ = Ω(g log n) (অনুসিদ্ধান্ত ५)
  • χ = Ω(z_e · log n log log log n / (log log n)²) (লেম্মা १२)

সিদ্ধান্ত (অনুসিদ্ধান্ত ६): χ µ ∈ {z, z_no, z_e, z_end, v, g, g_rl, c}-এর সাথে অতুলনীয়

কেস বিশ্লেষণ

উদাহরণ १ (লেম্মা ७-এর নির্দিষ্ট উদাহরণ):

স্ট্রিং w_3 = cbaa#₀baa₀caba#₁aba₁caab#₂aab$₂

সুপার-সর্বোচ্চ ডান-সম্প্রসারণ: १. baa এবং c २. baa#₀ এবং baa₀; aba#₁ এবং aba₁; aab#₂ এবং aab$₂ ३. ca এবং cb; caa এবং cab ४. aba এবং aab

মোট: sre(w_3) = 14

বিপরীত স্ট্রিং w_3^R = ₂baa#₂baac₁aba#₁abac$₀aab#₀aabc

সুপার-সর্বোচ্চ ডান-সম্প্রসারণ: १. baa এবং ₂ २. baa#₂ এবং baac; aba#₁ এবং abac; aab#₀ এবং aabc ३. ac₀; ac$₁ ४. aba এবং aab

মোট: sre(w_3^R) = 12

যাচাইকরণ: sre(w_3) - sre(w_3^R) = 2 = k - 1 ✓

সম্পর্কিত কাজ

१. পুনরাবৃত্তিমূলকতা পরিমাপ গবেষণা

বিমূর্ত নিম্ন সীমা পরিমাপ:

  • δ: সাবস্ট্রিং জটিলতা পরিমাপ, maxₖ(|F_w(k)|/k)
  • γ: সর্বনিম্ন স্ট্রিং অ্যাট্র্যাক্টর আকার १८
    • পরিচিত γ = O(χ)
    • γ অর্জনযোগ্য কিনা এখনও খোলা প্রশ্ন

কপি-পেস্ট-শ্রেণীর পরিমাপ:

  • z: Lempel-Ziv বিশ্লেষণ আকার २०
  • z_no: অনুমতিহীন বাক্যাংশ ওভারল্যাপ উৎস LZ বিশ্লেষণ
  • z_e: লোভী LZ-End বিশ্লেষণ আকার
  • z_end: সর্বনিম্ন LZ-End বিশ্লেষণ আকার
  • v: সর্বনিম্ন অভিধান বিশ্লেষণ আকার २८
  • g: সর্বনিম্ন প্রসঙ্গ-মুক্ত ব্যাকরণ আকার
  • g_rl: রান-দৈর্ঘ্য নিয়ম অনুমতিসহ ব্যাকরণ আকার
  • c: সর্বনিম্ন প্যাচিং সিস্টেম আকার
  • b: সর্বনিম্ন দ্বিমুখী ম্যাক্রো স্কিম আকার ३२

BWT সম্পর্কিত পরিমাপ:

  • r: BWT সমান-অক্ষর রান সংখ্যা
    • অনন্য পরিচিত অর্জনযোগ্য এবং অনুসন্ধানযোগ্য কিন্তু অ্যাক্সেসযোগ্য কিনা অজানা
    • এই পেপার প্রমাণ করে χ < r

२. সংবেদনশীলতা গবেষণা

একাধিক পরিমাপের স্ট্রিং অপারেশনের প্রতি সংবেদনশীলতা বিবেচনা করা হয়েছে:

  • Akagi এবং অন্যরা : b, z, g সম্পাদনা অপারেশনের প্রতি সংবেদনশীলতা
  • Giuliani এবং অন্যরা १४,१५: r বিপরীতকরণ এবং বিট পরিবর্তনের প্রতি সংবেদনশীলতা
  • Fici এবং অন্যরা ९,१०: BWT রান সংখ্যা মর্ফিজমের প্রতি সংবেদনশীলতা
  • Navarro এবং অন্যরা २९,३०: মর্ফিজম-ভিত্তিক পুনরাবৃত্তিমূলকতা পরিমাপ

३. সাফিক্সিয়েন্ট সেট

মূল কাজ ४,६:

  • সাফিক্সিয়েন্ট সেট এবং সম্পর্কিত ধারণা সংজ্ঞায়িত করুন
  • প্রমাণ করুন γ = O(χ) এবং χ = O(r̄)
  • দেখান যে সাফিক্সিয়েন্ট সেট প্যাটার্ন ম্যাচিং সমর্থন করে

অ্যালগরিদম কাজ :

  • সর্বনিম্ন সাফিক্সিয়েন্ট সেট গণনার জন্য দক্ষ অ্যালগরিদম
  • প্রত্যয় অ্যারে এবং প্রত্যয় গাছ উপাদান থেকে শুরু করুন
  • অ-অনলাইন অ্যালগরিদম

এই পেপারের অবদান:

  • আরও গভীর তাত্ত্বিক চিহ্নিতকরণ
  • আরও সহজ অনলাইন অ্যালগরিদম
  • পাঠ্য থেকে সরাসরি নির্মাণ, একই সাথে প্রত্যয় গাছ নির্মাণ

४. Episturmian শব্দ এবং ফিবোনাচ্চি স্ট্রিং

সংমিশ্রণগত পটভূমি ८,१६,२१:

  • Episturmian শব্দ: প্রতিটি দৈর্ঘ্যে সর্বাধিক একটি ডান-সর্বোচ্চ সাবস্ট্রিং
  • ডান-বিশেষ কারণ (অর্থাৎ ডান-সর্বোচ্চ সাবস্ট্রিং) গবেষণা
  • ফিবোনাচ্চি স্ট্রিং epistandard শব্দের বিশেষ ক্ষেত্র

এই পেপারের অবদান:

  • সাফিক্সিয়েন্ট সেটকে সংমিশ্রণগত শব্দ তত্ত্বের সাথে সংযুক্ত করুন
  • ফিবোনাচ্চি স্ট্রিংয়ের সর্বনিম্ন সাফিক্সিয়েন্ট সেটের সম্পূর্ণ চিহ্নিতকরণ
  • Episturmian শব্দ সাবস্ট্রিংয়ের χ উপরের সীমা প্রমাণ করুন

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

१. পরিমাপ অবস্থান: χ কঠোরভাবে r-এর চেয়ে ছোট পরিমাপ হিসাবে প্রতিষ্ঠিত হয়েছে, সন্তুষ্ট করে:

  • γ = O(χ) = O(r)
  • স্ট্রিং পরিবার বিদ্যমান যেখানে χ = o(r)

२. সংবেদনশীলতা বৈশিষ্ট্য:

  • অক্ষর যোগ/প্রস্তাবনার প্রতি O(1) যোগ সংবেদনশীলতা (আদর্শ বৈশিষ্ট্য)
  • যেকোনো অবস্থানে সম্পাদনা অপারেশনের প্রতি Ω(log n) যোগ সংবেদনশীলতা
  • বিপরীতকরণের প্রতি Ω(√n) যোগ সংবেদনশীলতা

३. কপি-পেস্ট পরিমাপের সাথে অতুলনীয়তা: χ সর্বদা বড় বা সর্বদা ছোট নয়, স্ট্রিং পরিবারের উপর নির্ভর করে

४. দক্ষ অনলাইন গণনা: O(n) সময় এবং স্থানে অনলাইনে গণনা করা যায়

সীমাবদ্ধতা

१. অর্জনযোগ্যতা অজানা:

  • χ অর্জনযোগ্য কিনা (অর্থাৎ O(χ) স্থানে স্ট্রিং প্রতিনিধিত্ব করা যায় কিনা) এখনও খোলা প্রশ্ন
  • সর্বনিম্ন পরিচিত অর্জনযোগ্য পরিমাপ b-এর সাথে সম্পর্ক অজানা

२. অ্যাক্সেস প্রক্রিয়া নির্ভরতা:

  • সাফিক্সিয়েন্ট সেট অনুসন্ধান সমর্থন করতে অতিরিক্ত র্যান্ডম অ্যাক্সেস প্রক্রিয়া প্রয়োজন
  • r-এর মতো সরাসরি অনুসন্ধান সমর্থন করতে পারে না

३. তাত্ত্বিক সীমার কঠোরতা:

  • χ = O(r)-এর ধ্রুবক ফ্যাক্টর २, সম্ভবত কঠোর নয়
  • গুণ সংবেদনশীলতার সঠিক সীমা এখনও অস্পষ্ট

४. ব্যবহারিক কর্মক্ষমতা:

  • পেপার প্রধানত তাত্ত্বিক সম্পত্তিতে ফোকাস করে
  • প্রকৃত ডেটায় কর্মক্ষমতা আরও পরীক্ষামূলক যাচাইকরণ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

পেপার স্পষ্টভাবে প্রস্তাবিত খোলা সমস্যা:

१. অর্জনযোগ্যতা সমস্যা:

  • b = O(χ) প্রমাণ করা χ অর্জনযোগ্য প্রতিষ্ঠিত করবে
  • অথবা χ অর্জনযোগ্য নয় প্রমাণ করুন, যা একই সাথে γ অর্জনযোগ্য নয় প্রমাণ করবে

२. δ-এর সাথে সম্পর্ক:

  • χ = O(δ log n) কিনা?
  • ডি ব্রুইজন সিকোয়েন্সে Θ(log n) ফ্যাক্টর কঠোর কিনা?

३. গুণ সংবেদনশীলতা:

  • সমস্ত বিবেচিত স্ট্রিং অপারেশনের জন্য sre(w')/sre(w) = O(1) কিনা?
  • সন্নিবেশ অপারেশনের জন্য ধ্রুবক সীমা বিদ্যমান কিনা?

४. r-এর সাথে সঠিক সম্পর্ক:

  • r = O(χ log χ) কিনা?
  • যদি সত্য হয় এবং χ স্ট্রিং অপারেশনের প্রতি O(1) গুণ সংবেদনশীলতা থাকে, তবে r-এর পরিচিত নিম্ন সীমা কঠোর করবে

५. অন্যান্য পরিমাপ সম্পর্ক:

  • χ এবং b-এর সম্পর্ক (মূল অর্জনযোগ্যতা সমস্যা)
  • χ এবং অন্যান্য নতুন প্রস্তাবিত পরিমাপের সম্পর্ক

গভীর মূল্যায়ন

সুবিধা

१. দৃঢ় তাত্ত্বিক অবদান

  • সম্পূর্ণ পরিমাপ চিহ্নিতকরণ: উপরের এবং নিম্ন সীমা বিশ্লেষণ এবং বিচ্ছেদ ফলাফলের মাধ্যমে, পরিমাপ শ্রেণীতে χ-এর অবস্থান সঠিকভাবে নির্ধারণ করুন
  • কঠোর সীমা: গঠনমূলক প্রমাণের মাধ্যমে (যেমন ডি ব্রুইজন সিকোয়েন্স, ফিবোনাচ্চি স্ট্রিং) সীমার কঠোরতা প্রদর্শন করুন
  • বহুমুখী বিশ্লেষণ: সংবেদনশীলতা, বিশেষ স্ট্রিং পরিবার, অন্যান্য পরিমাপের সাথে সম্পর্ক ইত্যাদি একাধিক মাত্রা থেকে χ সম্পূর্ণভাবে অধ্যয়ন করুন

२. প্রযুক্তিগত উদ্ভাবন

  • সরাসরি সম্পর্ক স্থাপন: χ = O(r) প্রমাণ করুন পূর্ববর্তী χ = O(r̄)-এর পরিবর্তে, এটি আরও প্রাকৃতিক চিহ্নিতকরণ
  • সূক্ষ্ম বিশ্লেষণ: ফিবোনাচ্চি স্ট্রিংয়ের সর্বনিম্ন সাফিক্সিয়েন্ট সেটের সম্পূর্ণ চিহ্নিতকরণ (লেম্মা १११) গভীর সংমিশ্রণগত বিশ্লেষণ ক্ষমতা প্রদর্শন করে
  • সংক্ষিপ্ত অ্যালগরিদম: জটিল সাফিক্সিয়েন্ট সেট গণনা Ukkonen অ্যালগরিদমের মার্জিত সংশোধনে সরলীকরণ করুন

३. লেখা স্পষ্টতা

  • সংজ্ঞা কঠোর: সমস্ত ধারণা সঠিক গাণিতিক সংজ্ঞা আছে
  • প্রমাণ বিস্তারিত: মূল লেম্মার প্রমাণ চিন্তাভাবনা স্পষ্ট, যাচাই করা সহজ
  • উদাহরণ সমৃদ্ধ: নির্দিষ্ট উদাহরণের মাধ্যমে (যেমন উদাহরণ १) বিমূর্ত ধারণা বোঝা সাহায্য করুন
  • চার্ট স্বজ্ঞাত: চিত্র १ পরিমাপের মধ্যে সম্পর্ক স্পষ্টভাবে প্রদর্শন করে

४. ব্যবহারিক মূল্য

  • অনলাইন অ্যালগরিদম: O(n) সময় এবং স্থানের অনলাইন অ্যালগরিদম ব্যবহারিক প্রয়োগ মূল্য আছে
  • তাত্ত্বিক নির্দেশনা: χ-এর গভীর বোঝাপড়া সাফিক্সিয়েন্ট সেট-ভিত্তিক সংকোচন এবং সূচক কাঠামো ডিজাইনে সহায়তা করে
  • পরিমাপ নির্বাচন: ব্যবহারিক প্রয়োগে উপযুক্ত পুনরাবৃত্তিমূলকতা পরিমাপ নির্বাচনের জন্য তাত্ত্বিক ভিত্তি প্রদান করে

অসুবিধা

१. পরীক্ষামূলক যাচাইকরণ অনুপস্থিত

  • প্রকৃত ডেটা পরীক্ষা নেই: পেপার সম্পূর্ণ তাত্ত্বিক, প্রকৃত ডেটায় কোনো পরীক্ষা নেই (যেমন জিনোম ডেটা)
  • অ্যালগরিদম কর্মক্ষমতা অজানা: O(n) অ্যালগরিদম প্রদান করা হয়েছে কিন্তু প্রকৃত চালানোর সময়, স্থান ধ্রুবক অজানা
  • বিদ্যমান সরঞ্জাম তুলনা নেই: Cenzato এবং অন্যদের বাস্তবায়নের সাথে বিস্তারিত কর্মক্ষমতা তুলনা নেই

२. অর্জনযোগ্যতা সমস্যা অমীমাংসিত

  • মূল সমস্যা অমীমাংসিত: χ অর্জনযোগ্য কিনা এই মূল প্রশ্ন এখনও খোলা
  • b-এর সাথে সম্পর্ক অজানা: সর্বনিম্ন পরিচিত অর্জনযোগ্য পরিমাপের সাথে সম্পর্ক নির্ধারণ করা যায় না
  • ব্যবহারিক মূল্য সীমিত: χ অর্জনযোগ্য না হলে, পরিমাপ হিসাবে এর ব্যবহারিক মূল্য সীমিত হবে

३. কিছু সীমা সম্ভবত অ-কঠোর

  • ধ্রুবক ফ্যাক্টর: χ ≤ 2r-এর ধ্রুবক २ সম্ভবত সর্বোত্তম নয়
  • সংবেদনশীলতা উপরের সীমা: লেম্মা ८ দ্বারা প্রদত্ত সীমা অপেক্ষাকৃত জটিল, সম্ভবত অ-কঠোর
  • গুণ সংবেদনশীলতা: সঠিক গুণ সংবেদনশীলতা সীমা প্রদান করা হয়নি

४. বিশ্লেষণ পরিসীমা সীমিত

  • বিশেষ স্ট্রিং পরিবার: প্রধান বিশ্লেষণ ডি ব্রুইজন সিকোয়েন্স, ফিবোনাচ্চি স্ট্রিং ইত্যাদি বিশেষ ক্ষেত্রে কেন্দ্রীভূত
  • সাধারণ ফলাফল: সাধারণ স্ট্রিং পরিবারের সম্পত্তি সম্পর্কে সীমিত বোঝাপড়া
  • গড় ক্ষেত্র: প্রধানত সর্বনিম্ন ক্ষেত্রে ফোকাস, গড় ক্ষেত্র বিশ্লেষণ অনুপস্থিত

প্রভাব

१. ক্ষেত্রে অবদান

  • তাত্ত্বিক সম্পূর্ণতা: সাফিক্সিয়েন্ট সেট তাত্ত্বিক গবেষণার শূন্যতা পূরণ করুন
  • পরিমাপ ব্যবস্থা: পুনরাবৃত্তিমূলকতা পরিমাপের তাত্ত্বিক কাঠামো সমৃদ্ধ করুন
  • খোলা সমস্যা: প্রস্তাবিত সমস্যা ভবিষ্যত গবেষণা দিকনির্দেশনা দেবে

२. সম্ভাব্য প্রয়োগ

  • সংকোচন অ্যালগরিদম: নতুন সংকোচন অ্যালগরিদম ডিজাইনের জন্য তাত্ত্বিক ভিত্তি প্রদান করুন
  • সূচক কাঠামো: সাফিক্সিয়েন্ট সেট স্থান-দক্ষ সূচক নির্মাণে ব্যবহার করা যায়
  • জৈব তথ্য বিজ্ঞান: জিনোম ডেটা সংকোচন এবং অনুসন্ধানে সম্ভাব্য প্রয়োগ

३. পদ্ধতিগত অবদান

  • অনলাইন নির্মাণ প্যারাডাইম: নতুন সমস্যায় ক্লাসিক প্রত্যয় গাছ অ্যালগরিদম কীভাবে অভিযোজিত করতে হয় তা প্রদর্শন করুন
  • সংবেদনশীলতা বিশ্লেষণ কাঠামো: অন্যান্য পরিমাপের সংবেদনশীলতা বিশ্লেষণের জন্য পদ্ধতিগত রেফারেন্স প্রদান করুন

४. সীমাবদ্ধতা

  • পুনরুৎপাদনযোগ্যতা ভাল: তাত্ত্বিক ফলাফল যাচাই করা সহজ, অ্যালগরিদম বর্ণনা স্পষ্ট
  • কিন্তু বাস্তবায়ন বিবরণ: কিছু বাস্তবায়ন বিবরণ (যেমন চিহ্ন রক্ষণাবেক্ষণ) আরও স্পষ্টকরণ প্রয়োজন
  • নির্ভরতা অনুমান: কিছু ফলাফল transdichotomous RAM মডেলের উপর নির্ভর করে

প্রযোজ্য দৃশ্যকল্প

१. আদর্শ প্রয়োগ দৃশ্যকল্প

  • উচ্চ পুনরাবৃত্তিমূলক ডেটা: জিনোম সিকোয়েন্স, সংস্করণ নিয়ন্ত্রণ সিস্টেম, লগ ফাইল
  • প্যাটার্ন ম্যাচিং প্রয়োজন: সাফিক্সিয়েন্ট সেট স্বাভাবিকভাবে নির্দিষ্ট প্যাটার্ন ম্যাচিং প্রশ্ন সমর্থন করে
  • অনলাইন প্রক্রিয়াকরণ: ডেটা স্ট্রিম-ভাবে আসে, সূচক বৃদ্ধিশীল আপডেট প্রয়োজন

२. অপ্রযোজ্য দৃশ্যকল্প

  • র্যান্ডম ডেটা: χ কম পুনরাবৃত্তিমূলক ডেটায় n-এর কাছাকাছি হতে পারে, সুবিধা হারায়
  • সঠিক স্থান গ্যারান্টি প্রয়োজন: χ-এর অর্জনযোগ্যতা অজানা, O(χ) স্থান বাস্তবায়ন গ্যারান্টি দিতে পারে না
  • জটিল প্রশ্ন: সাফিক্সিয়েন্ট সেট সমর্থিত প্রশ্নের প্রকার সীমিত

३. অন্যান্য পদ্ধতির সাথে তুলনা

  • BWT (r)-এর তুলনায়: χ ছোট কিন্তু অতিরিক্ত অ্যাক্সেস প্রক্রিয়া প্রয়োজন
  • LZ (z)-এর তুলনায়: χ কিছু ক্ষেত্রে ছোট (ফিবোনাচ্চি), কিছু ক্ষেত্রে বড় (ডি ব্রুইজন)
  • ব্যাকরণ (g)-এর তুলনায়: একইভাবে অতুলনীয়

রেফারেন্স

মূল উদ্ধৃতি

१. সাফিক্সিয়েন্ট সেট মূল পেপার:

  • Depuydt এবং অন্যরা, "Suffixient sets", २०२३
  • Cenzato এবং অন্যরা, "Suffixient arrays", २०२५

२. গণনা অ্যালগরিদম:

  • Cenzato এবং অন্যরা, "On computing the smallest suffixient set", SPIRE २०२४
  • ३३ Ukkonen, "On-line construction of suffix trees", १९९५

३. পুনরাবৃত্তিমূলকতা পরিমাপ সমীক্ষা:

  • २५,२६ Navarro, "Indexing highly repetitive string collections", ACM Computing Surveys २०२१
  • २७ Navarro, "Indexing highly repetitive string collections", arXiv २०२२

४. সম্পর্কিত পরিমাপ:

  • १८ Kempa & Prezza, "String attractors", STOC २०१८
  • Burrows & Wheeler, "BWT", १९९४
  • २० Lempel & Ziv, "LZ complexity", १९७६
  • २८ Navarro এবং অন্যরা, "Ordered parsings", IEEE TIT २०२१

५. সংবেদনশীলতা গবেষণা:

  • Akagi এবং অন্যরা, "Sensitivity of string compressors", Information and Computation २०२३
  • १५ Giuliani এবং অন্যরা, "Bit catastrophes for BWT", Theory of Computing Systems २०२५

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের তাত্ত্বিক পেপার যা পুনরাবৃত্তিমূলকতা পরিমাপ হিসাবে সাফিক্সিয়েন্ট সেটের গভীর এবং ব্যাপক বিশ্লেষণ প্রদান করে। প্রধান অবদানগুলির মধ্যে রয়েছে χ এবং r-এর মধ্যে সরাসরি সম্পর্ক স্থাপন, সংবেদনশীলতা বিশ্লেষণ, বিশেষ স্ট্রিং পরিবারের সঠিক চিহ্নিতকরণ এবং সংক্ষিপ্ত অনলাইন অ্যালগরিদম। পেপারের তাত্ত্বিক বিশ্লেষণ কঠোর, প্রমাণ বিস্তারিত, লেখা স্পষ্ট। প্রধান অসুবিধা হল পরীক্ষামূলক যাচাইকরণের অনুপস্থিতি এবং অর্জনযোগ্যতা সমস্যা অমীমাংসিত। পেপার সাফিক্সিয়েন্ট সেটের তাত্ত্বিক গবেষণার জন্য একটি দৃঢ় ভিত্তি স্থাপন করে, প্রস্তাবিত খোলা সমস্যা ভবিষ্যত গবেষণা দিকনির্দেশনা দেবে। প্রস্তাবিত পরবর্তী কাজ প্রকৃত ডেটায় কর্মক্ষমতা মূল্যায়ন এবং অর্জনযোগ্যতা সমস্যা সমাধানে ফোকাস করা উচিত।