Smallest Suffixient Sets as a Repetitiveness Measure
Navarro, Romana, Urbina
A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $Ï$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.
academic
सबसे छोटे सफिशिएंट सेट्स एक पुनरावृत्ति माप के रूप में
यह पेपर सफिशिएंट सेट (suffixient set) नामक एक नई संयोजक वस्तु को पुनरावृत्ति माप के रूप में अध्ययन करता है। सफिशिएंट सेट पुनरावृत्त स्ट्रिंग्स की आवश्यक जानकारी को कैप्चर कर सकते हैं और यादृच्छिक पहुंच तंत्र प्रदान करते हुए विभिन्न पैटर्न मिलान का समर्थन करते हैं। पेपर न्यूनतम सफिशिएंट सेट के आकार χ को पुनरावृत्ति माप के रूप में अध्ययन करता है: इसे ज्ञात मापों के बीच स्थित करता है, विभिन्न स्ट्रिंग संचालन के प्रति इसकी संवेदनशीलता का अध्ययन करता है। अनुसंधान परिणामों के उप-उत्पाद के रूप में, पेपर न्यूनतम सफिशिएंट सेट की गणना के लिए एक सरल ऑनलाइन एल्गोरिदम प्रदान करता है।
बड़े पैमाने पर समान स्ट्रिंग्स के संग्रह (जैसे मानव जीनोम डेटा) के उदय के साथ, अत्यधिक पुनरावृत्त स्ट्रिंग्स को प्रभावी ढंग से कैसे प्रस्तुत और क्वेरी किया जाए यह एक महत्वपूर्ण चुनौती बन गई है। उदाहरण के लिए, यूरोपीय "1+ मिलियन जीनोम्स" योजना एक मिलियन से अधिक मानव जीनोम को अनुक्रमित करने का लक्ष्य रखती है, कच्चे डेटा को लगभग 750TB स्टोरेज स्पेस की आवश्यकता होती है, लेकिन जीनोम के बीच उच्च समानता का उपयोग करके, स्टोरेज स्पेस को दो परिमाण के क्रम से संपीड़ित किया जा सकता है।
कई पुनरावृत्ति माप प्रस्तावित किए गए हैं, अमूर्त निचली सीमा से लेकर विशिष्ट पाठ संपीड़क से संबंधित मापों तक। हाल ही में प्रस्तावित सफिशिएंट सेट आकार χ के लिए, मौजूदा अनुसंधान केवल जानता है:
γ = O(χ) (γ न्यूनतम स्ट्रिंग आकर्षक का आकार है)
χ = O(r̄) (r̄ रिवर्स स्ट्रिंग BWT के समान-अक्षर रन की संख्या है)
लेकिन χ को पुनरावृत्ति माप के रूप में गहन समझ अभी भी कमी है, विशेष रूप से:
χ और BWT रन संख्या r के बीच सीधा संबंध स्थापित करना: χ = O(r) साबित करना (पहले के χ = O(r̄) के बजाय), और कुछ स्ट्रिंग परिवारों पर χ = o(v) साबित करना (v न्यूनतम शब्दकोश पार्सिंग आकार है), जिससे χ को r से सख्ती से छोटा स्थापित किया जाए
स्ट्रिंग संचालन संवेदनशीलता विश्लेषण:
साबित करना कि χ एकल वर्ण को जोड़ने/प्रीपेंड करते समय केवल O(1) बढ़ता है
साबित करना कि कोई भी संपादन संचालन या घुमाव χ को Ω(log n) बढ़ा सकता है
साबित करना कि स्ट्रिंग उलट χ को Ω(√n) बढ़ा सकता है
फिबोनैचि स्ट्रिंग्स का संपूर्ण लक्षण वर्णन: फिबोनैचि स्ट्रिंग्स के अद्वितीय 2 आकार 4 के न्यूनतम सफिशिएंट सेट्स को पूरी तरह से चिह्नित करना, और साबित करना कि सभी episturmian शब्दों के सबस्ट्रिंग्स χ ≤ σ + 2 को संतुष्ट करते हैं
कॉपी-पेस्ट मापों के साथ अतुलनीयता: साबित करना कि χ अधिकांश कॉपी-पेस्ट वर्ग मापों (z, z_no, z_e, z_end, v, g, g_rl, c) के साथ अतुलनीय है—स्ट्रिंग परिवार मौजूद हैं जहां χ सख्ती से छोटा है, और स्ट्रिंग परिवार भी मौजूद हैं जहां χ सख्ती से बड़ा है
सरल ऑनलाइन एल्गोरिदम: एक अत्यंत सरल ऑनलाइन एल्गोरिदम प्रस्तावित करना, Ukkonen प्रत्यय वृक्ष निर्माण एल्गोरिदम को संशोधित करके, O(n) स्पेस और O(n) सबसे खराब स्थिति समय में न्यूनतम सफिशिएंट सेट की गणना करना
दाएं-अधिकतम सबस्ट्रिंग: सबस्ट्रिंग x दाएं-अधिकतम है, यदि कम से कम दो अलग-अलग प्रतीक a, b ∈ Σ मौजूद हैं जैसे कि xa और xb दोनों w के सबस्ट्रिंग हैं
दाएं-विस्तार: प्रत्येक दाएं-अधिकतम सबस्ट्रिंग x के लिए, इसके दाएं-विस्तार xa के रूप के सबस्ट्रिंग हैं, जिन्हें E_r(w) द्वारा दर्शाया जाता है
सुपर-अधिकतम विस्तार: कोई भी दाएं-विस्तार जो किसी अन्य दाएं-विस्तार का प्रत्यय नहीं है, जिसे S_r(w) द्वारा दर्शाया जाता है, इसके आकार को sre(w) द्वारा दर्शाया जाता है
सफिशिएंट सेट: सेट S ⊆ 1..n w का सफिशिएंट सेट है, यदि प्रत्येक दाएं-विस्तार x ∈ E_r(w) के लिए, j ∈ S मौजूद है जैसे कि x, w1..j का प्रत्यय है
न्यूनतम सफिशिएंट सेट: सफिशिएंट सेट S न्यूनतम है, यदि द्विभाजन pos: S_r(w) → S मौजूद है जैसे कि प्रत्येक x ∈ S_r(w), w1..pos(x) का प्रत्यय है
माप χ: w ∈ Σ* और ∈/Fwकेलिए,χ(w)=∣S∣कोपरिभाषितकरें,जहांSw का न्यूनतम सफिशिएंट सेट है
प्रत्यय वृक्ष वृद्धि: प्रत्यय वृक्ष नोड्स पर लेबल जोड़ें, सुपर-अधिकतम दाएं-विस्तार की स्थिति को चिह्नित करते हुए।
वर्ण c जोड़ने के तीन मामलों को संभालना:
s के पास लेबल c के साथ चाइल्ड नोड है (स्थिति 1):
केवल नए s तक नीचे जाएं
कोई लेबल अपडेट की आवश्यकता नहीं
s के पास ≥2 चाइल्ड नोड्स हैं, कोई लेबल c नहीं (स्थिति 2):
s के नए लीफ नोड को बनाएं (लेबल c)
s के चाइल्ड नोड c को चिह्नित करें
s' के चाइल्ड नोड c को अचिह्नित करें (यदि चिह्नित है)
s के पास केवल एक चाइल्ड नोड है (लेबल a≠c) (स्थिति 3):
s के दोनों चाइल्ड नोड्स को चिह्नित करें (a और c)
s' के चाइल्ड नोड c को अचिह्नित करें (यदि चिह्नित है)
s'' के चाइल्ड नोड a को अचिह्नित करें (यदि चिह्नित है), जहां s'' प्रत्यय श्रृंखला पर पहला नोड है जिसके पास अन्य चाइल्ड नोड b≠a है
जटिलता:
स्पेस: O(n)
समय: O(n) (transdichotomous RAM मॉडल में, बहुपद आकार पूर्णांक वर्णमाला)
प्रमेय 1: एक एल्गोरिदम मौजूद है जो पाठ T को बाएं से दाएं संसाधित करता है, प्रत्येक n के लिए, T1..n के पहले उपसर्ग को संसाधित करने के बाद T1..n का न्यूनतम सफिशिएंट सेट निर्धारित करता है, O(n) स्पेस और O(n) सबसे खराब स्थिति समय का उपयोग करके।
नोट: यह एक सैद्धांतिक पेपर है, मुख्य योगदान सैद्धांतिक परिणाम और एल्गोरिदम हैं, पारंपरिक अर्थ में कोई प्रायोगिक मूल्यांकन भाग नहीं है। पेपर के "प्रयोग" गणितीय प्रमाण और निर्माणात्मक उदाहरणों के माध्यम से सैद्धांतिक परिणामों को सत्यापित करते हैं।
निर्माणात्मक प्रमाण: विशिष्ट स्ट्रिंग परिवारों (जैसे डी ब्रुइजन अनुक्रम, फिबोनैचि स्ट्रिंग्स) का निर्माण करके सीमाओं की कसाई को साबित करना
प्रतिउदाहरण निर्माण: ठोस उदाहरणों (जैसे Example 1 में w_3) के माध्यम से सैद्धांतिक परिणामों की शुद्धता प्रदर्शित करना
कोड सत्यापन: लेखक स्वीकृति में Cenzato आदि के कोड का उपयोग करने का उल्लेख है न्यूनतम सफिशिएंट सेट्स की गणना के लिए, परिकल्पनाओं को प्रस्तावित और सत्यापित करने के लिए
1 Akagi आदि, "Sensitivity of string compressors", Information and Computation 2023
15 Giuliani आदि, "Bit catastrophes for BWT", Theory of Computing Systems 2025
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का सैद्धांतिक पेपर है, जो पुनरावृत्ति माप के रूप में सफिशिएंट सेट का गहन और व्यापक विश्लेषण करता है। मुख्य योगदान में χ और r के बीच सीधा संबंध स्थापन, संवेदनशीलता विश्लेषण, विशेष स्ट्रिंग परिवारों का सटीक लक्षण वर्णन, और सरल ऑनलाइन एल्गोरिदम शामिल हैं। पेपर का सैद्धांतिक विश्लेषण कठोर है, प्रमाण विस्तृत हैं, लेखन स्पष्ट है। मुख्य कमियां प्रायोगिक सत्यापन की कमी और प्राप्यता समस्या अनसुलझी हैं। पेपर सफिशिएंट सेट के सैद्धांतिक अनुसंधान के लिए ठोस आधार स्थापित करता है, प्रस्तावित खुली समस्याएं भविष्य के अनुसंधान दिशा का मार्गदर्शन करेंगी। अनुशंसा की जाती है कि आगे के कार्य वास्तविक डेटा पर प्रदर्शन मूल्यांकन और प्राप्यता समस्या के समाधान पर ध्यान केंद्रित करें।