Due to their sequential nature, traditional DNA synthesis methods are expensive in terms of time and resources. They also fabricate multiple copies of the same strand, introducing redundancy. This redundancy can be leveraged to enhance the information capacity of each synthesis cycle and DNA storage systems in general by employing composite DNA symbols. Unlike conventional DNA storage, composite DNA encodes information in the distribution of bases across a pool of strands rather than in the individual strands themselves. Consequently, error models for DNA storage must be adapted to account for this unique characteristic. One significant error model for long-term DNA storage is strand breaks, often caused by the decay of individual bases. This work extends the strand-break channel model to the composite DNA setting. To address this challenge, we propose a coding scheme that uses marker codes to correct single strand breaks. As part of this approach, we generalise run-length-limited (RLL) codes for the composite setting and derive bounds on their redundancy.
पारंपरिक DNA संश्लेषण विधियों में अनुक्रमिक प्रकृति होती है, जो समय और संसाधनों में महंगी होती है, और एक ही स्ट्रैंड की कई प्रतियां बनाती है, जिससे अनावश्यकता उत्पन्न होती है। समग्र DNA प्रतीक इस अनावश्यकता का उपयोग करके प्रत्येक संश्लेषण चक्र की सूचना क्षमता को बढ़ा सकते हैं। पारंपरिक DNA भंडारण के विपरीत, समग्र DNA सूचना को एकल स्ट्रैंड में नहीं बल्कि स्ट्रैंड पूल में क्षार के वितरण में एन्कोड करता है। इसलिए, DNA भंडारण की त्रुटि मॉडल को इस अद्वितीय विशेषता के अनुकूल होना चाहिए। दीर्घकालीन DNA भंडारण के लिए एक महत्वपूर्ण त्रुटि मॉडल स्ट्रैंड ब्रेक है, जो आमतौर पर एकल क्षार के क्षय के कारण होता है। यह अनुसंधान स्ट्रैंड ब्रेक चैनल मॉडल को समग्र DNA सेटिंग तक विस्तारित करता है, एकल स्ट्रैंड ब्रेक को ठीक करने के लिए चिह्नित कोड का उपयोग करके एक एन्कोडिंग योजना प्रस्तावित करता है, और रन-लेंथ सीमित (RLL) कोड को समग्र सेटिंग तक सामान्यीकृत करता है, इसकी अनावश्यकता सीमा प्राप्त करता है।
यह पेपर समग्र DNA भंडारण प्रणाली में स्ट्रैंड ब्रेक त्रुटि सुधार समस्या को संबोधित करता है। विशेष रूप से:
मुख्य चुनौती: समग्र DNA संश्लेषण अनावश्यकता का उपयोग करके सूचना घनत्व बढ़ाता है, एक ही स्ट्रैंड की कई प्रतियां मौजूद नहीं होती हैं, इसलिए पारंपरिक संरेखण विधियां और शॉटगन अनुक्रमण कोड लागू नहीं होते हैं
मूल समस्या: दीर्घकालीन भंडारण के कारण स्ट्रैंड ब्रेक त्रुटियों को समग्र DNA सेटिंग में कैसे ठीक किया जाए
भंडारण घनत्व लाभ: DNA भंडारण उच्च घनत्व और दीर्घकालीन स्थिरता प्रदान करता है, समग्र DNA सूचना क्षमता को और बढ़ाता है
व्यावहारिक आवश्यकता: DNA अणु दीर्घकालीन भंडारण में स्ट्रैंड ब्रेक से गुजरते हैं (अर्ध-जीवन 30 वर्ष से 158,000 वर्ष तक भिन्न होता है), यह व्यावहारिक अनुप्रयोगों में एक महत्वपूर्ण समस्या है जिसे हल करना चाहिए
आर्थिक मूल्य: DNA संश्लेषण समवर्ती संश्लेषण तकनीक में लागत और देरी का मुख्य चालक है, समग्र DNA विधि लागत को महत्वपूर्ण रूप से कम कर सकती है
पारंपरिक DNA भंडारण: पारंपरिक DNA भंडारण के लिए स्ट्रैंड ब्रेक त्रुटि सुधार योजनाएं (जैसे torn-paper कोड) संरेखण के लिए एक ही स्ट्रैंड की कई प्रतियों पर निर्भर करती हैं
अनुपयुक्तता: समग्र DNA एकल स्ट्रैंड में नहीं बल्कि क्षार वितरण में सूचना एन्कोड करता है, प्रत्येक स्ट्रैंड स्वतंत्र रूप से समान रूप से वितरित होता है, अतिव्यापी उप-अनुक्रम का उपयोग करके संरेखण नहीं कर सकता है
सैद्धांतिक अंतराल: समग्र DNA स्ट्रैंड ब्रेक चैनल की क्षमता विश्लेषण अभी तक स्थापित नहीं हुआ है
समग्र DNA स्ट्रैंड ब्रेक समस्या को हल करने के पहले चरण के रूप में, यह पेपर एकल ब्रेक को ठीक करने के लिए चिह्नित-आधारित एन्कोडिंग योजना प्रस्तावित करता है, और इसके लिए यह सुनिश्चित करना आवश्यक है कि चिह्नित अनुक्रम डेटा में प्रकट न हो, जो लेखकों को RLL कोड को समग्र सेटिंग तक सामान्यीकृत करने के लिए प्रेरित करता है।
चैनल मॉडल विस्तार: स्ट्रैंड ब्रेक चैनल मॉडल को पारंपरिक DNA भंडारण से समग्र DNA सेटिंग तक विस्तारित करता है, समग्र DNA के लिए लागू एक त्रुटि मॉडल स्थापित करता है
समग्र RLL कोड सिद्धांत:
समग्र रन-लेंथ सीमित (Composite RLL) कोड की औपचारिक परिभाषा प्रस्तावित करता है
कोडवर्ड संख्या की निचली सीमा (प्रमेय 3) और ऊपरी सीमा (प्रमेय 4) प्राप्त करता है
अनावश्यकता को Θ(logn) क्रम में साबित करता है
चिह्नित कोड निर्माण: चिह्नित अनुक्रम पर आधारित एक व्यावहारिक एन्कोडिंग योजना (निर्माण A) डिजाइन करता है, जो एकल स्ट्रैंड ब्रेक को ठीक कर सकता है
पैरामीटर अनुकूलन: इष्टतम चिह्नित लंबाई ℓ∗=Θ(n) (अनुमान 6) प्राप्त करता है, जो समग्र अनावश्यकता को कम करता है
समस्या A: एक कोड बनाएं ताकि DNA स्ट्रैंड में कई ब्रेक से उत्पन्न कोई भी खंड सही ढंग से स्थित हो सके।
समस्या B: रन-लेंथ सीमित (RLL) कोड की अवधारणा को समग्र सेटिंग तक सामान्यीकृत करें, कोड आकार की सीमाएं निर्धारित करें और निर्माण विधि प्रस्तावित करें।
इनपुट: लंबाई n का समग्र मैट्रिक्स X(c)∈[0,M]q×n, जहां प्रत्येक स्तंभ एक समग्र प्रतीक है
आउटपुट: अधिकतम t ब्रेक के बाद K खंड
बाधा: खंड अनुक्रमित हैं, प्रत्येक खंड की मूल स्ट्रैंड में स्थिति सही ढंग से निर्धारित करनी चाहिए
वर्णमाला Σ (आकार Q) दिया गया है, इसका उपसमुच्चय Σ′⊆Σ (आकार R), समग्र मैट्रिक्स ℓ-रन-लेंथ सीमित है, यदि लंबाई ℓ की प्रत्येक सतत विंडो में कम से कम एक Σ∖Σ′ में प्रतीक है।
मान लें कि n, ℓ का गुणज है, अनावश्यकता को ℓ के संबंध में अवकलित करें और इसे शून्य के बराबर सेट करें, इष्टतम चिह्नित लंबाई प्राप्त करें:
ℓ∗=2logQ(Q−RQ)n−4
अंतिम अनावश्यकता:
red(C)=4+22(n−4)logQ(Q−RQ)−2logQ(Q−RQ)
समग्र सेटिंग की अद्वितीय चुनौतियां: पारंपरिक RLL कोड को केवल लगातार समान प्रतीकों से बचना चाहिए, लेकिन समग्र DNA में, संश्लेषित स्ट्रैंड का स्वतः संयोजन चिह्नित अनुक्रम उत्पन्न कर सकता है, जिसके लिए मजबूत बाधा की आवश्यकता है
सैद्धांतिक ढांचा: पहली बार RLL कोड सिद्धांत को संभाव्यता वितरण एन्कोडिंग परिदृश्य तक विस्तारित करता है, एक पूर्ण गणना सिद्धांत स्थापित करता है
दोहरा अनुकूलन: चिह्नित लंबाई और RLL पैरामीटर दोनों को एक साथ अनुकूलित करता है, दो अनावश्यकता स्रोतों को संतुलित करता है
व्यावहारिक डिजाइन: चिह्नित अनुक्रम शास्त्रीय प्रतीक उत्पन्न करता है, जिससे स्थिति निर्धारण एकल खंड स्तर पर पूरा हो सकता है, खंडों के बीच संयोजन सूचना पर निर्भर नहीं है
एकल ब्रेक धारणा: वर्तमान योजना केवल अधिकतम एक ब्रेक की स्थिति को संभालती है, कई ब्रेक के खंड को त्याग दिया जाता है
क्षमता अज्ञात: समग्र DNA स्ट्रैंड ब्रेक चैनल की क्षमता अभी तक निर्धारित नहीं हुई है, प्रस्तावित योजना और इष्टतम प्रदर्शन के बीच अंतर का मूल्यांकन नहीं कर सकते हैं
एन्कोडर निर्माण: व्यावहारिक निर्माण breaker प्रतीकों का उपयोग करके O(n) अनावश्यकता प्राप्त करता है, सैद्धांतिक Θ(logn) सीमा के साथ अंतर है
नमूनाकरण त्रुटि: दोहराए गए नमूनाकरण प्रक्रिया में संभाव्यता त्रुटि पर विचार नहीं किया गया है (हालांकि 9 की विधि लागू करने का संकेत दिया गया है)
अन्य त्रुटि प्रकार: प्रविष्टि, विलोपन, प्रतिस्थापन आदि अन्य DNA भंडारण सामान्य त्रुटियों को संभाला नहीं गया है
सीमित लंबाई विश्लेषण: प्रमेय 4 की ऊपरी सीमा केवल "पर्याप्त बड़े n" के लिए मान्य है, छोटे n के लिए कमजोर तुच्छ सीमा (समीकरण 8) का उपयोग करना चाहिए
Anavy et al. (2019) - "Data storage in DNA with fewer synthesis cycles using composite DNA letters", Nature Biotechnology
समग्र DNA अवधारणा का मूल पेपर, इस पेपर का सैद्धांतिक आधार
Shomorony & Vahid (2021) - "Torn-Paper Coding", IEEE Trans. IT
पारंपरिक DNA भंडारण के स्ट्रैंड ब्रेक त्रुटि सुधार, इस पेपर का तुलना आधार
Levy & Yaakobi (2019) - "Mutually Uncorrelated Codes for DNA Storage", IEEE Trans. IT
DNA भंडारण में RLL कोड का अनुप्रयोग, इस पेपर के सामान्यीकरण का प्रारंभिक बिंदु
Yehezkeally & Polyanskii (2024) - "On Codes for the Noisy Substring Channel", IEEE TMBMC
एन्कोडिंग सिद्धांत में Lovász स्थानीय लेम्मा का अनुप्रयोग, इस पेपर के प्रमाण तकनीक का स्रोत
Allentoft et al. (2012) - "The half-life of DNA in bone", Proc. Royal Society B
DNA क्षय गतिविज्ञान का प्रायोगिक डेटा, स्ट्रैंड ब्रेक मॉडल की तर्कसंगतता का समर्थन करता है
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला सैद्धांतिक पेपर है, जो समग्र DNA भंडारण के स्ट्रैंड ब्रेक त्रुटि सुधार के इस उभरते क्षेत्र में अग्रणी योगदान देता है। सैद्धांतिक विश्लेषण कठोर है, सीमाएं कसी हैं, व्यावहारिक योजना स्पष्ट है। मुख्य कमी यह है कि सिद्धांत और व्यवहार के बीच अंतराल है, प्रायोगिक सत्यापन की कमी है, और केवल एकल ब्रेक स्थिति को संभाला जाता है। इस क्षेत्र के आधार कार्य के रूप में, पेपर बाद के अनुसंधान के लिए महत्वपूर्ण सैद्धांतिक आधार स्थापित करता है, उच्च शैक्षणिक मूल्य और संभावित व्यावहारिक मूल्य है। भविष्य के कार्य को क्षमता विश्लेषण, एन्कोडर निर्माण में सुधार और प्रायोगिक सत्यापन पर ध्यान केंद्रित करने की सिफारिश की जाती है।