Due to their sequential nature, traditional DNA synthesis methods are expensive in terms of time and resources. They also fabricate multiple copies of the same strand, introducing redundancy. This redundancy can be leveraged to enhance the information capacity of each synthesis cycle and DNA storage systems in general by employing composite DNA symbols. Unlike conventional DNA storage, composite DNA encodes information in the distribution of bases across a pool of strands rather than in the individual strands themselves. Consequently, error models for DNA storage must be adapted to account for this unique characteristic. One significant error model for long-term DNA storage is strand breaks, often caused by the decay of individual bases. This work extends the strand-break channel model to the composite DNA setting. To address this challenge, we propose a coding scheme that uses marker codes to correct single strand breaks. As part of this approach, we generalise run-length-limited (RLL) codes for the composite setting and derive bounds on their redundancy.
تتمتع طرق تخليق الحمض النووي التقليدية بطبيعة متسلسلة، مما يجعلها مكلفة من حيث الوقت والموارد، وتنتج نسخاً متعددة من نفس السلسلة، مما يدخل الزيادة. يمكن للرموز المركبة للحمض النووي أن تستفيد من هذه الزيادة لتعزيز سعة المعلومات في كل دورة تخليق. بخلاف تخزين الحمض النووي التقليدي، يقوم الحمض النووي المركب بترميز المعلومات في توزيع القواعد في مجموعة السلاسل، وليس في السلاسل الفردية نفسها. لذلك، يجب تكييف نموذج الخطأ لتخزين الحمض النووي مع هذه الخاصية الفريدة. أحد نماذج الخطأ المهمة لتخزين الحمض النووي طويل الأجل هو فواصل السلاسل، والتي تحدث عادة بسبب تحلل القاعدة الفردية. يوسع هذا البحث نموذج قناة فواصل السلاسل إلى إعداد الحمض النووي المركب، ويقترح مخطط ترميز باستخدام رموز موسومة لتصحيح فواصل السلاسل الفردية، ويعمم رموز طول التشغيل المحدود (RLL) إلى الإعداد المركب، مع اشتقاق حدود الزيادة.
تعالج هذه الورقة مشكلة تصحيح الأخطاء لفواصل السلاسل في أنظمة تخزين الحمض النووي المركب. بشكل محدد:
التحديات الرئيسية: يقوم الحمض النووي المركب بزيادة كثافة المعلومات من خلال الاستفادة من زيادة التخليق، ولا توجد نسخ متعددة من نفس السلسلة، لذلك لا تنطبق طرق المحاذاة التقليدية ورموز الاستخلاص بالرصاص
المشكلة الأساسية: كيفية تصحيح أخطاء فواصل السلاسل الناجمة عن التخزين طويل الأجل في إعداد الحمض النووي المركب
مزايا كثافة التخزين: يوفر تخزين الحمض النووي كثافة عالية واستقراراً طويل الأجل، ويعزز الحمض النووي المركب سعة المعلومات بشكل أكبر
الاحتياجات العملية: تحدث فواصل السلاسل في جزيئات الحمض النووي أثناء التخزين طويل الأجل (مع فترات نصف عمر تتراوح من 30 سنة إلى 158000 سنة)، وهذه مشكلة حاسمة يجب حلها في التطبيقات العملية
القيمة الاقتصادية: تخليق الحمض النووي هو المحرك الرئيسي للتكلفة والتأخير في تقنية التخليق المتزامن، ويمكن لطريقة الحمض النووي المركب أن تقلل التكاليف بشكل كبير
تخزين الحمض النووي التقليدي: تعتمد مخططات تصحيح فواصل السلاسل لتخزين الحمض النووي التقليدي (مثل رموز الورق الممزق) على نسخ متعددة من نفس السلسلة للمحاذاة
عدم الانطباق: يقوم ترميز الحمض النووي المركب بترميز المعلومات في توزيع القواعد وليس في السلاسل الفردية، وتُنتج كل سلسلة بشكل مستقل وموزع بشكل متطابق، لا يمكن استخدام التسلسلات الفرعية المتداخلة للمحاذاة
الفراغ النظري: لم يتم إنشاء تحليل السعة لقناة فواصل السلاسل في الحمض النووي المركب
كخطوة أولى لحل مشكلة فواصل السلاسل في الحمض النووي المركب، تقترح هذه الورقة مخطط ترميز قائم على الرموز لتصحيح فواصل السلاسل الفردية، وبالنسبة لهذا يجب التأكد من عدم ظهور تسلسل الرموز في البيانات، مما يدفع المؤلفين إلى تعميم رموز RLL إلى الإعداد المركب.
توسيع نموذج القناة: توسيع نموذج قناة فواصل السلاسل من تخزين الحمض النووي التقليدي إلى إعداد الحمض النووي المركب، وإنشاء نموذج خطأ ينطبق على الحمض النووي المركب
نظرية رموز RLL المركبة:
اقتراح تعريف رسمي لرموز طول التشغيل المحدود المركبة (Composite RLL)
اشتقاق الحد الأدنى (النظرية 3) والحد الأقصى (النظرية 4) لعدد الكلمات المشفرة
إثبات أن الزيادة بحجم Θ(logn)
بناء رموز موسومة: تصميم مخطط ترميز عملي قائم على تسلسل الرموز (البناء أ)، يمكنه تصحيح فواصل السلاسل الفردية
تحسين المعاملات: اشتقاق طول الرموز الأمثل ℓ∗=Θ(n) (النتيجة 6)، مما يقلل الزيادة الإجمالية
حدود نظرية:
الحد الأدنى: red(RLLQ,R(ℓ,n))≥logQ(e)(QR)ℓ(1−QR)⋅2n−2ℓ
الحد الأقصى: red(RLLQ,R(ℓ,n))≤elogQ(e)(QR)ℓ(1+(1−QR)(n−ℓ))
المشكلة أ: إنشاء رمز بحيث يمكن تحديد موقع أي جزء ناتج عن فواصل متعددة في سلسلة الحمض النووي بشكل صحيح.
المشكلة ب: تعميم مفهوم رموز طول التشغيل المحدود (RLL) إلى الإعداد المركب، وتحديد حدود حجم الرمز واقتراح طرق البناء.
الإدخال: مصفوفة مركبة بطول n X(c)∈[0,M]q×n، حيث تمثل كل عمود رمزاً مركباً
الإخراج: K جزء ناتج عن فواصل تصل إلى t
القيود: الأجزاء غير مرتبة، يجب تحديد موقع كل جزء بشكل صحيح في السلسلة الأصلية
بالنظر إلى الأبجدية Σ (بحجم Q)، مجموعتها الفرعية Σ′⊆Σ (بحجم R)، المصفوفة المركبة هي ℓ-طول تشغيل محدود إذا كانت كل نافذة متتالية بطول ℓ تحتوي على رمز واحد على الأقل من Σ∖Σ′.
التحديات الفريدة للإعداد المركب: تتطلب رموز RLL التقليدية فقط تجنب الرموز المتتالية المتطابقة، لكن في الحمض النووي المركب، قد ينتج عن التركيب العفوي للسلاسل تسلسل الرموز، مما يتطلب قيوداً أقوى
الإطار النظري: أول مرة يتم فيها توسيع نظرية رموز RLL إلى سيناريو ترميز التوزيع الاحتمالي، وإنشاء نظرية عد كاملة
التحسين المزدوج: تحسين طول الرموز ومعاملات RLL في نفس الوقت، موازنة مصدري الزيادة
التصميم العملي: ينتج تسلسل الرموز رموز كلاسيكية، مما يسمح بتحديد الموقع على مستوى الجزء الفردي، بدون الاعتماد على معلومات التركيب بين الأجزاء
السلوك المقارب: تنمو زيادة رموز RLL خطياً مع n، لكن المعامل يتناقص بشكل أسي مع ℓ
المقايضة بين المعاملات:
زيادة ℓ تقلل زيادة RLL لكن تزيد طول الرموز
النقطة الأمثل عند ℓ∗=Θ(n) (البناء العملي) أو ℓ∗=Θ(logn) (الأمثل نظرياً)
مزايا الحمض النووي المركب: مقارنة بتخزين الحمض النووي التقليدي، يمكن للحمض النووي المركب ترميز معلومات أكثر تحت نفس الزيادة (توسيع الأبجدية من 4 إلى 84)
Anavy وآخرون (2019) - "تخزين البيانات في الحمض النووي مع دورات تخليق أقل باستخدام أحرف الحمض النووي المركبة"، Nature Biotechnology
الورقة الأصلية لمفهوم الحمض النووي المركب، الأساس النظري لهذا العمل
Shomorony & Vahid (2021) - "ترميز الورق الممزق"، IEEE Trans. IT
تصحيح فواصل السلاسل لتخزين الحمض النووي التقليدي، معيار المقارنة لهذا العمل
Levy & Yaakobi (2019) - "رموز غير مترابطة لتخزين الحمض النووي"، IEEE Trans. IT
تطبيق رموز RLL في تخزين الحمض النووي، نقطة انطلاق التعميم في هذا العمل
Yehezkeally & Polyanskii (2024) - "حول رموز قناة السلسلة الفرعية الضوضائية"، IEEE TMBMC
تطبيق حدسية Lovász المحلية في نظرية الترميز، مصدر تقنية الإثبات في هذا العمل
Allentoft وآخرون (2012) - "نصف عمر الحمض النووي في العظام"، Proc. Royal Society B
البيانات التجريبية لديناميكا تحلل الحمض النووي، تدعم معقولية نموذج فواصل السلاسل
التقييم الشامل: هذه ورقة عالية الجودة في المجال النظري، تقدم مساهمات رائدة في تصحيح أخطاء فواصل السلاسل في الحمض النووي المركب، وهو مجال ناشئ جديد. التحليل النظري صارم، الحدود محكمة، والمخطط العملي واضح. أوجه القصور الرئيسية هي الفجوة بين النظرية والممارسة، وعدم وجود التحقق التجريبي، والقيود على معالجة فاصل واحد فقط. كعمل أساسي في هذا المجال، توفر الورقة أساساً نظرياً مهماً لأبحاث لاحقة، مع قيمة أكاديمية وعملية عالية. يُوصى بأن يركز العمل المستقبلي على تحليل السعة وتحسين بناء المشفر والتحقق التجريبي.