Due to their sequential nature, traditional DNA synthesis methods are expensive in terms of time and resources. They also fabricate multiple copies of the same strand, introducing redundancy. This redundancy can be leveraged to enhance the information capacity of each synthesis cycle and DNA storage systems in general by employing composite DNA symbols. Unlike conventional DNA storage, composite DNA encodes information in the distribution of bases across a pool of strands rather than in the individual strands themselves. Consequently, error models for DNA storage must be adapted to account for this unique characteristic. One significant error model for long-term DNA storage is strand breaks, often caused by the decay of individual bases. This work extends the strand-break channel model to the composite DNA setting. To address this challenge, we propose a coding scheme that uses marker codes to correct single strand breaks. As part of this approach, we generalise run-length-limited (RLL) codes for the composite setting and derive bounds on their redundancy.
Традиционные методы синтеза ДНК имеют последовательный характер, что обходится дорого по времени и ресурсам, и создают множество копий одной цепи, вводя избыточность. Композитные символы ДНК могут использовать эту избыточность для повышения информационной емкости каждого цикла синтеза. В отличие от традиционного хранения ДНК, композитная ДНК кодирует информацию в распределении оснований в пуле цепей, а не в самих отдельных цепях. Следовательно, модель ошибок для хранения ДНК должна быть адаптирована к этой уникальной характеристике. Важной моделью ошибок для долгосрочного хранения ДНК является разрыв цепи, обычно вызванный распадом отдельных оснований. В данном исследовании модель канала разрыва цепи расширена на композитную установку ДНК, предложена схема кодирования с использованием маркерных кодов для исправления разрывов одиночной цепи, и обобщены коды с ограниченной длиной серии (RLL) на композитную установку, выведены границы их избыточности.
Данная работа решает проблему исправления ошибок разрыва цепи в системах хранения композитной ДНК. В частности:
Основные вызовы: Композитная ДНК повышает информационную плотность, используя избыточность синтеза, без наличия множественных копий одной цепи, поэтому традиционные методы выравнивания и коды для дробовика не применимы
Центральная проблема: Как исправить ошибки разрыва цепи, вызванные долгосрочным хранением, в композитной установке ДНК
Преимущества плотности хранения: Хранение ДНК обеспечивает высокую плотность и долгосрочную стабильность, композитная ДНК еще больше повышает информационную емкость
Практические требования: Молекулы ДНК подвергаются разрывам цепей при долгосрочном хранении (период полураспада варьируется от 30 до 158 000 лет), что является критической проблемой, которую необходимо решить в практических приложениях
Экономическая ценность: Синтез ДНК является основным движущим фактором стоимости и задержки в технологии параллельного синтеза; метод композитной ДНК может значительно снизить затраты
Традиционное хранение ДНК: Схемы исправления ошибок разрыва цепи для традиционного хранения ДНК (например, коды torn-paper) зависят от множественных копий одной и той же цепи для выравнивания
Неприменимость: Кодирование композитной ДНК кодирует информацию в распределении оснований, а не в отдельных цепях; каждая цепь генерируется независимо и одинаково распределенной, поэтому выравнивание с использованием перекрывающихся подпоследовательностей невозможно
Теоретический пробел: Анализ емкости канала разрыва цепи композитной ДНК еще не установлен
В качестве первого шага в решении проблемы разрыва цепи композитной ДНК данная работа предлагает схему кодирования на основе маркеров для исправления одиночного разрыва и требует обеспечения того, чтобы маркерная последовательность не появлялась в данных, что побудило авторов обобщить коды RLL на композитную установку.
Расширение модели канала: Расширение модели канала разрыва цепи с традиционного хранения ДНК на композитную установку ДНК, установление модели ошибок, применимой к композитной ДНК
Теория композитных кодов RLL:
Предложено формальное определение кодов Composite RLL (ограниченная длина серии)
Выведены нижняя граница (теорема 3) и верхняя граница (теорема 4) количества кодовых слов
Доказано, что избыточность имеет порядок Θ(logn)
Конструкция маркерного кода: Разработана практическая схема кодирования на основе маркерных последовательностей (Construction A), способная исправлять одиночный разрыв цепи
Оптимизация параметров: Выведена оптимальная длина маркера ℓ∗=Θ(n) (следствие 6), минимизирующая общую избыточность
Теоретические границы:
Нижняя граница: red(RLLQ,R(ℓ,n))≥logQ(e)(QR)ℓ(1−QR)⋅2n−2ℓ
Верхняя граница: red(RLLQ,R(ℓ,n))≤elogQ(e)(QR)ℓ(1+(1−QR)(n−ℓ))
Задача A: Создать код, такой что любой фрагмент, полученный в результате нескольких разрывов в цепи ДНК, может быть правильно локализован.
Задача B: Обобщить концепцию кодов с ограниченной длиной серии (RLL) на композитную установку, определить границы размера кода и предложить методы конструирования.
Входные данные: Композитная матрица длины n: X(c)∈[0,M]q×n, где каждый столбец является композитным символом
Выходные данные: K фрагментов после не более чем t разрывов
Ограничения: Фрагменты неупорядочены; требуется правильно локализовать каждый фрагмент в исходной цепи
Для алфавита Σ (размер Q) и его подмножества Σ′⊆Σ (размер R), композитная матрица имеет ограниченную длину серии ℓ, если каждое окно длины ℓ содержит по крайней мере один символ из Σ∖Σ′.
Для q-ичного алфавита оснований маркерная последовательность имеет форму (1,0,…,0,1) с ℓ нулями в середине.
Представление композитной матрицей (пример 5):
X^(c) = [
0 M ... M 0 | данные | 0 M ... M 0
M 0 ... 0 M | данные | M 0 ... 0 M
0 0 ... 0 0 | данные | 0 0 ... 0 0
...
0 0 ... 0 0 | данные | 0 0 ... 0 0
]
Уникальные вызовы композитной установки: Традиционные коды RLL должны избегать только последовательных одинаковых символов, но в композитной ДНК спонтанная комбинация синтезированных цепей может создать маркерные последовательности, требуя более сильных ограничений
Теоретическая база: Впервые расширены коды RLL на сценарий кодирования распределения вероятностей, установлена полная теория подсчета
Двойная оптимизация: Одновременная оптимизация длины маркера и параметров RLL, балансирование двух источников избыточности
Практическое проектирование: Маркерная последовательность производит классические символы, позволяя локализацию на уровне отдельного фрагмента без зависимости от комбинированной информации фрагментов
Асимптотическое поведение: Избыточность кодов RLL растет линейно с n, но коэффициент экспоненциально убывает с ℓ
Компромисс параметров:
Увеличение ℓ снижает избыточность RLL, но увеличивает длину маркера
Оптимальная точка находится в ℓ∗=Θ(n) (практическая конструкция) или ℓ∗=Θ(logn) (теоретически оптимальная)
Преимущество композитной ДНК: По сравнению с традиционным хранением ДНК, композитная ДНК может кодировать больше информации при одинаковой избыточности (алфавит расширяется с 4 до 84)
Предположение о одиночном разрыве: Текущая схема обрабатывает только случаи не более одного разрыва; фрагменты с несколькими разрывами отбрасываются
Неизвестная емкость: Емкость канала разрыва цепи композитной ДНК еще не определена, невозможно оценить разрыв между предложенной схемой и оптимальной производительностью
Конструкция кодера: Практическая конструкция использует символы breaker для достижения избыточности O(n), что отличается от теоретической границы Θ(logn)
Ошибка выборки: Не рассмотрены вероятностные ошибки в процессе повторной выборки (хотя указано, что можно применить методы из 9)
Другие типы ошибок: Не обработаны вставки, удаления, замены и другие распространенные ошибки хранения ДНК
Анализ конечной длины: Верхняя граница в теореме 4 применима только для "достаточно больших n"; для малых n требуется использование более слабых тривиальных границ (уравнение 8)
Anavy et al. (2019) - "Data storage in DNA with fewer synthesis cycles using composite DNA letters", Nature Biotechnology
Оригинальная статья о концепции композитной ДНК, теоретическая основа данной работы
Shomorony & Vahid (2021) - "Torn-Paper Coding", IEEE Trans. IT
Исправление ошибок разрыва цепи для традиционного хранения ДНК, эталон для сравнения данной работы
Levy & Yaakobi (2019) - "Mutually Uncorrelated Codes for DNA Storage", IEEE Trans. IT
Применение кодов RLL к хранению ДНК, отправная точка для обобщения данной работы
Yehezkeally & Polyanskii (2024) - "On Codes for the Noisy Substring Channel", IEEE TMBMC
Применение локальной леммы Ловаша в теории кодирования, источник методов доказательства данной работы
Allentoft et al. (2012) - "The half-life of DNA in bone", Proc. Royal Society B
Экспериментальные данные о кинетике распада ДНК, обоснование обоснованности модели разрыва цепи
Общая оценка: Это высококачественная теоретическая работа, вносящая пионерский вклад в новую область исправления ошибок разрыва цепи в хранении композитной ДНК. Теоретический анализ строг, границы плотны, практическая схема четко определена. Основные недостатки заключаются в разрыве между теорией и практикой, отсутствии экспериментальной проверки и ограничении на одиночный разрыв. Как фундаментальная работа в этой области, статья закладывает важную теоретическую основу для последующих исследований и имеет высокую академическую ценность и потенциальную практическую ценность. Рекомендуется, чтобы будущие работы сосредоточились на анализе емкости, улучшении конструкции кодера и экспериментальной проверке.