2025-11-12T09:40:09.396757

Coding for Strand Breaks in Composite DNA

Walter, Yehezkeally

Due to their sequential nature, traditional DNA synthesis methods are expensive in terms of time and resources. They also fabricate multiple copies of the same strand, introducing redundancy. This redundancy can be leveraged to enhance the information capacity of each synthesis cycle and DNA storage systems in general by employing composite DNA symbols. Unlike conventional DNA storage, composite DNA encodes information in the distribution of bases across a pool of strands rather than in the individual strands themselves. Consequently, error models for DNA storage must be adapted to account for this unique characteristic. One significant error model for long-term DNA storage is strand breaks, often caused by the decay of individual bases. This work extends the strand-break channel model to the composite DNA setting. To address this challenge, we propose a coding scheme that uses marker codes to correct single strand breaks. As part of this approach, we generalise run-length-limited (RLL) codes for the composite setting and derive bounds on their redundancy.

academic

Кодирование разрывов цепей в композитной ДНК

Основная информация

ID статьи: 2501.15851
Название: Coding for Strand Breaks in Composite DNA
Авторы: Frederik Walter (Технический университет Мюнхена), Yonatan Yehezkeally (Университет Ньюкасла)
Классификация: cs.IT, math.IT (теория информации)
Конференция: IEEE International Symposium on Information Theory (ISIT) 2025
Ссылка на статью: https://arxiv.org/abs/2501.15851
DOI: 10.1109/ISIT63088.2025.11195278

Аннотация

Традиционные методы синтеза ДНК имеют последовательный характер, что обходится дорого по времени и ресурсам, и создают множество копий одной цепи, вводя избыточность. Композитные символы ДНК могут использовать эту избыточность для повышения информационной емкости каждого цикла синтеза. В отличие от традиционного хранения ДНК, композитная ДНК кодирует информацию в распределении оснований в пуле цепей, а не в самих отдельных цепях. Следовательно, модель ошибок для хранения ДНК должна быть адаптирована к этой уникальной характеристике. Важной моделью ошибок для долгосрочного хранения ДНК является разрыв цепи, обычно вызванный распадом отдельных оснований. В данном исследовании модель канала разрыва цепи расширена на композитную установку ДНК, предложена схема кодирования с использованием маркерных кодов для исправления разрывов одиночной цепи, и обобщены коды с ограниченной длиной серии (RLL) на композитную установку, выведены границы их избыточности.

Исследовательский контекст и мотивация

1. Исследовательская проблема

Данная работа решает проблему исправления ошибок разрыва цепи в системах хранения композитной ДНК. В частности:

Основные вызовы: Композитная ДНК повышает информационную плотность, используя избыточность синтеза, без наличия множественных копий одной цепи, поэтому традиционные методы выравнивания и коды для дробовика не применимы
Центральная проблема: Как исправить ошибки разрыва цепи, вызванные долгосрочным хранением, в композитной установке ДНК

2. Важность проблемы

Преимущества плотности хранения: Хранение ДНК обеспечивает высокую плотность и долгосрочную стабильность, композитная ДНК еще больше повышает информационную емкость
Практические требования: Молекулы ДНК подвергаются разрывам цепей при долгосрочном хранении (период полураспада варьируется от 30 до 158 000 лет), что является критической проблемой, которую необходимо решить в практических приложениях
Экономическая ценность: Синтез ДНК является основным движущим фактором стоимости и задержки в технологии параллельного синтеза; метод композитной ДНК может значительно снизить затраты

3. Ограничения существующих методов

Традиционное хранение ДНК: Схемы исправления ошибок разрыва цепи для традиционного хранения ДНК (например, коды torn-paper) зависят от множественных копий одной и той же цепи для выравнивания
Неприменимость: Кодирование композитной ДНК кодирует информацию в распределении оснований, а не в отдельных цепях; каждая цепь генерируется независимо и одинаково распределенной, поэтому выравнивание с использованием перекрывающихся подпоследовательностей невозможно
Теоретический пробел: Анализ емкости канала разрыва цепи композитной ДНК еще не установлен

4. Исследовательская мотивация

В качестве первого шага в решении проблемы разрыва цепи композитной ДНК данная работа предлагает схему кодирования на основе маркеров для исправления одиночного разрыва и требует обеспечения того, чтобы маркерная последовательность не появлялась в данных, что побудило авторов обобщить коды RLL на композитную установку.

Основные вклады

Расширение модели канала: Расширение модели канала разрыва цепи с традиционного хранения ДНК на композитную установку ДНК, установление модели ошибок, применимой к композитной ДНК
Теория композитных кодов RLL:
- Предложено формальное определение кодов Composite RLL (ограниченная длина серии)
- Выведены нижняя граница (теорема 3) и верхняя граница (теорема 4) количества кодовых слов
- Доказано, что избыточность имеет порядок $\Theta(\log n)$
Конструкция маркерного кода: Разработана практическая схема кодирования на основе маркерных последовательностей (Construction A), способная исправлять одиночный разрыв цепи
Оптимизация параметров: Выведена оптимальная длина маркера $\ell^* = \Theta(\sqrt{n})$ (следствие 6), минимизирующая общую избыточность
Теоретические границы:
- Нижняя граница: $\text{red}(RLL_{Q,R}(\ell,n)) \geq \log_Q(e)\left(\frac{R}{Q}\right)^\ell\left(1-\frac{R}{Q}\right)\cdot\frac{n-2\ell}{2}$
- Верхняя граница: $\text{red}(RLL_{Q,R}(\ell,n)) \leq e\log_Q(e)\left(\frac{R}{Q}\right)^\ell\left(1+\left(1-\frac{R}{Q}\right)(n-\ell)\right)$

Подробное описание методов

Определение задачи

Задача A: Создать код, такой что любой фрагмент, полученный в результате нескольких разрывов в цепи ДНК, может быть правильно локализован.

Задача B: Обобщить концепцию кодов с ограниченной длиной серии (RLL) на композитную установку, определить границы размера кода и предложить методы конструирования.

Входные данные: Композитная матрица длины n: $X^{(c)} \in [0,M]^{q\times n}$ , где каждый столбец является композитным символом Выходные данные: K фрагментов после не более чем t разрывов Ограничения: Фрагменты неупорядочены; требуется правильно локализовать каждый фрагмент в исходной цепи

Основные концепции

1. Композитные символы и матрицы (определение 1)

Композитный символ — это q-кортеж $x = (x_1, x_2, \ldots, x_q) \in [0,M]^q$ , удовлетворяющий $\sum_{i=1}^q x_i = M$

Композитная матрица $X^{(c)} \in [0,M]^{q\times n}$ , где каждый столбец представляет композитный символ, представляет распределение вероятностей пула ДНК.

Ключевые параметры:

$q$ : размер алфавита оснований (для ДНК q=4)
$M$ : параметр разрешения (нормирующий коэффициент)
$Q = \binom{M+q-1}{q-1}$ : размер алфавита композитных символов

2. Композитные коды RLL (определение 2)

Для алфавита $\Sigma$ (размер Q) и его подмножества $\Sigma' \subseteq \Sigma$ (размер R), композитная матрица имеет ограниченную длину серии $\ell$ , если каждое окно длины $\ell$ содержит по крайней мере один символ из $\Sigma \setminus \Sigma'$ .

Обозначается как $RLL_{Q,R}(\ell, n)$ .

Теоретический анализ

Теорема 3 (нижняя граница)

Схема доказательства:

Разделить последовательность на сегменты длины $\frac{n}{2\ell}$
Использовать включение: $RLL_{Q,R}(\ell,n) \subseteq (RLL_{Q,R}(\ell,2\ell))^{\lfloor n/2\ell \rfloor} \times \Sigma^{n \bmod 2\ell}$
Подсчитать количество последовательностей длины 2ℓ, не удовлетворяющих ограничению RLL
Классифицировать подсчет по начальной позиции j и длине k запуска

Ключевое неравенство: $|RLL_{Q,R}(\ell,2\ell)| = Q^{2\ell}\left(1-\left(\frac{R}{Q}\right)^\ell\left((\ell+1)-\ell\left(\frac{R}{Q}\right)\right)\right)$

Используя $-\ln(1-x) \geq x$ , получаем окончательную нижнюю границу.

Теорема 4 (верхняя граница)

Метод доказательства:

Метод объединенной границы: Определить событие $A_i$ как наличие запуска запрещенных символов длины ≥ℓ, начинающегося в позиции i
Использовать объединенную границу: $\Pr(RLL_{Q,R}(\ell,n)) \geq 1 - \sum_{i=1}^{n-\ell+1} \Pr(A_i)$
Локальная лемма Ловаша: Улучшить объединенную границу, используя локальную зависимость событий
- Определить $\Gamma_i = \{A_j : |i-j| < \ell+1\}$
- Событие $A_i$ независимо от $\{A_j \notin \Gamma_i\}$
- Применить следствие 5 для получения более строгой границы

Результат: Для достаточно больших ℓ, $\Pr(RLL_{Q,R}(\ell,n)) \geq \exp(-e(\pi_1 + (n-\ell)\pi))$ где $\pi = \left(\frac{R}{Q}\right)^\ell\left(1-\frac{R}{Q}\right)$

Конструкция кодирования (Construction A)

Проектирование маркерной последовательности

Для q-ичного алфавита оснований маркерная последовательность имеет форму $(1,0,\ldots,0,1)$ с ℓ нулями в середине.

Представление композитной матрицей (пример 5):

X^(c) = [
  0  M  ...  M  0 | данные | 0  M  ...  M  0
  M  0  ...  0  M | данные | M  0  ...  0  M
  0  0  ...  0  0 | данные | 0  0  ...  0  0
  ...
  0  0  ...  0  0 | данные | 0  0  ...  0  0
]

Ключевые характеристики

Маркерная последовательность производит классические некомпозитные символы (чистый A или чистый C) в синтезированных цепях
Может независимо определить положение каждого фрагмента без комбинирования нескольких фрагментов
Часть данных использует символ RLL-breaker (установить первую строку в 0) каждые ℓ позиций

Анализ избыточности

Общая избыточность: $\text{red}(C) = 2\ell + 4 + \left\lfloor\frac{n-2(\ell+2)}{\ell}\right\rfloor\log_Q\left(\frac{Q}{Q-R}\right)$

Оптимизация параметров (следствие 6)

Предполагая, что n кратно ℓ, дифференцируем избыточность по ℓ и приравниваем к нулю, получаем оптимальную длину маркера: $\ell^* = \sqrt{\frac{n-4}{2\log_Q\left(\frac{Q}{Q-R}\right)}}$

Окончательная избыточность: $\text{red}(C) = 4 + 2\sqrt{2(n-4)\log_Q\left(\frac{Q}{Q-R}\right)} - 2\log_Q\left(\frac{Q}{Q-R}\right)$

Технические инновации

Уникальные вызовы композитной установки: Традиционные коды RLL должны избегать только последовательных одинаковых символов, но в композитной ДНК спонтанная комбинация синтезированных цепей может создать маркерные последовательности, требуя более сильных ограничений
Теоретическая база: Впервые расширены коды RLL на сценарий кодирования распределения вероятностей, установлена полная теория подсчета
Двойная оптимизация: Одновременная оптимизация длины маркера и параметров RLL, балансирование двух источников избыточности
Практическое проектирование: Маркерная последовательность производит классические символы, позволяя локализацию на уровне отдельного фрагмента без зависимости от комбинированной информации фрагментов

Экспериментальная установка

Набор данных

Данная работа является теоретической; экспериментальная проверка не проводилась. Анализ основан на:

Алфавит оснований ДНК: q = 4 (A, C, G, T)
Параметр разрешения: M = 6
Количество композитных символов: Q = $\binom{9}{3}$ = 84
Количество запрещенных символов: R = 56

Пример параметров (пример 7)

q = 4, M = 6, Q = 84
R = Q - $\binom{M+q-2}{q-2}$ = 84 - 28 = 56
Оптимальная длина маркера: $\ell \approx 0.24\sqrt{n}$
Количество доступных символов (позиция breaker): Q - R = 28

Теоретическая производительность кодера

Для кодеров RLL, использующих избыточность порядков из теорем 3 и 4:

Общая избыточность: $\Theta\left(\ell + \left(\frac{R}{Q}\right)^\ell \cdot n\right)$
Оптимальное ℓ удовлетворяет: $\ell^*\left(\frac{Q}{R}\right)^{\ell^*} = \Theta(n)$
То есть: $\ell^* = \log_{Q/R}(n/\log n) + O(1)$
Окончательная избыточность: $\Theta(\log n)$ символов

Результаты экспериментов

Основные результаты

Данная работа является чисто теоретической; основные результаты — это математические теоремы:

Границы избыточности кодов RLL:
- Нижняя граница (теорема 3): $\Omega\left(\left(\frac{R}{Q}\right)^\ell n\right)$
- Верхняя граница (теорема 4): $O\left(\left(\frac{R}{Q}\right)^\ell n\right)$
- Плотность границ: совпадение в пределах постоянного множителя
Производительность практического кодера:
- Конструкция с использованием символов breaker: избыточность $O(\sqrt{n})$
- Теоретически оптимальный кодер: избыточность $\Theta(\log n)$
Конкретные числовые примеры (q=4, M=6):
- Длина маркера: $\ell \approx 0.24\sqrt{n}$
- Для n=10000: $\ell \approx 24$ , избыточность примерно $4 + 2\sqrt{2 \times 9996 \times \log_{84}(3)} \approx 200$ символов

Теоретические находки

Асимптотическое поведение: Избыточность кодов RLL растет линейно с n, но коэффициент экспоненциально убывает с ℓ
Компромисс параметров:
- Увеличение ℓ снижает избыточность RLL, но увеличивает длину маркера
- Оптимальная точка находится в $\ell^* = \Theta(\sqrt{n})$ (практическая конструкция) или $\ell^* = \Theta(\log n)$ (теоретически оптимальная)
Преимущество композитной ДНК: По сравнению с традиционным хранением ДНК, композитная ДНК может кодировать больше информации при одинаковой избыточности (алфавит расширяется с 4 до 84)

Связанные работы

Основы хранения ДНК

Church et al. (2012), Goldman et al. (2013): Пионерские исследования хранения ДНК
Erlich & Zielinski (2017): Архитектура DNA Fountain
Organick et al. (2018): Случайный доступ в крупномасштабном хранении данных ДНК

Композитная ДНК

Anavy et al. (2019): Первое предложение концепции композитного символа ДНК, использование меньшего количества циклов синтеза для хранения данных
Zhang et al. (2022): Исправление ошибок конечной амплитуды для вероятностных векторов
Walter et al. (2024), Sabary et al. (2024): Исправление ошибок замены, потери цепи и удаления в композитной ДНК

Исправление ошибок разрыва цепи

Shomorony & Vahid (2021): Кодирование Torn-Paper для традиционного хранения ДНК
Ravi et al. (2021): Емкость канала torn-paper с потерянными фрагментами
Bar-Lev et al. (2023): Противодействующие коды torn-paper
Ключевое отличие: Эти работы предполагают наличие множественных идентичных копий цепей для выравнивания, неприменимо к композитной ДНК

Коды RLL

Marcus et al. (2001): Введение в кодирование систем с ограничениями, происходящие из магнитных носителей
Levy & Yaakobi (2019): Взаимно некоррелированные коды для хранения ДНК, достижение log(n) бит избыточности для избежания длинных серий
Вклад данной работы: Обобщение кодов RLL на композитную установку, обработка распределений вероятностей вместо детерминированных символов

Теоретические инструменты

Spencer (1977): Асимптотические нижние границы функций Рамсея
Yehezkeally & Polyanskii (2024): Коды канала шумной подстроки, использование локальной леммы Ловаша для улучшения границ

Заключение и обсуждение

Основные выводы

Установление модели: Успешное расширение модели канала разрыва цепи на композитную установку ДНК с учетом уникальных характеристик процесса синтеза
Теоретические вклады:
- Границы избыточности композитных кодов RLL: $\Theta\left(\left(\frac{R}{Q}\right)^\ell n\right)$
- Избыточность практического кодера: $O(\sqrt{n})$
- Теоретически оптимальная избыточность: $\Theta(\log n)$
Практическая схема: Предложена конструкция кодирования на основе маркеров, способная исправлять одиночный разрыв цепи с явной оптимизацией параметров

Ограничения

Предположение о одиночном разрыве: Текущая схема обрабатывает только случаи не более одного разрыва; фрагменты с несколькими разрывами отбрасываются
Неизвестная емкость: Емкость канала разрыва цепи композитной ДНК еще не определена, невозможно оценить разрыв между предложенной схемой и оптимальной производительностью
Конструкция кодера: Практическая конструкция использует символы breaker для достижения избыточности $O(\sqrt{n})$ , что отличается от теоретической границы $\Theta(\log n)$
Ошибка выборки: Не рассмотрены вероятностные ошибки в процессе повторной выборки (хотя указано, что можно применить методы из 9)
Другие типы ошибок: Не обработаны вставки, удаления, замены и другие распространенные ошибки хранения ДНК
Анализ конечной длины: Верхняя граница в теореме 4 применима только для "достаточно больших n"; для малых n требуется использование более слабых тривиальных границ (уравнение 8)

Направления будущих исследований

Анализ емкости: Определение емкости канала разрыва цепи композитной ДНК — это наиболее важный открытый вопрос
Улучшение кодера RLL: Сокращение разрыва между практической конструкцией и теоретической границей, достижение избыточности $\Theta(\log n)$
Множественные разрывы: Расширение схемы кодирования для обработки случаев с несколькими разрывами цепи
Объединенное исправление ошибок: Комбинирование разрыва цепи с другими типами ошибок (вставки, удаления, замены) в единую схему кодирования
Оптимизация конечной длины: Оптимизация выбора параметров для последовательностей конечной длины в практических приложениях
Экспериментальная проверка: Проверка теоретических результатов через реальные эксперименты по синтезу и секвенированию ДНК

Глубокая оценка

Преимущества

1. Теоретическая строгость

Полная математическая база: От определений до доказательства теорем, логическая цепь полна
Плотные границы: Верхняя и нижняя границы совпадают в пределах постоянного множителя, демонстрируя точность анализа
Разнообразные методы доказательства: Комбинирование аргументов подсчета, объединенных границ и локальной леммы Ловаша

2. Важность проблемы

Практическая мотивация: Решение реальной инженерной проблемы хранения композитной ДНК
Заполнение теоретического пробела: Первое систематическое исследование исправления ошибок разрыва цепи композитной ДНК
Фундаментальная работа: Закладывает теоретическую основу для последующих исследований

3. Инновационность методов

Обобщение концепции: Расширение кодов RLL с детерминированных символов на распределения вероятностей
Умное проектирование: Маркерные последовательности производят классические символы, избегая сложности композитных символов
Оптимизация параметров: Явное предоставление замкнутого решения для оптимальной длины маркера

4. Качество изложения

Ясная структура: Определение проблемы → теоретический анализ → конструкция схемы, четкая иерархия
Стандартная нотация: Последовательное использование математических символов, четкие определения
Достаточные примеры: Конкретные примеры (q=4, M=6) повышают понятность

Недостатки

1. Разрыв между теорией и практикой

Разделение теории и практики: Практическая конструкция ( $O(\sqrt{n})$ ) и теоретическая граница ( $\Theta(\log n)$ ) имеют значительный разрыв
Отсутствие явного кодера: Не предоставлены явные алгоритмы кодера, достигающие теоретической границы
Отсутствие экспериментальной проверки: Чисто теоретическая работа без поддержки реальными экспериментами синтеза ДНК

2. Ограничения модели

Ограничение одиночного разрыва: Практические приложения могут испытывать множественные разрывы
Предположение идеальной выборки: Предполагается, что процесс выборки K фрагментов без ошибок
Упрощение проблемы выравнивания: Недостаточное обсуждение надежности обнаружения маркеров

3. Недостаточный анализ

Отсутствие емкости: Емкость канала не установлена, невозможно оценить оптимальность схемы
Производительность конечной длины: Теорема 4 неприменима для малых n; практические приложения могут находиться в диапазоне конечной длины
Анализ чувствительности параметров: Не проанализировано влияние изменений M, q и других параметров на производительность

4. Технические детали

Затраты символов breaker: Символы breaker каждые ℓ позиций значительно ограничивают доступное пространство символов (84→28)
Алгоритм обнаружения маркеров: Не обсуждается, как надежно обнаружить маркеры в данных секвенирования с шумом
Анализ сложности: Не предоставлена вычислительная сложность кодирования и декодирования

Влияние

1. Академический вклад

Пионерская работа: Первое систематическое исследование проблемы разрыва цепи композитной ДНК, открытие нового направления исследований
Теоретическая глубина: Установление полной математической базы, вывод плотных границ
Потенциал цитирования: Как фундаментальная работа в этой области, ожидается широкое цитирование в последующих исследованиях

2. Практическая ценность

Инженерное руководство: Предоставление практической схемы кодирования, применимой к системам хранения композитной ДНК
Проектирование параметров: Явные формулы оптимизации параметров ( $\ell^* = 0.24\sqrt{n}$ ) облегчают инженерную реализацию
Экономическая выгода: Повышение информационной плотности снижает затраты на синтез ДНК

3. Ограничения

Зрелость технологии: Сама технология композитной ДНК еще находится в стадии развития; практическое развертывание требует времени
Зависимые условия: Требуется высокое качество синтеза и секвенирования ДНК
Экономичность: Текущие затраты на хранение ДНК остаются высокими, ограничивая крупномасштабное применение

4. Воспроизводимость

Теоретическая проверяемость: Математические доказательства могут быть независимо проверены
Реализуемость алгоритма: Схема кодирования описана четко, может быть запрограммирована
Вызов экспериментов: Реальные ДНК-эксперименты требуют специального оборудования и навыков, высокие затраты на воспроизведение

Применимые сценарии

1. Идеальные сценарии применения

Долгосрочное архивное хранилище: Государственные архивы, исторические записи и другие данные, требующие сохранения на десятилетия или даже столетия
Требования высокой плотности хранения: Сценарии с ограниченным пространством, но требующие хранения больших объемов данных
Резервное копирование холодных данных: Данные с низкой частотой доступа, но высокой важностью

2. Технические требования

Высокое качество синтеза: Требуется технологическая платформа, поддерживающая синтез композитной ДНК
Точное секвенирование: Требуется технология секвенирования, способная точно оценить распределение оснований
Вычислительные ресурсы: Процессы кодирования и декодирования требуют определенных вычислительных мощностей

3. Неприменимые сценарии

Частый доступ к данным: Скорость чтения/записи ДНК медленная, неподходит для приложений, требующих быстрого доступа
Системы реального времени: Задержка кодирования/декодирования значительна, неподходит для приложений реального времени
Требования низкой стоимости: Текущие затраты на хранение ДНК остаются выше традиционных носителей

4. Потенциал расширения

Комбинирование с другими кодами исправления ошибок: Может комбинироваться с кодами Reed-Solomon и другими для обработки множественных типов ошибок
Многоуровневое кодирование: Использование данной схемы на внешнем уровне для обработки разрывов цепи, внутренний уровень обрабатывает другие ошибки
Адаптивные схемы: Динамическая регулировка параметров в зависимости от времени хранения и условий окружающей среды

Библиография

Ключевые ссылки

Anavy et al. (2019) - "Data storage in DNA with fewer synthesis cycles using composite DNA letters", Nature Biotechnology
- Оригинальная статья о концепции композитной ДНК, теоретическая основа данной работы
Shomorony & Vahid (2021) - "Torn-Paper Coding", IEEE Trans. IT
- Исправление ошибок разрыва цепи для традиционного хранения ДНК, эталон для сравнения данной работы
Levy & Yaakobi (2019) - "Mutually Uncorrelated Codes for DNA Storage", IEEE Trans. IT
- Применение кодов RLL к хранению ДНК, отправная точка для обобщения данной работы
Yehezkeally & Polyanskii (2024) - "On Codes for the Noisy Substring Channel", IEEE TMBMC
- Применение локальной леммы Ловаша в теории кодирования, источник методов доказательства данной работы
Allentoft et al. (2012) - "The half-life of DNA in bone", Proc. Royal Society B
- Экспериментальные данные о кинетике распада ДНК, обоснование обоснованности модели разрыва цепи

Общая оценка: Это высококачественная теоретическая работа, вносящая пионерский вклад в новую область исправления ошибок разрыва цепи в хранении композитной ДНК. Теоретический анализ строг, границы плотны, практическая схема четко определена. Основные недостатки заключаются в разрыве между теорией и практикой, отсутствии экспериментальной проверки и ограничении на одиночный разрыв. Как фундаментальная работа в этой области, статья закладывает важную теоретическую основу для последующих исследований и имеет высокую академическую ценность и потенциальную практическую ценность. Рекомендуется, чтобы будущие работы сосредоточились на анализе емкости, улучшении конструкции кодера и экспериментальной проверке.