Due to their sequential nature, traditional DNA synthesis methods are expensive in terms of time and resources. They also fabricate multiple copies of the same strand, introducing redundancy. This redundancy can be leveraged to enhance the information capacity of each synthesis cycle and DNA storage systems in general by employing composite DNA symbols. Unlike conventional DNA storage, composite DNA encodes information in the distribution of bases across a pool of strands rather than in the individual strands themselves. Consequently, error models for DNA storage must be adapted to account for this unique characteristic. One significant error model for long-term DNA storage is strand breaks, often caused by the decay of individual bases. This work extends the strand-break channel model to the composite DNA setting. To address this challenge, we propose a coding scheme that uses marker codes to correct single strand breaks. As part of this approach, we generalise run-length-limited (RLL) codes for the composite setting and derive bounds on their redundancy.
Coding for Strand Breaks in Composite DNA 论文ID : 2501.15851标题 : Coding for Strand Breaks in Composite DNA作者 : Frederik Walter (Technical University of Munich), Yonatan Yehezkeally (Newcastle University)分类 : cs.IT, math.IT (信息论)发表会议 : IEEE International Symposium on Information Theory (ISIT) 2025论文链接 : https://arxiv.org/abs/2501.15851 DOI : 10.1109/ISIT63088.2025.11195278传统DNA合成方法具有顺序性质,在时间和资源上成本高昂,且会制造同一链的多个副本,引入冗余。复合DNA符号可以利用这种冗余来增强每个合成周期的信息容量。与传统DNA存储不同,复合DNA将信息编码在链池中碱基的分布中,而非单个链本身。因此,DNA存储的错误模型必须适应这一独特特性。长期DNA存储的一个重要错误模型是链断裂,通常由单个碱基的衰变引起。本研究将链断裂信道模型扩展到复合DNA设置,提出使用标记码纠正单链断裂的编码方案,并将游程长度受限(RLL)码推广到复合设置,推导其冗余度界限。
本文解决复合DNA存储系统中的链断裂纠错问题。具体而言:
主要挑战 :复合DNA通过利用合成冗余增加信息密度,不存在同一链的多个副本,因此传统的对齐方法和shotgun测序码不适用核心问题 :如何在复合DNA设置下纠正因长期存储导致的链断裂错误存储密度优势 :DNA存储提供高密度和长期稳定性,复合DNA进一步提升了信息容量实际需求 :DNA分子在长期存储中会发生链断裂(半衰期从30年到158,000年不等),这是实际应用中必须解决的关键问题经济价值 :DNA合成是并发合成技术中成本和延迟的主要驱动因素,复合DNA方法可以显著降低成本传统DNA存储 :针对传统DNA存储的链断裂纠错方案(如torn-paper codes)依赖多个相同链的副本进行对齐不适用性 :复合DNA编码信息在碱基分布中而非单个链,每条链都是独立同分布生成的,无法使用重叠子序列进行对齐理论空白 :复合DNA链断裂信道的容量分析尚未建立作为解决复合DNA链断裂问题的第一步,本文提出基于标记的编码方案纠正单次断裂,并为此需要确保标记序列不出现在数据中,这促使作者将RLL码推广到复合设置。
信道模型扩展 :将链断裂信道模型从传统DNA存储扩展到复合DNA设置,建立了适用于复合DNA的错误模型复合RLL码理论 :提出复合游程长度受限(Composite RLL)码的形式化定义 推导码字数量的下界(定理3)和上界(定理4) 证明冗余度为 Θ ( log n ) \Theta(\log n) Θ ( log n ) 量级 标记码构造 :设计了基于标记序列的实用编码方案(Construction A),能够纠正单次链断裂参数优化 :推导出最优标记长度 ℓ ∗ = Θ ( n ) \ell^* = \Theta(\sqrt{n}) ℓ ∗ = Θ ( n ) (推论6),使整体冗余度最小化理论界限 :下界:red ( R L L Q , R ( ℓ , n ) ) ≥ log Q ( e ) ( R Q ) ℓ ( 1 − R Q ) ⋅ n − 2 ℓ 2 \text{red}(RLL_{Q,R}(\ell,n)) \geq \log_Q(e)\left(\frac{R}{Q}\right)^\ell\left(1-\frac{R}{Q}\right)\cdot\frac{n-2\ell}{2} red ( R L L Q , R ( ℓ , n )) ≥ log Q ( e ) ( Q R ) ℓ ( 1 − Q R ) ⋅ 2 n − 2 ℓ 上界:red ( R L L Q , R ( ℓ , n ) ) ≤ e log Q ( e ) ( R Q ) ℓ ( 1 + ( 1 − R Q ) ( n − ℓ ) ) \text{red}(RLL_{Q,R}(\ell,n)) \leq e\log_Q(e)\left(\frac{R}{Q}\right)^\ell\left(1+\left(1-\frac{R}{Q}\right)(n-\ell)\right) red ( R L L Q , R ( ℓ , n )) ≤ e log Q ( e ) ( Q R ) ℓ ( 1 + ( 1 − Q R ) ( n − ℓ ) ) 问题A :创建一个码,使得DNA链中多次断裂产生的任何片段都能被正确定位。
问题B :将游程长度受限(RLL)码的概念推广到复合设置,确定码大小的界限并提出构造方法。
输入 :长度为n的复合矩阵 X ( c ) ∈ [ 0 , M ] q × n X^{(c)} \in [0,M]^{q\times n} X ( c ) ∈ [ 0 , M ] q × n ,其中每列是一个复合符号
输出 :经过至多t次断裂后的K个片段
约束 :片段无序,需要正确定位每个片段在原始链中的位置
复合符号是q元组 x = ( x 1 , x 2 , … , x q ) ∈ [ 0 , M ] q x = (x_1, x_2, \ldots, x_q) \in [0,M]^q x = ( x 1 , x 2 , … , x q ) ∈ [ 0 , M ] q ,满足 ∑ i = 1 q x i = M \sum_{i=1}^q x_i = M ∑ i = 1 q x i = M
复合矩阵 X ( c ) ∈ [ 0 , M ] q × n X^{(c)} \in [0,M]^{q\times n} X ( c ) ∈ [ 0 , M ] q × n 的每列代表一个复合符号,表示DNA池的概率分布。
关键参数 :
q q q :碱基字母表大小(DNA中q=4)M M M :分辨率参数(归一化因子)Q = ( M + q − 1 q − 1 ) Q = \binom{M+q-1}{q-1} Q = ( q − 1 M + q − 1 ) :复合符号字母表大小给定字母表 Σ \Sigma Σ (大小为Q),其子集 Σ ′ ⊆ Σ \Sigma' \subseteq \Sigma Σ ′ ⊆ Σ (大小为R),复合矩阵是 ℓ \ell ℓ -游程长度受限的,如果每个长度为 ℓ \ell ℓ 的连续窗口都包含至少一个 Σ ∖ Σ ′ \Sigma \setminus \Sigma' Σ ∖ Σ ′ 中的符号。
记为 R L L Q , R ( ℓ , n ) RLL_{Q,R}(\ell, n) R L L Q , R ( ℓ , n ) 。
证明思路 :
将序列分割为长度 n 2 ℓ \frac{n}{2\ell} 2 ℓ n 的段 利用包含关系:R L L Q , R ( ℓ , n ) ⊆ ( R L L Q , R ( ℓ , 2 ℓ ) ) ⌊ n / 2 ℓ ⌋ × Σ n m o d 2 ℓ RLL_{Q,R}(\ell,n) \subseteq (RLL_{Q,R}(\ell,2\ell))^{\lfloor n/2\ell \rfloor} \times \Sigma^{n \bmod 2\ell} R L L Q , R ( ℓ , n ) ⊆ ( R L L Q , R ( ℓ , 2 ℓ ) ) ⌊ n /2 ℓ ⌋ × Σ n mod 2 ℓ 计数长度2ℓ中不满足RLL约束的序列数量 按运行开始位置j和长度k分类计数 关键不等式 :
∣ R L L Q , R ( ℓ , 2 ℓ ) ∣ = Q 2 ℓ ( 1 − ( R Q ) ℓ ( ( ℓ + 1 ) − ℓ ( R Q ) ) ) |RLL_{Q,R}(\ell,2\ell)| = Q^{2\ell}\left(1-\left(\frac{R}{Q}\right)^\ell\left((\ell+1)-\ell\left(\frac{R}{Q}\right)\right)\right) ∣ R L L Q , R ( ℓ , 2 ℓ ) ∣ = Q 2 ℓ ( 1 − ( Q R ) ℓ ( ( ℓ + 1 ) − ℓ ( Q R ) ) )
通过 − ln ( 1 − x ) ≥ x -\ln(1-x) \geq x − ln ( 1 − x ) ≥ x 得到最终下界。
证明方法 :
联合界方法 :定义事件 A i A_i A i 为位置i开始有长度≥ℓ的禁止符号运行使用联合界:Pr ( R L L Q , R ( ℓ , n ) ) ≥ 1 − ∑ i = 1 n − ℓ + 1 Pr ( A i ) \Pr(RLL_{Q,R}(\ell,n)) \geq 1 - \sum_{i=1}^{n-\ell+1} \Pr(A_i) Pr ( R L L Q , R ( ℓ , n )) ≥ 1 − ∑ i = 1 n − ℓ + 1 Pr ( A i ) Lovász局部引理 :改进联合界,利用事件的局部依赖性
定义 Γ i = { A j : ∣ i − j ∣ < ℓ + 1 } \Gamma_i = \{A_j : |i-j| < \ell+1\} Γ i = { A j : ∣ i − j ∣ < ℓ + 1 } 事件 A i A_i A i 与 { A j ∉ Γ i } \{A_j \notin \Gamma_i\} { A j ∈ / Γ i } 独立 应用推论5得到更紧的界 结果 :对于足够大的ℓ,
Pr ( R L L Q , R ( ℓ , n ) ) ≥ exp ( − e ( π 1 + ( n − ℓ ) π ) ) \Pr(RLL_{Q,R}(\ell,n)) \geq \exp(-e(\pi_1 + (n-\ell)\pi)) Pr ( R L L Q , R ( ℓ , n )) ≥ exp ( − e ( π 1 + ( n − ℓ ) π ))
其中 π = ( R Q ) ℓ ( 1 − R Q ) \pi = \left(\frac{R}{Q}\right)^\ell\left(1-\frac{R}{Q}\right) π = ( Q R ) ℓ ( 1 − Q R )
对于q元碱基字母表,标记序列形式为 ( 1 , 0 , … , 0 , 1 ) (1,0,\ldots,0,1) ( 1 , 0 , … , 0 , 1 ) ,中间有ℓ个零。
复合矩阵表示 (例5):
X^(c) = [
0 M ... M 0 | data | 0 M ... M 0
M 0 ... 0 M | data | M 0 ... 0 M
0 0 ... 0 0 | data | 0 0 ... 0 0
...
0 0 ... 0 0 | data | 0 0 ... 0 0
]
标记序列在合成链中产生经典非复合符号 (纯A或纯C) 可以单独确定每个片段的位置,无需组合多个片段 数据部分每ℓ位置使用RLL-breaker符号(设第一行为0) 总冗余度:
red ( C ) = 2 ℓ + 4 + ⌊ n − 2 ( ℓ + 2 ) ℓ ⌋ log Q ( Q Q − R ) \text{red}(C) = 2\ell + 4 + \left\lfloor\frac{n-2(\ell+2)}{\ell}\right\rfloor\log_Q\left(\frac{Q}{Q-R}\right) red ( C ) = 2 ℓ + 4 + ⌊ ℓ n − 2 ( ℓ + 2 ) ⌋ log Q ( Q − R Q )
假设n是ℓ的倍数,冗余度对ℓ求导并令其为零,得到最优标记长度:
ℓ ∗ = n − 4 2 log Q ( Q Q − R ) \ell^* = \sqrt{\frac{n-4}{2\log_Q\left(\frac{Q}{Q-R}\right)}} ℓ ∗ = 2 l o g Q ( Q − R Q ) n − 4
最终冗余度:
red ( C ) = 4 + 2 2 ( n − 4 ) log Q ( Q Q − R ) − 2 log Q ( Q Q − R ) \text{red}(C) = 4 + 2\sqrt{2(n-4)\log_Q\left(\frac{Q}{Q-R}\right)} - 2\log_Q\left(\frac{Q}{Q-R}\right) red ( C ) = 4 + 2 2 ( n − 4 ) log Q ( Q − R Q ) − 2 log Q ( Q − R Q )
复合设置的独特挑战 :传统RLL码只需避免连续相同符号,但复合DNA中,合成链的自发组合可能产生标记序列,需要更强的约束理论框架 :首次将RLL码理论扩展到概率分布编码场景,建立了完整的计数理论双重优化 :同时优化标记长度和RLL参数,平衡两种冗余来源实用性设计 :标记序列产生经典符号,使得定位可以在单个片段级别完成,不依赖片段间的组合信息本文为理论工作,未进行实验验证。分析基于:
DNA碱基字母表:q = 4 (A, C, G, T) 分辨率参数:M = 6 复合符号数:Q = ( 9 3 ) \binom{9}{3} ( 3 9 ) = 84 禁止符号数:R = 56 q = 4, M = 6, Q = 84 R = Q - ( M + q − 2 q − 2 ) \binom{M+q-2}{q-2} ( q − 2 M + q − 2 ) = 84 - 28 = 56 最优标记长度:ℓ ≈ 0.24 n \ell \approx 0.24\sqrt{n} ℓ ≈ 0.24 n 可用符号数(breaker位置):Q - R = 28 对于使用定理3和定理4量级冗余的RLL编码器:
总冗余度:Θ ( ℓ + ( R Q ) ℓ ⋅ n ) \Theta\left(\ell + \left(\frac{R}{Q}\right)^\ell \cdot n\right) Θ ( ℓ + ( Q R ) ℓ ⋅ n ) 最优ℓ满足:ℓ ∗ ( Q R ) ℓ ∗ = Θ ( n ) \ell^*\left(\frac{Q}{R}\right)^{\ell^*} = \Theta(n) ℓ ∗ ( R Q ) ℓ ∗ = Θ ( n ) 即:ℓ ∗ = log Q / R ( n / log n ) + O ( 1 ) \ell^* = \log_{Q/R}(n/\log n) + O(1) ℓ ∗ = log Q / R ( n / log n ) + O ( 1 ) 最终冗余度:Θ ( log n ) \Theta(\log n) Θ ( log n ) 个符号 本文为纯理论工作,主要结果为数学定理:
RLL码冗余度界限 :下界(定理3):Ω ( ( R Q ) ℓ n ) \Omega\left(\left(\frac{R}{Q}\right)^\ell n\right) Ω ( ( Q R ) ℓ n ) 上界(定理4):O ( ( R Q ) ℓ n ) O\left(\left(\frac{R}{Q}\right)^\ell n\right) O ( ( Q R ) ℓ n ) 界限紧密度:常数因子内匹配 实用编码器性能 :使用breaker符号的构造:冗余度 O ( n ) O(\sqrt{n}) O ( n ) 理论最优编码器:冗余度 Θ ( log n ) \Theta(\log n) Θ ( log n ) 具体数值示例 (q=4, M=6):标记长度:ℓ ≈ 0.24 n \ell \approx 0.24\sqrt{n} ℓ ≈ 0.24 n 对于n=10000:ℓ ≈ 24 \ell \approx 24 ℓ ≈ 24 ,冗余度约为 4 + 2 2 × 9996 × log 84 ( 3 ) ≈ 200 4 + 2\sqrt{2 \times 9996 \times \log_{84}(3)} \approx 200 4 + 2 2 × 9996 × log 84 ( 3 ) ≈ 200 符号 渐近行为 :RLL码冗余度随n线性增长,但系数随ℓ指数衰减参数权衡 :增大ℓ减少RLL冗余但增加标记长度 最优点在 ℓ ∗ = Θ ( n ) \ell^* = \Theta(\sqrt{n}) ℓ ∗ = Θ ( n ) (实用构造)或 ℓ ∗ = Θ ( log n ) \ell^* = \Theta(\log n) ℓ ∗ = Θ ( log n ) (理论最优) 复合优势 :相比传统DNA存储,复合DNA在相同冗余下可编码更多信息(字母表从4扩展到84)Church等(2012) 、Goldman等(2013) :开创性DNA存储研究Erlich & Zielinski (2017) :DNA Fountain架构Organick等(2018) :大规模DNA数据存储中的随机访问Anavy等(2019) :首次提出复合DNA字母概念,使用更少合成周期存储数据Zhang等(2022) :概率向量的有限幅度错误纠正Walter等(2024) 、Sabary等(2024) :复合DNA的替换、链丢失和删除纠错Shomorony & Vahid (2021) :Torn-Paper编码,针对传统DNA存储Ravi等(2021) :带丢失片段的torn-paper信道容量Bar-Lev等(2023) :对抗性torn-paper码关键区别 :这些工作假设多个相同链副本可用于对齐,不适用于复合DNAMarcus等(2001) :约束系统编码介绍,源于磁存储媒体Levy & Yaakobi (2019) :DNA存储的互不相关码,实现log(n)位冗余避免长游程本文贡献 :将RLL码推广到复合设置,处理概率分布而非确定性符号Spencer (1977) :Ramsey函数的渐近下界Yehezkeally & Polyanskii (2024) :噪声子串信道码,使用Lovász局部引理改进界限模型建立 :成功将链断裂信道模型扩展到复合DNA设置,考虑了合成过程的独特特性理论贡献 :复合RLL码的冗余度界限:Θ ( ( R Q ) ℓ n ) \Theta\left(\left(\frac{R}{Q}\right)^\ell n\right) Θ ( ( Q R ) ℓ n ) 实用编码器冗余度:O ( n ) O(\sqrt{n}) O ( n ) 理论最优冗余度:Θ ( log n ) \Theta(\log n) Θ ( log n ) 实用方案 :提出基于标记的编码构造,能纠正单次链断裂,参数优化明确单次断裂假设 :当前方案仅处理至多一次断裂的情况,多次断裂的片段会被丢弃容量未知 :复合DNA链断裂信道的容量尚未确定,无法评估提出方案与最优性能的差距编码器构造 :实用构造使用breaker符号达到 O ( n ) O(\sqrt{n}) O ( n ) 冗余,与理论 Θ ( log n ) \Theta(\log n) Θ ( log n ) 界限存在差距采样误差 :未考虑重复采样过程中的概率误差(虽然指出可应用9 的方法)其他错误类型 :未处理插入、删除、替换等其他DNA存储常见错误有限长度分析 :定理4的上界仅对"足够大的n"成立,小n情况需使用更弱的平凡界(式8)容量分析 :确定复合DNA链断裂信道的容量,这是最重要的开放问题改进RLL编码器 :缩小实用构造与理论界限的差距,实现 Θ ( log n ) \Theta(\log n) Θ ( log n ) 冗余多次断裂 :扩展编码方案处理多次链断裂情况联合纠错 :结合链断裂与其他错误类型(插入、删除、替换)的统一编码方案有限长度优化 :针对实际应用中的有限长度序列优化参数选择实验验证 :通过实际DNA合成和测序实验验证理论结果完整的数学框架 :从定义到定理证明,逻辑链条完整紧密界限 :上下界在常数因子内匹配,证明分析的准确性多种证明技术 :结合计数论证、联合界和Lovász局部引理实际需求驱动 :解决复合DNA存储的实际工程问题理论空白填补 :首次系统研究复合DNA的链断裂纠错基础性工作 :为后续研究奠定理论基础概念推广 :将RLL码从确定性符号推广到概率分布巧妙设计 :标记序列产生经典符号,避免复合符号的复杂性参数优化 :明确给出最优标记长度的闭式解结构清晰 :问题定义→理论分析→构造方案,层次分明符号规范 :数学符号使用一致,定义明确示例充分 :通过具体例子(q=4, M=6)增强可理解性理论与实践分离 :实用构造(O ( n ) O(\sqrt{n}) O ( n ) )与理论界限(Θ ( log n ) \Theta(\log n) Θ ( log n ) )差距显著缺乏具体编码器 :未给出达到理论界限的显式构造算法无实验验证 :纯理论工作,缺少实际DNA合成实验支持单次断裂限制 :实际应用中可能发生多次断裂完美采样假设 :假设K个片段的采样过程无误差对齐问题简化 :未详细讨论标记检测的鲁棒性容量缺失 :未建立信道容量,无法评估方案的最优性有限长度性能 :定理4对小n不适用,实际应用可能在有限长度范围参数敏感性 :未分析M、q等参数变化对性能的影响breaker符号开销 :每ℓ位置的breaker符号显著限制可用符号空间(84→28)标记检测算法 :未讨论如何在含噪声的测序数据中可靠检测标记复杂度分析 :未给出编解码的计算复杂度开创性 :首次系统研究复合DNA链断裂问题,开辟新研究方向理论深度 :建立完整的数学框架,推导紧密界限引用潜力 :作为该领域的基础工作,预期被后续研究广泛引用工程指导 :提供实用编码方案,可直接应用于复合DNA存储系统参数设计 :明确的参数优化公式(ℓ ∗ = 0.24 n \ell^* = 0.24\sqrt{n} ℓ ∗ = 0.24 n )便于工程实现成本效益 :通过提高信息密度降低DNA合成成本技术成熟度 :复合DNA技术本身仍在发展,实际部署需要时间依赖条件 :需要高质量的DNA合成和测序技术支持经济性 :当前DNA存储成本仍然较高,限制大规模应用理论可验证 :数学证明可独立验证算法可实现 :编码方案描述清晰,可编程实现实验挑战 :实际DNA实验需要专业设备和技能,复现成本高长期档案存储 :政府档案、历史记录等需要数十年甚至数百年保存的数据高密度存储需求 :空间受限但需存储大量数据的场景冷数据备份 :访问频率低但重要性高的数据高质量合成 :需要支持复合DNA合成的技术平台精确测序 :需要能够准确估计碱基分布的测序技术计算资源 :编解码过程需要一定的计算能力频繁访问数据 :DNA存储的读写速度慢,不适合需要快速访问的应用实时系统 :编解码延迟较大,不适合实时应用低成本需求 :当前DNA存储成本仍高于传统介质与其他纠错码结合 :可与Reed-Solomon码等结合,处理多种错误类型多层编码 :在外层使用本方案处理链断裂,内层处理其他错误自适应方案 :根据存储时间和环境条件动态调整参数Anavy et al. (2019) - "Data storage in DNA with fewer synthesis cycles using composite DNA letters", Nature BiotechnologyShomorony & Vahid (2021) - "Torn-Paper Coding", IEEE Trans. ITLevy & Yaakobi (2019) - "Mutually Uncorrelated Codes for DNA Storage", IEEE Trans. ITYehezkeally & Polyanskii (2024) - "On Codes for the Noisy Substring Channel", IEEE TMBMCLovász局部引理在编码理论中的应用,本文证明技术的来源 Allentoft et al. (2012) - "The half-life of DNA in bone", Proc. Royal Society BDNA衰变动力学的实验数据,支持链断裂模型的合理性 总体评价 :这是一篇高质量的理论论文,在复合DNA存储的链断裂纠错这一新兴领域做出了开创性贡献。理论分析严谨,界限紧密,实用方案清晰。主要不足在于理论与实践存在差距,缺乏实验验证,且仅处理单次断裂情况。作为该领域的基础性工作,论文为后续研究奠定了重要理论基础,具有较高的学术价值和潜在的实用价值。建议未来工作重点关注容量分析、改进编码器构造以及实验验证。