A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $Ï$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.
论文ID : 2506.05638标题 : Smallest Suffixient Sets as a Repetitiveness Measure作者 : Gonzalo Navarro (University of Chile), Giuseppe Romana (University of Palermo), Cristian Urbina (University of Chile)分类 : cs.FL (Formal Languages), cs.DS (Data Structures), math.CO (Combinatorics)发表时间 : 2025年10月29日 (arXiv v2)论文链接 : https://arxiv.org/abs/2506.05638 本文研究suffixient set这一新型组合对象作为重复性度量的性质。Suffixient set能够捕获重复字符串的本质信息,并在提供随机访问机制的情况下支持多种模式匹配。论文深入研究最小suffixient set的大小χ作为重复性度量的特性:将其定位在已知度量之间,研究其对各种字符串操作的敏感性。作为研究结果的副产品,论文给出了一个简单的在线算法来计算最小suffixient set。
随着大规模相似字符串集合(如人类基因组数据)的出现,如何有效表示和查询高度重复的字符串成为关键挑战。例如,欧洲"1+ Million Genomes"计划旨在测序超过一百万个人类基因组,原始数据需要约750TB存储空间,但利用基因组之间的高度相似性,可以将存储空间压缩两个数量级。
理解如何度量重复性对于:
设计压缩表示,同时保持访问和搜索功能 评估不同压缩方案的空间效率 理解不同度量之间的关系,从而明确在何种空间代价下可获得何种搜索功能 已有多种重复性度量被提出,从抽象下界到与特定文本压缩器相关的度量。对于最近提出的suffixient set大小χ,现有研究仅知道:
γ = O(χ)(γ是最小string attractor的大小) χ = O(r̄)(r̄是反向字符串BWT的等字母游程数) 但对χ作为重复性度量的更深入理解仍然缺乏,特别是:
χ与其他度量的精确关系 χ对字符串操作的敏感性 χ是否可达(reachable) 本文旨在更好地刻画χ作为重复性度量的特性,特别关注:
将χ定位在已知度量体系中 研究字符串更新操作对χ的影响 探索χ与copy-paste类度量的可比性 提供高效的χ计算算法 建立χ与BWT游程数r的直接关系 :证明χ = O(r)(而非之前的χ = O(r̄)),并在某些字符串族上证明χ = o(v)(v是最小词典解析大小),从而确立χ严格小于r字符串操作敏感性分析 :证明χ在追加/前置单个字符时仅增长O(1) 证明任意编辑操作或旋转可使χ增长Ω(log n) 证明字符串反转可使χ增长Ω(√n) Fibonacci字符串的完整刻画 :完全刻画Fibonacci字符串的唯一2个大小为4的最小suffixient set,并证明所有episturmian字的子串满足χ ≤ σ + 2与copy-paste度量的不可比性 :证明χ与大多数copy-paste类度量(z, z_no, z_e, z_end, v, g, g_rl, c)不可比——存在字符串族使χ严格更小,也存在字符串族使χ严格更大简单在线算法 :提出一个极其简单的在线算法,通过修改Ukkonen后缀树构造算法,在O(n)空间和O(n)最坏情况时间内计算最小suffixient set核心定义 :
Right-maximal子串 :子串x是right-maximal的,如果存在至少两个不同符号a, b ∈ Σ使得xa和xb都是w的子串Right-extension :对于每个right-maximal子串x,其right-extensions是形如xa的子串,记为E_r(w)Super-maximal extension :不是任何其他right-extension后缀的right-extension,记为S_r(w),其大小记为sre(w)Suffixient set :集合S ⊆ 1..n 是w的suffixient set,如果对每个right-extension x ∈ E_r(w),存在j ∈ S使得x是w1..j 的后缀最小suffixient set :suffixient set S是最小的,如果存在双射pos: S_r(w) → S使得每个x ∈ S_r(w)是w1..pos(x) 的后缀度量χ :对于w ∈ Σ*且∉ F w ,定义 χ ( w ) = ∣ S ∣ ,其中 S 是 w ∉ F_w,定义χ(w) = |S|,其中S是w ∈ / F w ,定义 χ ( w ) = ∣ S ∣ ,其中 S 是 w 的最小suffixient setLemma 2 :设w ∈ Σ*,c ∈ Σ,则:
sre(w) ≤ sre(wc) ≤ sre(w) + 2
证明思路 :分析追加c后可能出现的新right-extensions:
情况1 :xc在w中已出现,或xa对任何a≠c都不在w中出现 → 不产生新right-extensions情况2 :存在a≠b使xa和xb都在w中,但xc不在 → xc是新right-extension情况3 :x在w中总是后接a≠c(因此xa不是right-extension)→ xa和xc都是新right-extensions关键观察:
情况1和2合计最多产生1个新super-maximal right-extension 情况3中,对于固定的a,所有新的right-extensions x₁a, x₂a, ..., x_ta形成后缀链,只有x_ta可能是super-maximal的 因此最多增加2个super-maximal right-extensions。
Lemma 9 :χ ≤ 2r
证明思路 :
设x_i为w$的第i个字典序旋转 设u_i为x_i和x_{i+1}的最长公共前缀 定义s(i)为将x_i循环右移得到w$所需的位移量 构造suffixient set:
S = ∪_{i∈[1..|w|]} {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1}
利用BWT矩阵性质:如果BWTi = BWTi+1 = c,则存在j使得相应位置重合。因此:
S = {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1 | BWT[i] ≠ BWT[i+1]}
|S| ≤ 2r(r是BWT的等字母游程数)。
De Bruijn序列 (用于下界):
k阶二进制de Bruijn序列包含所有长度为k的二进制串恰好一次 长度n = 2^k + (k-1) Lemma 5 :sre(w) = 2^k = Ω(n)对任何w ∈ dB(k)成立编辑操作的Ω(log n)下界 (Lemma 6):
使用字典序最小的de Bruijn序列w = a^k b a^{k-2} b x a b^k a^{k-1}:
插入:sre(w) - sre(w') = 2^k - 2 替换:sre(w) - sre(w') = 2^k - 3 删除:sre(w) - sre(w') = 2^k - 4 旋转:sre(w) - sre(w') = 2^k - 2 反转的Ω(√n)下界 (Lemma 7):
构造w_k = ∏_^{k-1} c a^i b a^{k-i-1} #_i a^i b a^{k-i-1} $_i:
sre(w_k) - sre(w_k^R) = k - 1 |w_k| = Θ(k²) 因此增长为Ω(√n) Lemma 10 :对于字母表大小为σ的episturmian字w,任何子串wi..j 满足:
证明思路 :
Episturmian字每个长度最多一个right-maximal子串 结尾为a ∈ Σ的right-extensions形成后缀链 共有σ条这样的后缀链 每条链在子串中最多贡献1个super-maximal right-extension Corollary 3 :对任何episturmian字w,χ(wi..j ) ≤ σ + 2
Fibonacci字的精确刻画 (Lemma 11):
F_1 = b, F_2 = a, F_k = F_F_ 对于k ≥ 6,F_k$的唯一最小suffixient sets是:
{f_{k+1}, f_{k-1}, f_{k-1}-1, p},其中p ∈ {f_{k-2}+1, 2f_{k-2}+1}
修改Ukkonen的后缀树在线构造算法,在处理每个字符时同步维护最小suffixient set。
后缀树增强 :在后缀树节点上添加标记,标记super-maximal right-extensions的位置。
处理追加字符c的三种情况 :
s有标签为c的子节点 (情况1):s有≥2个子节点,无标签c (情况2):创建s的新叶子节点(标签c) 标记s的子节点c 取消标记s'的子节点c(如果已标记) s仅有一个子节点(标签a≠c) (情况3):标记s的两个子节点(a和c) 取消标记s'的子节点c(如果已标记) 取消标记s''的子节点a(如果已标记),其中s''是后缀链上第一个有其他子节点b≠a的节点 复杂度 :
空间:O(n) 时间:O(n)(在transdichotomous RAM模型下,多项式大小整数字母表) Theorem 1 :存在算法从左到右处理文本T,对每个n,处理完前缀T1..n 后确定T1..n 的最小suffixient set,使用O(n)空间和O(n)最坏情况时间。
注意 :本文是理论论文,主要贡献是理论结果和算法,没有传统意义上的实验评估部分。论文的"实验"是通过数学证明和构造性例子来验证理论结果。
构造性证明 :通过构造特定字符串族(如de Bruijn序列、Fibonacci字符串)来证明界的紧密性反例构造 :通过具体例子(如Example 1中的w_3)展示理论结果的正确性代码验证 :作者致谢中提到使用了Cenzato等人的代码来计算最小suffixient sets,用于提出和验证假设上界关系 :
下界关系 :
γ = O(χ)(已知结果4 ) δ ≤ χ(已知结果4 ) 分离结果 :
存在字符串族使χ = o(v)(Corollary 4,Fibonacci字符串) 由于v = O(r),这意味着χ严格小于r 操作 加性敏感性 乘性敏感性 追加字符 O(1) 可能非单调 前置字符 O(1) - 插入 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 删除 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 替换 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 旋转 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 反转 Ω(√n) O(max(1, log(n/δ log δ)) log δ)
Episturmian字 :
χ(wi..j ) ≤ σ + 2(Corollary 3) Fibonacci字 (k ≥ 6):
χ(F_k) = 4 最小suffixient sets的精确刻画(Lemma 11) De Bruijn序列 :
sre(w) = 2^k = Ω(n)(Lemma 5) χ = Ω(n) χ严格更小的情况 (Fibonacci字符串):
χ = O(1) c = Ω(log n) 因此χ = o(µ),对所有µ ∈ {z, z_no, z_e, z_end, v, g, g_rl, c} χ严格更大的情况 (de Bruijn序列):
χ = Ω(n) g = O(n/log n) 因此χ = Ω(g log n)(Corollary 5) χ = Ω(z_e · log n log log log n / (log log n)²)(Lemma 12) 结论 (Corollary 6):χ与µ ∈ {z, z_no, z_e, z_end, v, g, g_rl, c}不可比
Example 1 (Lemma 7的具体例子):
字符串w_3 = cbaa#₀baa₀caba#₁aba ₁caab#₂aab$₂
Super-maximal right-extensions :
baa和c baa#₀和baa₀; aba#₁和aba ₁; aab#₂和aab$₂ ca和cb; caa和cab aba和aab 总计:sre(w_3) = 14
反转字符串 w_3^R = ₂baa#₂baac ₁aba#₁abac$₀aab#₀aabc
Super-maximal right-extensions :
baa和$₂ baa#₂和baac; aba#₁和abac; aab#₀和aabc ac₀ ; a c ₀; ac ₀ ; a c ₁ aba和aab 总计:sre(w_3^R) = 12
验证:sre(w_3) - sre(w_3^R) = 2 = k - 1 ✓
抽象下界度量 :
δ :子串复杂度度量,maxₖ(|F_w(k)|/k)γ :最小string attractor大小18 Copy-paste类度量 :
z :Lempel-Ziv解析大小20 z_no :不允许短语重叠源的LZ解析z_e :贪心LZ-End解析大小z_end :最小LZ-End解析大小v :最小词典解析大小28 g :最小上下文无关文法大小g_rl :允许游程长度规则的文法大小c :最小拼贴系统大小b :最小双向宏方案大小32 BWT相关度量 :
r :BWT等字母游程数3 唯一已知可达且可搜索但不知是否可访问的度量 本文证明χ < r 已有研究考察了多种度量对字符串操作的敏感性:
Akagi等1 :b, z, g对编辑操作的敏感性 Giuliani等14,15 :r对反转和bit变化的敏感性 Fici等9,10 :BWT游程数对态射的敏感性 Navarro等29,30 :基于态射的重复性度量 原始工作 4,6 :
定义suffixient set和相关概念 证明γ = O(χ)和χ = O(r̄) 展示suffixient set支持模式匹配 算法工作 5 :
高效算法计算最小suffixient sets 从后缀数组和后缀树组件开始 非在线算法 本文贡献 :
更深入的理论刻画 更简单的在线算法 直接从文本构造,同时构建后缀树 组合学背景 8,16,21 :
Episturmian字:每个长度最多一个right-maximal子串 Right-special factors(即right-maximal子串)的研究 Fibonacci字作为epistandard字的特例 本文贡献 :
将suffixient sets与组合字理论联系起来 完整刻画Fibonacci字的最小suffixient sets 证明episturmian字子串的χ上界 度量定位 :χ被确立为严格小于r的度量,满足:γ = O(χ) = O(r) 存在字符串族使χ = o(r) 敏感性特征 :对追加/前置字符具有O(1)加性敏感性(理想特性) 对任意位置编辑操作具有Ω(log n)加性敏感性 对反转具有Ω(√n)加性敏感性 与copy-paste度量不可比 :χ既不总是更大也不总是更小,取决于字符串族高效在线计算 :可在O(n)时间和空间内在线计算可达性未知 :χ是否可达(即能否在O(χ)空间内表示字符串)仍是开放问题 与最小已知可达度量b的关系未知 访问机制依赖 :suffixient set支持搜索需要额外的随机访问机制 不像r那样可以直接支持搜索 理论界的紧密性 :χ = O(r)的常数因子为2,可能不紧 乘性敏感性的精确界仍不清楚 实际性能 :论文主要关注理论性质 在实际数据上的表现需要进一步实验验证 论文明确提出的开放问题:
可达性问题 :证明b = O(χ)将确立χ可达 或证明χ不可达,这将同时证明γ不可达 与δ的关系 :是否χ = O(δ log n)? de Bruijn序列上的Θ(log n)因子是否紧? 乘性敏感性 :是否sre(w')/sre(w) = O(1)对所有考虑的字符串操作? 插入操作的常数界是否存在? 与r的精确关系 :是否r = O(χ log χ)? 如果成立且χ对字符串操作有O(1)乘性敏感性,将使r的已知下界紧密 其他度量关系 :χ与b的关系(关键的可达性问题) χ与其他新提出度量的关系 完整的度量刻画 :通过上下界分析和分离结果,精确定位χ在度量层次中的位置紧密的界 :通过构造性证明(如de Bruijn序列、Fibonacci字符串)展示界的紧密性多角度分析 :从敏感性、特殊字符串族、与其他度量的关系等多个维度全面研究χ直接关系建立 :证明χ = O(r)而非之前的χ = O(r̄),这是更自然的刻画精细分析 :Fibonacci字符串最小suffixient sets的完整刻画(Lemma 11)展示了深入的组合分析能力简洁算法 :将复杂的suffixient set计算简化为对Ukkonen算法的优雅修改定义严谨 :所有概念都有精确的数学定义证明详细 :关键引理的证明思路清晰,易于验证例子丰富 :通过具体例子(如Example 1)帮助理解抽象概念图表直观 :Figure 1清晰展示度量之间的关系在线算法 :O(n)时间和空间的在线算法具有实际应用价值理论指导 :对χ的深入理解有助于设计基于suffixient set的压缩和索引结构度量选择 :为实际应用选择合适的重复性度量提供理论依据无实际数据测试 :论文完全是理论性的,没有在真实数据(如基因组数据)上的实验算法性能未知 :虽然给出O(n)算法,但实际运行时间、空间常数未知与现有工具比较 :未与Cenzato等人的实现5 进行详细性能比较关键问题悬而未决 :χ是否可达这一核心问题仍然开放与b的关系未知 :无法确定χ与最小已知可达度量的关系实用性受限 :如果χ不可达,其作为度量的实用价值将受限常数因子 :χ ≤ 2r的常数2可能不是最优的敏感性上界 :Lemma 8给出的上界相对复杂,可能不紧乘性敏感性 :未给出精确的乘性敏感性界特殊字符串族 :主要分析集中在de Bruijn序列、Fibonacci字符串等特殊情况一般性结果 :对一般字符串族的性质了解有限平均情况 :主要关注最坏情况,平均情况分析缺失理论完善 :填补了suffixient set理论研究的空白度量体系 :丰富了重复性度量的理论框架开放问题 :提出的问题将引导未来研究方向压缩算法 :为设计新的压缩算法提供理论基础索引结构 :suffixient set可用于构建空间高效的索引生物信息学 :在基因组数据压缩和查询中有潜在应用在线构造范式 :展示了如何将经典后缀树算法适配到新问题敏感性分析框架 :为分析其他度量的敏感性提供方法论参考可复现性良好 :理论结果易于验证,算法描述清晰但实现细节 :某些实现细节(如标记的具体维护)需要进一步澄清依赖假设 :某些结果依赖于transdichotomous RAM模型高度重复数据 :如基因组序列、版本控制系统、日志文件需要模式匹配 :suffixient set天然支持某些模式匹配查询在线处理 :数据流式到达,需要增量更新索引随机数据 :χ在低重复性数据上可能接近n,失去优势需要精确空间保证 :χ的可达性未知,无法保证实现O(χ)空间复杂查询 :suffixient set支持的查询类型有限相比BWT(r) :χ更小但需要额外访问机制相比LZ(z) :χ在某些情况更小(Fibonacci),某些情况更大(de Bruijn)相比文法(g) :类似地不可比Suffixient sets原始论文 :6 Depuydt et al., "Suffixient sets", 20234 Cenzato et al., "Suffixient arrays", 2025计算算法 :5 Cenzato et al., "On computing the smallest suffixient set", SPIRE 202433 Ukkonen, "On-line construction of suffix trees", 1995重复性度量综述 :25,26 Navarro, "Indexing highly repetitive string collections", ACM Computing Surveys 202127 Navarro, "Indexing highly repetitive string collections", arXiv 2022相关度量 :18 Kempa & Prezza, "String attractors", STOC 20183 Burrows & Wheeler, "BWT", 199420 Lempel & Ziv, "LZ complexity", 197628 Navarro et al., "Ordered parsings", IEEE TIT 2021敏感性研究 :1 Akagi et al., "Sensitivity of string compressors", Information and Computation 202315 Giuliani et al., "Bit catastrophes for BWT", Theory of Computing Systems 2025总体评价 :这是一篇高质量的理论论文,对suffixient set作为重复性度量进行了深入而全面的分析。主要贡献包括建立χ与r的直接关系、敏感性分析、特殊字符串族的精确刻画,以及简洁的在线算法。论文的理论分析严谨,证明详细,写作清晰。主要不足是缺乏实验验证和可达性问题未解决。论文为suffixient set的理论研究奠定了坚实基础,提出的开放问题将引导未来研究方向。建议后续工作关注实际数据上的性能评估和可达性问题的解决。