2025-11-15T06:04:11.942321

Smallest Suffixient Sets as a Repetitiveness Measure

Navarro, Romana, Urbina

A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $Ï$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.

academic

Smallest Suffixient Sets as a Repetitiveness Measure

基本信息

论文ID: 2506.05638
标题: Smallest Suffixient Sets as a Repetitiveness Measure
作者: Gonzalo Navarro (University of Chile), Giuseppe Romana (University of Palermo), Cristian Urbina (University of Chile)
分类: cs.FL (Formal Languages), cs.DS (Data Structures), math.CO (Combinatorics)
发表时间: 2025年10月29日 (arXiv v2)
论文链接: https://arxiv.org/abs/2506.05638

摘要

本文研究suffixient set这一新型组合对象作为重复性度量的性质。Suffixient set能够捕获重复字符串的本质信息，并在提供随机访问机制的情况下支持多种模式匹配。论文深入研究最小suffixient set的大小χ作为重复性度量的特性：将其定位在已知度量之间，研究其对各种字符串操作的敏感性。作为研究结果的副产品，论文给出了一个简单的在线算法来计算最小suffixient set。

研究背景与动机

1. 要解决的问题

随着大规模相似字符串集合（如人类基因组数据）的出现，如何有效表示和查询高度重复的字符串成为关键挑战。例如，欧洲"1+ Million Genomes"计划旨在测序超过一百万个人类基因组，原始数据需要约750TB存储空间，但利用基因组之间的高度相似性，可以将存储空间压缩两个数量级。

2. 问题的重要性

理解如何度量重复性对于：

设计压缩表示，同时保持访问和搜索功能
评估不同压缩方案的空间效率
理解不同度量之间的关系，从而明确在何种空间代价下可获得何种搜索功能

3. 现有方法的局限性

已有多种重复性度量被提出，从抽象下界到与特定文本压缩器相关的度量。对于最近提出的suffixient set大小χ，现有研究仅知道：

γ = O(χ)（γ是最小string attractor的大小）
χ = O(r̄)（r̄是反向字符串BWT的等字母游程数）

但对χ作为重复性度量的更深入理解仍然缺乏，特别是：

χ与其他度量的精确关系
χ对字符串操作的敏感性
χ是否可达（reachable）

4. 研究动机

本文旨在更好地刻画χ作为重复性度量的特性，特别关注：

将χ定位在已知度量体系中
研究字符串更新操作对χ的影响
探索χ与copy-paste类度量的可比性
提供高效的χ计算算法

核心贡献

建立χ与BWT游程数r的直接关系：证明χ = O(r)（而非之前的χ = O(r̄)），并在某些字符串族上证明χ = o(v)（v是最小词典解析大小），从而确立χ严格小于r
字符串操作敏感性分析：
- 证明χ在追加/前置单个字符时仅增长O(1)
- 证明任意编辑操作或旋转可使χ增长Ω(log n)
- 证明字符串反转可使χ增长Ω(√n)
Fibonacci字符串的完整刻画：完全刻画Fibonacci字符串的唯一2个大小为4的最小suffixient set，并证明所有episturmian字的子串满足χ ≤ σ + 2
与copy-paste度量的不可比性：证明χ与大多数copy-paste类度量（z, z_no, z_e, z_end, v, g, g_rl, c）不可比——存在字符串族使χ严格更小，也存在字符串族使χ严格更大
简单在线算法：提出一个极其简单的在线算法，通过修改Ukkonen后缀树构造算法，在O(n)空间和O(n)最坏情况时间内计算最小suffixient set

方法详解

任务定义

核心定义：

Right-maximal子串：子串x是right-maximal的，如果存在至少两个不同符号a, b ∈ Σ使得xa和xb都是w的子串
Right-extension：对于每个right-maximal子串x，其right-extensions是形如xa的子串，记为E_r(w)
Super-maximal extension：不是任何其他right-extension后缀的right-extension，记为S_r(w)，其大小记为sre(w)
Suffixient set：集合S ⊆ 1..n是w的suffixient set，如果对每个right-extension x ∈ E_r(w)，存在j ∈ S使得x是w1..j的后缀
最小suffixient set：suffixient set S是最小的，如果存在双射pos: S_r(w) → S使得每个x ∈ S_r(w)是w1..pos(x)的后缀
度量χ：对于w ∈ Σ*且 $∉ F_w，定义χ(w) = |S|，其中S是w$ 的最小suffixient set

理论分析框架

1. 追加字符的影响（核心引理）

Lemma 2：设w ∈ Σ*，c ∈ Σ，则：

sre(w) ≤ sre(wc) ≤ sre(w) + 2

证明思路：分析追加c后可能出现的新right-extensions：

情况1：xc在w中已出现，或xa对任何a≠c都不在w中出现 → 不产生新right-extensions
情况2：存在a≠b使xa和xb都在w中，但xc不在 → xc是新right-extension
情况3：x在w中总是后接a≠c（因此xa不是right-extension）→ xa和xc都是新right-extensions

关键观察：

情况1和2合计最多产生1个新super-maximal right-extension
情况3中，对于固定的a，所有新的right-extensions x₁a, x₂a, ..., x_ta形成后缀链，只有x_ta可能是super-maximal的

因此最多增加2个super-maximal right-extensions。

2. 与BWT游程数r的关系

Lemma 9：χ ≤ 2r

证明思路：

设x_i为w$的第i个字典序旋转
设u_i为x_i和x_{i+1}的最长公共前缀
定义s(i)为将x_i循环右移得到w$所需的位移量

构造suffixient set：

S = ∪_{i∈[1..|w|]} {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1}

利用BWT矩阵性质：如果BWTi = BWTi+1 = c，则存在j使得相应位置重合。因此：

S = {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1 | BWT[i] ≠ BWT[i+1]}

|S| ≤ 2r（r是BWT的等字母游程数）。

3. 敏感性分析

De Bruijn序列（用于下界）：

k阶二进制de Bruijn序列包含所有长度为k的二进制串恰好一次
长度n = 2^k + (k-1)
Lemma 5：sre(w) = 2^k = Ω(n)对任何w ∈ dB(k)成立

编辑操作的Ω(log n)下界（Lemma 6）：使用字典序最小的de Bruijn序列w = a^k b a^{k-2} b x a b^k a^{k-1}：

插入：sre(w) - sre(w') = 2^k - 2
替换：sre(w) - sre(w') = 2^k - 3
删除：sre(w) - sre(w') = 2^k - 4
旋转：sre(w) - sre(w') = 2^k - 2

反转的Ω(√n)下界（Lemma 7）：构造w_k = ∏_^{k-1} c a^i b a^{k-i-1} #_i a^i b a^{k-i-1} $_i：

sre(w_k) - sre(w_k^R) = k - 1
|w_k| = Θ(k²)
因此增长为Ω(√n)

4. Episturmian字的性质

Lemma 10：对于字母表大小为σ的episturmian字w，任何子串wi..j满足：

sre(w[i..j]) ≤ σ

证明思路：

Episturmian字每个长度最多一个right-maximal子串
结尾为a ∈ Σ的right-extensions形成后缀链
共有σ条这样的后缀链
每条链在子串中最多贡献1个super-maximal right-extension

Corollary 3：对任何episturmian字w，χ(wi..j) ≤ σ + 2

Fibonacci字的精确刻画（Lemma 11）：

F_1 = b, F_2 = a, F_k = F_F_

对于k ≥ 6，F_k$的唯一最小suffixient sets是：

{f_{k+1}, f_{k-1}, f_{k-1}-1, p}，其中p ∈ {f_{k-2}+1, 2f_{k-2}+1}

在线算法设计

核心思想

修改Ukkonen的后缀树在线构造算法，在处理每个字符时同步维护最小suffixient set。

算法关键点

后缀树增强：在后缀树节点上添加标记，标记super-maximal right-extensions的位置。

处理追加字符c的三种情况：

s有标签为c的子节点（情况1）：
- 仅下降到新的s
- 无需更新标记
s有≥2个子节点，无标签c（情况2）：
- 创建s的新叶子节点（标签c）
- 标记s的子节点c
- 取消标记s'的子节点c（如果已标记）
s仅有一个子节点（标签a≠c）（情况3）：
- 标记s的两个子节点（a和c）
- 取消标记s'的子节点c（如果已标记）
- 取消标记s''的子节点a（如果已标记），其中s''是后缀链上第一个有其他子节点b≠a的节点

复杂度：

空间：O(n)
时间：O(n)（在transdichotomous RAM模型下，多项式大小整数字母表）

Theorem 1：存在算法从左到右处理文本T，对每个n，处理完前缀T1..n后确定T1..n的最小suffixient set，使用O(n)空间和O(n)最坏情况时间。

实验设置

注意：本文是理论论文，主要贡献是理论结果和算法，没有传统意义上的实验评估部分。论文的"实验"是通过数学证明和构造性例子来验证理论结果。

理论验证方法

构造性证明：通过构造特定字符串族（如de Bruijn序列、Fibonacci字符串）来证明界的紧密性
反例构造：通过具体例子（如Example 1中的w_3）展示理论结果的正确性
代码验证：作者致谢中提到使用了Cenzato等人的代码来计算最小suffixient sets，用于提出和验证假设

实验结果

主要理论结果

1. χ与已知度量的关系

上界关系：

χ ≤ 2r（Lemma 9）
χ = O(r)

下界关系：

γ = O(χ)（已知结果4）
δ ≤ χ（已知结果4）

分离结果：

存在字符串族使χ = o(v)（Corollary 4，Fibonacci字符串）
由于v = O(r)，这意味着χ严格小于r

2. 敏感性结果总结

操作	加性敏感性	乘性敏感性
追加字符	O(1)	可能非单调
前置字符	O(1)	-
插入	Ω(log n)	O(max(1, log(n/δ log δ)) log δ)
删除	Ω(log n)	O(max(1, log(n/δ log δ)) log δ)
替换	Ω(log n)	O(max(1, log(n/δ log δ)) log δ)
旋转	Ω(log n)	O(max(1, log(n/δ log δ)) log δ)
反转	Ω(√n)	O(max(1, log(n/δ log δ)) log δ)

3. 特定字符串族的精确值

Episturmian字：

χ(wi..j) ≤ σ + 2（Corollary 3）

Fibonacci字（k ≥ 6）：

χ(F_k) = 4
最小suffixient sets的精确刻画（Lemma 11）

De Bruijn序列：

sre(w) = 2^k = Ω(n)（Lemma 5）
χ = Ω(n)

4. 与copy-paste度量的比较

χ严格更小的情况（Fibonacci字符串）：

χ = O(1)
c = Ω(log n)
因此χ = o(µ)，对所有µ ∈ {z, z_no, z_e, z_end, v, g, g_rl, c}

χ严格更大的情况（de Bruijn序列）：

χ = Ω(n)
g = O(n/log n)
因此χ = Ω(g log n)（Corollary 5）
χ = Ω(z_e · log n log log log n / (log log n)²)（Lemma 12）

结论（Corollary 6）：χ与µ ∈ {z, z_no, z_e, z_end, v, g, g_rl, c}不可比

案例分析

Example 1（Lemma 7的具体例子）：

字符串w_3 = cbaa#₀baa $₀caba#₁aba$ ₁caab#₂aab$₂

Super-maximal right-extensions：

baa和c
baa#₀和baa $₀; aba#₁和aba$ ₁; aab#₂和aab$₂
ca和cb; caa和cab
aba和aab

总计：sre(w_3) = 14

反转字符串w_3^R = $₂baa#₂baac$ ₁aba#₁abac$₀aab#₀aabc

Super-maximal right-extensions：

baa和$₂
baa#₂和baac; aba#₁和abac; aab#₀和aabc
ac $₀; ac$ ₁
aba和aab

总计：sre(w_3^R) = 12

验证：sre(w_3) - sre(w_3^R) = 2 = k - 1 ✓

结论与讨论

主要结论

度量定位：χ被确立为严格小于r的度量，满足：
- γ = O(χ) = O(r)
- 存在字符串族使χ = o(r)
敏感性特征：
- 对追加/前置字符具有O(1)加性敏感性（理想特性）
- 对任意位置编辑操作具有Ω(log n)加性敏感性
- 对反转具有Ω(√n)加性敏感性
与copy-paste度量不可比：χ既不总是更大也不总是更小，取决于字符串族
高效在线计算：可在O(n)时间和空间内在线计算

局限性

可达性未知：
- χ是否可达（即能否在O(χ)空间内表示字符串）仍是开放问题
- 与最小已知可达度量b的关系未知
访问机制依赖：
- suffixient set支持搜索需要额外的随机访问机制
- 不像r那样可以直接支持搜索
理论界的紧密性：
- χ = O(r)的常数因子为2，可能不紧
- 乘性敏感性的精确界仍不清楚
实际性能：
- 论文主要关注理论性质
- 在实际数据上的表现需要进一步实验验证

未来方向

论文明确提出的开放问题：

可达性问题：
- 证明b = O(χ)将确立χ可达
- 或证明χ不可达，这将同时证明γ不可达
与δ的关系：
- 是否χ = O(δ log n)？
- de Bruijn序列上的Θ(log n)因子是否紧？
乘性敏感性：
- 是否sre(w')/sre(w) = O(1)对所有考虑的字符串操作？
- 插入操作的常数界是否存在？
与r的精确关系：
- 是否r = O(χ log χ)？
- 如果成立且χ对字符串操作有O(1)乘性敏感性，将使r的已知下界紧密
其他度量关系：
- χ与b的关系（关键的可达性问题）
- χ与其他新提出度量的关系

深度评价

优点

1. 理论贡献扎实

完整的度量刻画：通过上下界分析和分离结果，精确定位χ在度量层次中的位置
紧密的界：通过构造性证明（如de Bruijn序列、Fibonacci字符串）展示界的紧密性
多角度分析：从敏感性、特殊字符串族、与其他度量的关系等多个维度全面研究χ

2. 技术创新性

直接关系建立：证明χ = O(r)而非之前的χ = O(r̄)，这是更自然的刻画
精细分析：Fibonacci字符串最小suffixient sets的完整刻画（Lemma 11）展示了深入的组合分析能力
简洁算法：将复杂的suffixient set计算简化为对Ukkonen算法的优雅修改

3. 写作清晰

定义严谨：所有概念都有精确的数学定义
证明详细：关键引理的证明思路清晰，易于验证
例子丰富：通过具体例子（如Example 1）帮助理解抽象概念
图表直观：Figure 1清晰展示度量之间的关系

4. 实用价值

在线算法：O(n)时间和空间的在线算法具有实际应用价值
理论指导：对χ的深入理解有助于设计基于suffixient set的压缩和索引结构
度量选择：为实际应用选择合适的重复性度量提供理论依据

不足

1. 实验验证缺失

无实际数据测试：论文完全是理论性的，没有在真实数据（如基因组数据）上的实验
算法性能未知：虽然给出O(n)算法，但实际运行时间、空间常数未知
与现有工具比较：未与Cenzato等人的实现5进行详细性能比较

2. 可达性问题未解决

关键问题悬而未决：χ是否可达这一核心问题仍然开放
与b的关系未知：无法确定χ与最小已知可达度量的关系
实用性受限：如果χ不可达，其作为度量的实用价值将受限

3. 某些界可能不紧

常数因子：χ ≤ 2r的常数2可能不是最优的
敏感性上界：Lemma 8给出的上界相对复杂，可能不紧
乘性敏感性：未给出精确的乘性敏感性界

4. 分析范围限制

特殊字符串族：主要分析集中在de Bruijn序列、Fibonacci字符串等特殊情况
一般性结果：对一般字符串族的性质了解有限
平均情况：主要关注最坏情况，平均情况分析缺失

影响力

1. 对领域的贡献

理论完善：填补了suffixient set理论研究的空白
度量体系：丰富了重复性度量的理论框架
开放问题：提出的问题将引导未来研究方向

2. 潜在应用

压缩算法：为设计新的压缩算法提供理论基础
索引结构：suffixient set可用于构建空间高效的索引
生物信息学：在基因组数据压缩和查询中有潜在应用

3. 方法论贡献

在线构造范式：展示了如何将经典后缀树算法适配到新问题
敏感性分析框架：为分析其他度量的敏感性提供方法论参考

4. 局限性

可复现性良好：理论结果易于验证，算法描述清晰
但实现细节：某些实现细节（如标记的具体维护）需要进一步澄清
依赖假设：某些结果依赖于transdichotomous RAM模型

适用场景

1. 理想应用场景

高度重复数据：如基因组序列、版本控制系统、日志文件
需要模式匹配：suffixient set天然支持某些模式匹配查询
在线处理：数据流式到达，需要增量更新索引

2. 不适用场景

随机数据：χ在低重复性数据上可能接近n，失去优势
需要精确空间保证：χ的可达性未知，无法保证实现O(χ)空间
复杂查询：suffixient set支持的查询类型有限

3. 与其他方法的比较

相比BWT（r）：χ更小但需要额外访问机制
相比LZ（z）：χ在某些情况更小（Fibonacci），某些情况更大（de Bruijn）
相比文法（g）：类似地不可比

参考文献

关键引用

Suffixient sets原始论文：
- 6 Depuydt et al., "Suffixient sets", 2023
- 4 Cenzato et al., "Suffixient arrays", 2025
计算算法：
- 5 Cenzato et al., "On computing the smallest suffixient set", SPIRE 2024
- 33 Ukkonen, "On-line construction of suffix trees", 1995
重复性度量综述：
- 25,26 Navarro, "Indexing highly repetitive string collections", ACM Computing Surveys 2021
- 27 Navarro, "Indexing highly repetitive string collections", arXiv 2022
相关度量：
- 18 Kempa & Prezza, "String attractors", STOC 2018
- 3 Burrows & Wheeler, "BWT", 1994
- 20 Lempel & Ziv, "LZ complexity", 1976
- 28 Navarro et al., "Ordered parsings", IEEE TIT 2021
敏感性研究：
- 1 Akagi et al., "Sensitivity of string compressors", Information and Computation 2023
- 15 Giuliani et al., "Bit catastrophes for BWT", Theory of Computing Systems 2025

总体评价：这是一篇高质量的理论论文，对suffixient set作为重复性度量进行了深入而全面的分析。主要贡献包括建立χ与r的直接关系、敏感性分析、特殊字符串族的精确刻画，以及简洁的在线算法。论文的理论分析严谨，证明详细，写作清晰。主要不足是缺乏实验验证和可达性问题未解决。论文为suffixient set的理论研究奠定了坚实基础，提出的开放问题将引导未来研究方向。建议后续工作关注实际数据上的性能评估和可达性问题的解决。