A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $Ï$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.
論文ID : 2506.05638タイトル : Smallest Suffixient Sets as a Repetitiveness Measure著者 : Gonzalo Navarro(チリ大学)、Giuseppe Romana(パレルモ大学)、Cristian Urbina(チリ大学)分類 : cs.FL(形式言語)、cs.DS(データ構造)、math.CO(組合せ論)発表日時 : 2025年10月29日(arXiv v2)論文リンク : https://arxiv.org/abs/2506.05638 本論文は、新しい組合せ対象であるsuffixient集合を繰り返し性の尺度として研究する。Suffixient集合は繰り返し文字列の本質的な情報を捉え、ランダムアクセス機構を提供しながら多様なパターンマッチングをサポートする。論文は最小suffixient集合のサイズχを繰り返し性の尺度として深く研究し、既知の尺度との関係を明確にし、様々な文字列操作に対する感度を調査する。研究結果の副産物として、最小suffixient集合を計算するシンプルなオンラインアルゴリズムを提供する。
人類ゲノムデータのような大規模で類似した文字列集合の出現に伴い、高度に繰り返される文字列を効率的に表現・検索することが重要な課題となっている。例えば、欧州の「1+ Million Genomes」プロジェクトは100万以上の人類ゲノムの配列決定を目指しており、生データは約750TBのストレージが必要だが、ゲノム間の高い類似性を利用すれば、ストレージを2桁圧縮できる。
繰り返し性を測定する方法を理解することは以下に重要である:
アクセスと検索機能を保持しながら圧縮表現を設計する 異なる圧縮スキームの空間効率を評価する 異なる尺度間の関係を理解し、どの空間コストでどの検索機能が得られるかを明確にする 複数の繰り返し性尺度が提案されているが、最近提案されたsuffixient集合のサイズχについては、既知の結果は以下に限定されている:
γ = O(χ)(γは最小string attractorのサイズ) χ = O(r̄)(r̄は逆向きBWTの等文字ラン数) しかし、χを繰り返し性の尺度として深く理解することはまだ不足している。特に:
χと他の尺度の正確な関係 χに対する文字列操作の影響 χが到達可能(reachable)であるかどうか 本論文は、χを繰り返し性の尺度として特性をより良く刻画することを目指し、特に以下に焦点を当てる:
χを既知の尺度体系に位置付ける 文字列更新操作がχに与える影響を研究する χとコピー・ペースト型尺度の比較可能性を探索する χの効率的な計算アルゴリズムを提供する χとBWTラン数rの直接的関係の確立 :χ = O(r)を証明し(以前のχ = O(r̄)ではなく)、特定の文字列族ではχ = o(v)を証明することで、χがrより厳密に小さいことを確立する(vは最小辞書解析のサイズ)文字列操作の感度分析 :χが単一文字の追加/前置で O(1) だけ増加することを証明 任意の編集操作または回転でχが Ω(log n) だけ増加することを証明 文字列反転でχが Ω(√n) だけ増加することを証明 Fibonacci文字列の完全な刻画 :Fibonacci文字列の唯一の2つのサイズ4の最小suffixient集合を完全に刻画し、すべてのepisturmian語の部分文字列がχ ≤ σ + 2を満たすことを証明するコピー・ペースト型尺度との非比較性 :χがほとんどのコピー・ペースト型尺度(z、z_no、z_e、z_end、v、g、g_rl、c)と比較不可能であることを証明する。χがより小さい文字列族と、χがより大きい文字列族が存在するシンプルなオンラインアルゴリズム :Ukkonen後置木構築アルゴリズムを修正して、O(n)空間とO(n)最悪時間で最小suffixient集合を計算する極めてシンプルなオンラインアルゴリズムを提案する核心的定義 :
Right-maximal部分文字列 :部分文字列xがright-maximalである場合、少なくとも2つの異なる記号a、b ∈ Σが存在して、xaとxbの両方がwの部分文字列であるRight-extension :各right-maximal部分文字列xについて、そのright-extensionsはxaの形の部分文字列であり、E_r(w)と記されるSuper-maximal extension :他のright-extensionの後置ではないright-extension。S_r(w)と記され、そのサイズはsre(w)と記されるSuffixient集合 :集合S ⊆ 1..n がwのsuffixient集合である場合、各right-extension x ∈ E_r(w)について、j ∈ Sが存在してxはw1..j の後置である最小suffixient集合 :suffixient集合Sが最小である場合、双射pos: S_r(w) → Sが存在して、各x ∈ S_r(w)はw1..pos(x) の後置である尺度χ :w ∈ Σ*かつ∉ F w について、 χ ( w ) = ∣ S ∣ と定義される。ここで S は w ∉ F_wについて、χ(w) = |S|と定義される。ここでSはw ∈ / F w について、 χ ( w ) = ∣ S ∣ と定義される。ここで S は w の最小suffixient集合である補題2 :w ∈ Σ*、c ∈ Σとすると:
sre(w) ≤ sre(wc) ≤ sre(w) + 2
証明の概要 :cを追加した後に現れる可能性のある新しいright-extensionsを分析する:
ケース1 :xcはwで既に現れているか、またはxaが任意のa≠cに対してwで現れていない → 新しいright-extensionsを生成しないケース2 :xaとxbが両方ともwに現れているが、xcは現れていない → xcは新しいright-extensionケース3 :xがwで常にa≠cの後に続く(したがってxaはright-extensionではない)→ xaとxcは両方とも新しいright-extensions重要な観察:
ケース1と2は合わせて最大1つの新しいsuper-maximal right-extensionを生成する ケース3では、固定されたaについて、すべての新しいright-extensions x₁a、x₂a、...、x_taは後置チェーンを形成し、x_taだけがsuper-maximalである可能性がある したがって、最大2つのsuper-maximal right-extensionsが追加される。
補題9 :χ ≤ 2r
証明の概要 :
x_iをw$の辞書順i番目の回転とする u_iをx_iとx_{i+1}の最長共通接頭辞とする s(i)をx_iを循環右シフトしてw$を得るのに必要なシフト量とする suffixient集合を構築する:
S = ∪_{i∈[1..|w|]} {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1}
BWT行列の性質を利用する:BWTi = BWTi+1 = cの場合、対応する位置が一致するjが存在する。したがって:
S = {s(i) + |u_i| + 1, s(i+1) + |u_i| + 1 | BWT[i] ≠ BWT[i+1]}
|S| ≤ 2r(rはBWTの等文字ラン数)。
de Bruijn数列 (下界に使用):
k次二進de Bruijn数列は、長さkのすべての二進文字列を正確に1回含む 長さn = 2^k + (k-1) 補題5 :sre(w) = 2^k = Ω(n)はすべてのw ∈ dB(k)に対して成立する編集操作のΩ(log n)下界 (補題6):
辞書順最小のde Bruijn数列w = a^k b a^{k-2} b x a b^k a^{k-1}を使用する:
挿入:sre(w) - sre(w') = 2^k - 2 置換:sre(w) - sre(w') = 2^k - 3 削除:sre(w) - sre(w') = 2^k - 4 回転:sre(w) - sre(w') = 2^k - 2 反転のΩ(√n)下界 (補題7):
w_k = ∏_^{k-1} c a^i b a^{k-i-1} #_i a^i b a^{k-i-1} $_i を構築する:
sre(w_k) - sre(w_k^R) = k - 1 |w_k| = Θ(k²) したがって増加はΩ(√n) 補題10 :アルファベットサイズがσのepisturmian語wについて、任意の部分文字列wi..j は以下を満たす:
証明の概要 :
Episturmian語は各長さで最大1つのright-maximal部分文字列を持つ aで終わるright-extensionsは後置チェーンを形成する σ個のそのようなチェーンが存在する 各チェーンは部分文字列で最大1つのsuper-maximal right-extensionに寄与する 系3 :任意のepisturmian語wについて、χ(wi..j ) ≤ σ + 2
Fibonacci文字列の正確な刻画 (補題11):
F_1 = b、F_2 = a、F_k = F_F_ k ≥ 6について、F_k$の唯一の最小suffixient集合は:
{f_{k+1}, f_{k-1}, f_{k-1}-1, p}、ここでp ∈ {f_{k-2}+1, 2f_{k-2}+1}
Ukkonen後置木オンライン構築アルゴリズムを修正して、各文字を処理する際に同時に最小suffixient集合を維持する。
後置木の拡張 :後置木ノードにマーク付けを追加して、super-maximal right-extensionsの位置をマークする。
文字cを追加する際の3つのケース処理 :
sがcのラベル付き子ノードを持つ場合 (ケース1):新しいsへ下降するだけ マーク付けを更新する必要がない sが≥2個の子ノードを持ち、cのラベル付きノードがない場合 (ケース2):sの新しい葉ノード(ラベルc)を作成 sの子ノードcをマーク付けする s'の子ノードcのマーク付けを解除する(既にマーク付けされている場合) sが1つの子ノード(ラベルa≠c)のみを持つ場合 (ケース3):sの2つの子ノード(aとc)をマーク付けする s'の子ノードcのマーク付けを解除する(既にマーク付けされている場合) s''の子ノードaのマーク付けを解除する(既にマーク付けされている場合)。ここでs''は後置チェーン上で他の子ノードb≠aを持つ最初のノード 計算量 :
空間:O(n) 時間:O(n)(transdichotomous RAMモデルにおいて、多項式サイズ整数アルファベット) 定理1 :テキストTを左から右に処理し、前置T1..n の処理後にT1..n の最小suffixient集合を決定するアルゴリズムが存在し、O(n)空間とO(n)最悪時間を使用する。
注記 :本論文は理論論文であり、主な貢献は理論的結果とアルゴリズムであり、従来の意味での実験評価セクションはない。論文の「実験」は数学的証明と構成的例を通じて理論的結果を検証することである。
構成的証明 :特定の文字列族(de Bruijn数列、Fibonacci文字列など)を構築して、界の厳密性を証明する反例構築 :具体的な例(例1のw_3など)を通じて理論的結果の正確性を示すコード検証 :著者謝辞でCenzatoらのコードを使用して最小suffixient集合を計算し、仮説を提案・検証したことが言及されている上界関係 :
下界関係 :
γ = O(χ)(既知結果4 ) δ ≤ χ(既知結果4 ) 分離結果 :
χ = o(v)を満たす文字列族が存在する(系4、Fibonacci文字列) v = O(r)であるため、これはχがrより厳密に小さいことを意味する 操作 加法感度 乗法感度 文字追加 O(1) 単調でない可能性 文字前置 O(1) - 挿入 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 削除 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 置換 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 回転 Ω(log n) O(max(1, log(n/δ log δ)) log δ) 反転 Ω(√n) O(max(1, log(n/δ log δ)) log δ)
Episturmian語 :
Fibonacci文字列 (k ≥ 6):
χ(F_k) = 4 最小suffixient集合の正確な刻画(補題11) de Bruijn数列 :
sre(w) = 2^k = Ω(n)(補題5) χ = Ω(n) χがより小さい場合 (Fibonacci文字列):
χ = O(1) c = Ω(log n) したがってχ = o(µ)、すべてのµ ∈ {z、z_no、z_e、z_end、v、g、g_rl、c} χがより大きい場合 (de Bruijn数列):
χ = Ω(n) g = O(n/log n) したがってχ = Ω(g log n)(系5) χ = Ω(z_e · log n log log log n / (log log n)²)(補題12) 結論 (系6):χはµ ∈ {z、z_no、z_e、z_end、v、g、g_rl、c}と比較不可能
例1 (補題7の具体例):
文字列w_3 = cbaa#₀baa₀caba#₁aba ₁caab#₂aab$₂
Super-maximal right-extensions :
baaとc baa#₀とbaa₀; aba#₁とaba ₁; aab#₂とaab$₂ caとcb; caaとcab abaとaab 合計:sre(w_3) = 14
反転文字列 w_3^R = ₂baa#₂baac ₁aba#₁abac$₀aab#₀aabc
Super-maximal right-extensions :
baaと$₂ baa#₂とbaac; aba#₁とabac; aab#₀とaabc ac₀ ; a c ₀; ac ₀ ; a c ₁ abaとaab 合計:sre(w_3^R) = 12
検証:sre(w_3) - sre(w_3^R) = 2 = k - 1 ✓
抽象的下界尺度 :
δ :部分文字列複雑度尺度、maxₖ(|F_w(k)|/k)γ :最小string attractorのサイズ18 γ = O(χ)が既知 γが到達可能かどうかはまだ未解決問題 コピー・ペースト型尺度 :
z :Lempel-Ziv解析サイズ20 z_no :短句の重複を許さないLZ解析z_e :貪欲LZ-End解析サイズz_end :最小LZ-End解析サイズv :最小辞書解析サイズ28 g :最小文脈自由文法サイズg_rl :ラン長規則を許す文法サイズc :最小タイリングシステムサイズb :最小双方向マクロスキームサイズ32 BWT関連尺度 :
r :BWT等文字ラン数3 到達可能で検索可能だが、アクセス可能かどうか不明な唯一の既知尺度 本論文でχ < rを証明 複数の尺度が文字列操作に対する感度を考察している:
Akagi等1 :b、z、gの編集操作に対する感度 Giuliani等14,15 :rの反転とビット変化に対する感度 Fici等9,10 :BWT ラン数の態射に対する感度 Navarro等29,30 :態射に基づく繰り返し性尺度 原始的研究 4,6 :
Suffixient集合と関連概念の定義 γ = O(χ)とχ = O(r̄)の証明 Suffixient集合がパターンマッチングをサポートすることを示す アルゴリズム研究 5 :
最小suffixient集合を計算する効率的なアルゴリズム 後置配列と後置木コンポーネントから開始 非オンラインアルゴリズム 本論文の貢献 :
より深い理論的刻画 より単純なオンラインアルゴリズム テキストから直接構築しながら後置木を同時に構築 組合せ論的背景 8,16,21 :
Episturmian語:各長さで最大1つのright-maximal部分文字列 Right-special factors(すなわちright-maximal部分文字列)の研究 Fibonacci文字列をepisturmian語の特例として 本論文の貢献 :
Suffixient集合を組合せ文字論と関連付ける Fibonacci文字列の最小suffixient集合を完全に刻画 Episturmian語の部分文字列のχ上界を証明 尺度の位置付け :χはrより厳密に小さい尺度として確立され、以下を満たす:γ = O(χ) = O(r) χ = o(r)を満たす文字列族が存在する 感度の特性 :文字の追加/前置に対してO(1)の加法感度を持つ(理想的特性) 任意の位置の編集操作に対してΩ(log n)の加法感度を持つ 反転に対してΩ(√n)の加法感度を持つ コピー・ペースト型尺度との非比較性 :χは常により大きいわけでも、常により小さいわけでもなく、文字列族に依存する効率的なオンライン計算 :O(n)時間と空間でオンラインで計算可能到達可能性が不明 :χが到達可能(O(χ)空間で文字列を表現可能)かどうかはまだ未解決問題 最小既知到達可能尺度bとの関係が不明 アクセス機構への依存 :Suffixient集合が検索をサポートするには追加のランダムアクセス機構が必要 rのように直接検索をサポートできない 理論的界の厳密性 :χ = O(r)の定数因子は2であり、最適でない可能性がある 乗法感度の正確な界はまだ不明 理論的分析の範囲 :χが到達可能でない場合、尺度としての実用価値が制限される 実データでの性能はさらなる実験検証が必要 論文が明示的に提起する未解決問題:
到達可能性問題 :b = O(χ)を証明すればχの到達可能性が確立される またはχが到達可能でないことを証明し、同時にγも到達可能でないことを証明する δとの関係 :χ = O(δ log n)か? de Bruijn数列上のΘ(log n)因子は厳密か? 乗法感度 :すべての考慮される文字列操作に対してsre(w')/sre(w) = O(1)か? 挿入操作に対して定数界が存在するか? rとの正確な関係 :r = O(χ log χ)か? 成立し、χが文字列操作に対してO(1)の乗法感度を持つ場合、rの既知下界を厳密にする 他の尺度との関係 :χとbの関係(重要な到達可能性問題) χと他の新しく提案された尺度との関係 完全な尺度刻画 :上下界分析と分離結果を通じて、χを尺度階層に正確に位置付ける厳密な界 :構成的証明(de Bruijn数列、Fibonacci文字列など)を通じて界の厳密性を示す多角的分析 :感度、特殊文字列族、他の尺度との関係など、複数の観点からχを包括的に研究直接的関係の確立 :χ = O(r)を証明し、以前のχ = O(r̄)より自然な刻画を提供細密な分析 :Fibonacci文字列の最小suffixient集合の完全な刻画(補題11)は深い組合せ分析能力を示す簡潔なアルゴリズム :複雑なsuffixient集合計算をUkkonen アルゴリズムの優雅な修正に簡略化厳密な定義 :すべての概念が正確な数学的定義を持つ詳細な証明 :重要な補題の証明の概要が明確で検証しやすい豊富な例 :具体的な例(例1など)が抽象的概念の理解を助ける直感的な図表 :図1が尺度間の関係を明確に示すオンラインアルゴリズム :O(n)時間と空間のオンラインアルゴリズムは実用的応用価値がある理論的指導 :χの深い理解はsuffixient集合に基づく圧縮とインデックス構造の設計に役立つ尺度選択 :実用的応用で適切な繰り返し性尺度を選択するための理論的根拠を提供実データテストなし :論文は完全に理論的であり、実データ(ゲノムデータなど)での実験がないアルゴリズム性能不明 :O(n)アルゴリズムが提供されているが、実行時間と空間定数が不明既存ツールとの比較なし :Cenzatoらの実装5 との詳細な性能比較がない重要な問題が未決定 :χが到達可能かどうかという核心的問題がまだ未解決bとの関係不明 :最小既知到達可能尺度との関係が不明実用性が制限される :χが到達可能でない場合、尺度としての実用価値が制限される定数因子 :χ ≤ 2rの定数2は最適でない可能性がある感度上界 :補題8で与えられた上界は比較的複雑で、最適でない可能性がある乗法感度 :正確な乗法感度界が与えられていない特殊文字列族 :分析はde Bruijn数列、Fibonacci文字列などの特殊な場合に集中一般的結果の不足 :一般的な文字列族の性質の理解が限定的平均ケース分析の欠如 :最悪ケースに焦点を当て、平均ケース分析がない理論の完善 :Suffixient集合理論研究の空白を埋める尺度体系の充実 :繰り返し性尺度の理論フレームワークを豊かにする未解決問題の提起 :提起された問題が将来の研究方向を導く圧縮アルゴリズム :新しい圧縮アルゴリズムの設計に理論的基礎を提供インデックス構造 :Suffixient集合を使用した空間効率的なインデックスの構築生物情報学 :ゲノムデータの圧縮と検索に潜在的応用オンライン構築パラダイム :古典的後置木アルゴリズムを新しい問題に適応させる方法を示す感度分析フレームワーク :他の尺度の感度分析に方法論的参考を提供再現性が良好 :理論的結果は検証しやすく、アルゴリズム記述は明確実装詳細 :特定の実装詳細(マーク付けの具体的な維持方法など)はさらなる明確化が必要仮定への依存 :特定の結果はtransdichotomous RAMモデルに依存高度に繰り返されるデータ :ゲノム配列、バージョン管理システム、ログファイルなどパターンマッチングが必要 :Suffixient集合は特定のパターンマッチング検索を自然にサポートオンライン処理 :データがストリーム状に到着し、インデックスを増分更新する必要があるランダムデータ :χが低繰り返しデータでnに近づき、利点を失う正確な空間保証が必要 :χの到達可能性が不明なため、O(χ)空間実装を保証できない複雑なクエリ :Suffixient集合がサポートするクエリタイプは限定的BWT(r)との比較 :χはより小さいが追加のアクセス機構が必要LZ(z)との比較 :χは特定の場合(Fibonacci)でより小さく、他の場合(de Bruijn)でより大きい文法(g)との比較 :同様に比較不可能Suffixient集合の原始的論文 :6 Depuydt et al.、「Suffixient sets」、20234 Cenzato et al.、「Suffixient arrays」、2025計算アルゴリズム :5 Cenzato et al.、「On computing the smallest suffixient set」、SPIRE 202433 Ukkonen、「On-line construction of suffix trees」、1995繰り返し性尺度のサーベイ :25,26 Navarro、「Indexing highly repetitive string collections」、ACM Computing Surveys 202127 Navarro、「Indexing highly repetitive string collections」、arXiv 2022関連尺度 :18 Kempa & Prezza、「String attractors」、STOC 20183 Burrows & Wheeler、「BWT」、199420 Lempel & Ziv、「LZ complexity」、197628 Navarro et al.、「Ordered parsings」、IEEE TIT 2021感度研究 :1 Akagi et al.、「Sensitivity of string compressors」、Information and Computation 202315 Giuliani et al.、「Bit catastrophes for BWT」、Theory of Computing Systems 2025総合評価 :これは高品質な理論論文であり、suffixient集合を繰り返し性の尺度として深く包括的に分析している。主な貢献には、χとrの直接的関係の確立、感度分析、特殊文字列族の正確な刻画、および簡潔なオンラインアルゴリズムが含まれる。論文の理論分析は厳密で、証明は詳細で、記述は明確である。主な不足は実験検証の欠如と到達可能性問題が未解決であることである。論文はsuffixient集合の理論研究に堅実な基礎を築き、提起された未解決問題は将来の研究方向を導くであろう。後続の研究では、実データでの性能評価と到達可能性問題の解決に焦点を当てることを推奨する。