Smallest Suffixient Sets as a Repetitiveness Measure
Navarro, Romana, Urbina
A suffixient set is a novel combinatorial object that captures the essential information of repetitive strings in a way that, provided with a random access mechanism, supports various forms of pattern matching. In this paper, we study the size $Ï$ of the smallest suffixient set as a repetitiveness measure: we place it between known measures and study its sensitivity to various string operations. As a corollary of our results, we give a simple online algorithm to compute smallest suffixient sets.
academic
Наименьшие достаточные множества как мера повторяемости
В данной работе исследуются свойства достаточных множеств (suffixient sets) как новых комбинаторных объектов для измерения повторяемости. Достаточные множества способны захватывать существенную информацию повторяющихся строк и поддерживают различные операции поиска по образцу при наличии механизма случайного доступа. Статья глубоко изучает размер χ наименьшего достаточного множества как меру повторяемости: позиционирует его среди известных мер, исследует его чувствительность к различным операциям над строками. Как побочный продукт исследования, авторы предлагают простой онлайн-алгоритм для вычисления наименьшего достаточного множества.
С появлением крупномасштабных наборов похожих строк (таких как данные человеческого генома) возникает ключевая задача эффективного представления и запроса высоко повторяющихся строк. Например, европейский проект "1+ Million Genomes" нацелен на секвенирование более одного миллиона человеческих геномов, где исходные данные требуют примерно 750 ТБ дискового пространства, но благодаря высокой схожести между геномами можно сжать объем хранилища на два порядка величины.
Предложено множество мер повторяемости, от абстрактных нижних границ до мер, связанных с конкретными компрессорами текста. Для недавно предложенного размера достаточного множества χ известно только:
γ = O(χ) (γ — размер наименьшего string attractor)
χ = O(r̄) (r̄ — количество равных букв серий в обратном BWT)
Однако более глубокое понимание χ как меры повторяемости все еще отсутствует, в частности:
Установление прямого отношения между χ и количеством серий BWT r: Доказано, что χ = O(r) (вместо предыдущего χ = O(r̄)), и на некоторых семействах строк доказано χ = o(v) (v — размер минимального словарного разбора), что устанавливает χ строго меньше r
Анализ чувствительности операций над строками:
Доказано, что χ растет на O(1) при добавлении/предварении одного символа
Доказано, что любая операция редактирования или ротация может увеличить χ на Ω(log n)
Доказано, что обращение строки может увеличить χ на Ω(√n)
Полная характеризация строк Фибоначчи: Полностью охарактеризованы единственные 2 наименьших достаточных множества размера 4 для строк Фибоначчи, и доказано, что все подстроки эпистурмовых слов удовлетворяют χ ≤ σ + 2
Несравнимость с мерами copy-paste: Доказано, что χ несравнима с большинством мер типа copy-paste (z, z_no, z_e, z_end, v, g, g_rl, c) — существуют семейства строк, где χ строго меньше, и семейства, где χ строго больше
Простой онлайн-алгоритм: Предложен исключительно простой онлайн-алгоритм, модифицирующий алгоритм построения суффиксного дерева Укконена, который вычисляет наименьшее достаточное множество за O(n) пространства и O(n) наихудшего времени
Right-maximal подстрока: Подстрока x является right-maximal, если существуют по крайней мере два различных символа a, b ∈ Σ такие, что xa и xb оба являются подстроками w
Right-extension: Для каждой right-maximal подстроки x, её right-extensions — это подстроки вида xa, обозначаемые E_r(w)
Super-maximal extension: Right-extension, который не является суффиксом никакого другого right-extension, обозначаемый S_r(w), его размер обозначается sre(w)
Достаточное множество: Множество S ⊆ 1..n является достаточным множеством для w, если для каждого right-extension x ∈ E_r(w) существует j ∈ S такой, что x является суффиксом w1..j
Наименьшее достаточное множество: Достаточное множество S является наименьшим, если существует биекция pos: S_r(w) → S такая, что каждый x ∈ S_r(w) является суффиксом w1..pos(x)
Мера χ: Для w ∈ Σ* и ∈/Fwопределяетсяχ(w)=∣S∣,гдеS—наименьшеедостаточноемножествоw
k-порядковая двоичная последовательность де Брейна содержит все двоичные строки длины k ровно один раз
Длина n = 2^k + (k-1)
Лемма 5: sre(w) = 2^k = Ω(n) для любого w ∈ dB(k)
Нижняя граница Ω(log n) для операций редактирования (Лемма 6):
Используется лексикографически минимальная последовательность де Брейна w = a^k b a^{k-2} b x a b^k a^{k-1}:
Вставка: sre(w) - sre(w') = 2^k - 2
Замена: sre(w) - sre(w') = 2^k - 3
Удаление: sre(w) - sre(w') = 2^k - 4
Ротация: sre(w) - sre(w') = 2^k - 2
Нижняя граница Ω(√n) для обращения (Лемма 7):
Построение w_k = ∏_^{k-1} c a^i b a^{k-i-1} #_i a^i b a^{k-i-1} $_i:
Расширение суффиксного дерева: Добавление меток на узлы суффиксного дерева, отмечающих позиции super-maximal right-extensions.
Обработка трёх случаев при добавлении символа c:
s имеет дочерний узел с меткой c (Случай 1):
Только спуск к новому s
Обновление меток не требуется
s имеет ≥2 дочерних узлов, без метки c (Случай 2):
Создание нового листового узла s (метка c)
Отметить дочерний узел s с меткой c
Снять отметку с дочернего узла s' с меткой c (если отмечен)
s имеет только один дочерний узел (метка a≠c) (Случай 3):
Отметить оба дочерних узла s (a и c)
Снять отметку с дочернего узла s' с меткой c (если отмечен)
Снять отметку с дочернего узла s'' с меткой a (если отмечен), где s'' — первый узел в цепи суффиксов с другим дочерним узлом b≠a
Сложность:
Пространство: O(n)
Время: O(n) (в трансдихотомной RAM-модели с целыми числами полиномиального размера)
Теорема 1: Существует алгоритм, обрабатывающий текст T слева направо, который после обработки префикса T1..n определяет наименьшее достаточное множество T1..n, используя O(n) пространства и O(n) наихудшего времени.
Примечание: Данная статья является теоретической работой, основные вклады которой — теоретические результаты и алгоритмы, без традиционного раздела экспериментальной оценки. "Экспериментами" в этой работе являются математические доказательства и конструктивные примеры для проверки теоретических результатов.
Конструктивные доказательства: Через построение специфических семейств строк (таких как последовательности де Брейна, строки Фибоначчи) для доказательства плотности границ
Построение контрпримеров: Через конкретные примеры (как Example 1 с w_3) для демонстрации корректности теоретических результатов
Проверка кода: В благодарностях авторы упоминают использование кода Cenzato и др. для вычисления наименьших достаточных множеств, применяемого для выдвижения и проверки гипотез
28 Navarro и др., "Ordered parsings", IEEE TIT 2021
Исследования чувствительности:
1 Akagi и др., "Sensitivity of string compressors", Information and Computation 2023
15 Giuliani и др., "Bit catastrophes for BWT", Theory of Computing Systems 2025
Общая оценка: Это высококачественная теоретическая работа, проводящая глубокий и всесторонний анализ достаточных множеств как меры повторяемости. Основные вклады включают установление прямого отношения χ с r, анализ чувствительности, точную характеризацию специальных семейств строк и простой онлайн-алгоритм. Теоретический анализ работы строг, доказательства подробны, изложение ясно. Основные недостатки — отсутствие экспериментальной проверки и нерешённая проблема достижимости. Работа закладывает прочную основу для теоретического исследования достаточных множеств, предложенные открытые проблемы будут направлять будущие исследования. Рекомендуется, чтобы последующие работы сосредоточились на оценке производительности на реальных данных и решении проблемы достижимости.