A Branch-and-Bound Approach for Maximum Low-Diameter Dense Subgraph Problems
Zhou, Luo, Wang et al.
A graph with $n$ vertices is an $f(\cdot)$-dense graph if it has at least $f(n)$ edges, $f(\cdot)$ being a well-defined function. The notion $f(\cdot)$-dense graph encompasses various clique models like $γ$-quasi cliques, $k$-defective cliques, and dense cliques, arising in cohesive subgraph extraction applications. However, the $f(\cdot)$-dense graph may be disconnected or weakly connected. To conquer this, we study the problem of finding the largest $f(\cdot)$-dense subgraph with a diameter of at most two in the paper. Specifically, we present a decomposition-based branch-and-bound algorithm to optimally solve this problem. The key feature of the algorithm is a decomposition framework that breaks the graph into $n$ smaller subgraphs, allowing independent searches in each subgraph. We also introduce decomposition strategies including degeneracy and two-hop degeneracy orderings, alongside a branch-and-bound algorithm with a novel sorting-based upper bound to solve each subproblem. Worst-case complexity for each component is provided. Empirical results on 139 real-world graphs under two $f(\cdot)$ functions show our algorithm outperforms the MIP solver and pure branch-and-bound, solving nearly twice as many instances optimally within one hour.
academic
Подход ветвей и границ для задач поиска максимальных плотных подграфов с малым диаметром
Название: A Branch-and-Bound Approach for Maximum Low-Diameter Dense Subgraph Problems
Авторы: Yi Zhou (Университет электронной науки и технологии Китая), Chunyu Luo (Университет электронной науки и технологии Китая), Zhengren Wang (Пекинский университет), Zhang-Hua Fu (Шэньчжэньский институт искусственного интеллекта и робототехники для общества, CUHK Shenzhen)
Классификация: cs.DS (Структуры данных и алгоритмы)
В данной работе исследуется задача поиска максимального подграфа с низким диаметром и свойством f(·)-плотности (MfDS). f(·)-плотный граф — это граф с n вершинами и не менее f(n) рёбер, где f(·) — некоторая определённая функция. Это понятие охватывает различные модели релаксации клик, включая γ-квазиклики, k-дефектные клики и плотные клики. Однако f(·)-плотные графы могут быть несвязными или слабо связными. Для решения этой проблемы в работе исследуется поиск максимального f(·)-плотного подграфа с диаметром не более 2. Предложен алгоритм ветвей и границ на основе декомпозиции графа для оптимального решения задачи. Ключевой особенностью алгоритма является разложение графа на n меньших подграфов, позволяющее проводить независимый поиск в каждом подграфе. В работе также введены стратегии декомпозиции, такие как упорядочение по вырожденности и упорядочение по двухшаговой вырожденности, а также алгоритм ветвей и границ с новыми верхними границами на основе упорядочения. Экспериментальные результаты на 139 реальных графах показывают, что предложенный алгоритм превосходит решатели MIP и чистые методы ветвей и границ, оптимально решая почти в два раза больше экземпляров в течение одного часа.
В анализе сетей выявление плотно связанных подграфов (cohesive subgraph) является центральной задачей с приложениями в обнаружении сообществ, идентификации белковых комплексов, анализе финансовых сетей и других областях. Классическая модель клики требует наличия рёбер между всеми парами вершин, что является слишком строгим требованием, особенно в практических приложениях с шумом и ошибками. Поэтому были предложены различные модели релаксации клик:
γ-квазиклика: индуцированный подграф на n вершинах содержит не менее γ(n choose 2) рёбер
s-дефектная клика: содержит не менее (n choose 2) - s рёбер
средняя s-plex: содержит не менее n(n-s)/2 рёбер
Эти модели могут быть объединены в единую концепцию f(·)-плотного графа: граф с n вершинами содержит не менее f(n) рёбер.
Существующие модели f(·)-плотных графов имеют серьёзный недостаток: они могут быть несвязными или иметь слабую связность. Авторы демонстрируют это на примере двух графов (рис. 1):
G1: клика из 200 вершин плюс путь из 10 вершин, где расстояние от v1 до v210 составляет 10 шагов
G2: клика из 200 вершин плюс 10 изолированных вершин, между v1 и v210 нет пути
Оба графа удовлетворяют требованию плотности f(n)=0.9(n choose 2), но явно не являются плотно связанными сообществами.
Методы MIP: хотя существуют модели смешанного целочисленного программирования для конкретных функций f(·) (например, GF3), они неэффективны для больших графов и не включают ограничения на малый диаметр
Методы ветвей и границ: существуют алгоритмы для конкретных задач (максимальная s-дефектная клика, максимальная γ-квазиклика), но отсутствует универсальная схема решения для f(·)-плотных графов
Ограничения связности: Santos et al. (2024) предложили ограничения связности на основе остовного дерева, но ограничения на диаметр лучше гарантируют плотную связность
В работе вводится концепция f(·)-плотного графа с низким диаметром: требуется, чтобы граф был связным, содержал не менее f(n) рёбер и имел диаметр не более 2. Ограничение диаметра 2 (называемое 2-club) гарантирует, что кратчайший путь между любыми двумя вершинами не превышает 2, обеспечивая сильную связность. Целью работы является разработка эффективных точных алгоритмов для решения этой NP-трудной задачи.
Впервые систематически определены f(·)-плотные графы и их наследственные свойства
Формализована задача поиска максимального подграфа с низким диаметром и свойством f(·)-плотности (MfDS)
Предоставлена модель смешанного целочисленного линейного программирования MIP-fD
Алгоритмическая схема:
Предложена схема предварительной обработки на основе декомпозиции графа, разлагающая входной граф на n меньших подграфов
Введены две стратегии декомпозиции: упорядочение по вырожденности (degeneracy ordering) и упорядочение по двухшаговой вырожденности (two-hop degeneracy ordering)
Разработан алгоритм ветвей и границ с новыми верхними границами на основе упорядочения
Предоставлен анализ сложности в наихудшем случае для всех компонентов и общего алгоритма
Экспериментальная верификация:
Тестирование на 139 реальных графах с двумя типами функций f(·) (γ-квазиклики и s-дефектные клики)
Демонстрация того, что схема декомпозиции значительно улучшает производительность, решая в два раза больше экземпляров за час по сравнению с чистым методом ветвей и границ
Показано, что метод верхних границ на основе упорядочения значительно сокращает размер дерева поиска
Ключевая лемма (Lemma 3): Для любого упорядочения вершин графа G π=⟨v1,...,vn⟩ определим для каждой вершины vi:
Vi = {vi} ∪ {N^(2)_G(vi) ∩ {vi+1,...,vn}}
Gi = GVi
Если S_i — максимальный подграф с низким диаметром и свойством f(·)-плотности в Gi, содержащий vi, то:
**ωf(G) = max(|S_1|,...,|S*_n|)**
Поток алгоритма:
1. Получить начальное решение S с помощью эвристического алгоритма (нижняя граница)
2. Определить порядок вершин π с помощью алгоритма упорядочения
3. Для каждого vi в π:
- Построить подграф Gi = G[Vi]
- Решить ExactSearch(Gi, f(·), {vi}, N^(2)_G(vi), lb)
4. Вернуть максимальное решение из всех подзадач
Основан на упорядочении по вырожденности (degeneracy ordering):
Определение: k-вырожденное упорядочение — это упорядочение вершин ⟨v1,...,vn⟩, такое что каждая вершина vi имеет степень ≤ k в индуцированном подграфе {vi,...,vn}
Вычисление: использование алгоритма peel, O(|V|+|E|) времени, повторное удаление вершин с минимальной степенью
Вырожденность dG: минимальное значение k
Эвристический поток:
1. Вычислить упорядочение по вырожденности ⟨v1,...,vn⟩
2. Для каждого vi:
- Si ← {vi} ∪ {NG(vi) ∩ {vi+1,...,vn}}
- Gi ← G[Si] (диаметр ≤ 2)
- While |Ei| < f(|Si|):
Удалить вершину с минимальной степенью из Gi
- Обновить оптимальное решение S*
3. Вернуть S*
Временная сложность: O(|E| + |V|d²G)
В реальных графах dG << |V| (например, ca-dblp-2010: dG=74, |V|=226413)
BranchBound(G, S, C, lb):
Входные данные: граф G, текущее решение S, множество кандидатов C, нижняя граница lb
1. Если G[S] — допустимое решение и |S|>lb: обновить lb и оптимальное решение
2. Если f(·) наследственна и |E(S)|<f(|S|): отсечение, возврат
3. UB ← SortBound(G, f(·), S, C) // вычисление верхней границы
4. Если UB ≤ lb: отсечение, возврат
5. Если f(·) наследственна: применить правила сокращения (Lemma 5)
6. Случайно выбрать u∈C
7. Если выполнены условия Lemma 4: рекурсивно обработать только ветвь S∪{u}
Иначе: рекурсивно обработать обе ветви S∪{u} и S
Простая верхняя граница игнорирует рёбра между S и C
Простая верхняя граница не учитывает ограничение на двухшаговый диаметр
Поток алгоритма:
1. Использовать жадный алгоритм для разбиения C на χ независимых множеств Π1,...,Πχ
(минимизация χ ≈ задача раскраски графа, жадный алгоритм O(|C|³))
2. Для каждого Πi:
a. Упорядочить Πi по wS(v)
b. Дополнительно разбить Πi на несколько Rσ, такие что любые две вершины в Rσ находятся на расстоянии >2
c. Из каждого Rσ выбрать вершину с минимальным wS(·) и добавить в C'
d. Вычислить w'S(uj) = wS(uj) + j - 1
3. Упорядочить C' по w'S(·), найти максимальное k такое что |E(S)| + w'S(Sk) ≤ gf(|S|+k)
4. Вернуть |S|+k
Временная сложность: O(|C|³ + |S||C|)
Корректность (Theorem 3):
Из каждого независимого множества Πi можно выбрать не более s'i вершин
Из каждого Rσ можно выбрать не более 1 вершины из-за ограничения на двухшаговый диаметр
Veremyev et al. (2016): "Exact MIP-based approaches for finding maximum quasi-cliques and dense subgraphs" — предложены модели MIP GF3
Luo et al. (2024): "A faster branching algorithm for the maximum k-defective clique problem" — ECAI 2024, алгоритм O(nc·1.2ⁿ)
Chang (2023): "Efficient maximum k-defective clique computation with improved time complexity" — PACMMOD, улучшенные ветви и границы
Santos et al. (2024): "Ensuring connectedness for the maximum quasi-clique and densest k-subgraph problems" — ограничения связности на основе остовного дерева
Wünsche (2021): "Mind the gap when searching for relaxed cliques" — впервые предложено упорядочение по двухшаговой вырожденности
Matula & Beck (1983): "Smallest-last ordering and clustering and graph coloring algorithms" — классическая работа по упорядочению по вырожденности
Asahiro et al. (2002): "Complexity of finding dense subgraphs" — результаты сложности для f(·)-плотных графов
Downey & Fellows (2012): "Parameterized complexity" — теория W1-трудности
Общая оценка: Это высококачественная статья с строгой теорией, инновационными алгоритмами и полными экспериментами. Схема декомпозиции и методы верхних границ на основе упорядочения имеют высокую универсальность и практическую ценность. Основной вклад заключается в объединении различных моделей релаксации клик и предоставлении эффективного алгоритма решения. Рекомендуется принятие. Работа имеет важное значение для области алгоритмов на графах и анализа сетей.