Correlation Clustering is a fundamental clustering problem, and there has been a line of work on improving the approximation ratio for this problem in recent years. A key algorithmic component in these works is the cluster LP. Chromatic Correlation Clustering is an interesting generalization that has also been intensively studied. In light of success of the cluster LP in Correlation Clustering, it would be an interesting question whether the cluster LP can be used in Chromatic Correlation Clustering. We answer this question with affirmatives by presenting a $(2+\varepsilon)$-approximation algorithm for Chromatic Correlation Clustering using a chromatic cluster LP.
- ID статьи: 2510.13446
- Название: Chromatic correlation clustering via cluster LP
- Авторы: Fateme Abbasi, Hyung-Chan An, Jarosław Byrka, Changyeol Lee, Yongho Shin
- Классификация: cs.DS (Структуры данных и алгоритмы)
- Дата публикации: 15 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.13446
Корреляционная кластеризация является фундаментальной задачей кластеризации, и в последние годы были получены значительные улучшения коэффициентов приближения для этой задачи. Ключевым алгоритмическим компонентом в этих работах является кластерное LP. Хроматическая корреляционная кластеризация представляет собой интересное обобщение, которое также получило глубокое изучение. Учитывая успех кластерного LP в корреляционной кластеризации, возникает естественный вопрос: может ли кластерное LP быть применено к хроматической корреляционной кластеризации? В данной статье мы дают положительный ответ на этот вопрос, предложив (2+ε)-приближенный алгоритм с использованием хроматического кластерного LP.
- Задача корреляционной кластеризации: Корреляционная кластеризация является фундаментальной задачей в комбинаторной оптимизации и машинном обучении, целью которой является разбиение вершин на несколько кластеров таким образом, чтобы концы положительных ребер (+ребер) находились в одном кластере, а концы отрицательных ребер (-ребер) находились в разных кластерах.
- Хроматическая корреляционная кластеризация: Это обобщение корреляционной кластеризации, в котором каждое положительное ребро имеет цветовую метку, и вершины в одном кластере должны быть соединены ребрами одного цвета.
- Исследовательская мотивация:
- Коэффициенты приближения для корреляционной кластеризации постоянно улучшаются, возрастая с первоначального 3-приближения до текущего 1.437-приближения
- Кластерное LP является ключевым техническим компонентом этих улучшений
- Существующие методы для хроматической корреляционной кластеризации ограничены алгоритмами, игнорирующими цвета, сведением к стандартной корреляционной кластеризации или использованием стандартной LP-релаксации
- Последний 2.15-приближенный алгоритм все еще основан на методе сведения
Исследование того, может ли техника кластерного LP быть непосредственно применена к хроматической корреляционной кластеризации для получения лучших коэффициентов приближения, имеет важное значение как для теории, так и для практики.
- Предложение хроматического кластерного LP: Разработано естественное обобщение кластерного LP из корреляционной кластеризации, применимое к задаче хроматической корреляционной кластеризации
- Полиномиальное решение: Доказано, что хроматическое кластерное LP может быть приближенно решено за полиномиальное время
- 2-приближенный алгоритм округления: Разработан алгоритм для округления допустимых решений хроматического кластерного LP в целочисленные решения с коэффициентом приближения 2
- (2+ε)-приближенный алгоритм: Объединение вышеуказанных двух результатов дает (2+ε)-приближенный алгоритм для хроматической корреляционной кластеризации, улучшающий предыдущее 2.15-приближение
- Техника предкластеризации: Обобщение концепции предкластеризации из корреляционной кластеризации на хроматический случай, что является ключевым для достижения полиномиального решения
Входные данные:
- Множество цветов L
- Полный граф, каждое ребро помечено как +ребро или -ребро
- Каждому +ребру e сопоставлен цвет ce∈L
Выходные данные:
- Разбиение вершин C
- Функция раскраски χ:C→L, назначающая цвет каждому кластеру
Цель: Минимизировать количество несогласованных ребер, где несогласованное ребро определяется как:
- -ребро, оба конца которого находятся в одном кластере
- +ребро, концы которого находятся в разных кластерах
- +ребро, концы которого находятся в одном кластере, но цвет кластера не совпадает с цветом ребра
Основная линейная релаксация программирования определяется как:
min∑S⊆V,ℓ∈L(2∣δ+(S)∣+∣E−ℓ[S]∣)zSℓ
Ограничения:
∑S∋v,ℓ∈LzSℓ=1,∀v∈VzSℓ≥0,∀S⊆V,∀ℓ∈L
Где:
- zSℓ указывает, является ли множество S кластером цвета ℓ
- δ+(S) — множество +ребер, пересекающих S
- E−ℓ[S] — множество всех ребер в S, кроме +ребер цвета ℓ
Этап первый: Построение предкластеризации
- Использование константного приближенного алгоритма для получения начального решения (Cinit,χinit)
- Маркировка вершин, удовлетворяющих определенным условиям (на основе параметров α,β)
- Построение предкластеризации K и назначения цветов χpre
Этап второй: Ограниченное подкластерное LP
- Ограничение пространства поиска кластерами размером не более r=Θ(ε−12)
- Построение LP полиномиального размера и его решение
Этап третий: Выборка методом Монте-Карло
- Выборка Δy∅ раскрашенных кластеров из LP-решения
- Использование алгоритма округления Рагхавендры-Тана
- Построение финального допустимого решения
- Хроматическая предкластеризация:
- Обобщение концепции предкластеризации на хроматический случай
- Доказательство того, что оптимальное решение должно уважать структуру предкластеризации
- Контроль количества допустимых ребер на уровне O(ε−2)opt
- Алгоритм округления на основе кластеров:
- Разработка специализированного вероятностного процесса округления
- Анализ вероятности того, что различные типы ребер становятся несогласованными
- Доказательство 2-кратного коэффициента приближения
Данная статья является работой в области теоретической информатики, основные вклады которой сосредоточены на разработке алгоритмов и теоретическом анализе, без включения раздела экспериментальной оценки. Исследование сосредоточено на:
- Теоретическом анализе: Доказательство корректности алгоритма и коэффициента приближения
- Анализе сложности: Доказательство полиномиальной временной сложности алгоритма
- Математических доказательствах: Проверка результатов через строгие математические выводы
Теорема 3.2: Для допустимого решения хроматического кластерного LP алгоритм на основе кластеров выдает целочисленное решение, ожидаемая стоимость которого не превышает в 2 раза стоимость LP-решения.
Теорема 4.3: Существует полиномиальный алгоритм построения экземпляра предкластеризации, удовлетворяющего:
- Существованию решения, уважающего предкластеризацию, со стоимостью не более (1+O(ε))opt
- Количеству допустимых ребер ∣Eadm∣≤O(ε−2)opt
Основной результат: Для хроматической корреляционной кластеризации существует (2+ε)-приближенный алгоритм, улучшающий предыдущее 2.15-приближение.
- Построение предкластеризации: O(n2) времени
- Решение LP: poly(n,ε−1) времени
- Выборка методом Монте-Карло: nO(ε−12) времени
- Классические результаты: 3-приближенный алгоритм Банзала и др.
- Недавний прогресс: Улучшение коэффициента приближения до 1.437 с использованием техники кластерного LP
- Ключевые методы: Иерархия Шерали-Адамса, техника предкластеризации
- Алгоритмы, игнорирующие цвета: Методы, не учитывающие информацию о цветах
- Методы сведения: Преобразование в задачу стандартной корреляционной кластеризации
- Округление LP: Алгоритмы округления на основе стандартной LP-релаксации
- Последние результаты: 2.15-приближение и 1.64-приближение Ли и др.
По сравнению с существующими работами, данная статья впервые непосредственно применяет технику кластерного LP к хроматической корреляционной кластеризации, избегая потерь, связанных со сведением.
- Хроматическое кластерное LP может быть приближенно решено за полиномиальное время
- Существует алгоритм округления с 2-кратным приближением
- В целом получен (2+ε)-приближенный алгоритм, улучшающий существующее лучшее 2.15-приближение
- Временная сложность: Хотя это полиномиальное время, оно экспоненциально зависит от ε−1
- Коэффициент приближения: Остается место для улучшения, существует разрыв с 1.437-приближением для стандартной корреляционной кластеризации
- Практическое применение: Отсутствует экспериментальная проверка фактической производительности алгоритма
- Исследование возможности достижения того же коэффициента приближения, что и для стандартной корреляционной кластеризации
- Улучшение временной сложности алгоритма
- Изучение теоретического разделения коэффициентов приближения между двумя задачами
- Теоретическая инновация: Впервые успешно применена техника кластерного LP к хроматической корреляционной кластеризации
- Техническая глубина: Обобщение техники предкластеризации имеет высокую техническую сложность
- Улучшение результатов: Теоретическое улучшение существующих лучших результатов
- Строгость доказательств: Полный и строгий математический анализ
- Отсутствие экспериментов: Как алгоритмическая работа, статья не содержит экспериментальной проверки
- Высокая сложность: Фактическое время выполнения алгоритма может быть значительным
- Ограниченное улучшение: Улучшение с 2.15 до 2 относительно скромно
- Применимость: Обобщаемость метода требует дальнейшей проверки
- Теоретический вклад: Предоставляет новый технический путь для хроматической корреляционной кластеризации
- Методологическое значение: Обобщение техники кластерного LP имеет методологическую ценность
- Основа для дальнейших исследований: Закладывает основу для дальнейшего улучшения коэффициента приближения
- Теоретические исследования: Предоставляет новый случай для теории приближенных алгоритмов
- Практическое применение: Применимо к задачам кластеризации, требующим учета ограничений на цвета ребер
- Разработка алгоритмов: Предоставляет техническую справку для связанных задач оптимизации
Статья цитирует 24 важные работы, включая:
- Bansal, Blum, Chawla (2004) — основополагающая работа по корреляционной кластеризации
- Cao и др. (2024) — 1.437-приближенный алгоритм
- Cohen-Addad и др. (2023) — техника предкластеризации
- Lee и др. (2025) — последние результаты по хроматической корреляционной кластеризации
- Raghavendra, Tan (2012) — техника алгоритма округления
Эти работы составляют важную теоретическую основу и техническую поддержку для исследований в данной статье.