2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa

We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.

academic

Регуляризованная разреженная оптимальная дискриминантная кластеризация

Основная информация

ID статьи: 2501.10147
Название: Regularized Sparse Optimal Discriminant Clustering
Авторы: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Университет Досиша)
Классификация: stat.ME (статистические методы)
Дата публикации: 15 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2501.10147

Аннотация

В данной работе предлагается новый метод, основанный на разреженной оптимальной дискриминантной кластеризации (SODC), который включает штрафной член, основанный на выпуклой кластеризации, в матрицу оценок. Путём добавления этого штрафного члена авторы ожидают повысить точность идентификации кластеров за счёт сближения точек внутри одного кластера и отталкивания точек из разных кластеров. При визуализации результатов оценки структура кластеров становится более чёткой. Кроме того, авторы разработали новый алгоритм, использующий мажоризирующие функции для вывода формулы обновления матрицы оценок. Матрица оценок обновляется с помощью метода чередующихся направлений множителей (ADMM), который часто используется для вычисления параметров целевой функции выпуклой кластеризации.

Исследовательский контекст и мотивация

Определение проблемы

Кластеризация с уменьшением размерности широко используется для интерпретации характеристик больших сложных данных. Она оценивает низкомерное пространство для идентификации кластеров, сохраняя при этом важные характеристики высокомерных данных и обеспечивая эффективную обработку. Существующие методы оптимальной дискриминантной кластеризации (ODC) и разреженной оптимальной дискриминантной кластеризации (SODC), хотя и описывают кластеры более чётко, чем анализ главных компонент, имеют следующие недостатки:

Проблема структуры матрицы оценок: матрица оценок в SODC не сохраняет структуру идентификации кластеров, аналогичную оптимальным оценкам в LDA
Отсутствие независимой информационной матрицы кластеров: ODC и SODC не содержат независимую матрицу, содержащую информацию о кластерах, что может влиять на точность оценки кластеризации
Неудовлетворительный эффект визуализации: при снижении размерности данных до низкомерного пространства и визуализации результатов SODC может не обеспечить хорошо разделённую структуру кластеров

Исследовательская мотивация

Для решения указанных проблем авторы предлагают добавить штрафной член, основанный на выпуклой кластеризации, в SODC, чтобы матрица оценок обеспечивала более чёткую структуру кластеров по сравнению с традиционным SODC, сближая точки данных из одного кластера и разделяя точки из разных кластеров.

Основные вклады

Предложение метода RSODC: добавление регуляризирующего члена, основанного на выпуклой кластеризации, к SODC для улучшения точности идентификации кластеров
Разработка нового алгоритма: использование мажоризирующих функций для вывода формулы обновления матрицы оценок с одновременным удовлетворением ортогональных ограничений и требований структуры кластеров
Оптимизационная схема ADMM: применение метода чередующихся направлений множителей для обновления матрицы оценок с эффективной обработкой сложных ограничений
Теоретическая и эмпирическая верификация: проверка эффективности метода посредством численного моделирования и применения к реальным данным

Подробное описание метода

Определение задачи

Дана матрица данных $X \in \mathbb{R}^{n \times p}$ , целью является идентификация $k$ кластеров в низкомерном пространстве с одновременным выполнением отбора переменных и уменьшения размерности.

Архитектура модели

Целевая функция RSODC

Задача оптимизации RSODC определяется как:

$\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2$

при ограничениях: $Y^{\dagger\top}Y^{\dagger} = I_{k-1}$ и $Y^{\dagger\top}1 = 0$

где:

первые три члена совпадают с SODC
четвёртый член — штрафной член, основанный на выпуклой кластеризации, поощряющий сближение похожих образцов
$\alpha_{i,j}$ — веса, вычисляемые как: $\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)$

Декомпозиция ADMM

Для применения алгоритма ADMM задача переформулируется как:

$\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2$

при ограничениях:

$y_i - y_j = v_l$
$Y^{\top}Y = I_{k-1}$
$Y^{\top}1 = 0$

Технические инновации

Метод мажоризирующих функций

Ключевая инновация заключается в использовании мажоризирующих функций для обработки квадратичных членов при обновлении матрицы оценок. Для квадратичной формы $\text{tr}(Y^{\top}CY)$ строится мажоризирующая функция:

$\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)$

где $\omega$ — наибольшее собственное значение $C = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}$ .

Ортогональный анализ Прокруста

Посредством мажоризирующей функции обновление Y преобразуется в задачу ортогонального Прокруста:

$\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I$

Решение имеет вид $Y \leftarrow LR^{\top}$ , где $D = L\Sigma R^{\top}$ — сингулярное разложение.

Экспериментальная установка

Наборы данных

Смоделированные данные:
- количество образцов $n = 60, 96, 156$
- количество переменных $p = 20, 50, 80, 100$
- количество кластеров $k = 3, 4$
- количество информативных переменных $q = 2$
Реальные данные: протеомные данные рака молочной железы (breast TCGA)
- 150 образцов, 142 белка
- 3 подтипа рака: Basal, Her2, LumA
- выбрано 10 информативных переменных и 70 неинформативных переменных

Метрики оценки

Скорректированный индекс Рэнда (ARI): оценка точности кластеризации
Отношение дисперсий: отношение внутрикластерной дисперсии к межкластерной дисперсии
Чувствительность и специфичность: оценка эффективности отбора переменных

Методы сравнения

Разреженная оптимальная дискриминантная кластеризация (SODC)
Тандемная кластеризация (Tandem clustering)
Уменьшенный k-means (Reduced k-means)
Факторный k-means (Factorial k-means)
t-SNE

Детали реализации

Выбор параметров: перекрёстная проверка на основе коэффициента каппа
$\eta_2 = 0$ , $\tau = 0.1$ , $\delta = 25$
Порог сходимости: $\epsilon > 0$

Результаты экспериментов

Основные результаты

Эксперименты на смоделированных данных

Во всех смоделированных сценариях RSODC превосходит методы сравнения по метрике ARI:

При k=3: RSODC показывает лучшие результаты почти во всех конфигурациях
При k=4: производительность RSODC превосходит все методы сравнения
Стабильность: с увеличением $p$ RSODC остаётся стабильным, тогда как SODC становится нестабильным
Качество кластеризации: с увеличением расстояния между центрами кластеров $\vartheta$ значение ARI для RSODC растёт более явно

Применение к реальным данным

Результаты на данных рака молочной железы:

Метод	ARI( $X\hat{B}$ )	ARI( $\hat{Y}$ )	Отношение дисперсий( $X\hat{B}$ )	Отношение дисперсий( $\hat{Y}$ )
RSODC	0.406	0.441	3.038	3.056
SODC	0.401	0.363	2.909	2.660

Абляционные эксперименты

Анализ чувствительности параметров

Параметры взвешивания: наибольшее значение ARI достигается при $\tau = 0$ и $\delta = 0.01$
Параметры настройки: различные комбинации $\eta_1, \gamma, \rho$ оказывают незначительное влияние на результаты
Выбор количества кластеров: статистика разрыва эффективно определяет истинное количество кластеров

Вычислительная сложность

Время вычисления RSODC больше, чем у SODC, особенно при большом $n$ , но обеспечивает лучшее качество кластеризации.

Анализ конкретных случаев

Результаты визуализации показывают, что RSODC способен:

плотнее группировать точки внутри одного кластера
более отчётливо разделять точки из разных кластеров
обеспечивать более чёткие границы кластеров

Связанные работы

Методы кластеризации с уменьшением размерности

Оптимальная дискриминантная кластеризация (ODC): Zhang и Dai (2009) основаны на оптимальных оценках линейного дискриминантного анализа Фишера
Разреженная ODC (SODC): Wang и др. (2016) добавили штраф группового лассо к ODC
Выпуклая кластеризация: Pelckmans и др. (2005), Hocking и др. (2011) используют выпуклую оптимизацию для стабильной кластеризации

Инновации данной работы

По сравнению с существующими методами основные преимущества RSODC:

аппроксимация модели в пространстве уменьшенной размерности, а не в исходном пространстве
использование мажоризирующих функций для одновременного удовлетворения ортогональных ограничений и структуры кластеров
обеспечение более чёткого эффекта визуализации кластеров

Заключение и обсуждение

Основные выводы

RSODC значительно улучшает точность идентификации кластеров путём добавления штрафного члена выпуклой кластеризации
Метод мажоризирующих функций эффективно решает проблему одновременного удовлетворения ортогональных ограничений и структуры кластеров
Эксперименты подтверждают эффективность метода на смоделированных и реальных данных

Ограничения

Вычислительная сложность: требует больше времени вычисления, чем SODC
Выбор параметров: перекрёстная проверка имеет высокую вычислительную стоимость
Вычисление весов: вычисление весов в исходном пространстве может быть неоптимальным
Предположения о распределении данных: неявно предполагается нормальное распределение ошибок

Направления будущих исследований

разработка более эффективных методов выбора параметров
вычисление весов в низкомерном пространстве
вывод информационных критериев для снижения стоимости перекрёстной проверки
рассмотрение расширений для ненормальных распределений

Глубокая оценка

Преимущества

Сильная методологическая инновативность: искусное сочетание выпуклой кластеризации и разреженного дискриминантного анализа
Прочная теоретическая база: метод мажоризирующих функций теоретически строг
Достаточные эксперименты: включают 5 экспериментов на смоделированных данных и проверку на реальных данных
Изящный дизайн алгоритма: схема ADMM эффективно обрабатывает сложные ограничения

Недостатки

Вычислительная эффективность: значительное увеличение вычислительных затрат по сравнению с SODC
Чувствительность к параметрам: требуется настройка множества гиперпараметров
Область применения: в основном применим к задачам кластеризации малого масштаба
Теоретический анализ: отсутствует анализ сходимости и теоретическая сложность

Влияние

Научный вклад: предоставляет новый подход к кластеризации с уменьшением размерности
Практическая ценность: применим к сценариям, требующим чёткой визуализации кластеров
Воспроизводимость: подробное описание алгоритма облегчает реализацию

Сценарии применения

кластеризация высокомерных данных
задачи кластеризации, требующие отбора переменных
исследовательский анализ данных, требующий чёткой визуализации
анализ данных биоинформатики и геномики

Библиография

Основные цитируемые работы:

Zhang & Dai (2009): оригинальная работа по оптимальной дискриминантной кластеризации
Wang et al. (2016): разреженная оптимальная дискриминантная кластеризация
Chi & Lange (2015): алгоритм ADMM для выпуклой кластеризации
Hunter & Lange (2004): MM-алгоритмы и мажоризирующие функции

Общая оценка: это высококачественная статья по статистическим методам с инновационным методом RSODC, имеющим теоретические новшества и достаточную экспериментальную верификацию. Несмотря на повышенную вычислительную сложность, метод обеспечивает значительное улучшение качества кластеризации и эффекта визуализации, внося важный вклад в область кластеризации с уменьшением размерности.