We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
- ID статьи: 2501.10147
- Название: Regularized Sparse Optimal Discriminant Clustering
- Авторы: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Университет Досиша)
- Классификация: stat.ME (статистические методы)
- Дата публикации: 15 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2501.10147
В данной работе предлагается новый метод, основанный на разреженной оптимальной дискриминантной кластеризации (SODC), который включает штрафной член, основанный на выпуклой кластеризации, в матрицу оценок. Путём добавления этого штрафного члена авторы ожидают повысить точность идентификации кластеров за счёт сближения точек внутри одного кластера и отталкивания точек из разных кластеров. При визуализации результатов оценки структура кластеров становится более чёткой. Кроме того, авторы разработали новый алгоритм, использующий мажоризирующие функции для вывода формулы обновления матрицы оценок. Матрица оценок обновляется с помощью метода чередующихся направлений множителей (ADMM), который часто используется для вычисления параметров целевой функции выпуклой кластеризации.
Кластеризация с уменьшением размерности широко используется для интерпретации характеристик больших сложных данных. Она оценивает низкомерное пространство для идентификации кластеров, сохраняя при этом важные характеристики высокомерных данных и обеспечивая эффективную обработку. Существующие методы оптимальной дискриминантной кластеризации (ODC) и разреженной оптимальной дискриминантной кластеризации (SODC), хотя и описывают кластеры более чётко, чем анализ главных компонент, имеют следующие недостатки:
- Проблема структуры матрицы оценок: матрица оценок в SODC не сохраняет структуру идентификации кластеров, аналогичную оптимальным оценкам в LDA
- Отсутствие независимой информационной матрицы кластеров: ODC и SODC не содержат независимую матрицу, содержащую информацию о кластерах, что может влиять на точность оценки кластеризации
- Неудовлетворительный эффект визуализации: при снижении размерности данных до низкомерного пространства и визуализации результатов SODC может не обеспечить хорошо разделённую структуру кластеров
Для решения указанных проблем авторы предлагают добавить штрафной член, основанный на выпуклой кластеризации, в SODC, чтобы матрица оценок обеспечивала более чёткую структуру кластеров по сравнению с традиционным SODC, сближая точки данных из одного кластера и разделяя точки из разных кластеров.
- Предложение метода RSODC: добавление регуляризирующего члена, основанного на выпуклой кластеризации, к SODC для улучшения точности идентификации кластеров
- Разработка нового алгоритма: использование мажоризирующих функций для вывода формулы обновления матрицы оценок с одновременным удовлетворением ортогональных ограничений и требований структуры кластеров
- Оптимизационная схема ADMM: применение метода чередующихся направлений множителей для обновления матрицы оценок с эффективной обработкой сложных ограничений
- Теоретическая и эмпирическая верификация: проверка эффективности метода посредством численного моделирования и применения к реальным данным
Дана матрица данных X∈Rn×p, целью является идентификация k кластеров в низкомерном пространстве с одновременным выполнением отбора переменных и уменьшения размерности.
Задача оптимизации RSODC определяется как:
minB,Y†21∥Y†−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑i<jαi,j∥yi†−yj†∥2
при ограничениях: Y†⊤Y†=Ik−1 и Y†⊤1=0
где:
- первые три члена совпадают с SODC
- четвёртый член — штрафной член, основанный на выпуклой кластеризации, поощряющий сближение похожих образцов
- αi,j — веса, вычисляемые как: αi,j=ιδi,jexp(−τ∥xi−xj∥22)
Для применения алгоритма ADMM задача переформулируется как:
minB,Y,V,Λ21∥Y−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑l∈εαl∥vl∥2
при ограничениях:
- yi−yj=vl
- Y⊤Y=Ik−1
- Y⊤1=0
Ключевая инновация заключается в использовании мажоризирующих функций для обработки квадратичных членов при обновлении матрицы оценок. Для квадратичной формы tr(Y⊤CY) строится мажоризирующая функция:
tr(Y⊤CY)≤2ω−2tr(Y⊤(ωI−C)Q)−tr(Q⊤CQ)
где ω — наибольшее собственное значение C=2ρ∑l∈εglgl⊤.
Посредством мажоризирующей функции обновление Y преобразуется в задачу ортогонального Прокруста:
minY∥Y−D∥F2,s.t. Y⊤Y=I
Решение имеет вид Y←LR⊤, где D=LΣR⊤ — сингулярное разложение.
- Смоделированные данные:
- количество образцов n=60,96,156
- количество переменных p=20,50,80,100
- количество кластеров k=3,4
- количество информативных переменных q=2
- Реальные данные: протеомные данные рака молочной железы (breast TCGA)
- 150 образцов, 142 белка
- 3 подтипа рака: Basal, Her2, LumA
- выбрано 10 информативных переменных и 70 неинформативных переменных
- Скорректированный индекс Рэнда (ARI): оценка точности кластеризации
- Отношение дисперсий: отношение внутрикластерной дисперсии к межкластерной дисперсии
- Чувствительность и специфичность: оценка эффективности отбора переменных
- Разреженная оптимальная дискриминантная кластеризация (SODC)
- Тандемная кластеризация (Tandem clustering)
- Уменьшенный k-means (Reduced k-means)
- Факторный k-means (Factorial k-means)
- t-SNE
- Выбор параметров: перекрёстная проверка на основе коэффициента каппа
- η2=0, τ=0.1, δ=25
- Порог сходимости: ϵ>0
Во всех смоделированных сценариях RSODC превосходит методы сравнения по метрике ARI:
- При k=3: RSODC показывает лучшие результаты почти во всех конфигурациях
- При k=4: производительность RSODC превосходит все методы сравнения
- Стабильность: с увеличением p RSODC остаётся стабильным, тогда как SODC становится нестабильным
- Качество кластеризации: с увеличением расстояния между центрами кластеров ϑ значение ARI для RSODC растёт более явно
Результаты на данных рака молочной железы:
| Метод | ARI(XB^) | ARI(Y^) | Отношение дисперсий(XB^) | Отношение дисперсий(Y^) |
|---|
| RSODC | 0.406 | 0.441 | 3.038 | 3.056 |
| SODC | 0.401 | 0.363 | 2.909 | 2.660 |
- Параметры взвешивания: наибольшее значение ARI достигается при τ=0 и δ=0.01
- Параметры настройки: различные комбинации η1,γ,ρ оказывают незначительное влияние на результаты
- Выбор количества кластеров: статистика разрыва эффективно определяет истинное количество кластеров
Время вычисления RSODC больше, чем у SODC, особенно при большом n, но обеспечивает лучшее качество кластеризации.
Результаты визуализации показывают, что RSODC способен:
- плотнее группировать точки внутри одного кластера
- более отчётливо разделять точки из разных кластеров
- обеспечивать более чёткие границы кластеров
- Оптимальная дискриминантная кластеризация (ODC): Zhang и Dai (2009) основаны на оптимальных оценках линейного дискриминантного анализа Фишера
- Разреженная ODC (SODC): Wang и др. (2016) добавили штраф группового лассо к ODC
- Выпуклая кластеризация: Pelckmans и др. (2005), Hocking и др. (2011) используют выпуклую оптимизацию для стабильной кластеризации
По сравнению с существующими методами основные преимущества RSODC:
- аппроксимация модели в пространстве уменьшенной размерности, а не в исходном пространстве
- использование мажоризирующих функций для одновременного удовлетворения ортогональных ограничений и структуры кластеров
- обеспечение более чёткого эффекта визуализации кластеров
- RSODC значительно улучшает точность идентификации кластеров путём добавления штрафного члена выпуклой кластеризации
- Метод мажоризирующих функций эффективно решает проблему одновременного удовлетворения ортогональных ограничений и структуры кластеров
- Эксперименты подтверждают эффективность метода на смоделированных и реальных данных
- Вычислительная сложность: требует больше времени вычисления, чем SODC
- Выбор параметров: перекрёстная проверка имеет высокую вычислительную стоимость
- Вычисление весов: вычисление весов в исходном пространстве может быть неоптимальным
- Предположения о распределении данных: неявно предполагается нормальное распределение ошибок
- разработка более эффективных методов выбора параметров
- вычисление весов в низкомерном пространстве
- вывод информационных критериев для снижения стоимости перекрёстной проверки
- рассмотрение расширений для ненормальных распределений
- Сильная методологическая инновативность: искусное сочетание выпуклой кластеризации и разреженного дискриминантного анализа
- Прочная теоретическая база: метод мажоризирующих функций теоретически строг
- Достаточные эксперименты: включают 5 экспериментов на смоделированных данных и проверку на реальных данных
- Изящный дизайн алгоритма: схема ADMM эффективно обрабатывает сложные ограничения
- Вычислительная эффективность: значительное увеличение вычислительных затрат по сравнению с SODC
- Чувствительность к параметрам: требуется настройка множества гиперпараметров
- Область применения: в основном применим к задачам кластеризации малого масштаба
- Теоретический анализ: отсутствует анализ сходимости и теоретическая сложность
- Научный вклад: предоставляет новый подход к кластеризации с уменьшением размерности
- Практическая ценность: применим к сценариям, требующим чёткой визуализации кластеров
- Воспроизводимость: подробное описание алгоритма облегчает реализацию
- кластеризация высокомерных данных
- задачи кластеризации, требующие отбора переменных
- исследовательский анализ данных, требующий чёткой визуализации
- анализ данных биоинформатики и геномики
Основные цитируемые работы:
- Zhang & Dai (2009): оригинальная работа по оптимальной дискриминантной кластеризации
- Wang et al. (2016): разреженная оптимальная дискриминантная кластеризация
- Chi & Lange (2015): алгоритм ADMM для выпуклой кластеризации
- Hunter & Lange (2004): MM-алгоритмы и мажоризирующие функции
Общая оценка: это высококачественная статья по статистическим методам с инновационным методом RSODC, имеющим теоретические новшества и достаточную экспериментальную верификацию. Несмотря на повышенную вычислительную сложность, метод обеспечивает значительное улучшение качества кластеризации и эффекта визуализации, внося важный вклад в область кластеризации с уменьшением размерности.