2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa

We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.

academic

正則化スパース最適判別クラスタリング

基本情報

論文ID: 2501.10147
タイトル: Regularized Sparse Optimal Discriminant Clustering
著者: 平石真由、谷岡健介、矢田部裕 (同志社大学)
分類: stat.ME (統計方法)
発表日: 2025年10月15日
論文リンク: https://arxiv.org/abs/2501.10147

要旨

本論文は、スパース最適判別クラスタリング(SODC)に基づく新しい方法を提案し、凸クラスタリングに基づくペナルティ項をスコア行列に組み込んでいます。このペナルティ項を追加することにより、同一クラスタ内の点を引き寄せ、異なるクラスタ間の点を遠ざけることで、クラスタリング識別の精度向上が期待されます。推定結果を可視化する際、クラスタ構造がより明確に描出されます。さらに、著者らは主化関数を使用してスコア行列の更新公式を導出する新規なアルゴリズムを開発しました。スコア行列は交替方向乗数法(ADMM)を用いて更新され、この方法は凸クラスタリング目的関数のパラメータ計算に一般的に使用されています。

研究背景と動機

問題定義

次元削減クラスタリングは、大規模で複雑なデータの特徴解釈に広く使用されており、低次元空間を推定してクラスタを識別し、高次元データの重要な特徴を保持しながら効率的な処理を実現します。既存の最適判別クラスタリング(ODC)およびスパース最適判別クラスタリング(SODC)方法は主成分分析よりもクラスタをより明確に記述していますが、以下の問題が存在します:

スコア行列構造の問題: SODC内のスコア行列がLDAの最適スコアと同じクラスタ識別構造を保持していない
独立クラスタ情報行列の欠如: ODCおよびSODCはクラスタ情報を含む独立行列を含まず、クラスタリング推定の精度に影響を与える可能性がある
可視化効果の不十分さ: SODCがデータを低次元空間に削減して結果を可視化する際、十分に分離されたクラスタ構造を生成できない可能性がある

研究動機

上記の問題を解決するため、著者らはSODC内に凸クラスタリングに基づくペナルティ項を追加することを提案し、スコア行列が従来のSODCよりも明確なクラスタ構造を提供し、同一クラスタからのデータ点を引き寄せ、異なるクラスタからのデータ点を分離することを実現しています。

核心的貢献

RSODC方法の提案: SODCに基づいて凸クラスタリングに基づく正則化項を追加し、クラスタリング識別精度を改善
新規アルゴリズムの開発: 主化関数を使用してスコア行列の更新公式を導出し、直交制約とクラスタ構造要件を同時に満たす
ADMM最適化フレームワーク: 交替方向乗数法を採用してスコア行列を更新し、複雑な制約条件を効果的に処理
理論的および実証的検証: 数値シミュレーションと実データ応用を通じて方法の有効性を検証

方法の詳細

タスク定義

データ行列 $X \in \mathbb{R}^{n \times p}$ が与えられたとき、目標は低次元空間で $k$ 個のクラスタを識別しながら、変数選択と次元削減を同時に実行することです。

モデルアーキテクチャ

RSODC目的関数

RSODCの最適化問題は以下のように定義されます:

$\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2$

制約条件: $Y^{\dagger\top}Y^{\dagger} = I_{k-1}$ および $Y^{\dagger\top}1 = 0$

ここで:

最初の3項はSODCと同じ
第4項は凸クラスタリングに基づくペナルティ項で、類似サンプルをより接近させることを促進
$\alpha_{i,j}$ は重み係数で、以下のように計算されます: $\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)$

ADMM分解

ADMMアルゴリズムを適用するため、問題を以下のように書き直します:

$\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2$

制約条件:

$y_i - y_j = v_l$
$Y^{\top}Y = I_{k-1}$
$Y^{\top}1 = 0$

技術的革新点

主化関数法

重要な革新は、スコア行列更新における二次項を処理するために主化関数を使用することです。二次形式 $\text{tr}(Y^{\top}CY)$ に対して、主化関数を構築します:

$\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)$

ここで $\omega$ は $C = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}$ の最大固有値です。

直交Procrustes分析

主化関数を通じて、Yの更新を直交Procrustes問題に変換します:

$\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I$

解は $Y \leftarrow LR^{\top}$ で、 $D = L\Sigma R^{\top}$ は特異値分解です。

実験設定

データセット

シミュレーションデータ:
- サンプル数 $n = 60, 96, 156$
- 変数数 $p = 20, 50, 80, 100$
- クラスタ数 $k = 3, 4$
- 情報変数数 $q = 2$
実データ: 乳がんプロテオミクスデータ(breast TCGA)
- 150サンプル、142タンパク質
- 3つのがん亜型: Basal, Her2, LumA
- 10個の情報変数と70個の非情報変数を選択