2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa

We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.

academic

정규화 희소 최적 판별 클러스터링

기본 정보

논문 ID: 2501.10147
제목: Regularized Sparse Optimal Discriminant Clustering
저자: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (동지사대학교)
분류: stat.ME (통계 방법론)
발표 시간: 2025년 10월 15일
논문 링크: https://arxiv.org/abs/2501.10147

초록

본 논문은 희소 최적 판별 클러스터링(SODC)을 기반으로 한 새로운 방법을 제안하며, 볼록 클러스터링 기반의 페널티 항을 점수 행렬에 포함시킨다. 이 페널티 항을 추가함으로써 동일 클러스터 내의 점들을 가깝게 하고 서로 다른 클러스터 간의 점들을 멀리함으로써 클러스터 식별 정확도를 향상시킬 것으로 기대된다. 추정 결과를 시각화할 때 클러스터 구조가 더욱 명확하게 나타난다. 또한 저자들은 주화 함수(majorization function)를 사용하여 점수 행렬의 업데이트 공식을 유도하는 새로운 알고리즘을 개발했다. 점수 행렬은 교대 방향 승수법(ADMM)을 사용하여 업데이트되며, 이 방법은 일반적으로 볼록 클러스터링 목적 함수의 매개변수를 계산하는 데 사용된다.

연구 배경 및 동기

문제 정의

차원 축소 클러스터링은 대규모 복잡 데이터의 특성을 해석하는 데 널리 사용되며, 고차원 데이터의 중요한 특성을 유지하면서 효율적인 처리를 위해 저차원 공간을 추정하여 클러스터를 식별한다. 기존의 최적 판별 클러스터링(ODC)과 희소 최적 판별 클러스터링(SODC) 방법은 주성분 분석보다 클러스터를 더 명확하게 설명하지만 다음과 같은 문제가 있다:

점수 행렬 구조 문제: SODC의 점수 행렬이 LDA의 최적 점수와 동일한 클러스터 식별 구조를 유지하지 못함
클러스터 정보 행렬 부재: ODC와 SODC에 클러스터 정보를 포함하는 독립적인 행렬이 없어 클러스터 추정 정확도에 영향을 미칠 수 있음
시각화 효과 부족: SODC가 데이터를 저차원 공간으로 축소하고 결과를 시각화할 때 잘 분리된 클러스터 구조를 생성하지 못할 수 있음

연구 동기

위의 문제들을 해결하기 위해 저자들은 SODC에 볼록 클러스터링 기반의 페널티 항을 추가하여 점수 행렬이 기존 SODC보다 더 명확한 클러스터 구조를 제공하도록 제안했다. 이는 동일 클러스터의 데이터 포인트를 가깝게 하고 서로 다른 클러스터의 데이터 포인트를 분리함으로써 달성된다.

핵심 기여

RSODC 방법 제안: SODC 기반에 볼록 클러스터링 기반의 정규화 항을 추가하여 클러스터 식별 정확도 개선
새로운 알고리즘 개발: 주화 함수를 사용하여 점수 행렬의 업데이트 공식을 유도하면서 직교 제약 조건과 클러스터 구조 요구사항을 동시에 만족
ADMM 최적화 프레임워크: 교대 방향 승수법을 사용하여 점수 행렬을 업데이트하고 복잡한 제약 조건을 효과적으로 처리
이론 및 실증 검증: 수치 시뮬레이션과 실제 데이터 적용을 통해 방법의 유효성 검증

방법론 상세 설명

작업 정의

데이터 행렬 $X \in \mathbb{R}^{n \times p}$ 가 주어졌을 때, 목표는 저차원 공간에서 $k$ 개의 클러스터를 식별하면서 동시에 변수 선택과 차원 축소를 수행하는 것이다.

모델 구조

RSODC 목적 함수

RSODC의 최적화 문제는 다음과 같이 정의된다:

$\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2$

제약 조건: $Y^{\dagger\top}Y^{\dagger} = I_{k-1}$ 및 $Y^{\dagger\top}1 = 0$

여기서:

처음 세 항은 SODC와 동일
네 번째 항은 볼록 클러스터링 기반의 페널티 항으로, 유사한 샘플이 더 가까워지도록 장려
$\alpha_{i,j}$ 는 가중치로 다음과 같이 계산됨: $\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)$

ADMM 분해

ADMM 알고리즘을 적용하기 위해 문제를 다시 작성하면:

$\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2$

제약 조건:

$y_i - y_j = v_l$
$Y^{\top}Y = I_{k-1}$
$Y^{\top}1 = 0$

기술적 혁신

주화 함수 방법

핵심 혁신은 점수 행렬 업데이트에서 이차 항을 처리하기 위해 주화 함수를 사용하는 것이다. 이차 형식 $\text{tr}(Y^{\top}CY)$ 에 대해 주화 함수를 구성하면:

$\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)$

여기서 $\omega$ 는 $C = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}$ 의 최대 고유값이다.

직교 Procrustes 분석

주화 함수를 통해 Y의 업데이트를 직교 Procrustes 문제로 변환하면:

$\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I$

해는 $Y \leftarrow LR^{\top}$ 이며, 여기서 $D = L\Sigma R^{\top}$ 는 특이값 분해이다.

실험 설정

데이터셋

시뮬레이션 데이터:
- 샘플 수 $n = 60, 96, 156$
- 변수 수 $p = 20, 50, 80, 100$
- 클러스터 수 $k = 3, 4$
- 정보 변수 수 $q = 2$
실제 데이터: 유방암 단백질체학 데이터(breast TCGA)
- 150개 샘플, 142개 단백질
- 3개 암 아형: Basal, Her2, LumA
- 10개 정보 변수와 70개 비정보 변수 선택