2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa

We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.

academic

Clustering Discriminante Ottimale Regolarizzato Sparso

Informazioni Fondamentali

ID Articolo: 2501.10147
Titolo: Regularized Sparse Optimal Discriminant Clustering
Autori: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Università di Doshisha)
Classificazione: stat.ME (Metodi Statistici)
Data di Pubblicazione: 15 ottobre 2025
Link Articolo: https://arxiv.org/abs/2501.10147

Riassunto

Questo articolo propone un nuovo metodo basato sul clustering discriminante ottimale sparso (SODC), incorporando termini di penalizzazione basati su clustering convesso nella matrice dei punteggi. Aggiungendo questo termine di penalizzazione, ci si aspetta di migliorare l'accuratezza dell'identificazione del clustering avvicinando i punti all'interno dello stesso cluster e allontanando i punti tra cluster diversi. Quando i risultati della stima vengono visualizzati, la struttura del clustering può essere delineata più chiaramente. Inoltre, gli autori sviluppano un nuovo algoritmo che utilizza funzioni di majorizzazione per derivare le formule di aggiornamento della matrice dei punteggi. La matrice dei punteggi viene aggiornata utilizzando il metodo dei moltiplicatori di direzione alternata (ADMM), comunemente impiegato per calcolare i parametri della funzione obiettivo del clustering convesso.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il clustering con riduzione dimensionale è ampiamente utilizzato per interpretare le caratteristiche di dati complessi di grandi dimensioni, stimando uno spazio a bassa dimensionalità per identificare cluster mantenendo le caratteristiche importanti dei dati ad alta dimensionalità. Sebbene i metodi di clustering discriminante ottimale (ODC) e clustering discriminante ottimale sparso (SODC) descrivano i cluster più chiaramente dell'analisi delle componenti principali, presentano i seguenti problemi:

Problema della struttura della matrice dei punteggi: La matrice dei punteggi in SODC non mantiene la stessa struttura di identificazione del cluster dei punteggi ottimali in LDA
Mancanza di matrice informativa indipendente del cluster: ODC e SODC non includono una matrice indipendente contenente informazioni sul cluster, che potrebbe influenzare l'accuratezza della stima del clustering
Scarsa qualità della visualizzazione: SODC potrebbe non produrre una struttura di cluster ben separata quando i dati vengono ridotti a uno spazio a bassa dimensionalità e i risultati vengono visualizzati

Motivazione della Ricerca

Per affrontare i problemi sopra menzionati, gli autori propongono di aggiungere un termine di penalizzazione basato su clustering convesso in SODC, affinché la matrice dei punteggi fornisca una struttura di cluster più chiara rispetto al tradizionale SODC, avvicinando i punti dati provenienti dallo stesso cluster e separando i punti dati provenienti da cluster diversi.

Contributi Principali

Proposta del metodo RSODC: Aggiunta di un termine di regolarizzazione basato su clustering convesso a SODC per migliorare l'accuratezza dell'identificazione del clustering
Sviluppo di un nuovo algoritmo: Utilizzo di funzioni di majorizzazione per derivare le formule di aggiornamento della matrice dei punteggi, soddisfacendo contemporaneamente i vincoli di ortogonalità e i requisiti della struttura del clustering
Framework di ottimizzazione ADMM: Adozione del metodo dei moltiplicatori di direzione alternata per aggiornare la matrice dei punteggi, gestendo efficacemente le condizioni di vincolo complesse
Verifica teorica ed empirica: Validazione dell'efficacia del metodo attraverso simulazioni numeriche e applicazioni su dati reali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un matrice di dati $X \in \mathbb{R}^{n \times p}$ , l'obiettivo è identificare $k$ cluster in uno spazio a bassa dimensionalità, eseguendo contemporaneamente la selezione delle variabili e la riduzione dimensionale.

Architettura del Modello

Funzione Obiettivo di RSODC

Il problema di ottimizzazione di RSODC è definito come:

$\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2$

Vincoli: $Y^{\dagger\top}Y^{\dagger} = I_{k-1}$ e $Y^{\dagger\top}1 = 0$

Dove:

I primi tre termini sono identici a SODC
Il quarto termine è il termine di penalizzazione basato su clustering convesso, che incoraggia campioni simili a stare più vicini
$\alpha_{i,j}$ è il peso, calcolato come: $\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)$

Decomposizione ADMM

Per applicare l'algoritmo ADMM, il problema viene riscritto come:

$\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2$

Vincoli:

$y_i - y_j = v_l$
$Y^{\top}Y = I_{k-1}$
$Y^{\top}1 = 0$

Punti di Innovazione Tecnica

Metodo della Funzione di Majorizzazione

L'innovazione chiave è l'utilizzo di funzioni di majorizzazione per gestire i termini quadratici nell'aggiornamento della matrice dei punteggi. Per la forma quadratica $\text{tr}(Y^{\top}CY)$ , si costruisce una funzione di majorizzazione:

$\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)$

Dove $\omega$ è l'autovalore massimo di $C = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}$ .

Analisi di Procrustes Ortogonale

Attraverso la funzione di majorizzazione, l'aggiornamento di Y viene trasformato in un problema di Procrustes ortogonale:

$\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I$

La soluzione è $Y \leftarrow LR^{\top}$ , dove $D = L\Sigma R^{\top}$ è la decomposizione ai valori singolari.

Configurazione Sperimentale

Insiemi di Dati

Dati Simulati:
- Numero di campioni $n = 60, 96, 156$
- Numero di variabili $p = 20, 50, 80, 100$
- Numero di cluster $k = 3, 4$
- Numero di variabili informative $q = 2$
Dati Reali: Dati di proteomica del cancro al seno (breast TCGA)
- 150 campioni, 142 proteine
- 3 sottotipi di cancro: Basal, Her2, LumA
- Selezione di 10 variabili informative e 70 variabili non informative

Metriche di Valutazione

Indice di Rand Aggiustato (ARI): Valutazione dell'accuratezza del clustering
Rapporto di Varianza: Rapporto tra varianza intra-cluster e varianza inter-cluster
Sensibilità e Specificità: Valutazione dell'efficacia della selezione delle variabili

Metodi di Confronto

Clustering Discriminante Ottimale Sparso (SODC)
Clustering in Tandem
k-means Ridotto
k-means Fattoriale
t-SNE

Dettagli di Implementazione

Selezione dei parametri: Convalida incrociata basata sul coefficiente kappa
$\eta_2 = 0$ , $\tau = 0.1$ , $\delta = 25$
Soglia di convergenza: $\epsilon > 0$

Risultati Sperimentali

Risultati Principali

Esperimenti di Simulazione

In tutte le impostazioni di simulazione, RSODC supera i metodi di confronto nella metrica ARI:

Quando k=3: RSODC mostra le migliori prestazioni in quasi tutti i modelli
Quando k=4: Le prestazioni di RSODC sono superiori a tutti i metodi di confronto
Stabilità: Con l'aumento di $p$ , RSODC mantiene la stabilità, mentre SODC diventa instabile
Qualità del Clustering: Con l'aumento della distanza tra i centri dei cluster $\vartheta$ , il valore ARI di RSODC aumenta più evidentemente

Applicazione su Dati Reali

Risultati sui dati del cancro al seno:

Metodo	ARI( $X\hat{B}$ )	ARI( $\hat{Y}$ )	Rapporto Varianza( $X\hat{B}$ )	Rapporto Varianza( $\hat{Y}$ )
RSODC	0.406	0.441	3.038	3.056
SODC	0.401	0.363	2.909	2.660

Esperimenti di Ablazione

Analisi di Sensibilità dei Parametri

Parametri di Peso: L'ARI è massimo quando $\tau = 0$ e $\delta = 0.01$
Parametri di Sintonizzazione: Diverse combinazioni di $\eta_1, \gamma, \rho$ hanno un impatto relativamente minore sui risultati
Selezione del Numero di Cluster: L'utilizzo della statistica gap può determinare efficacemente il numero reale di cluster

Complessità Computazionale

Il tempo di calcolo di RSODC è superiore a quello di SODC, in particolare quando $n$ è grande, ma fornisce una migliore qualità del clustering.

Analisi dei Casi

I risultati della visualizzazione mostrano che RSODC è in grado di:

Aggregare i punti all'interno dello stesso cluster in modo più stretto
Separare i punti tra cluster diversi più lontani
Fornire confini di cluster più chiari

Lavori Correlati

Metodi di Clustering con Riduzione Dimensionale

Clustering Discriminante Ottimale (ODC): Zhang e Dai (2009) basato su punteggi ottimali dell'analisi discriminante lineare di Fisher
ODC Sparso (SODC): Wang et al. (2016) aggiungono penalizzazione di gruppo lasso a ODC
Clustering Convesso: Pelckmans et al. (2005), Hocking et al. (2011) utilizzano ottimizzazione convessa per clustering stabile

Innovazione di Questo Articolo

Rispetto ai metodi esistenti, i principali vantaggi di RSODC sono:

Approssimazione del modello nello spazio ridotto piuttosto che nello spazio originale
Utilizzo di funzioni di majorizzazione per gestire contemporaneamente vincoli di ortogonalità e struttura del clustering
Fornitura di effetti di visualizzazione del clustering più chiari

Conclusioni e Discussione

Conclusioni Principali

RSODC migliora significativamente l'accuratezza dell'identificazione del clustering aggiungendo un termine di penalizzazione di clustering convesso
Il metodo della funzione di majorizzazione risolve efficacemente il problema del soddisfacimento simultaneo dei vincoli di ortogonalità e della struttura del clustering
Gli esperimenti validano l'efficacia del metodo su dati simulati e reali

Limitazioni

Complessità Computazionale: Richiede più tempo di calcolo rispetto a SODC
Selezione dei Parametri: La convalida incrociata ha un costo computazionale elevato
Calcolo dei Pesi: Il calcolo dei pesi nello spazio originale potrebbe non essere ottimale
Assunzioni sulla Distribuzione dei Dati: Assume implicitamente che gli errori seguano una distribuzione normale

Direzioni Future

Sviluppo di metodi di selezione dei parametri più efficienti
Calcolo dei pesi nello spazio a bassa dimensionalità
Derivazione di criteri informativi per ridurre i costi della convalida incrociata
Considerazione di estensioni per distribuzioni non normali

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Combinazione ingegnosa di clustering convesso e analisi discriminante sparsa
Fondamenti Teorici Solidi: Il metodo della funzione di majorizzazione è teoricamente rigoroso
Esperimenti Completi: Include 5 esperimenti di simulazione e validazione su dati reali
Design Algoritmico Elegante: Il framework ADMM gestisce efficacemente le condizioni di vincolo complesse

Carenze

Efficienza Computazionale: Il costo computazionale rispetto a SODC è significativamente aumentato
Sensibilità ai Parametri: Più iperparametri richiedono sintonizzazione
Ambito di Applicabilità: Principalmente adatto a problemi di clustering su piccola scala
Analisi Teorica: Mancano analisi teoriche sulla convergenza e sulla complessità

Impatto

Contributo Accademico: Fornisce nuove prospettive per il clustering con riduzione dimensionale
Valore Pratico: Applicabile a scenari che richiedono una visualizzazione chiara del clustering
Riproducibilità: La descrizione dell'algoritmo è dettagliata e facile da implementare

Scenari di Applicazione

Analisi di clustering di dati ad alta dimensionalità
Compiti di clustering che richiedono selezione delle variabili
Analisi esplorativa dei dati che richiede visualizzazione chiara
Analisi di dati di bioinformatica e genomica

Bibliografia

Le principali referenze includono:

Zhang & Dai (2009): Lavoro originale sul clustering discriminante ottimale
Wang et al. (2016): Clustering discriminante ottimale sparso
Chi & Lange (2015): Algoritmo ADMM per clustering convesso
Hunter & Lange (2004): Algoritmo MM e funzioni di majorizzazione

Valutazione Complessiva: Questo è un articolo di alta qualità sulla metodologia statistica che propone il metodo RSODC con innovazione teorica e verifica sperimentale completa. Sebbene la complessità computazionale sia relativamente elevata, presenta miglioramenti significativi nella qualità del clustering e negli effetti di visualizzazione, fornendo importanti contributi al campo del clustering con riduzione dimensionale.