We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
- ID Articolo: 2501.10147
- Titolo: Regularized Sparse Optimal Discriminant Clustering
- Autori: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Università di Doshisha)
- Classificazione: stat.ME (Metodi Statistici)
- Data di Pubblicazione: 15 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2501.10147
Questo articolo propone un nuovo metodo basato sul clustering discriminante ottimale sparso (SODC), incorporando termini di penalizzazione basati su clustering convesso nella matrice dei punteggi. Aggiungendo questo termine di penalizzazione, ci si aspetta di migliorare l'accuratezza dell'identificazione del clustering avvicinando i punti all'interno dello stesso cluster e allontanando i punti tra cluster diversi. Quando i risultati della stima vengono visualizzati, la struttura del clustering può essere delineata più chiaramente. Inoltre, gli autori sviluppano un nuovo algoritmo che utilizza funzioni di majorizzazione per derivare le formule di aggiornamento della matrice dei punteggi. La matrice dei punteggi viene aggiornata utilizzando il metodo dei moltiplicatori di direzione alternata (ADMM), comunemente impiegato per calcolare i parametri della funzione obiettivo del clustering convesso.
Il clustering con riduzione dimensionale è ampiamente utilizzato per interpretare le caratteristiche di dati complessi di grandi dimensioni, stimando uno spazio a bassa dimensionalità per identificare cluster mantenendo le caratteristiche importanti dei dati ad alta dimensionalità. Sebbene i metodi di clustering discriminante ottimale (ODC) e clustering discriminante ottimale sparso (SODC) descrivano i cluster più chiaramente dell'analisi delle componenti principali, presentano i seguenti problemi:
- Problema della struttura della matrice dei punteggi: La matrice dei punteggi in SODC non mantiene la stessa struttura di identificazione del cluster dei punteggi ottimali in LDA
- Mancanza di matrice informativa indipendente del cluster: ODC e SODC non includono una matrice indipendente contenente informazioni sul cluster, che potrebbe influenzare l'accuratezza della stima del clustering
- Scarsa qualità della visualizzazione: SODC potrebbe non produrre una struttura di cluster ben separata quando i dati vengono ridotti a uno spazio a bassa dimensionalità e i risultati vengono visualizzati
Per affrontare i problemi sopra menzionati, gli autori propongono di aggiungere un termine di penalizzazione basato su clustering convesso in SODC, affinché la matrice dei punteggi fornisca una struttura di cluster più chiara rispetto al tradizionale SODC, avvicinando i punti dati provenienti dallo stesso cluster e separando i punti dati provenienti da cluster diversi.
- Proposta del metodo RSODC: Aggiunta di un termine di regolarizzazione basato su clustering convesso a SODC per migliorare l'accuratezza dell'identificazione del clustering
- Sviluppo di un nuovo algoritmo: Utilizzo di funzioni di majorizzazione per derivare le formule di aggiornamento della matrice dei punteggi, soddisfacendo contemporaneamente i vincoli di ortogonalità e i requisiti della struttura del clustering
- Framework di ottimizzazione ADMM: Adozione del metodo dei moltiplicatori di direzione alternata per aggiornare la matrice dei punteggi, gestendo efficacemente le condizioni di vincolo complesse
- Verifica teorica ed empirica: Validazione dell'efficacia del metodo attraverso simulazioni numeriche e applicazioni su dati reali
Dato un matrice di dati X∈Rn×p, l'obiettivo è identificare k cluster in uno spazio a bassa dimensionalità, eseguendo contemporaneamente la selezione delle variabili e la riduzione dimensionale.
Il problema di ottimizzazione di RSODC è definito come:
minB,Y†21∥Y†−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑i<jαi,j∥yi†−yj†∥2
Vincoli: Y†⊤Y†=Ik−1 e Y†⊤1=0
Dove:
- I primi tre termini sono identici a SODC
- Il quarto termine è il termine di penalizzazione basato su clustering convesso, che incoraggia campioni simili a stare più vicini
- αi,j è il peso, calcolato come: αi,j=ιδi,jexp(−τ∥xi−xj∥22)
Per applicare l'algoritmo ADMM, il problema viene riscritto come:
minB,Y,V,Λ21∥Y−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑l∈εαl∥vl∥2
Vincoli:
- yi−yj=vl
- Y⊤Y=Ik−1
- Y⊤1=0
L'innovazione chiave è l'utilizzo di funzioni di majorizzazione per gestire i termini quadratici nell'aggiornamento della matrice dei punteggi. Per la forma quadratica tr(Y⊤CY), si costruisce una funzione di majorizzazione:
tr(Y⊤CY)≤2ω−2tr(Y⊤(ωI−C)Q)−tr(Q⊤CQ)
Dove ω è l'autovalore massimo di C=2ρ∑l∈εglgl⊤.
Attraverso la funzione di majorizzazione, l'aggiornamento di Y viene trasformato in un problema di Procrustes ortogonale:
minY∥Y−D∥F2,s.t. Y⊤Y=I
La soluzione è Y←LR⊤, dove D=LΣR⊤ è la decomposizione ai valori singolari.
- Dati Simulati:
- Numero di campioni n=60,96,156
- Numero di variabili p=20,50,80,100
- Numero di cluster k=3,4
- Numero di variabili informative q=2
- Dati Reali: Dati di proteomica del cancro al seno (breast TCGA)
- 150 campioni, 142 proteine
- 3 sottotipi di cancro: Basal, Her2, LumA
- Selezione di 10 variabili informative e 70 variabili non informative
- Indice di Rand Aggiustato (ARI): Valutazione dell'accuratezza del clustering
- Rapporto di Varianza: Rapporto tra varianza intra-cluster e varianza inter-cluster
- Sensibilità e Specificità: Valutazione dell'efficacia della selezione delle variabili
- Clustering Discriminante Ottimale Sparso (SODC)
- Clustering in Tandem
- k-means Ridotto
- k-means Fattoriale
- t-SNE
- Selezione dei parametri: Convalida incrociata basata sul coefficiente kappa
- η2=0, τ=0.1, δ=25
- Soglia di convergenza: ϵ>0
In tutte le impostazioni di simulazione, RSODC supera i metodi di confronto nella metrica ARI:
- Quando k=3: RSODC mostra le migliori prestazioni in quasi tutti i modelli
- Quando k=4: Le prestazioni di RSODC sono superiori a tutti i metodi di confronto
- Stabilità: Con l'aumento di p, RSODC mantiene la stabilità, mentre SODC diventa instabile
- Qualità del Clustering: Con l'aumento della distanza tra i centri dei cluster ϑ, il valore ARI di RSODC aumenta più evidentemente
Risultati sui dati del cancro al seno:
| Metodo | ARI(XB^) | ARI(Y^) | Rapporto Varianza(XB^) | Rapporto Varianza(Y^) |
|---|
| RSODC | 0.406 | 0.441 | 3.038 | 3.056 |
| SODC | 0.401 | 0.363 | 2.909 | 2.660 |
- Parametri di Peso: L'ARI è massimo quando τ=0 e δ=0.01
- Parametri di Sintonizzazione: Diverse combinazioni di η1,γ,ρ hanno un impatto relativamente minore sui risultati
- Selezione del Numero di Cluster: L'utilizzo della statistica gap può determinare efficacemente il numero reale di cluster
Il tempo di calcolo di RSODC è superiore a quello di SODC, in particolare quando n è grande, ma fornisce una migliore qualità del clustering.
I risultati della visualizzazione mostrano che RSODC è in grado di:
- Aggregare i punti all'interno dello stesso cluster in modo più stretto
- Separare i punti tra cluster diversi più lontani
- Fornire confini di cluster più chiari
- Clustering Discriminante Ottimale (ODC): Zhang e Dai (2009) basato su punteggi ottimali dell'analisi discriminante lineare di Fisher
- ODC Sparso (SODC): Wang et al. (2016) aggiungono penalizzazione di gruppo lasso a ODC
- Clustering Convesso: Pelckmans et al. (2005), Hocking et al. (2011) utilizzano ottimizzazione convessa per clustering stabile
Rispetto ai metodi esistenti, i principali vantaggi di RSODC sono:
- Approssimazione del modello nello spazio ridotto piuttosto che nello spazio originale
- Utilizzo di funzioni di majorizzazione per gestire contemporaneamente vincoli di ortogonalità e struttura del clustering
- Fornitura di effetti di visualizzazione del clustering più chiari
- RSODC migliora significativamente l'accuratezza dell'identificazione del clustering aggiungendo un termine di penalizzazione di clustering convesso
- Il metodo della funzione di majorizzazione risolve efficacemente il problema del soddisfacimento simultaneo dei vincoli di ortogonalità e della struttura del clustering
- Gli esperimenti validano l'efficacia del metodo su dati simulati e reali
- Complessità Computazionale: Richiede più tempo di calcolo rispetto a SODC
- Selezione dei Parametri: La convalida incrociata ha un costo computazionale elevato
- Calcolo dei Pesi: Il calcolo dei pesi nello spazio originale potrebbe non essere ottimale
- Assunzioni sulla Distribuzione dei Dati: Assume implicitamente che gli errori seguano una distribuzione normale
- Sviluppo di metodi di selezione dei parametri più efficienti
- Calcolo dei pesi nello spazio a bassa dimensionalità
- Derivazione di criteri informativi per ridurre i costi della convalida incrociata
- Considerazione di estensioni per distribuzioni non normali
- Forte Innovazione Metodologica: Combinazione ingegnosa di clustering convesso e analisi discriminante sparsa
- Fondamenti Teorici Solidi: Il metodo della funzione di majorizzazione è teoricamente rigoroso
- Esperimenti Completi: Include 5 esperimenti di simulazione e validazione su dati reali
- Design Algoritmico Elegante: Il framework ADMM gestisce efficacemente le condizioni di vincolo complesse
- Efficienza Computazionale: Il costo computazionale rispetto a SODC è significativamente aumentato
- Sensibilità ai Parametri: Più iperparametri richiedono sintonizzazione
- Ambito di Applicabilità: Principalmente adatto a problemi di clustering su piccola scala
- Analisi Teorica: Mancano analisi teoriche sulla convergenza e sulla complessità
- Contributo Accademico: Fornisce nuove prospettive per il clustering con riduzione dimensionale
- Valore Pratico: Applicabile a scenari che richiedono una visualizzazione chiara del clustering
- Riproducibilità: La descrizione dell'algoritmo è dettagliata e facile da implementare
- Analisi di clustering di dati ad alta dimensionalità
- Compiti di clustering che richiedono selezione delle variabili
- Analisi esplorativa dei dati che richiede visualizzazione chiara
- Analisi di dati di bioinformatica e genomica
Le principali referenze includono:
- Zhang & Dai (2009): Lavoro originale sul clustering discriminante ottimale
- Wang et al. (2016): Clustering discriminante ottimale sparso
- Chi & Lange (2015): Algoritmo ADMM per clustering convesso
- Hunter & Lange (2004): Algoritmo MM e funzioni di majorizzazione
Valutazione Complessiva: Questo è un articolo di alta qualità sulla metodologia statistica che propone il metodo RSODC con innovazione teorica e verifica sperimentale completa. Sebbene la complessità computazionale sia relativamente elevata, presenta miglioramenti significativi nella qualità del clustering e negli effetti di visualizzazione, fornendo importanti contributi al campo del clustering con riduzione dimensionale.