2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa
We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
academic

Clustering Discriminante Ottimale Regolarizzato Sparso

Informazioni Fondamentali

  • ID Articolo: 2501.10147
  • Titolo: Regularized Sparse Optimal Discriminant Clustering
  • Autori: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Università di Doshisha)
  • Classificazione: stat.ME (Metodi Statistici)
  • Data di Pubblicazione: 15 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2501.10147

Riassunto

Questo articolo propone un nuovo metodo basato sul clustering discriminante ottimale sparso (SODC), incorporando termini di penalizzazione basati su clustering convesso nella matrice dei punteggi. Aggiungendo questo termine di penalizzazione, ci si aspetta di migliorare l'accuratezza dell'identificazione del clustering avvicinando i punti all'interno dello stesso cluster e allontanando i punti tra cluster diversi. Quando i risultati della stima vengono visualizzati, la struttura del clustering può essere delineata più chiaramente. Inoltre, gli autori sviluppano un nuovo algoritmo che utilizza funzioni di majorizzazione per derivare le formule di aggiornamento della matrice dei punteggi. La matrice dei punteggi viene aggiornata utilizzando il metodo dei moltiplicatori di direzione alternata (ADMM), comunemente impiegato per calcolare i parametri della funzione obiettivo del clustering convesso.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il clustering con riduzione dimensionale è ampiamente utilizzato per interpretare le caratteristiche di dati complessi di grandi dimensioni, stimando uno spazio a bassa dimensionalità per identificare cluster mantenendo le caratteristiche importanti dei dati ad alta dimensionalità. Sebbene i metodi di clustering discriminante ottimale (ODC) e clustering discriminante ottimale sparso (SODC) descrivano i cluster più chiaramente dell'analisi delle componenti principali, presentano i seguenti problemi:

  1. Problema della struttura della matrice dei punteggi: La matrice dei punteggi in SODC non mantiene la stessa struttura di identificazione del cluster dei punteggi ottimali in LDA
  2. Mancanza di matrice informativa indipendente del cluster: ODC e SODC non includono una matrice indipendente contenente informazioni sul cluster, che potrebbe influenzare l'accuratezza della stima del clustering
  3. Scarsa qualità della visualizzazione: SODC potrebbe non produrre una struttura di cluster ben separata quando i dati vengono ridotti a uno spazio a bassa dimensionalità e i risultati vengono visualizzati

Motivazione della Ricerca

Per affrontare i problemi sopra menzionati, gli autori propongono di aggiungere un termine di penalizzazione basato su clustering convesso in SODC, affinché la matrice dei punteggi fornisca una struttura di cluster più chiara rispetto al tradizionale SODC, avvicinando i punti dati provenienti dallo stesso cluster e separando i punti dati provenienti da cluster diversi.

Contributi Principali

  1. Proposta del metodo RSODC: Aggiunta di un termine di regolarizzazione basato su clustering convesso a SODC per migliorare l'accuratezza dell'identificazione del clustering
  2. Sviluppo di un nuovo algoritmo: Utilizzo di funzioni di majorizzazione per derivare le formule di aggiornamento della matrice dei punteggi, soddisfacendo contemporaneamente i vincoli di ortogonalità e i requisiti della struttura del clustering
  3. Framework di ottimizzazione ADMM: Adozione del metodo dei moltiplicatori di direzione alternata per aggiornare la matrice dei punteggi, gestendo efficacemente le condizioni di vincolo complesse
  4. Verifica teorica ed empirica: Validazione dell'efficacia del metodo attraverso simulazioni numeriche e applicazioni su dati reali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un matrice di dati XRn×pX \in \mathbb{R}^{n \times p}, l'obiettivo è identificare kk cluster in uno spazio a bassa dimensionalità, eseguendo contemporaneamente la selezione delle variabili e la riduzione dimensionale.

Architettura del Modello

Funzione Obiettivo di RSODC

Il problema di ottimizzazione di RSODC è definito come:

minB,Y12YHnXBF2+η2BF2+η1j=1pβj2+γi<jαi,jyiyj2\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2

Vincoli: YY=Ik1Y^{\dagger\top}Y^{\dagger} = I_{k-1} e Y1=0Y^{\dagger\top}1 = 0

Dove:

  • I primi tre termini sono identici a SODC
  • Il quarto termine è il termine di penalizzazione basato su clustering convesso, che incoraggia campioni simili a stare più vicini
  • αi,j\alpha_{i,j} è il peso, calcolato come: αi,j=ιδi,jexp(τxixj22)\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)

Decomposizione ADMM

Per applicare l'algoritmo ADMM, il problema viene riscritto come:

minB,Y,V,Λ12YHnXBF2+η2BF2+η1j=1pβj2+γlεαlvl2\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2

Vincoli:

  • yiyj=vly_i - y_j = v_l
  • YY=Ik1Y^{\top}Y = I_{k-1}
  • Y1=0Y^{\top}1 = 0

Punti di Innovazione Tecnica

Metodo della Funzione di Majorizzazione

L'innovazione chiave è l'utilizzo di funzioni di majorizzazione per gestire i termini quadratici nell'aggiornamento della matrice dei punteggi. Per la forma quadratica tr(YCY)\text{tr}(Y^{\top}CY), si costruisce una funzione di majorizzazione:

tr(YCY)2ω2tr(Y(ωIC)Q)tr(QCQ)\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)

Dove ω\omega è l'autovalore massimo di C=ρ2lεglglC = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}.

Analisi di Procrustes Ortogonale

Attraverso la funzione di majorizzazione, l'aggiornamento di Y viene trasformato in un problema di Procrustes ortogonale:

minYYDF2,s.t. YY=I\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I

La soluzione è YLRY \leftarrow LR^{\top}, dove D=LΣRD = L\Sigma R^{\top} è la decomposizione ai valori singolari.

Configurazione Sperimentale

Insiemi di Dati

  1. Dati Simulati:
    • Numero di campioni n=60,96,156n = 60, 96, 156
    • Numero di variabili p=20,50,80,100p = 20, 50, 80, 100
    • Numero di cluster k=3,4k = 3, 4
    • Numero di variabili informative q=2q = 2
  2. Dati Reali: Dati di proteomica del cancro al seno (breast TCGA)
    • 150 campioni, 142 proteine
    • 3 sottotipi di cancro: Basal, Her2, LumA
    • Selezione di 10 variabili informative e 70 variabili non informative

Metriche di Valutazione

  • Indice di Rand Aggiustato (ARI): Valutazione dell'accuratezza del clustering
  • Rapporto di Varianza: Rapporto tra varianza intra-cluster e varianza inter-cluster
  • Sensibilità e Specificità: Valutazione dell'efficacia della selezione delle variabili

Metodi di Confronto

  • Clustering Discriminante Ottimale Sparso (SODC)
  • Clustering in Tandem
  • k-means Ridotto
  • k-means Fattoriale
  • t-SNE

Dettagli di Implementazione

  • Selezione dei parametri: Convalida incrociata basata sul coefficiente kappa
  • η2=0\eta_2 = 0, τ=0.1\tau = 0.1, δ=25\delta = 25
  • Soglia di convergenza: ϵ>0\epsilon > 0

Risultati Sperimentali

Risultati Principali

Esperimenti di Simulazione

In tutte le impostazioni di simulazione, RSODC supera i metodi di confronto nella metrica ARI:

  • Quando k=3: RSODC mostra le migliori prestazioni in quasi tutti i modelli
  • Quando k=4: Le prestazioni di RSODC sono superiori a tutti i metodi di confronto
  • Stabilità: Con l'aumento di pp, RSODC mantiene la stabilità, mentre SODC diventa instabile
  • Qualità del Clustering: Con l'aumento della distanza tra i centri dei cluster ϑ\vartheta, il valore ARI di RSODC aumenta più evidentemente

Applicazione su Dati Reali

Risultati sui dati del cancro al seno:

MetodoARI(XB^X\hat{B})ARI(Y^\hat{Y})Rapporto Varianza(XB^X\hat{B})Rapporto Varianza(Y^\hat{Y})
RSODC0.4060.4413.0383.056
SODC0.4010.3632.9092.660

Esperimenti di Ablazione

Analisi di Sensibilità dei Parametri

  • Parametri di Peso: L'ARI è massimo quando τ=0\tau = 0 e δ=0.01\delta = 0.01
  • Parametri di Sintonizzazione: Diverse combinazioni di η1,γ,ρ\eta_1, \gamma, \rho hanno un impatto relativamente minore sui risultati
  • Selezione del Numero di Cluster: L'utilizzo della statistica gap può determinare efficacemente il numero reale di cluster

Complessità Computazionale

Il tempo di calcolo di RSODC è superiore a quello di SODC, in particolare quando nn è grande, ma fornisce una migliore qualità del clustering.

Analisi dei Casi

I risultati della visualizzazione mostrano che RSODC è in grado di:

  • Aggregare i punti all'interno dello stesso cluster in modo più stretto
  • Separare i punti tra cluster diversi più lontani
  • Fornire confini di cluster più chiari

Lavori Correlati

Metodi di Clustering con Riduzione Dimensionale

  • Clustering Discriminante Ottimale (ODC): Zhang e Dai (2009) basato su punteggi ottimali dell'analisi discriminante lineare di Fisher
  • ODC Sparso (SODC): Wang et al. (2016) aggiungono penalizzazione di gruppo lasso a ODC
  • Clustering Convesso: Pelckmans et al. (2005), Hocking et al. (2011) utilizzano ottimizzazione convessa per clustering stabile

Innovazione di Questo Articolo

Rispetto ai metodi esistenti, i principali vantaggi di RSODC sono:

  1. Approssimazione del modello nello spazio ridotto piuttosto che nello spazio originale
  2. Utilizzo di funzioni di majorizzazione per gestire contemporaneamente vincoli di ortogonalità e struttura del clustering
  3. Fornitura di effetti di visualizzazione del clustering più chiari

Conclusioni e Discussione

Conclusioni Principali

  1. RSODC migliora significativamente l'accuratezza dell'identificazione del clustering aggiungendo un termine di penalizzazione di clustering convesso
  2. Il metodo della funzione di majorizzazione risolve efficacemente il problema del soddisfacimento simultaneo dei vincoli di ortogonalità e della struttura del clustering
  3. Gli esperimenti validano l'efficacia del metodo su dati simulati e reali

Limitazioni

  1. Complessità Computazionale: Richiede più tempo di calcolo rispetto a SODC
  2. Selezione dei Parametri: La convalida incrociata ha un costo computazionale elevato
  3. Calcolo dei Pesi: Il calcolo dei pesi nello spazio originale potrebbe non essere ottimale
  4. Assunzioni sulla Distribuzione dei Dati: Assume implicitamente che gli errori seguano una distribuzione normale

Direzioni Future

  1. Sviluppo di metodi di selezione dei parametri più efficienti
  2. Calcolo dei pesi nello spazio a bassa dimensionalità
  3. Derivazione di criteri informativi per ridurre i costi della convalida incrociata
  4. Considerazione di estensioni per distribuzioni non normali

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: Combinazione ingegnosa di clustering convesso e analisi discriminante sparsa
  2. Fondamenti Teorici Solidi: Il metodo della funzione di majorizzazione è teoricamente rigoroso
  3. Esperimenti Completi: Include 5 esperimenti di simulazione e validazione su dati reali
  4. Design Algoritmico Elegante: Il framework ADMM gestisce efficacemente le condizioni di vincolo complesse

Carenze

  1. Efficienza Computazionale: Il costo computazionale rispetto a SODC è significativamente aumentato
  2. Sensibilità ai Parametri: Più iperparametri richiedono sintonizzazione
  3. Ambito di Applicabilità: Principalmente adatto a problemi di clustering su piccola scala
  4. Analisi Teorica: Mancano analisi teoriche sulla convergenza e sulla complessità

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per il clustering con riduzione dimensionale
  2. Valore Pratico: Applicabile a scenari che richiedono una visualizzazione chiara del clustering
  3. Riproducibilità: La descrizione dell'algoritmo è dettagliata e facile da implementare

Scenari di Applicazione

  • Analisi di clustering di dati ad alta dimensionalità
  • Compiti di clustering che richiedono selezione delle variabili
  • Analisi esplorativa dei dati che richiede visualizzazione chiara
  • Analisi di dati di bioinformatica e genomica

Bibliografia

Le principali referenze includono:

  • Zhang & Dai (2009): Lavoro originale sul clustering discriminante ottimale
  • Wang et al. (2016): Clustering discriminante ottimale sparso
  • Chi & Lange (2015): Algoritmo ADMM per clustering convesso
  • Hunter & Lange (2004): Algoritmo MM e funzioni di majorizzazione

Valutazione Complessiva: Questo è un articolo di alta qualità sulla metodologia statistica che propone il metodo RSODC con innovazione teorica e verifica sperimentale completa. Sebbene la complessità computazionale sia relativamente elevata, presenta miglioramenti significativi nella qualità del clustering e negli effetti di visualizzazione, fornendo importanti contributi al campo del clustering con riduzione dimensionale.