2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa

We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.

academic

Regularisierte Sparse Optimale Diskriminanzclusterung

Grundinformationen

Papier-ID: 2501.10147
Titel: Regularisierte Sparse Optimale Diskriminanzclusterung
Autoren: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Doshisha-Universität)
Klassifizierung: stat.ME (Statistische Methoden)
Veröffentlichungsdatum: 15. Oktober 2025
Papierlink: https://arxiv.org/abs/2501.10147

Zusammenfassung

In diesem Artikel wird eine neue Methode basierend auf Sparse Optimaler Diskriminanzclusterung (SODC) vorgestellt, die einen Strafterm basierend auf konvexer Clusterung in die Scorematrix einbezieht. Durch Hinzufügen dieses Strafterms wird erwartet, dass die Genauigkeit der Clusteridentifikation verbessert wird, indem Punkte innerhalb desselben Clusters näher zusammengezogen und Punkte zwischen verschiedenen Clustern weiter auseinandergezogen werden. Bei der Visualisierung der Schätzergebnisse können Clusterstrukturen deutlicher dargestellt werden. Darüber hinaus entwickeln die Autoren einen neuartigen Algorithmus, der Majorisierungsfunktionen verwendet, um Aktualisierungsformeln für die Scorematrix abzuleiten. Die Scorematrix wird mit der Alternating Direction Method of Multipliers (ADMM) aktualisiert, einer Methode, die häufig zur Berechnung von Parametern der konvexen Clusterungszielfunction verwendet wird.

Forschungshintergrund und Motivation

Problemdefinition

Dimensionsreduktions-Clusterung wird häufig zur Interpretation von Merkmalen großer, komplexer Daten verwendet. Sie schätzt einen niedrigdimensionalen Raum zur Identifikation von Clustern, während wichtige Merkmale hochdimensionaler Daten erhalten bleiben und eine effiziente Verarbeitung ermöglicht wird. Obwohl bestehende Methoden der Optimalen Diskriminanzclusterung (ODC) und Sparse Optimalen Diskriminanzclusterung (SODC) Cluster deutlicher beschreiben als die Hauptkomponentenanalyse, weisen sie folgende Probleme auf:

Strukturproblem der Scorematrix: Die Scorematrix in SODC behält nicht die gleiche Clusteridentifikationsstruktur wie die optimale Bewertung in LDA bei
Fehlende unabhängige Clusterinformationsmatrix: ODC und SODC enthalten keine unabhängige Matrix mit Clusterinformationen, was die Genauigkeit der Clusterschätzung beeinträchtigen kann
Schlechte Visualisierungseffekte: SODC kann bei der Dimensionsreduktion von Daten in einen niedrigdimensionalen Raum und der Visualisierung der Ergebnisse möglicherweise keine gut getrennten Clusterstrukturen erzeugen

Forschungsmotivation

Um die oben genannten Probleme zu lösen, schlagen die Autoren vor, einen Strafterm basierend auf konvexer Clusterung zu SODC hinzuzufügen, damit die Scorematrix eine klarere Clusterstruktur als traditionelle SODC liefert, indem Datenpunkte aus demselben Cluster näher zusammengezogen und Datenpunkte aus verschiedenen Clustern getrennt werden.

Kernbeiträge

Vorschlag der RSODC-Methode: Hinzufügen eines Regularisierungsterms basierend auf konvexer Clusterung zur SODC-Grundlage zur Verbesserung der Clusteridentifikationsgenauigkeit
Entwicklung eines neuen Algorithmus: Verwendung von Majorisierungsfunktionen zur Ableitung von Aktualisierungsformeln für die Scorematrix, die gleichzeitig orthogonale Nebenbedingungen und Clusterstrukturanforderungen erfüllen
ADMM-Optimierungsrahmen: Anwendung der Alternating Direction Method of Multipliers zur Aktualisierung der Scorematrix, um komplexe Nebenbedingungen effektiv zu handhaben
Theoretische und empirische Validierung: Überprüfung der Methodeneffektivität durch numerische Simulationen und Anwendungen auf reale Daten

Methodische Details

Aufgabendefinition

Gegeben eine Datenmatrix $X \in \mathbb{R}^{n \times p}$ , besteht das Ziel darin, $k$ Cluster in einem niedrigdimensionalen Raum zu identifizieren und gleichzeitig Variablenauswahl und Dimensionsreduktion durchzuführen.

Modellarchitektur

RSODC-Zielfunktion

Das Optimierungsproblem von RSODC ist definiert als:

$\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2$

Nebenbedingungen: $Y^{\dagger\top}Y^{\dagger} = I_{k-1}$ und $Y^{\dagger\top}1 = 0$

Wobei:

Die ersten drei Terme identisch mit SODC sind
Der vierte Term ist der Strafterm basierend auf konvexer Clusterung, der ähnliche Stichproben näher zusammenbringt
$\alpha_{i,j}$ ist eine Gewichtung, berechnet als: $\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)$

ADMM-Zerlegung

Zur Anwendung des ADMM-Algorithmus wird das Problem umgeschrieben als:

$\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2$

Nebenbedingungen:

$y_i - y_j = v_l$
$Y^{\top}Y = I_{k-1}$
$Y^{\top}1 = 0$

Technische Innovationen

Majorisierungsfunktionsmethode

Die Schlüsselinnovation ist die Verwendung von Majorisierungsfunktionen zur Behandlung quadratischer Terme in der Aktualisierung der Scorematrix. Für die quadratische Form $\text{tr}(Y^{\top}CY)$ wird eine Majorisierungsfunktion konstruiert:

$\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)$

Wobei $\omega$ der größte Eigenwert von $C = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}$ ist.

Orthogonale Procrustes-Analyse

Durch die Majorisierungsfunktion wird die Aktualisierung von Y in ein orthogonales Procrustes-Problem transformiert:

$\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I$

Die Lösung ist $Y \leftarrow LR^{\top}$ , wobei $D = L\Sigma R^{\top}$ die Singulärwertzerlegung ist.

Experimentelle Einrichtung

Datensätze

Simulierte Daten:
- Stichprobengröße $n = 60, 96, 156$
- Variablenzahl $p = 20, 50, 80, 100$
- Clusterzahl $k = 3, 4$
- Anzahl informativer Variablen $q = 2$
Reale Daten: Brustkrebsproteomik-Daten (breast TCGA)
- 150 Stichproben, 142 Proteine
- 3 Krebssubtypen: Basal, Her2, LumA
- Auswahl von 10 informativen und 70 nicht-informativen Variablen

Bewertungsmetriken

Adjusted Rand Index (ARI): Bewertung der Clustergenauigkeit
Varianzquotient: Verhältnis der Varianz innerhalb von Clustern zur Varianz zwischen Clustern
Sensitivität und Spezifität: Bewertung der Variablenauswahleffektivität

Vergleichsmethoden

Sparse Optimale Diskriminanzclusterung (SODC)
Tandem-Clusterung (Tandem clustering)
Reduziertes k-Means (Reduced k-means)
Faktor-k-Means (Factorial k-means)
t-SNE

Implementierungsdetails

Parameterauswahl: Kreuzvalidierung basierend auf Kappa-Koeffizient
$\eta_2 = 0$ , $\tau = 0.1$ , $\delta = 25$
Konvergenzschwelle: $\epsilon > 0$

Experimentelle Ergebnisse

Hauptergebnisse

Simulationsexperimente

In allen Simulationseinstellungen übertrifft RSODC die Vergleichsmethoden beim ARI-Metrik:

Bei k=3: RSODC zeigt in fast allen Szenarien die beste Leistung
Bei k=4: RSODC-Leistung übertrifft alle Vergleichsmethoden
Stabilität: Mit zunehmendem $p$ behält RSODC Stabilität, während SODC instabil wird
Clusterqualität: Mit zunehmendem Abstand der Clusterzentren $\vartheta$ steigt der ARI-Wert von RSODC deutlicher

Anwendung auf reale Daten

Ergebnisse auf Brustkrebsdaten:

Methode	ARI( $X\hat{B}$ )	ARI( $\hat{Y}$ )	Varianzquotient( $X\hat{B}$ )	Varianzquotient( $\hat{Y}$ )
RSODC	0.406	0.441	3.038	3.056
SODC	0.401	0.363	2.909	2.660

Ablationsstudien

Parametersensitivitätsanalyse

Gewichtungsparameter: Höchster ARI bei $\tau = 0$ und $\delta = 0.01$
Abstimmungsparameter: Verschiedene Kombinationen von $\eta_1, \gamma, \rho$ haben geringere Auswirkungen auf die Ergebnisse
Clusterzahlauswahl: Gap-Statistik kann die wahre Clusterzahl effektiv bestimmen

Rechenkomplexität

Die Rechenzeit von RSODC ist länger als SODC, besonders wenn $n$ groß ist, bietet aber bessere Clusterqualität.

Fallstudien

Visualisierungsergebnisse zeigen, dass RSODC:

Punkte innerhalb desselben Clusters dichter zusammenfassen kann
Punkte zwischen verschiedenen Clustern weiter trennen kann
Klarere Clustergrenzen bietet

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RSODC verbessert die Clusteridentifikationsgenauigkeit erheblich durch Hinzufügen eines Strafterms für konvexe Clusterung
Die Majorisierungsfunktionsmethode löst effektiv das Problem der gleichzeitigen Erfüllung orthogonaler Nebenbedingungen und Clusterstruktur
Experimente validieren die Methodeneffektivität auf simulierten und realen Daten

Einschränkungen

Rechenkomplexität: Erfordert mehr Rechenzeit als SODC
Parameterauswahl: Kreuzvalidierung ist rechnerisch teuer
Gewichtungsberechnung: Die Berechnung von Gewichtungen im ursprünglichen Raum ist möglicherweise nicht optimal
Datenverteilungsannahmen: Nimmt implizit an, dass Fehler normalverteilt sind

Zukünftige Richtungen

Entwicklung effizienterer Parameterauswahlmethoden
Berechnung von Gewichtungen im niedrigdimensionalen Raum
Ableitung von Informationskriterien zur Reduzierung der Kreuzvalidierungskosten
Erweiterungen für nicht-normale Verteilungen

Tiefgreifende Bewertung

Stärken

Starke Methodenneuerung: Geschickte Kombination von konvexer Clusterung und sparsamer Diskriminanzanalyse
Solide theoretische Grundlagen: Majorisierungsfunktionsmethode ist theoretisch rigoros
Umfangreiche Experimente: Umfasst 5 Simulationsexperimente und Validierung auf realen Daten
Ausgefeiltes Algorithmusdesign: ADMM-Rahmen behandelt komplexe Nebenbedingungen effektiv

Mängel

Recheneffizienz: Signifikant erhöhte Rechenkosten gegenüber SODC
Parametersensitivität: Mehrere Hyperparameter erfordern Abstimmung
Anwendungsbereich: Hauptsächlich für kleinere Clusterungsprobleme geeignet
Theoretische Analyse: Fehlende theoretische Analyse von Konvergenz und Komplexität

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Perspektiven für Dimensionsreduktions-Clusterung
Praktischer Wert: Geeignet für Szenarien, die klare Clustervisualisierung erfordern
Reproduzierbarkeit: Detaillierte Algorithmusbeschreibung, leicht zu implementieren

Anwendungsszenarien

Clusteranalyse hochdimensionaler Daten
Clusterungsaufgaben mit Variablenauswahl
Explorative Datenanalyse mit Anforderung an klare Visualisierung
Bioinformatik und Genomik-Datenanalyse

Literaturverzeichnis

Wichtige Referenzen umfassen:

Zhang & Dai (2009): Originalarbeit zur Optimalen Diskriminanzclusterung
Wang et al. (2016): Sparse Optimale Diskriminanzclusterung
Chi & Lange (2015): ADMM-Algorithmus für konvexe Clusterung
Hunter & Lange (2004): MM-Algorithmus und Majorisierungsfunktionen

Gesamtbewertung: Dies ist ein hochqualitatives Papier zur statistischen Methodologie mit theoretischen Innovationen und umfassender experimenteller Validierung. Obwohl die Rechenkomplexität höher ist, zeigt es signifikante Verbesserungen in Clusterqualität und Visualisierungseffekten und trägt wesentlich zum Bereich der Dimensionsreduktions-Clusterung bei.