We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
- Papier-ID: 2501.10147
- Titel: Regularisierte Sparse Optimale Diskriminanzclusterung
- Autoren: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Doshisha-Universität)
- Klassifizierung: stat.ME (Statistische Methoden)
- Veröffentlichungsdatum: 15. Oktober 2025
- Papierlink: https://arxiv.org/abs/2501.10147
In diesem Artikel wird eine neue Methode basierend auf Sparse Optimaler Diskriminanzclusterung (SODC) vorgestellt, die einen Strafterm basierend auf konvexer Clusterung in die Scorematrix einbezieht. Durch Hinzufügen dieses Strafterms wird erwartet, dass die Genauigkeit der Clusteridentifikation verbessert wird, indem Punkte innerhalb desselben Clusters näher zusammengezogen und Punkte zwischen verschiedenen Clustern weiter auseinandergezogen werden. Bei der Visualisierung der Schätzergebnisse können Clusterstrukturen deutlicher dargestellt werden. Darüber hinaus entwickeln die Autoren einen neuartigen Algorithmus, der Majorisierungsfunktionen verwendet, um Aktualisierungsformeln für die Scorematrix abzuleiten. Die Scorematrix wird mit der Alternating Direction Method of Multipliers (ADMM) aktualisiert, einer Methode, die häufig zur Berechnung von Parametern der konvexen Clusterungszielfunction verwendet wird.
Dimensionsreduktions-Clusterung wird häufig zur Interpretation von Merkmalen großer, komplexer Daten verwendet. Sie schätzt einen niedrigdimensionalen Raum zur Identifikation von Clustern, während wichtige Merkmale hochdimensionaler Daten erhalten bleiben und eine effiziente Verarbeitung ermöglicht wird. Obwohl bestehende Methoden der Optimalen Diskriminanzclusterung (ODC) und Sparse Optimalen Diskriminanzclusterung (SODC) Cluster deutlicher beschreiben als die Hauptkomponentenanalyse, weisen sie folgende Probleme auf:
- Strukturproblem der Scorematrix: Die Scorematrix in SODC behält nicht die gleiche Clusteridentifikationsstruktur wie die optimale Bewertung in LDA bei
- Fehlende unabhängige Clusterinformationsmatrix: ODC und SODC enthalten keine unabhängige Matrix mit Clusterinformationen, was die Genauigkeit der Clusterschätzung beeinträchtigen kann
- Schlechte Visualisierungseffekte: SODC kann bei der Dimensionsreduktion von Daten in einen niedrigdimensionalen Raum und der Visualisierung der Ergebnisse möglicherweise keine gut getrennten Clusterstrukturen erzeugen
Um die oben genannten Probleme zu lösen, schlagen die Autoren vor, einen Strafterm basierend auf konvexer Clusterung zu SODC hinzuzufügen, damit die Scorematrix eine klarere Clusterstruktur als traditionelle SODC liefert, indem Datenpunkte aus demselben Cluster näher zusammengezogen und Datenpunkte aus verschiedenen Clustern getrennt werden.
- Vorschlag der RSODC-Methode: Hinzufügen eines Regularisierungsterms basierend auf konvexer Clusterung zur SODC-Grundlage zur Verbesserung der Clusteridentifikationsgenauigkeit
- Entwicklung eines neuen Algorithmus: Verwendung von Majorisierungsfunktionen zur Ableitung von Aktualisierungsformeln für die Scorematrix, die gleichzeitig orthogonale Nebenbedingungen und Clusterstrukturanforderungen erfüllen
- ADMM-Optimierungsrahmen: Anwendung der Alternating Direction Method of Multipliers zur Aktualisierung der Scorematrix, um komplexe Nebenbedingungen effektiv zu handhaben
- Theoretische und empirische Validierung: Überprüfung der Methodeneffektivität durch numerische Simulationen und Anwendungen auf reale Daten
Gegeben eine Datenmatrix X∈Rn×p, besteht das Ziel darin, k Cluster in einem niedrigdimensionalen Raum zu identifizieren und gleichzeitig Variablenauswahl und Dimensionsreduktion durchzuführen.
Das Optimierungsproblem von RSODC ist definiert als:
minB,Y†21∥Y†−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑i<jαi,j∥yi†−yj†∥2
Nebenbedingungen: Y†⊤Y†=Ik−1 und Y†⊤1=0
Wobei:
- Die ersten drei Terme identisch mit SODC sind
- Der vierte Term ist der Strafterm basierend auf konvexer Clusterung, der ähnliche Stichproben näher zusammenbringt
- αi,j ist eine Gewichtung, berechnet als: αi,j=ιδi,jexp(−τ∥xi−xj∥22)
Zur Anwendung des ADMM-Algorithmus wird das Problem umgeschrieben als:
minB,Y,V,Λ21∥Y−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑l∈εαl∥vl∥2
Nebenbedingungen:
- yi−yj=vl
- Y⊤Y=Ik−1
- Y⊤1=0
Die Schlüsselinnovation ist die Verwendung von Majorisierungsfunktionen zur Behandlung quadratischer Terme in der Aktualisierung der Scorematrix. Für die quadratische Form tr(Y⊤CY) wird eine Majorisierungsfunktion konstruiert:
tr(Y⊤CY)≤2ω−2tr(Y⊤(ωI−C)Q)−tr(Q⊤CQ)
Wobei ω der größte Eigenwert von C=2ρ∑l∈εglgl⊤ ist.
Durch die Majorisierungsfunktion wird die Aktualisierung von Y in ein orthogonales Procrustes-Problem transformiert:
minY∥Y−D∥F2,s.t. Y⊤Y=I
Die Lösung ist Y←LR⊤, wobei D=LΣR⊤ die Singulärwertzerlegung ist.
- Simulierte Daten:
- Stichprobengröße n=60,96,156
- Variablenzahl p=20,50,80,100
- Clusterzahl k=3,4
- Anzahl informativer Variablen q=2
- Reale Daten: Brustkrebsproteomik-Daten (breast TCGA)
- 150 Stichproben, 142 Proteine
- 3 Krebssubtypen: Basal, Her2, LumA
- Auswahl von 10 informativen und 70 nicht-informativen Variablen
- Adjusted Rand Index (ARI): Bewertung der Clustergenauigkeit
- Varianzquotient: Verhältnis der Varianz innerhalb von Clustern zur Varianz zwischen Clustern
- Sensitivität und Spezifität: Bewertung der Variablenauswahleffektivität
- Sparse Optimale Diskriminanzclusterung (SODC)
- Tandem-Clusterung (Tandem clustering)
- Reduziertes k-Means (Reduced k-means)
- Faktor-k-Means (Factorial k-means)
- t-SNE
- Parameterauswahl: Kreuzvalidierung basierend auf Kappa-Koeffizient
- η2=0, τ=0.1, δ=25
- Konvergenzschwelle: ϵ>0
In allen Simulationseinstellungen übertrifft RSODC die Vergleichsmethoden beim ARI-Metrik:
- Bei k=3: RSODC zeigt in fast allen Szenarien die beste Leistung
- Bei k=4: RSODC-Leistung übertrifft alle Vergleichsmethoden
- Stabilität: Mit zunehmendem p behält RSODC Stabilität, während SODC instabil wird
- Clusterqualität: Mit zunehmendem Abstand der Clusterzentren ϑ steigt der ARI-Wert von RSODC deutlicher
Ergebnisse auf Brustkrebsdaten:
| Methode | ARI(XB^) | ARI(Y^) | Varianzquotient(XB^) | Varianzquotient(Y^) |
|---|
| RSODC | 0.406 | 0.441 | 3.038 | 3.056 |
| SODC | 0.401 | 0.363 | 2.909 | 2.660 |
- Gewichtungsparameter: Höchster ARI bei τ=0 und δ=0.01
- Abstimmungsparameter: Verschiedene Kombinationen von η1,γ,ρ haben geringere Auswirkungen auf die Ergebnisse
- Clusterzahlauswahl: Gap-Statistik kann die wahre Clusterzahl effektiv bestimmen
Die Rechenzeit von RSODC ist länger als SODC, besonders wenn n groß ist, bietet aber bessere Clusterqualität.
Visualisierungsergebnisse zeigen, dass RSODC:
- Punkte innerhalb desselben Clusters dichter zusammenfassen kann
- Punkte zwischen verschiedenen Clustern weiter trennen kann
- Klarere Clustergrenzen bietet
- Optimale Diskriminanzclusterung (ODC): Zhang und Dai (2009) basierend auf optimaler Bewertung der Fisher-Linearen Diskriminanzanalyse
- Sparse ODC (SODC): Wang et al. (2016) fügt Gruppen-Lasso-Strafterm zu ODC hinzu
- Konvexe Clusterung: Pelckmans et al. (2005), Hocking et al. (2011) verwenden konvexe Optimierung für stabile Clusterung
Die Hauptvorteile von RSODC gegenüber bestehenden Methoden:
- Approximation des Modells im Dimensionsreduktionsraum statt im ursprünglichen Raum
- Verwendung von Majorisierungsfunktionen zur gleichzeitigen Behandlung orthogonaler Nebenbedingungen und Clusterstruktur
- Bereitstellung klarerer Clustervisualisierungseffekte
- RSODC verbessert die Clusteridentifikationsgenauigkeit erheblich durch Hinzufügen eines Strafterms für konvexe Clusterung
- Die Majorisierungsfunktionsmethode löst effektiv das Problem der gleichzeitigen Erfüllung orthogonaler Nebenbedingungen und Clusterstruktur
- Experimente validieren die Methodeneffektivität auf simulierten und realen Daten
- Rechenkomplexität: Erfordert mehr Rechenzeit als SODC
- Parameterauswahl: Kreuzvalidierung ist rechnerisch teuer
- Gewichtungsberechnung: Die Berechnung von Gewichtungen im ursprünglichen Raum ist möglicherweise nicht optimal
- Datenverteilungsannahmen: Nimmt implizit an, dass Fehler normalverteilt sind
- Entwicklung effizienterer Parameterauswahlmethoden
- Berechnung von Gewichtungen im niedrigdimensionalen Raum
- Ableitung von Informationskriterien zur Reduzierung der Kreuzvalidierungskosten
- Erweiterungen für nicht-normale Verteilungen
- Starke Methodenneuerung: Geschickte Kombination von konvexer Clusterung und sparsamer Diskriminanzanalyse
- Solide theoretische Grundlagen: Majorisierungsfunktionsmethode ist theoretisch rigoros
- Umfangreiche Experimente: Umfasst 5 Simulationsexperimente und Validierung auf realen Daten
- Ausgefeiltes Algorithmusdesign: ADMM-Rahmen behandelt komplexe Nebenbedingungen effektiv
- Recheneffizienz: Signifikant erhöhte Rechenkosten gegenüber SODC
- Parametersensitivität: Mehrere Hyperparameter erfordern Abstimmung
- Anwendungsbereich: Hauptsächlich für kleinere Clusterungsprobleme geeignet
- Theoretische Analyse: Fehlende theoretische Analyse von Konvergenz und Komplexität
- Akademischer Beitrag: Bietet neue Perspektiven für Dimensionsreduktions-Clusterung
- Praktischer Wert: Geeignet für Szenarien, die klare Clustervisualisierung erfordern
- Reproduzierbarkeit: Detaillierte Algorithmusbeschreibung, leicht zu implementieren
- Clusteranalyse hochdimensionaler Daten
- Clusterungsaufgaben mit Variablenauswahl
- Explorative Datenanalyse mit Anforderung an klare Visualisierung
- Bioinformatik und Genomik-Datenanalyse
Wichtige Referenzen umfassen:
- Zhang & Dai (2009): Originalarbeit zur Optimalen Diskriminanzclusterung
- Wang et al. (2016): Sparse Optimale Diskriminanzclusterung
- Chi & Lange (2015): ADMM-Algorithmus für konvexe Clusterung
- Hunter & Lange (2004): MM-Algorithmus und Majorisierungsfunktionen
Gesamtbewertung: Dies ist ein hochqualitatives Papier zur statistischen Methodologie mit theoretischen Innovationen und umfassender experimenteller Validierung. Obwohl die Rechenkomplexität höher ist, zeigt es signifikante Verbesserungen in Clusterqualität und Visualisierungseffekten und trägt wesentlich zum Bereich der Dimensionsreduktions-Clusterung bei.