2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa

We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.

academic

Agrupamiento Discriminante Óptimo Disperso Regularizado

Información Básica

ID del Artículo: 2501.10147
Título: Agrupamiento Discriminante Óptimo Disperso Regularizado
Autores: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Universidad de Doshisha)
Clasificación: stat.ME (Métodos Estadísticos)
Fecha de Publicación: 15 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2501.10147

Resumen

Este artículo propone un nuevo método basado en agrupamiento discriminante óptimo disperso (SODC), incorporando términos de penalización basados en agrupamiento convexo en la matriz de puntuación. Al añadir este término de penalización, se espera mejorar la precisión de la identificación de agrupamientos acercando puntos dentro del mismo agrupamiento y alejando puntos de diferentes agrupamientos. Cuando se visualizan los resultados de estimación, la estructura de agrupamiento se puede delinear más claramente. Además, los autores desarrollan un algoritmo novedoso que utiliza funciones de mayorización para derivar la fórmula de actualización de la matriz de puntuación. La matriz de puntuación se actualiza mediante el método de dirección alternada de multiplicadores (ADMM), comúnmente utilizado para calcular parámetros de la función objetivo de agrupamiento convexo.

Antecedentes de Investigación y Motivación

Definición del Problema

La reducción de dimensionalidad con agrupamiento se utiliza ampliamente para interpretar características de datos grandes y complejos, estimando un espacio de baja dimensión para identificar agrupamientos mientras se mantienen características importantes de datos de alta dimensión y se logra un procesamiento eficiente. Aunque los métodos existentes de agrupamiento discriminante óptimo (ODC) y agrupamiento discriminante óptimo disperso (SODC) describen agrupamientos más claramente que el análisis de componentes principales, presentan los siguientes problemas:

Problema de Estructura de Matriz de Puntuación: La matriz de puntuación en SODC no mantiene la misma estructura de identificación de agrupamientos que la puntuación óptima en LDA
Falta de Matriz de Información de Agrupamiento Independiente: ODC y SODC no incluyen una matriz independiente que contenga información de agrupamiento, lo que puede afectar la precisión de la estimación de agrupamiento
Efectos de Visualización Deficientes: SODC puede no producir una estructura de agrupamiento bien separada cuando los datos se reducen a un espacio de baja dimensión y se visualizan los resultados

Motivación de la Investigación

Para abordar los problemas anteriores, los autores proponen añadir un término de penalización basado en agrupamiento convexo en SODC, permitiendo que la matriz de puntuación proporcione una estructura de agrupamiento más clara que SODC tradicional, acercando puntos de datos del mismo agrupamiento y separando puntos de diferentes agrupamientos.

Contribuciones Principales

Propuesta del Método RSODC: Añade un término de regularización basado en agrupamiento convexo sobre la base de SODC, mejorando la precisión de identificación de agrupamientos
Desarrollo de Nuevo Algoritmo: Utiliza funciones de mayorización para derivar la fórmula de actualización de la matriz de puntuación, satisfaciendo simultáneamente restricciones de ortogonalidad y requisitos de estructura de agrupamiento
Marco de Optimización ADMM: Adopta el método de dirección alternada de multiplicadores para actualizar la matriz de puntuación, manejando efectivamente condiciones de restricción complejas
Verificación Teórica y Empírica: Valida la efectividad del método mediante simulaciones numéricas y aplicaciones en datos reales

Explicación Detallada del Método

Definición de la Tarea

Dada una matriz de datos $X \in \mathbb{R}^{n \times p}$ , el objetivo es identificar $k$ agrupamientos en un espacio de baja dimensión, realizando simultáneamente selección de variables y reducción de dimensionalidad.

Arquitectura del Modelo

Función Objetivo de RSODC

El problema de optimización de RSODC se define como:

$\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2$

Restricciones: $Y^{\dagger\top}Y^{\dagger} = I_{k-1}$ y $Y^{\dagger\top}1 = 0$

Donde:

Los primeros tres términos son idénticos a SODC
El cuarto término es el término de penalización basado en agrupamiento convexo, que alienta muestras similares a estar más cerca
$\alpha_{i,j}$ es el peso, calculado como: $\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)$

Descomposición ADMM

Para aplicar el algoritmo ADMM, el problema se reescribe como:

$\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2$

Restricciones:

$y_i - y_j = v_l$
$Y^{\top}Y = I_{k-1}$
$Y^{\top}1 = 0$

Puntos de Innovación Técnica

Método de Función de Mayorización

La innovación clave es utilizar funciones de mayorización para procesar términos cuadráticos en la actualización de la matriz de puntuación. Para la forma cuadrática $\text{tr}(Y^{\top}CY)$ , se construye una función de mayorización:

$\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)$

Donde $\omega$ es el valor propio máximo de $C = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}$ .

Análisis de Procrustes Ortogonal

Mediante la función de mayorización, la actualización de Y se transforma en un problema de Procrustes ortogonal:

$\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I$

La solución es $Y \leftarrow LR^{\top}$ , donde $D = L\Sigma R^{\top}$ es la descomposición en valores singulares.

Configuración Experimental

Conjuntos de Datos

Datos Simulados:
- Número de muestras $n = 60, 96, 156$
- Número de variables $p = 20, 50, 80, 100$
- Número de agrupamientos $k = 3, 4$
- Número de variables informativas $q = 2$
Datos Reales: Datos de proteómica del cáncer de mama (TCGA de mama)
- 150 muestras, 142 proteínas
- 3 subtipos de cáncer: Basal, Her2, LumA
- Selección de 10 variables informativas y 70 variables no informativas

Métricas de Evaluación

Índice Rand Ajustado (ARI): Evalúa la precisión del agrupamiento
Razón de Varianza: Relación entre varianza intra-agrupamiento y varianza inter-agrupamiento
Sensibilidad y Especificidad: Evalúan la efectividad de la selección de variables

Métodos de Comparación

Agrupamiento Discriminante Óptimo Disperso (SODC)
Agrupamiento en Tándem (Tandem clustering)
k-medias Reducido (Reduced k-means)
k-medias Factorial (Factorial k-means)
t-SNE

Detalles de Implementación

Selección de parámetros: Validación cruzada basada en coeficiente kappa
$\eta_2 = 0$ , $\tau = 0.1$ , $\delta = 25$
Umbral de convergencia: $\epsilon > 0$

Resultados Experimentales

Resultados Principales

Experimentos de Simulación

En todas las configuraciones de simulación, RSODC supera a los métodos de comparación en la métrica ARI:

Cuando $k=3$ : RSODC muestra el mejor rendimiento en casi todos los patrones
Cuando $k=4$ : El rendimiento de RSODC es superior a todos los métodos de comparación
Estabilidad: Con el aumento de $p$ , RSODC mantiene estabilidad, mientras que SODC se vuelve inestable
Calidad de Agrupamiento: Con el aumento de la distancia del centro de agrupamiento $\vartheta$ , el valor ARI de RSODC aumenta más notablemente

Aplicación en Datos Reales

Resultados en datos de cáncer de mama:

Método	ARI( $X\hat{B}$ )	ARI( $\hat{Y}$ )	Razón de Varianza( $X\hat{B}$ )	Razón de Varianza( $\hat{Y}$ )
RSODC	0.406	0.441	3.038	3.056
SODC	0.401	0.363	2.909	2.660

Experimentos de Ablación

Análisis de Sensibilidad de Parámetros

Parámetro de Peso: ARI más alto cuando $\tau = 0$ y $\delta = 0.01$
Parámetros de Ajuste: Diferentes combinaciones de $\eta_1, \gamma, \rho$ tienen impacto menor en los resultados
Selección de Número de Agrupamientos: La estadística de brecha puede determinar efectivamente el número real de agrupamientos

Complejidad Computacional

El tiempo de cálculo de RSODC es mayor que el de SODC, especialmente cuando $n$ es grande, pero proporciona mejor calidad de agrupamiento.

Análisis de Casos

Los resultados de visualización muestran que RSODC puede:

Agrupar puntos dentro del mismo agrupamiento más estrechamente
Separar puntos de diferentes agrupamientos más distantemente
Proporcionar límites de agrupamiento más claros

Trabajo Relacionado

Métodos de Reducción de Dimensionalidad con Agrupamiento

Agrupamiento Discriminante Óptimo (ODC): Zhang y Dai (2009) basado en puntuación óptima del análisis discriminante lineal de Fisher
ODC Disperso (SODC): Wang et al. (2016) añaden penalización de grupo lasso sobre ODC
Agrupamiento Convexo: Pelckmans et al. (2005), Hocking et al. (2011) utilizan optimización convexa para agrupamiento estable

Innovación de Este Artículo

Las principales ventajas de RSODC en comparación con métodos existentes:

Aproxima el modelo en espacio de baja dimensión en lugar de espacio original
Utiliza función de mayorización para manejar simultáneamente restricciones de ortogonalidad y estructura de agrupamiento
Proporciona efectos de visualización de agrupamiento más claros

Conclusiones y Discusión

Conclusiones Principales

RSODC mejora significativamente la precisión de identificación de agrupamientos mediante la adición de término de penalización de agrupamiento convexo
El método de función de mayorización resuelve efectivamente el problema de satisfacer simultáneamente restricciones de ortogonalidad y estructura de agrupamiento
Los experimentos validan la efectividad del método en datos simulados y reales

Limitaciones

Complejidad Computacional: Requiere más tiempo de cálculo que SODC
Selección de Parámetros: El costo computacional de validación cruzada es alto
Cálculo de Pesos: Calcular pesos en espacio original puede no ser óptimo
Supuestos de Distribución de Datos: Implícitamente asume que los errores siguen distribución normal

Direcciones Futuras

Desarrollar métodos de selección de parámetros más eficientes
Calcular pesos en espacio de baja dimensión
Derivar criterios de información para reducir costo de validación cruzada
Considerar extensiones para distribuciones no normales

Evaluación Profunda

Fortalezas

Fuerte Innovación de Método: Combina ingeniosamente agrupamiento convexo y análisis discriminante disperso
Base Teórica Sólida: El método de función de mayorización es teóricamente riguroso
Experimentos Suficientes: Incluye 5 experimentos de simulación y validación en datos reales
Diseño de Algoritmo Ingenioso: El marco ADMM maneja efectivamente condiciones de restricción complejas

Insuficiencias

Eficiencia Computacional: El costo computacional es significativamente mayor en comparación con SODC
Sensibilidad de Parámetros: Múltiples hiperparámetros requieren ajuste fino
Rango de Aplicabilidad: Principalmente aplicable a problemas de agrupamiento a pequeña escala
Análisis Teórico: Carece de análisis teórico de convergencia y complejidad

Impacto

Contribución Académica: Proporciona nuevas perspectivas para agrupamiento con reducción de dimensionalidad
Valor Práctico: Aplicable a escenarios que requieren visualización clara de agrupamiento
Reproducibilidad: La descripción del algoritmo es detallada y fácil de implementar

Escenarios de Aplicación

Análisis de agrupamiento de datos de alta dimensión
Tareas de agrupamiento que requieren selección de variables
Análisis exploratorio de datos que requiere visualización clara
Análisis de datos en bioinformática y genómica

Referencias Bibliográficas

Las referencias principales incluyen:

Zhang & Dai (2009): Trabajo original sobre agrupamiento discriminante óptimo
Wang et al. (2016): Agrupamiento discriminante óptimo disperso
Chi & Lange (2015): Algoritmo ADMM para agrupamiento convexo
Hunter & Lange (2004): Algoritmo MM y funciones de mayorización

Evaluación General: Este es un artículo de alta calidad en metodología estadística que propone el método RSODC con innovación teórica y verificación experimental suficiente. Aunque la complejidad computacional es relativamente alta, muestra mejoras significativas en calidad de agrupamiento y efectos de visualización, realizando contribuciones importantes al campo del agrupamiento con reducción de dimensionalidad.